浙江大学学报(工学版), 2025, 59(6): 1191-1200 doi: 10.3785/j.issn.1008-973X.2025.06.010

计算机技术

基于集成时序预测模型的视频聚合平台监测预警方法

宋雪,, 嵇程,

1. 国家计算机网络应急技术处理协调中心山东分中心,山东 济南 250002

2. 南京大学 计算机学院,江苏 南京 210008

3. 国家计算机网络应急技术处理协调中心江苏分中心,江苏 南京 210003

Surveillance and alerting approach for video aggregation platforms predicated upon ensemble time series forecasting model

SONG Xue,, JI Cheng,

1. Shandong Branch of National Computer Network Emergency Response Technical Team, Jinan 250002, China

2. School of Computer Science, Nanjing University, Nanjing 210008, China

3. Jiangsu Branch of National Computer Network Emergency Response Technical Team, Nanjing 210003, China

通讯作者: 嵇程,男,工程师. orcid.org/0009-0009-2445-6612. E-mail:jicheng01@foxmail.com

收稿日期: 2024-05-1  

基金资助: 国家自然科学基金面上资助项目(62272125) .

Received: 2024-05-1  

Fund supported: 国家自然科学基金面上资助项目(62272125).

作者简介 About authors

宋雪(1995—),女,助理工程师,硕士,从事信息安全研究.orcid.org/0009-0003-2363-9069.E-mail:2777432504@qq.com , E-mail:2777432504@qq.com

摘要

为了防范深度链接视频聚合平台带来的侵权风险及内容安全隐患,发现并提醒通过非法途径访问此类平台的网络用户,提出基于集成时序预测模型的视频聚合平台监测预警方法. 根据多个视频聚合平台的网络行为日志数据,以IP地址为用户维度,以天为时间维度,提取用户在平台侧和渠道侧的网络行为特征. 选择长短期时间序列网络(LSTNet)、循环神经网络(RNN)和多层感知机(MLP)3个模型作为基模型,构造Stacking集成学习模型,通过Stacking集成模型学习基模型特征从而实现对用户访问行为的预测. 进行对比实验和回测实验,结果表明,本研究方法相比于单模型预测方法,在均方误差(MSE)指标上降低0.9724,在平均绝对误差(MAE)指标上降低0.5443,在自定义平衡准确率(BAC)指标上提升0.20,能够对视频聚合平台访问情况进行预测从而实现对高风险用户行为的预警.

关键词: 视频聚合平台 ; 时序预测 ; 集成学习 ; 网络行为 ; 监测预警

Abstract

A surveillance and alerting mechanism for video aggregation platforms based on an ensemble time series forecasting model was proposed, in order to mitigate the risks of copyright infringement and content security brought by deep linking video aggregation platforms, as well as to facilitate the prompt detection and notification of network users who engaged with such platforms through illicit means. Initially, the network behavioral log data from multiple video aggregation platforms were leveraged. The network behavior characteristics of users were then extracted with IP address as the user dimension and day as the time dimension, on both the platform side and the channel side. Subsequently, long- and short-term time-series networks (LSTNet), recurrent neural networks (RNN) and multilayer perceptron (MLP) were harnessed as foundational models to construct a Stacking ensemble learning model for predicting user access behavior by learning features from base model. Ultimately, empirical validation was conducted through comparative and backtesting experiments. Results showed that the proposed method achieved a notable decrease of 0.9724 in mean squared error (MSE), a significant reduction of 0.5443 in mean absolute error (MAE), and a moderate improvement of 0.20 in balanced accuracy (BAC). The proposed method could effectively forecast access patterns to video aggregation platforms and provide early warnings for high-risk user behavior.

Keywords: video aggregation platform ; time series forecasting ; ensemble learning ; network behavior ; monitoring and warning

PDF (2638KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

宋雪, 嵇程. 基于集成时序预测模型的视频聚合平台监测预警方法. 浙江大学学报(工学版)[J], 2025, 59(6): 1191-1200 doi:10.3785/j.issn.1008-973X.2025.06.010

SONG Xue, JI Cheng. Surveillance and alerting approach for video aggregation platforms predicated upon ensemble time series forecasting model. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(6): 1191-1200 doi:10.3785/j.issn.1008-973X.2025.06.010

视频聚合平台[1]能够实现将不同来源的海量视频资源整合在一个平台中,为用户提供高清视频在线播放、下载、互动等功能. 随着5G网络和视频播放技术的快速发展,网络用户可以在爱奇艺、腾讯视频、优酷视频等网络音视频聚合平台观看电影、电视剧、综艺、动漫节目. 平台方通过VIP账号、广告流量、引流至第三方平台等方式进行商业收费,用于支付视频版权费用、维持应用平台正常运营,进而推动影视行业的良性发展.

视频聚合平台根据播放模式的不同,可分为普通链接和深度链接2种形式[2]. 普通链接聚合平台在用户点击视频链接后,从视频存储服务器调取资源,或者跳转至原链接平台播放,不涉及版权侵犯问题. 深度链接视频聚合平台(简称“盗链聚合平台”)通过技术手段,绕过官方平台的会员机制和贴片广告,获取各平台超前点播内容或收费内容,并自动对视频进行二次加工,如消除水印、植入广告、二次剪辑等,给用户提供“免费”的服务,如今被广泛用于电脑、智能手机、机顶盒、智能电视等设备.

以非法破解手段获取视频源的盗链聚合平台,由于无需负担正规渠道的视频版权费,无需租赁大规模视频存储服务器,以极低的运营成本和极高的行业利润特点,吸引了一批网络犯罪群体的关注. 根据不完全统计,正版视频聚合平台的每年视频采购费用超过180亿元,因深度链接(盗链)造成的点击损失超过2443亿次,广告收益损失超过18亿元[3]. 此类非法平台通常以网页链接或APP形式,借助搜索引擎、百度网盘、淘宝、闲鱼等各种渠道传播扩散,以播放院线电影、VIP节目、色情、伦理、政治类违禁影视为营销点,吸引一大批付费意愿低、猎奇心理强的网民群体. 在获得用户流量的基础上,平台通过承接赌博、色情、游戏等无法在正规渠道投放的灰色广告业务,以网页弹窗、视频加工、链接跳转等方式强行插入广告,吸引用户点击,以获得高额的广告佣金. 此类平台在无官方授权情况下,提供盗版影视作品的播放下载服务,严重侵害影视作品制作方、出品人的合法权益;为盈利而承接未经审核的灰色营销广告,诱发网络诈骗风险,造成用户经济损失;为吸引用户而提供的违禁类视频,存在危害国家安全的风险,已成为行业监管部门的重点打击对象. 然而,部分平台为对抗监管,选择将网站和应用的服务器部署在境外云平台,导致执法部门无法从源头上进行有效处置.

当前,针对视频聚合平台的研究主要聚焦于政府立法与执法的合规性、风险性,对于如何发现盗链聚合平台,预测并预警高风险用户群体,有选择性地开展技术处置,尚且缺乏专业且系统的探索,而这对提升行业监管能力具有十分重要的意义.

为了解决此类问题,本研究提出基于集成时序预测模型的视频聚合平台监测预警方法. 首先,根据通信行业提供的IP地址数据,匿名化处理后构建固定窗口时序数据,选择合适的基模型并通过Stacking集成模型学习基模型特征,预测用户未来是否会出现访问盗链聚合平台的行为,并给出预警提示. 本研究的贡献点在于以下3个方面. 1)鉴于当前行业管理部门缺乏对视频盗链聚合平台的监测手段,提出面向视频聚合平台监测领域的时序预测方案,可准确预警风险用户及风险行为;2)鉴于单一预测模型在预测结果方面存在欠拟合或过拟合的不足,构建基于用户访问行为的长短时空依赖关系集成学习模型;3)鉴于当前行业中缺乏真实数据验证的问题,利用盗链聚合平台的DNS流量数据进行模型训练,验证集成学习模型的有效性.

1. 相关工作

近年来,随着媒体技术和互联网技术的发展,盗链聚合平台在用户数和平台数上均呈上升趋势,亟须采用技术手段了解用户访问情况,在对高风险用户进行预警的同时,实现对此类平台的有效监管.

1.1. 盗链聚合平台侵权情况

为了推动视频聚合平台的合规管理,促进影视行业的持续发展,目前在法律规范层面主要包括3种观点. 徐珉川[4]提议明确传播适用规则,为视频聚合平台在行为上是否存在侵权情况提供判定依据;何昊天[5]认为可通过默认许可理论,推动作品合法有效传播;刘友华等[6]提倡推动许可制度,将知识产权的排他权转化为报酬请求权,在法律层面为视频聚合平台的行为规范提供有效途径.

1.2. 时间序列预测算法

时间序列预测技术广泛应用于股票、天气、用户行为等领域,主要有3类技术[7]:第1类是历史平均法、指数平滑法、差分自回归移动平均法等参数模型;第2类是决策树、支持向量机、隐马尔可夫模型等传统机器学习模型;第3类是人工神经网络、卷积神经网络、残差神经网络、图神经网络、卷积长短记忆模型等深度学习模型.

在现有的网络行为预测研究场景中,危婷等[8]基于科技云网的用户访问行为数据,对比多元逻辑回归算法和XGBoost模型,预测用户购买意愿. 姚丽等[9]构建学生上网行为,将其划分为13种类型,采用端到端的双层自注意力网络,实现学习成绩预测. 周胜利等[10]挖掘显性、隐形网络诈骗行为的内在关联性序列特征,结合随机森林算法,提高被害性识别准确率. 杨晨[11]挖掘网站内容信息进行自动化分类,结合DNS流量数据分析用户访问情况,并识别出违法网站链接. 魏佳代[12]通过域名分类库和域名分类器进行访问域名标签化处理,基于校园DNS数据进行用户K-means聚类分析,多维展现用户网络行为特征.

综上所述,当前研究工作[13-15]主要聚焦于盗链聚合平台的立法执法、侵权认定等法律方面,缺乏对用户平台访问与预警这种技术应用层面的探索. 本研究提出针对使用盗链聚合平台访问非法视频源行为的监测方法,利用集成时序模型建立预警机制,通过实时监测、特征提取、在线预警等步骤,在用户层和平台层对监测数据进行智能化处理,预警潜在的高风险用户群体及异常行为. 本研究探索了视频聚合平台的预警响应实现方案,为监管部门提供切实可行的技术方案,有助于推动完善法律法规和行业标准规范,促进执法取证手段建设.

2. 集成时序预测模型

2.1. LSTNet模型原理

长短期时序网络(long- and short-term time-series networks, LSTNet)[16]是专门用于融合线性预测和非线性预测的深度学习网络. 该网络由卷积层、循环层、循环跳过层、时间注意层、自回归层等组成,如图1所示. 在卷积层,使用一维卷积神经网络1D-CNN捕捉短期局部信息;在循环层,利用长短期记忆网络LSTM或门控循环单元GRU捕捉长期宏观信息;在循环跳过层,引入超参数时间窗口周期,通过跳跃连接来处理时间序列的周期性特征;在时间注意层,利用自适应权重学习机制,加权输入序列中差异部分,评估长期时间序列信息和短期时间序列信息重要性;在自回归层,增加自回归模型AR,为预测结果添加线性成分. 此外,该网络可采用均方误差、平均绝对误差函数作为损失函数,通过反向传播算法优化模型.

图 1

图 1   LSTNet模型结构

Fig.1   LSTNet model structure


2.2. RNN模型原理

循环神经网络(recurrent neural network,RNN)[17]利用循环网络构造环路,以数据循环的方式一边记忆历史数据,一边更新输入数据,打破传统神经网络中输入输出序列彼此独立的特性,能够捕捉序列中的时序信息,如图2所示. 通过参数共享,同时接收当前时间的输入样本和上一个时间的隐藏状态输出向量,调用RNN单元进行训练处理,形成一个带有最新记忆信息的状态向量.

图 2

图 2   RNN模型结构

Fig.2   RNN model structure


2.3. MLP模型原理

多层感知机(multilayer perceptron,MLP)[18]属于前馈神经网络的一种,在结构上由输入层、隐藏层和输出层组成,如图3所示. 输入层用于接收序列数据,隐藏层用于学习序列数据特征表示,输出层用于产生最终预测结果. 在学习过程中采用反向传播算法计算梯度,将误差从输出层反向传播回输入层进行参数更新. MLP结构简单,在工程上易于理解和实现,具有一定的可扩展性和通用性,常用于时序数据预测及分类任务.

图 3

图 3   MLP模型结构

Fig.3   MLP model structure


2.4. 集成模型预测器

集成学习是指能够通过合成多个基学习器,构建有较强性能机器学习器的方法,能产生更稳定、更准确的预测结果. 集成学习在分类问题集成、回归问题集成、特征选取及特征工程上性能表现较为突出. 集成模型预测器是基于集成学习思想,结合多个基学习器的学习及预测结果的预测方法,一方面综合多个基学习器的学习能力,另一方面解决单一模型的欠拟合或过拟合问题.

常见的集成模型包括自举汇聚法(Bagging)、提升法(Boosting)和堆叠法(Stacking). Bagging从原始数据集中生成多个子数据集,在每个子数据集上对基模型开展并行训练,每个基模型对数据进行独立预测,最后通过平均值或者投票来整合结果. Bagging在训练过程中引入随机性,降低过拟合风险,简单易实现,但是受限于基模型,对整体性能的提升有限. Boosting以串行的方式训练基模型,每个模型基于前一个模型的学习结果进行纠正. Boosting聚焦于前一个模型预测错误的样本,可以减小预测偏差,提升整体性能,但是过于关注训练数据容易导致过拟合,对超参数也较为敏感. Stacking训练多个基模型,以基模型的预测结果作为新的特征,输入到一个元模型中进行训练,元模型对各基模型特征进行学习以产生最终的预测结果. Stacking采用一级和二级模型的方式来整合预测,能够学习到更复杂的数据模式,但是也带来调参过程较困难,训练时间较长的问题.

由于盗链聚合平台的网络访问行为呈现出周期性的复杂特征,采用Stacking集成学习框架进行建模分析,具体分为5个步骤:1)将数据集构建为适用于时间序列数据的TSDataset类型,划分为训练集、验证集和测试集;2)选择多个具有互补性的基模型,分别使用训练数据进行训练,得到各自的预测结果,为每个模型定义合适的参数;3)选择集成模型构建策略,将基模型的预测结果作为输入生成元特征,组装并拟合元模型;4)用固定预测窗口在数据集上进行重复预测迭代,对评测模型预测的准确率进行评估;5)使用验证集评估模型的性能,调整合适的模型参数或者不同的基模型组合.

2.5. 基于梯度提升回归的集成模型

本研究所采用的视频聚合平台访问数据存在较强的时间序列周期性,工作日及非工作日访问行为有较大差别,部分特征以周为时间周期分布. 考虑到数据序列类型以及模型复杂度、收敛速度,选用LSTNet模型、RNN模型和MLP模型作为基模型,选用Stacking集成模型作为元模型进行特征学习,构建具有长短期记忆能力、能够学习动态时序特征及非线性特征的集成模型,对视频聚合平台访问流量数据行为进行预测,流程如图4所示.

图 4

图 4   Stacking集成流程

Fig.4   Stacking integration process


LSTNet模型在LSTM模型基础上结合了卷积神经网络和自注意力机制,能够捕捉周期性变化以及时序数据中的非线性特性,但是性能受制于时序数据的周期性特征和可用历史数据的长度. MLP通过隐藏层学习高度非线性的特征映射进行时序数据预测,结构简单,收敛速度较快,但是无法对时序信息进行有效学习. RNN模型能够对序列数据中的上下文和依赖关系进行建模,解决了MLP忽略序列特性的问题,但难以处理长时序依赖,容易出现梯度消失或爆炸问题. 通过结合3种基模型的各自优势,实现互补效果.

3. 数据搜集与分析

3.1. 数据获取

采用通信行业匿名化处理后的DNS流量数据,在特定IP地址段范围下,从2023年7月1日—2024年2月29日,共计243 d,以IP地址为主键,以小时为时间单位,记录各个IP地址对65个视频源域名和18个视频聚合平台的访问数据. 为了方便分析,对于缺乏某时间段访问行为的数据进行零填充操作,单个用户的视频源域名访问数据量为379080条(243 d×24 h×65个视频源),单个用户的视频聚合平台访问数据量为104976条(243 d×24 h×18个视频源). 视频源域名包括waptv.sogou.comtc.forward.douban.comwin.gdt.qq.comali-m-l.cztv.com.m.alikunlun.comlive.shaoxing.com.cn等,为搜狗、豆瓣、腾讯、深圳卫视等主体相关子域名,视频源域名访问日志结构如表1所示. 盗链聚合平台包括某焰视频、某虎影视、某博影院等未经官方授权的非法平台,视频聚合平台访问日志结构如表2所示. 相关数据存储于数据中心Hadoop集群中,采用Spark框架进行数据查询与关联分析.

表 1   视频源域名访问日志

Tab.1  Access logs of video source domains

名称符号示例
用户IP地址IP_domain223.106.X.62
视频源访问日期Day_domain20240101
视频源访问时段Time_domain15
视频源访问次数Cnt_domian3
访问视频源域名Domainwin.gdt.qq.com

新窗口打开| 下载CSV


表 2   视频聚合平台访问日志

Tab.2  Access logs of video aggregation platforms

名称符号示例
用户IP地址IP_platform223.106.X.62
平台访问日期Day_platform20240102
平台访问时段Time_platform12
平台访问次数Cnt_platform5
访问的视频聚合平台Platformimdk.paxski.com

新窗口打开| 下载CSV


用户通过视频聚合平台访问视频源共存在4种情况,如图5所示,分别为用户通过监测范围内的聚合平台访问监测范围内的视频源;用户通过监测范围内的聚合平台访问未纳入监测范围的视频源;用户通过未纳入监测范围的聚合平台访问监测范围内的视频源;用户通过未纳入监测范围的聚合平台访问未纳入监测范围的视频源. 此外,本研究尚不讨论单个出口IP地址可能对应内部多名个人用户的情况.

图 5

图 5   用户通过视频聚合平台访问视频源的4种情况

Fig.5   Four scenarios of users accessing video sources via video aggregation platforms


3.2. 特征构建

在获取日志数据源的基础上,从视频源侧和渠道侧以天为维度构建目标特征,主要通过关联、查询、聚合等操作对原始行为数据进行处理,涉及频次、链接数、白天(8点—20点)情况、夜晚(0点—8点,20点—24点)情况等22个维度,如表3所示. 其中,“存在通过聚合平台访问视频源行为”是本研究最终需要预测的目标,表示用户在指定时间段内同时存在访问视频聚合平台和向视频源域名发起请求的行为.

表 3   视频源侧与渠道侧目标特征

Tab.3  Target features on video source side and channel side

类型名称符号
基本信息IP地址IP
时间i
视频源侧
目标特征
访问视频源次数cnt_all_domain
存在访问视频源行为state_all_domain
访问视频源总链接数num_all_link
访问视频源总域名数num_all_domain
白天访问视频源次数cnt_day_domain
白天存在访问视频源行为state_day_domain
白天访问视频源总链接数num_day_link
白天访问视频源总域名数num_day_domain
夜晚访问视频源次数cnt_night_domain
夜晚存在访问视频源行为state_night_domain
夜晚访问视频源总链接数num_night_link
夜晚访问视频源总域名数num_night_domain
渠道侧
目标特征
访问聚合平台次数cnt_all_platform
存在访问聚合平台行为state_all_platform
访问聚合平台个数num_all_platform
白天访问聚合平台次数cnt_day_platform
白天存在访问聚合平台行为state_day_platform
白天访问聚合平台个数num_day_platform
夜晚访问聚合平台次数cnt_night_platform
夜晚存在访问聚合平台行为state_night_platform
夜晚访问聚合平台个数num_night_platform
存在通过聚合平台访问
视频源行为
state_domain_platform

新窗口打开| 下载CSV


3.3. 特征分析

为了探究行为侧和渠道侧视频源目标数据情况,分析视频源侧特征及渠道侧特征与预测结果的相关性,分别从重点特征变化趋势、特征关联性、特征分布等角度进行初步研究,具体情况如下.

在重点特征变化趋势方面,选取访问视频源次数、访问视频源总域名数、访问聚合平台个数3个特征作为重点特征,选取用户是否存在通过聚合平台访问视频源行为作为预测目标,某IP地址的时序变化趋势如图6所示. 图中,i表示天数. 该IP地址访问视频源次数特征随着时间呈上升趋势,单日数量已超过万次;访问视频源总域名数在工作日与非工作日的行为数据差异较为明显,存在较强的周期性特征;访问聚合平台个数特征无明显时间性特征.

图 6

图 6   重点特征与目标结果的变化趋势图

Fig.6   Trend chart of key features and target results


在特征关联性方面,视频源侧目标特征与渠道侧目标特征关联性差别较大,视频源测目标特征内部关联性整体较高,渠道侧目标特征内部关联性整体较低,特征热力图如图7所示. 图中,R为特征相关性. 在内部特征上,访问视频源次数、白天访问视频源次数和夜晚访问视频源次数具有强相关性,特征重叠度较高;在与预测目标相关性上,存在访问视频源行为、白天存在访问视频源行为、夜晚存在访问视频源行为与预测目标当日存在通过聚合平台访问视频源行为相关性较高.

图 7

图 7   视频源侧及目标侧特征热力图

Fig.7   Feature heatmap of video source side and target side


在特征分布方面,选取以访问视频源次数、访问视频源总链接数为代表的2组特征数据进行箱型图展示,如图8所示. 访问视频源次数、访问视频源总链接数在数据分布上,以均值为中心呈集中分布趋势,说明该IP地址在部分视频源侧特征上访问行为稳定,离散度较低,不易受极端值影响,鲁棒性较强.

图 8

图 8   访问视频源次数与总链接数的箱型图

Fig.8   Box plot of access counts to video sources and total number of links


4. 实验结果

4.1. 实验设置

实验环境选用百度飞浆深度学习框架PaddlePaddle,模型库使用基于Python语言的PaddleTS可扩展深度时序模型库,通过时序建模,对归一化的验证集数据进行预测,推演新序列的数据分布,实验环境及模型参数见表45.

表 4   测试实验环境选择

Tab.4  Selection of testing experimental environment

参数选择
操作系统Linux
GPUTesla V100
Python3.7.4
项目框架PaddlePaddle 2.4.0

新窗口打开| 下载CSV


表 5   集成模型部分关键参数

Tab.5  Key parameters of ensemble model parameters

参数名称参数符号数值
评价指标eval_metrics["mse", "mae"]
输入时间序列长度in_chunk_len20
输出时间序列长度out_chunk_len20
可跳过序列长度skip_chunk_len0
训练的最大轮数max_epochs20
批次样本数量batch_size8

新窗口打开| 下载CSV


4.2. 评价指标

使用均方误差(MSE)、平均绝对误差(MAE)、自定义平衡准确率(balanced accuracy, BAC)3个评价指标对模型的鲁棒性进行验证.

MAE是指预测值与真实值的绝对误差的平均值,MSE是指预测值与真实值的绝对平方误差的平均值. MAE、MSE越低,说明预测效果越精准.表达式分别如下:

$ {\mathrm{MAE}}(y,\tilde y) = \frac{1}{{{n_{\mathrm{s}}}}}\sum\nolimits_{i = 0}^{{n_{\mathrm{s}}} - 1} {\left| {{y_i} - {{\tilde y}_i}} \right|} , $
(1)

$ {\mathrm{MSE}}(y,\tilde y) = \frac{1}{{{n_{\mathrm{s}}}}}{\sum\nolimits_{i = 0}^{{n_{\mathrm{s}}} - 1} {\left( {{y_i} - {{\tilde y}_i}} \right)} ^2}. $
(2)

式中:$ {n_{\mathrm{s}}} $表示样本个数,$ y_i $表示第i个日期的真实值,$ {\tilde y}_i $表示第i个日期的预测值,$y$表示所有样本的真实值,$ \tilde y $表示所有样本的预测值.

由于预测值$ \tilde y_i $是一个连续变量,为了方便实现智能化预警判断,设定离散变量预警行为$q_i $作为行为判别标准:

$ {q_i} = \left\{ {\begin{array}{*{20}{c}} 0,&{{\tilde y}_i} < 0.2; \\ 1,&{{\tilde y}_i} > 0.8. \end{array}} \right. $
(3)

式中:$ q_i=1$表示要对使用聚合平台访问违规视频源的用户进行高风险预警,$ q_i=0$表示对使用聚合平台访问违规视频源的用户进行低风险提示.

为了进一步衡量分类模型的性能,使用BAC来规避类别不平衡数据的偏差问题:

$ {\mathrm{BAC}} = \dfrac{1}{n_{\mathrm{s}}}{{\sum\nolimits_{i = 1}^{{n_{\mathrm{s}}}} {I\left( {{q_i} = y_i^{}} \right)} }}. $
(4)

式中:$ I\left(q_i=y_i\right) $为指示函数,当$ q_i=y_i $时,说明第i个日期的预警行为与真实值一致,返回结果为1,否则返回为0;BAC越接近1.0,说明分类模型的准确率越高.

4.3. 对比实验

4.3.1. 单一模型对比

LSTNet模型、RNN模型、MLP模型在时序预测领域应用较广,能够对数据的内在规律和特征进行学习,提高对非线性数据预测的准确性. 如表6所示为3种模型在视频平台时序数据上的预测结果对比. 可以看出,LSTNet模型在时序数据的预测指标上表现最优.

表 6   单一模型实验结果

Tab.6  Experimental results of single model

模型MSEMAEBAC
LSTNet1.55290.96950.45
RNN1.66671.02890.40
MLP1.67050.96580.40

新窗口打开| 下载CSV


根据特征分析结果可知,视频平台监测数据存在工作日、非工作日及白天、夜间访问行为的类间差异,同时又存在一定的类中共性,属于“短期波动+长期趋势”的复杂时序数据,而LSTNet模型擅长对短期局部依赖模式和长期趋势模式进行学习,在预测结果上具有显著性优势.

4.3.2. 基模型选择

虽然LSTNet模型对于复杂时序数据的预测在各项指标上均具有显著优势,但是其预测准确性高度依赖于周期性特征及历史数据的丰富度,对数据的质量要求较高. 当数据中存在噪声、缺失值或异常值时,预测模型的精度容易受到影响. MLP模型结构简单,收敛速度较快但无法对时序特征进行提取. RNN关注时序数据的时间依赖性及序列间的长期依赖关系,本研究考虑使用LSTNet模型为基模型,结合MLP、RNN模型,构建集成模型,通过提升模型的泛化能力,提高用户潜在违规访问行为预测准确性.

为了选择合适的基模型组合,在模型参数、框架版本及实验环境原则均保持一致的情况下,对比RNN+LSTNet集成模型、MLP+LSTNet集成模型、LSTNet+RNN+MLP集成模型等建模方法的预测结果. 从时序数据中截取前60%作为训练集,20%为验证集,20%为测试集,均由连续数据构成,对用户是否存在通过聚合平台访问视频源的行为进行预测. 实验结果如表7所示,可以看出,选择LSTNet、RNN、MLP这3个基模型进行集成训练可以获得较好的预测结果.

表 7   基模型实验结果

Tab.7  Base model experimental results

基模型MSEMAEBAC
LSTNet+RNN0.69160.67730.50
LSTNet+MLP0.94330.72860.60
LSTNet+RNN+MLP0.58050.42520.65

新窗口打开| 下载CSV


4.3.3. 集成方式选择

对比Bagging和Stacking这2种集成方式在预测用户访问盗链聚合平台行为上的差异. Bagging集成模型在对基模型进行并行训练后,采用平均值集成预测方式,即计算多个模型预测结果的算术平均值来获得预测平均值. Stacking集成模型则是训练3个基模型作为弱分类器,将预测结果作为训练元模型的输入,寻找最佳弱分类器组合方式,提升模型的准确性及泛化能力. 如表8所示为集成方式的实验结果. 可以看出,Stacking集成模型预测器在BAC指标上与Bagging集成模型预测器一致,在MSE、MAE指标上表现出较为优异的性能,能够更好地对模型特征进行学习,对目标访问行为进行拟合,提升预测评价指标.

表 8   集成方式实验结果

Tab.8  Experimental results of ensemble methods

集成方式MSEMAEBAC
Bagging集成模型0.84850.76350.65
Stacking集成模型0.58050.42520.65

新窗口打开| 下载CSV


4.3.4. 元模型选择

在元模型选择上,使用岭回归和梯度提升回归2种元模型对RNN、MLP及LSTNet模型训练结果进行二次学习. 岭回归能够处理变量间的相关关系,通过引入正则化减少过拟合以提高模型稳定性. 梯度提升模型通过对基模型进行迭代训练来最小化损失函数,从而找到最优的模型参数,能够处理高维非线性数据. 如表9所示为元模型实验结果. 结果表明,梯度提升回归模型在MAE、BAC指标上优于岭回归模型,即梯度提升回归模型能够为元模型取得较小的误差和较高的准确率,在基学习器的迭代学习中能够获取到更充分的时序特征.

表 9   元模型实验结果

Tab.9  Experimental results of Meta-Model

元模型MSEMAEBAC
岭回归模型0.38870.54310.60
梯度提升回归模型0.58050.42520.65

新窗口打开| 下载CSV


4.4. 回测实验

回测分析是使用训练得到的模型对历史数据进行回测,用以评价模型预测效果. 如图9所示为集成模型回测方式. 在验证集上以固定步长进行从后向前迭代预测,左斜线橘色部分为3次固定时间窗口迭代预测,右斜线绿色部分为实际数据,可以比对每个时间窗口的回测结果. 在每次迭代过程中,预测窗口向前移动固定步长,通过重复预测验证模型性能. 如表10所示为回测试验结果. 可以看出,较LSTNet模型、LSTNet+RNN集成模型、LSTNet+MLP集成模型而言,LSTNet+RNN+MLP集成模型能够更好地对预测数据进行拟合.

图 9

图 9   集成模型回测方式

Fig.9   Backtesting method for ensemble model


表 10   回测试验结果

Tab.10  Backtesting results

模型MSEMAE
LSTNet0.74630.6445
LSTNet+RNN0.88180.7532
LSTNet+MLP1.22760.7752
LSTNet+RNN+MLP0.36550.5464

新窗口打开| 下载CSV


4.5. 可解释性试验

模型可解释性分为事前可解释性和事后可解释性. 通过辅助模型使用者理解模型的预测结果,可以预防可能存在的偏见问题. 事前可解释性是基于模型的网络结构进行解释说明,事后可解释性是基于特征贡献度进行解释说明. 本研究将特征和预测目标视为“贡献者”,对于每个预测样本,每个贡献者均产生一个分配数值,用于反映每个预测样本中的特征影响力,并表征特征在预测结果中的正负性.

假设第i个时间样本$x_i$共有n个特征,第j个特征为$ x_{ij} $,模型基线(所有样本的目标变量均值)为$y_{{\mathrm{base}}} $,模型对该样本的预测值$y_i $表达式为

$ y_i=y_{\text {base }}+f\left(x_{i 1}\right)+\cdots f\left(x_{i j}\right)+\cdots+f\left(x_{i \mathrm{n}}\right) . $
(5)

式中:$ f\left(x_{ij}\right) $$x_{i j}$的特征影响力值,$ f\left(x_{i1}\right)$表示第i个时间样本中第1个特征对最终预测值$ y_i$的贡献值. 当$ f\left(x_{i1}\right) > 0$时,说明该特征可以提升预测值,有正向作用,呈正相关;反之,说明该特征降低预测值,有反作用,呈负相关.

从局部特征可解释性和全局特征可解释性角度对预测结果进行分析. 局部特征可解释性关注模型对某个具体样本的特定预测结果分析. 如图10所示为第10步预测结果的特征贡献值分布图,预测目标为是否存在通过视频聚合平台访问目标视频源的行为. 选取第10步的预测结果进行特征贡献度分析,通过计算模型输出的特征影响力值来量化模型实际预测结果的贡献度,其中特征影响力为正向的显示为红色,特征影响力为负向的显示为无色填充. 可以看出,白天访问视频源次数和当日是否存在通过聚合平台访问非法视频源行为这2个特征为正向且贡献度最高. 全局特征可解释性关注模型在所有样本上的整体预测结果分析. 首先计算每个时间窗口中的特征影响力,接着将每个时间窗口内的特征影响力进行绝对值平均,进而得到特征全局重要性分布. 如图11所示为全局特征重要性S的分布图,预测目标为当日是否存在通过聚合平台访问视频源的行为. 可以看出,渠道侧特征白天存在访问聚合平台行为、白天访问聚合平台总个数,视频源侧特征访问视频源次数等特征对模型结果影响较大,在时序数据预测中特征影响力较大.

图 10

图 10   第10步预测结果的特征贡献值分布图

Fig.10   Distribution of feature contribution values in prediction results of step 10


图 11

图 11   全局特征重要性分布图

Fig.11   Global feature importance distribution chart


4.6. 工程应用

在工程应用中,将训练完成的模型部署于运营商、网络管理中心、数据机房侧,捕获流量信息进行预警分析,具体可包括:一是在现有已训练模型基础上,结合目标的历史数据对模型进行适配性离线训练;二是模型上线后对数据进行实时监控,可选取5、7、30 d等动态时间窗口,并设定报警阈值,及时发现问题进行预警;三是综合算力成本、存储成本、准确性对模型进行动态调整,并定期将监测结果反馈给管理部门进行处置.

5. 结 语

基于通信行业某IP地址的网络行为日志数据,构建针对盗链聚合平台中视频源和渠道的22个常见访问行为特征. 对比LSTNet、RNN和MLP模型不同集成方式下的时序预测结果发现,集成模型相比于传统单模型预测方法在性能上有显著提升. 相比使用LSTNet进行单模型预测,采用LSTNet模型、RNN模型、MLP模型为基模型、梯度提升模型为元模型的Stacking集成模型建模方法,其MSE指标由1.5529降低至0.5805,降低了0.9724;MAE指标由0.9695降低至0.4252,降低了0.5443;BAC由0.45提升至0.65,提升了0.20. 通过回测实验及可解释性实验,验证本集成模型的有效性和可行性,能有效协助监管部门预测视频聚合平台访问情况,实现对高风险用户行为的预警.

视频聚合研究工作是一个随着互联网行业发展而出现的新型研究场景,未来有较为广阔的探索空间,具体可以从以下几个方面继续开展研究. 1)增加数据的丰富度,收集来自运营商、正版视频平台异常流量、第三方监测机构等多方数据,结合访问日志、平台流量数据、DNS日志等进行多维度数据分析;2)开展持续监测工作,获取时间跨度更广的视频聚合平台流量数据,构建联合模型对数据特征进行学习,以分析长时间依赖关系下的行为趋势;3)建立泛化性能更优良的即插即用的训练模型框架,通过迁移学习方式移植到类似应用场景,如挖矿行为监控、大模型非法调用行为监控,增强模型的可扩展性.

参考文献

刘晓庆, 万柯

视频聚合平台的版权侵权责任

[J]. 中国版权, 2014, (4): 44- 47

DOI:10.3969/j.issn.1671-4717.2014.04.013      [本文引用: 1]

LIU Xiaoqing, WAN Ke

Copyright infringement liability of video aggregation platform

[J]. China Copyright, 2014, (4): 44- 47

DOI:10.3969/j.issn.1671-4717.2014.04.013      [本文引用: 1]

徐晖. 视频聚合平台深度链接行为的侵权认定标准研究 [D]. 长春: 吉林大学, 2022.

[本文引用: 1]

XU Hui. Research on infringement identification standards of deep linking behavior of video aggregation platform [D]. Changchun: Jilin University, 2022.

[本文引用: 1]

李怡璇. 视频聚合平台的侵权责任研究: 以“盗链” 行为为例 [D]. 济南: 山东大学, 2020.

[本文引用: 1]

LI Yixuan. Research on infringement liability of video aggregation platform: taking “hotlinking” as an example [D]. Jinan: Shandong University, 2020.

[本文引用: 1]

徐珉川

论互联网“提供作品” 行为的界定

[J]. 中外法学, 2020, 32 (2): 378- 401

[本文引用: 1]

XU Minchuan

On the definition of making work available

[J]. Peking University Law Journal, 2020, 32 (2): 378- 401

[本文引用: 1]

何昊天. 网络环境下著作权默示许可制度研究 [D]. 济南: 山东大学, 2022.

[本文引用: 1]

HE Haotian. Study on the implied license of copyright in the network environment [D]. Jinan: Shandong University, 2022.

[本文引用: 1]

刘友华, 魏远山

聚合分发平台与传统新闻出版者的著作权冲突及解决

[J]. 新闻与传播研究, 2018, 25 (5): 69- 87,127

[本文引用: 1]

LIU Youhua, WEI Yuanshan

Copyright conflicts and solutions between aggregation distribution platforms and traditional news publishers

[J]. Journalism and Communication, 2018, 25 (5): 69- 87,127

[本文引用: 1]

黎维, 陶蔚, 周星宇, 等

时空序列预测方法综述

[J]. 计算机应用研究, 2020, 37 (10): 2881- 2888

[本文引用: 1]

LI Wei, TAO Wei, ZHOU Xingyu, et al

Survey of spatio-temporal sequence prediction methods

[J]. Application Research of Computers, 2020, 37 (10): 2881- 2888

[本文引用: 1]

危婷, 张宏海, 蔺小丽, 等

云服务网站用户复访行为预测模型研究

[J]. 数据与计算发展前沿, 2022, 4 (3): 124- 130

[本文引用: 1]

WEI Ting, ZHANG Honghai, LIN Xiaoli, et al

Predictive model of the revisit behavior of cloud service site users

[J]. Frontiers of Data and Computing, 2022, 4 (3): 124- 130

[本文引用: 1]

姚丽, 崔超然, 马乐乐, 等

基于校园上网行为感知的学生成绩预测方法

[J]. 计算机研究与发展, 2022, 59 (8): 1770- 1781

DOI:10.7544/issn1000-1239.20220060      [本文引用: 1]

YAO Li, CUI Chaoran, MA Lele, et al

Student performance prediction base on campus online behavior-aware

[J]. Journal of Computer Research and Development, 2022, 59 (8): 1770- 1781

DOI:10.7544/issn1000-1239.20220060      [本文引用: 1]

周胜利, 徐啸炀

基于网络流量的用户网络行为被害性分析模型

[J]. 电信科学, 2021, 37 (2): 125- 134

DOI:10.11959/j.issn.1000-0801.2021041      [本文引用: 1]

ZHOU Shengli, XU Xiaoyang

Victimization analysis model of user network behavior based on network traffic

[J]. Telecommunications Science, 2021, 37 (2): 125- 134

DOI:10.11959/j.issn.1000-0801.2021041      [本文引用: 1]

杨晨. 基于DNS流量的用户访问行为分析研究 [D]. 广州: 广州大学, 2022.

[本文引用: 1]

YANG Chen. Analysis and research on users’ access behavior based on DNS traffic [D]. Guangzhou: Guangzhou University, 2022.

[本文引用: 1]

魏佳代. 基于DNS日志的用户访问行为分析和研究 [D]. 北京: 北京交通大学, 2019.

[本文引用: 1]

WEI Jiadai. Analysis and research of user access behavior based on DNS logs [D]. Beijing: Beijing Jiaotong University, 2019.

[本文引用: 1]

马艺闻

视频聚合平台侵权行为的法律定性

[J]. 区域治理, 2019, (38): 119- 121

DOI:10.3969/j.issn.2096-4595.2019.38.045      [本文引用: 1]

MA Yiwen

Legal qualification of infringement behavior of video aggregation platforms

[J]. Regional Governance, 2019, (38): 119- 121

DOI:10.3969/j.issn.2096-4595.2019.38.045      [本文引用: 1]

张晨曦. 智媒体背景下新闻编辑业务创新研究: 以新闻聚合平台为例 [D]. 吉林: 吉林大学, 2021.

ZHANG Chenxi. Research on news editing business in the age of intelligence media: take news aggregation platforms as an example [D]. Jilin: Jilin University, 2021.

刘溪

视频聚合平台经营者盗链行为侵害作品信息网络传播权的司法认定

[J]. 法制与社会, 2019, (20): 58- 59

[本文引用: 1]

LIU Xi

Judicial determination of infringement of right to communicate works through information networks by operator’s theft linking behavior of video aggregation platforms

[J]. Legal System and Society, 2019, (20): 58- 59

[本文引用: 1]

LAI G, CHANG W C, YANG Y, et al. Modeling long-and short-term temporal patterns with deep neural networks [C]// 41st International ACM SIGIR Conference on Research and Development in Information Retrieval. Ann Arbor: ACM, 2018: 95–104.

[本文引用: 1]

ELMAN J L

Finding structure in time

[J]. Cognitive science, 1990, 14 (2): 179- 211

DOI:10.1207/s15516709cog1402_1      [本文引用: 1]

RUMELHART D E, HINTON G E, WILLIAMS R J

Learning representations by back-propagating errors

[J]. Nature, 1986, 323 (6088): 533- 536

DOI:10.1038/323533a0      [本文引用: 1]

/