浙江大学学报(工学版), 2024, 58(6): 1142-1152 doi: 10.3785/j.issn.1008-973X.2024.06.005

计算机技术

多模态信息增强的短视频推荐模型

霍育福,, 金蓓弘,, 廖肇翊

1. 中国科学院大学 计算机科学与技术学院,北京 100049

2. 中国科学院软件研究所,北京 100190

Multi-modal information augmented model for micro-video recommendation

HUO Yufu,, JIN Beihong,, LIAO Zhaoyi

1. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China

2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China

通讯作者: 金蓓弘,女,研究员,博导. orcid.org/0000-0003-3683-4034. E-mail: beihong@iscas.ac.cn

收稿日期: 2023-12-24  

基金资助: 国家自然科学基金资助项目(62072450).

Received: 2023-12-24  

Fund supported: 国家自然科学基金资助项目(62072450).

作者简介 About authors

霍育福(2000—),男,硕士生,从事短视频推荐系统以及生物信息技术研究.orcid.org/0009-0001-7409-1588.E-mail:huoyufu19@mails.ucas.ac.cn , E-mail:huoyufu19@mails.ucas.ac.cn

摘要

提出用于短视频点击率预估任务的多模态增强模型(MMa4CTR). 模型综合利用用户与短视频交互中的多模态数据,以构建用户的嵌入表示,并学习用户的多模态兴趣. 通过组合和交叉不同模态特征,探索各模态间的共同语义. 通过引入自动学习率调整和验证中断这2种训练策略,提升模型整体的推荐性能. 为了解决多模态数据量增加带来的计算挑战,采用计算效率较高的多层感知机. 在微信视频号和抖音短视频数据集上进行性能比较实验和超参数敏感性实验,结果显示MMa4CTR在保持较低计算开销的同时,实现了超越基线模型的卓越推荐效果. 通过在2个数据集上进行的消融实验,进一步证实了短视频模态交叉模块、用户多模态嵌入层以及自动学习率调整策略和验证中断策略在提升推荐性能方面的重要性和有效性.

关键词: 推荐系统 ; 点击率 ; 多模态 ; 短视频 ; 机器学习

Abstract

A multi-modal augmented model for click through rate (MMa4CTR) tailored for micro-videos recommendation was proposed. Multi-modal data derived from user interactions with micro-videos were effectively leveraged to construct embedded user representations and capture diverse user interests across multi-modal. The aim was to reveal the latent semantic commonalities, by combining and crossing features across modalities. The overall recommendation performance was boosted via two training strategies, automatic learning rate adjustment and validation interruption. A computationally efficient multi-layer perceptron architecture was employed, in order to address the computational demands brought on by the vast amount of multi-modal data. Performance comparison experiments and sensitivity analyses of hyperparameter on WeChat Video Channel and TikTok datasets demonstrated that MMa4CTR outperformed baseline models, delivering superior recommendation results with minimal computational resources. Additionally, ablation studies performed on both datasets further validated the significance and efficacy of the micro-video modality cross module, the user multi-modal embedding layer, and the strategies for automatic learning rate adjustment and validation interruption in enhancing recommendation performance.

Keywords: recommender system ; click through rate ; multi modal ; micro-video ; machine learning

PDF (906KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

霍育福, 金蓓弘, 廖肇翊. 多模态信息增强的短视频推荐模型. 浙江大学学报(工学版)[J], 2024, 58(6): 1142-1152 doi:10.3785/j.issn.1008-973X.2024.06.005

HUO Yufu, JIN Beihong, LIAO Zhaoyi. Multi-modal information augmented model for micro-video recommendation. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(6): 1142-1152 doi:10.3785/j.issn.1008-973X.2024.06.005

随着短视频平台的用户量、视频量持续增长,信息过载问题也日益凸显. 从用户侧来说,可获取的海量信息已经远远超过了其接收处理能力,难以找到有效信息或者感兴趣内容;从平台方来说,从海量短视频中找到用户感兴趣的内容,是改善用户体验、增加用户黏性,从而避免用户流失、提升商业收益的关键. 解决此类问题的关键正在于个性化的短视频推荐引擎.

传统的推荐模型可以分为协同过滤算法和基于内容的推荐模型这2大类. 协同过滤[1]的优点在于可解释性强,但其缺乏足够的泛化能力,可能导致热门物品容易与大量物品产生相似性,而冷门物品则由于其特征向量稀疏,与其他物品的相似性较小. 逻辑回归算法的本质是将推荐任务看作分类任务[2],依据预测正样本即“点击”的概率对推荐物品集进行排序. 该方法最大的优点在于训练开销小且容易实现并行化,但对用户特征和物品特征进行建模的开销较大[3].

现有的面向推荐系统的深度学习算法一般以多层感知机为核心预测部件. 部分工作增加网络层数和引入复杂模型架构,如从仅具有单层神经网络的自编码器推荐(autoencoders recommendation,AutoRec)[4]发展到包含嵌入层、融合层、多残差单元层和评分层的深度交叉模型[5]. 部分工作丰富了深度神经网络中特征交叉的方式,如使用多层神经网络和输出层替代矩阵分解模型中的内积操作的神经协同过滤(neural collaborative filtering,NeuralCF)模型[6],通过让用户向量和物品向量进行更充分交叉的方式来获取有更多价值的特征组合信息;再如基于积操作的神经网络(product-based neural networks,PNN)[7]使用能够针对性获取特征之间交叉信息的乘积层来替换深度交叉模型的融合层. 部分工作将深度神经网络与注意力机制融合,如深度兴趣网络(deep interest network,DIN)[8]利用用户历史行为中的物品和候选物品的相关性计算注意力权重来提升模型的推荐性能. 部分工作使用序列推荐模型对用户行为或者用户兴趣进行建模,如在DIN的基础上引入用户行为序列层、用户兴趣抽取层和用户兴趣演化层的深度兴趣演化网络(deep interest evolution network,DIEN)[9],其具备表达时序信息的序列推荐模型,因此非常契合预测用户经过一系列行为后的下一次动作的任务需求. 部分工作基于更能挖掘数据之间关系的图神经网络[10]展开,将用户-物品的交互数据表示为图,通过对相邻节点之间消息的传播聚合进行迭代来表征图结构信息.

与短视频的多模态特性相匹配的,是用户对不同模态的偏好,而现有的部分基于多模态的推荐工作仅利用单一模态信息[11],或是采取将各种模态信息融合在一起纳入协同过滤框架中的策略[12],忽略了模态之间的差异性,缺乏对模态特异性的用户偏好的建模能力.

本研究提出用于点击率预估任务的多模态增强模型(multi-modal augmented model for click through rate, MMa4CTR),其充分挖掘短视频的视觉、声音和文本这3种模态信息与用户兴趣之间的关系,聚焦于短视频推荐的排序阶段,设计并实现基于多层感知机的点击率预估模型,预测用户对未交互过短视频的点击概率,并依据此概率进行排序、生成该用户个性化的推荐列表. 完整项目代码和原始实验数据开源网站如下:https://github.com/RosalindFok/MMa4CTR.git.

1) MMa4CTR以用户和短视频的交互行为构建二分图,以点击行为给二分图中的边赋予权重,从而得到用于构建一套生成用户表示嵌入向量的二分加权图. 二分图中加权边的引入,有利于更好地挖掘用户点击与否的显式反馈下隐藏的兴趣,更加贴近点击率预估任务的真实业务场景. 2) MMa4CTR以用户的邻居节点模态信息和用户自身的辅助信息共同生成用户的嵌入向量,能够充分挖掘短视频的多模态信息、用户的辅助信息与用户兴趣之间的联系. 3) 短视频的多模态信息往往是高维向量,数据量膨胀会导致深度学习模型训练困难. MMa4CTR使用计算开销更小的多层感知机来预估点击率,尽可能地在保证模型推荐性能的前提下提升其训练和推理速度.

1. 相关工作

1.1. 点击率预估任务

在电商商品推荐、个性化内容投放以及广告投放等多媒体类互联网应用场景中,将用户的每一次点击行为都视作表示其个性化偏好的一种展示[13],由此产生了大量的点击率预估任务. 点击率预估需要从用户的历史行为操作中学习其兴趣,并以此为基础来预测其未来的行为. 作为推荐系统的核心组件,点击率预估任务一直是学术界和工业界的关注热点[3]. 在该类任务中,经过训练的模型对从未见过的用户-物品样本对进行推理,预测其为正样本(即该用户点击该物品)的概率.

1.2. 多模态学习

模态是事物的客观呈现形式,当所研究的对象包含多种可提取、可分析的模态时,这个对象可以被描述为多模态的(multi-modal). 从人脸识别、语音识别发展到复杂的交互式生成大模型GPT-4[14],多模态机器学习一直是热点领域.

在较为早期的工作中,视觉贝叶斯个性化排序(visual Bayesian personalized ranking,VBPR)[11]将视觉模态融入推荐系统中,利用矩阵分解来预测用户偏好,使用贝叶斯个性化排序[15]来训练模型的分析和推理,能较好地缓解冷启动问题;加入注意力的协同过滤(attentive collaborative filtering,ACF)[12]利用ResNet-152从图像和视频帧中提取模态信息用于模型训练. 但是,这2项工作都缺乏用户对不同模态偏好的建模,而多模态图卷积网络(multi-modal graph convolution network,MMGCN)[16]则改进了这一点. MMGCN在视觉、声音和文本模态下各自构建一个用户-短视频二分图,并利用邻居节点的拓扑结构来丰富每个节点表示,其能够学习到用户-短视频二分图中更高阶的连通性,其推荐性能较同时期协同过滤模型有了明显提升.

在近期的工作中,多模态主题学习(multi-modal topic learning,MTL)[17]改进了缺乏语义主题信息的特征制约推荐系统性能的问题,显式地将主题生成、推荐任务分开,利用标签、标题和封面图像这3种模态信息离线生成主题,并且根据主题来划分用户兴趣、进行推荐,该系统已经部署在腾讯快报信息流平台上. 多头多模态深度兴趣网络(multi-head multi-modal deep interest network,MMDIN)[18]在DIN模型的基础上增加了多头和多模态模块,既丰富了特征集合又增强了模型的交叉组合与拟合能力,该模型包括3个重要模块:多模态模块提取了视频封面的图像特征,扩充了模型可以学习的特征集合,从而使得模型具有更强的表达能力;注意力模块依据用户对已经交互过的视频的评分进行加权;多头残差网络模块对特征向量进行压缩后进行评分预测. MMDIN取得了优于其同时期的推荐算法的性能.

多模态自监督学习(multi-modal self-supervised learning,MMSSL)[19]认为现有的多模态推荐方法具有严重依赖大量标签信息的局限性,受到用于数据增强的自监督学习方法的启发,MMSSL利用双阶段自监督学习范式从稀疏标注的多模态数据中生成监督信号. 具体来说,MMSSL的模态感知协同关系学习能够在细粒度水平上探索用户和短视频之间的隐含关系;交叉模态依赖建模则用于探索用户的多样化兴趣. 在亚马逊和抖音数据集上,MMSSL取得了同时期多模态推荐工作中最优的性能.

1.3. 图神经网络

图神经网络凭借其捕捉用户-短视频之间高阶相关性结构的能力成为了多模态推荐的主流基础方案. 多模态知识图注意力网络(multi-modal knowledge graph attention,MMGAT)[20]是第1项将多模态知识图纳入推荐系统的工作,其模型从2个方面对多模态知识图进行建模:实体信息聚合通过聚合每个实体的邻居节点来丰富实体本身的表示;实体关系推理通过三元组评分函数来构建推理关系. MMGAT模型的另一个优势在于不需要知识图中的每个实体都有多模态信息,降低了对数据集质量的要求. 用于点击率预估的多模态超图(hypergraph click-through rate,HyperCTR)[21]改进了此前点击率预估任务中主要利用单模态内容来学习物品表示的不足,基于可以连接2个及以上节点的超边来对图模型进行增强,从而缓解每个模态下用户和短视频之间交互稀疏的问题. 精细化图卷积网络(graph-refined convolutional network,GRCN)[22]认为之前的基于用户-短视频交互图的推荐工作未能把假正样本(如用户无意中点开的视频、用户的好友转发过来的视频)的噪声剔除出去,因此设计了可以根据训练状态调整交互图结构的自适应精细化模型,其模型包括图精细化层、图卷积层和预测层,其实验结果比未剔除假正样本噪声的MMGCN模型更优.

相比于现有工作,所提出的MMa4CTR模型通过用户交互过的短视频多模态信息和用户自身的辅助信息来生成用户的嵌入表示,充分学习用户对不同模态内容的兴趣;通过对多模态特征进行交叉或者组合的方式,充分挖掘不同模态信息之间共同的潜在语义信息;计算点击率预估值的方式采用具有计算开销更小、网络架构更简易的多层感知机,能缓解多模态的高维向量带来的数据膨胀导致深度学习模型训练困难的问题,增加模型整体的可扩展度.

2. MMa4CTR模型

2.1. 定义

定义1 用户-短视频交互二分加权图. 用户和短视频之间的交互可以建模成二分图$ G=\left(U,I\right) $,其中,$ U $表示用户集,$ I $表示短视频集. $ U\cap I=\varnothing $,因此$ G $是一个二分图. 如果某一个用户$ {u}_{m}({u}_{m}\in U) $观看了某一条短视频$ {i}_{n}({i}_{n}\in I) $,则称节点$ {u}_{m} $$ {i}_{n} $之间有一次交互,将边$ \left({u}_{m},{i}_{n}\right) $添加到二分图$ G $中. 进一步,依据用户和短视频交互后的显式点击反馈行为,还可将交互分为正向交互(即用户显式地进行了点赞、收藏这类点击行为)和负向交互(用户观看该短视频后无点击行为),相对应的用户-短视频样本对称为正样本和负样本,相对应的图中的边标注为$ \left({u}_{m},{i}_{n},1\right) $$ \left({u}_{m},{i}_{n},0\right) $,即二分图$ G $是一个加权图.

定义2 用户的辅助信息描述. 从数据集中提取用户$ u $的辅助信息,如年龄、性别、地域、设备等,将其处理成向量化的标签值后可以生成用户画像$ {u}_{\mathrm{i}\mathrm{n}\mathrm{f}\mathrm{o}} $. 用户画像即为平台对用户身份的描述,可以用来协助挖掘用户的个性化兴趣.

定义3 短视频的多模态描述. 对于每条短视频$ i $,提取其视觉、声音和文本模态,并处理成向量表达形式,每条特定的短视频$ i $对应的模态描述向量$ {\boldsymbol{V}}_{i}=\left[{\boldsymbol{V}}_{i\mathrm{v}},{\boldsymbol{V}}_{i\mathrm{a}},{\boldsymbol{V}}_{i\mathrm{t}}\right] $,其中,$ {\boldsymbol{V}}_{i\mathrm{v}} $为视觉模态向量,$ {\boldsymbol{V}}_{i\mathrm{a}} $为声音模态向量,$ {\boldsymbol{V}}_{i\mathrm{t}} $为文本模态向量. 所有的短视频模态向量组合生成模态描述矩阵$ {\boldsymbol{M}}={\left[{\boldsymbol{V}}_{1},\cdots ,{\boldsymbol{V}}_{n}\right]}^{\mathrm{T}} $. 在收集自真实场景的数据集中,存在部分模态信息缺失的短视频,将“缺失”也视作一种类型,其值设置为$ 0 $.

2.2. MMa4CTR模型整体架构

MMa4CTR模型的目标是从已有的用户-短视频交互记录中,通过分析用户辅助信息和短视频多模态信息来挖掘用户对多模态特征的兴趣,从而预测用户对一个没有交互过的短视频的点击率. 根据用户对推荐候选池中各个短视频的点击概率预估值进行排序,生成针对该用户的个性化的推荐列表.

MMa4CTR首先从用户浏览和点击记录表中构建二分加权图. 图中,用户节点的邻居为与其交互过的短视频节点,依据点击行为对图中的每条交互边进行加权,有点击则权重为1、无点击则权重为0,无交互则不存在边. 从短视频多模态数据集中提取每条视频的3种模态下的属性值,经由特征工程处理成向量长度对齐、向量数值归一化的特征矩阵. 每个用户的邻居节点的模态特征,用以生成该用户的多模态信息的嵌入;每条交互边的权重,用以生成用户多模态嵌入卷积降维操作中的卷积核. 接着,MMa4CTR将每个用户的多模态嵌入向量和其辅助信息向量进行拼接,得到各个用户的低维嵌入向量. 节点的特征经过拼接、交叉、降维处理后,MMa4CTR组合每个用户的嵌入向量和其邻居节点的特征向量以及两者间的点击关系,生成用于神经网络训练的全特征矩阵和点击标签. 模型的核心神经网络是全连接的多层感知机,其输出值经过预测层,计算出用户点击未交互过的短视频的概率,该概率即为点击率预估值.

2.3. 用户嵌入层

生成用户嵌入(embedding)向量,需要依次经过卷积操作、池化操作和拼接操作.

用户$ {u}_{k} $的多模态嵌入矩阵$ {\boldsymbol{E}}_{k} $$ {u}_{k} $交互过的一系列短视频集合$ {I}_{k}=\left\{{i}_{j}\left|\right({u}_{k},{i}_{j})\in G\right\} $,即所有邻居节点的多模态特征拼接而成;用户$ {u}_{k} $的降维卷积核$ {\mathbf{C}\mathbf{F}}_{k} $$ {u}_{k} $邻边的权重生成. 假设每条短视频多模态向量$ \boldsymbol{v}\in {\mathbf{R}}^{m} $,用户$ {u}_{k} $交互过的$ n $个短视频$ \mathrm{i}\mathrm{d} $号和是否点击序列为$ \{\left({i}_{k1},{c}_{k1}\right), \cdots ,\left({i}_{kn},{c}_{kn}\right)\} $$\left({c_{ki}} \in \left\{ {0,1} \right\}\right) $,则多模态嵌入矩阵$ {\boldsymbol{E}}_{k}={\left[{\boldsymbol{v}}_{k1}, \cdots ,{\boldsymbol{v}}_{kn}\right]}^{\mathrm{T}}\in {\mathbf{R}}^{n\times m} $,卷积核$ {\bf{CF}}_k^{\rm{T}} = \left[ {{\rm{c}}{{\rm{f}}_1},{\rm{c}}{{\rm{f}}_2}, \cdots ,{\rm{c}}{{\rm{f}}_n}} \right] \in {{\bf{R}}^n},{\rm{c}}{{\rm{f}}_i} = \left\{ {\begin{array}{*{20}{l}}{1,} &{{c_{ki}} = 1}\\{ - 1,} &{其他}\end{array}} \right.,1 \le i \le n $.

在矩阵$ {\boldsymbol{E}}_{k} $上,以步长为$ 1 $使用核$ \mathbf{C}{\mathbf{F}}_{k} $进行卷积操作:$ {{\boldsymbol{E}}_{k}^{\mathrm{c}}: = \boldsymbol{E}}_{k} \otimes \mathbf{C}{\mathbf{F}}_{k}=\left[{\boldsymbol{e}}_{k}^{1},{\boldsymbol{e}}_{k}^{2},\cdots ,{\boldsymbol{e}}_{k}^{m}\right] \otimes \mathbf{C}{\mathbf{F}}_{k}= \left[{\boldsymbol{e}}_{k}^{1}\cdot \mathbf{C}{\mathbf{F}}_{k},{\boldsymbol{e}}_{k}^{2}\cdot \mathbf{C}{\mathbf{F}}_{k},\cdots ,{\boldsymbol{e}}_{k}^{m}\cdot \mathbf{C}{\mathbf{F}}_{k}\right]\in {\mathbf{R}}^{1\times m} $. 其中$ \otimes $表示卷积操作,$ \cdot $表示向量内积,$ {\boldsymbol{e}}_{k}^{i} $为矩阵$ {\boldsymbol{E}}_{k} $的第$ i $个列向量. 对卷积输出结果$ {\boldsymbol{E}}_{k}^{\mathrm{c}} $进行平均池化操作,池化窗口大小$ {w}_{\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}} $须依据用户多模态嵌入向量维度$ {L}_{m} $(通常为较小的正整数)的超参数来计算:$ {w}_{\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}}=m-{L}_{m}+1 $. 池化窗口以$ 1 $为步长沿着$ {\boldsymbol{E}}_{k}^{\mathrm{c}} $移动,对窗口内的结果求平均值,由此得到的池化结果$ {\boldsymbol{E}}_{k}^{\mathrm{p}}\in {\mathbf{R}}^{1\times {L}_{m}} $,池化操作的结果即为用户的多模态嵌入. 将用户$ {u}_{k} $的模态嵌入$ {\boldsymbol{E}}_{k}^{\mathrm{p}} $与其辅助信息$ {\boldsymbol{E}}_{k}^{\mathrm{i}\mathrm{n}\mathrm{f}\mathrm{o}}\in {\mathbf{R}}^{1\times {L}_{\mathrm{i}\mathrm{n}\mathrm{f}\mathrm{o}}} $进行拼接操作得到该用户的嵌入表达.

2.4. 多模态信息的特征交叉与特征组合

短视频的视觉、声音和文本信息之间是高度相关的,因此MMa4CTR模型通过对每条短视频的3种模态信息进行特征交叉、特征组合的方式,来探索模态之间的相关性和其共同的潜藏语义.

将特征组合即3个模态向量分别进行两两拼接或者3项拼接;特征交叉即对3个向量分别进行两两哈达玛积运算或者3项依次进行哈达玛积运算. 计算出来的特征向量通常是高维的,MMa4CTR模型使用主成分分析算法进行降维处理. 主成分分析算法的时间复杂度为$ O\left(n{d}^{2}+{d}^{3}\right) $,空间复杂度为$ O\left(nd\right) $$ n $为数据数量,$ d $为特征维数,因此该操作是MMa4CTR模型的一个时耗瓶颈. 哈达玛积运算的时间空间复杂度均为$ O\left(q\right) $$ q $为参与运算的向量长度,且哈达玛积运算均发生在模态向量完成降维之后,因此该步骤的计算开销远远小于主成分分析.

2.5. 用于点击率预估的多层感知机

多层感知机的输入矩阵的行向量对应到二分加权图$ G $的边,边$ \left({u}_{m},{i}_{n}\right) $所对应的行向量$ {\boldsymbol{v}}_{mn} $为用户节点$ {u}_{m} $的多模态嵌入、$ {u}_{m} $的辅助信息以及短视频节点$ {i}_{n} $的特征向量的拼接. 每条边对应的行向量组成输入矩阵的全特征部分,边的权重即为点击标签,也是模型需要预估的结果.

多层感知机由3~4个全连接层构成,其具体的层数和每个全连接层上的神经元个数根据输入特征矩阵的维度自适应调整. 利用模型输出值$ \widehat{y} $与真实标注值$ y $计算模型的二分类交叉熵损失函数:

$ L\left(\widehat{y},y\right)=-\frac{1}{n}\displaystyle\sum _{x\in D}\left(y\mathrm{ln}\;\widehat{y}+\left(1-y\right)\mathrm{ln}\;\left(1-\widehat{y}\right)\right). $

式中:$ n $为训练中的样本总量.

在反向传播的随机梯度下降步骤中,MMa4CTR模型选择了综合考虑梯度的一阶矩估计(等价于梯度均值)和二阶矩估计(等价于梯度方差)的Adam优化器来计算更新步长. 此外,MMa4CTR模型还设置了2套机制来更好地进行迭代优化:自动半衰机制和验证中断机制. 自动半衰机制是指学习率每经过5轮训练就衰减为原来的一半,这是因为在模型训练初期使用较大的学习率可以避免落入局部最优解且加快模型收敛速度,在模型训练中后期使用较小的学习率则可以更加逼近较优解的邻近区间,不会产生较大幅度的性能波动. 在验证中断机制中,如果在验证集上计算出的曲线下面积(area under the curve, AUC)过低(小于等于$ 0.5 $,即随机猜测模型的理论结果),意味着本轮训练效果较差;撤销本轮训练的迭代结果,恢复到开始本轮训练前的模型参数和轮次计数;调整学习率,尽可能地优化新一轮的学习效果;直到本轮次取得了较好的验证结果,就可以退出该处理流程,进行下一阶段的训练或者测试. 验证中断机制的流程图如图1所示.

图 1

图 1   验证中断机制的流程图

Fig.1   Flowchart of validation interruption mechanism


多层感知机输出层连接到预测层,预测层的输出值即为MMa4CTR模型的最终输出结果,代表发生点击的概率预估值. 预测层使用的是$ \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $函数,该函数能够将整个实空间映射到$ 0 $~$ 1.0 $的概率值:

$ \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\;\left(x\right)=\frac{1}{1+{{\mathrm{e}}}^{-x}}. $

分析多层感知机的时间、空间复杂度. 每个训练批次中有$ n $个样本,每个样本有$ m $个特征,多层感知机有$ k $个隐藏层,其神经元个数依次为$ \{{h}_{1},\cdots ,{h}_{k}\} $,输出层有$ o $个神经元,且须迭代$ i $轮,则其时间复杂度为$ O\left(nmoi{\displaystyle\sum }_{j=1}^{k}{h}_{j}\right) $. 空间复杂度即为其模型参数量,由于MMa4CTR的多层感知机采用全连接层且不设有丢失(dropout)机制,其模型参数量等于所有相邻神经层的神经元个数积的和:$ \left|{\varTheta }\right|=m{h}_{1}+{\displaystyle\sum }_{j=1}^{k-1}\left({h}_{j}{h}_{j+1}\right)+{h}_{k}o $.

3. 实验评估

3.1. 数据集

使用$ 2021 $年微信大数据挑战赛的视频号数据集和$ 2019 $年字节跳动(抖音)短视频推荐竞赛的数据集. 2个数据集均具有视觉、声音和文本3种多模态信息. 按照8∶1∶1的比例划分为彼此互不相交的训练集、验证集和测试集,本研究所有推荐模型的实验结果均为测试集上的推理结果.

3.2. 性能对比实验

基线模型均使用开源推荐系统代码库RecBole[23]实现,选取的基线模型有BPR[15]、FPMC[24]、NGCF[25]、LightGCN[26]、BERT4Rec[27]、GCSAN[28]、DIN[8]、DIEN[9].

3.2.1. 推荐性能对比实验

选用受试者特征曲线(receiver operating characteristic, ROC)的曲线下面积(AUC)作为评价各个模型推荐性能的指标.

微信和抖音数据集上的实验结果分别如表12所示. 表中,最优异的性能结果用粗体标识,次优的性能结果用下划线标识,AUC@后数字表示训练轮次,I表示MMa4CTR相较于最优基线的性能的升高幅度. 可以看出,在微信数据集上$ 5 $组不同训练轮次的实验中,DIN均是推荐性能最优异的基线模型,而具有多模态信息加强的MMa4CTR的表现则显著高于所有基线模型,且在多轮实验中MMa4CTR相较于最优异的基线模型性能提高幅度一直高于$ 10{\text{%}} $. 在抖音数据集上的$ 5 $组不同训练轮次的实验中,BERT4Rec、GCSAN和DIEN分别取得过基线模型中最优异的推荐性能,MMa4CTR的推荐性能依旧显著高于基线模型,且相较于最优异的基线模型在推荐性能上的提高幅度高于40% .

表 1   微信数据集上的推荐性能对比

Tab.1  Rec-performance comparison on WeChat

模型AUC@10AUC@20AUC@30AUC@50
BPR0.51130.59810.63860.6716
FPMC0.52040.63380.67610.7038
NCGF0.61120.61590.63100.6612
LightGCN0.50680.56630.61100.6744
BERT4Rec0.74780.75660.77160.7714
GCSAN0.74450.75080.75340.7834
DIN0.832 40.843 60.849 80.849 4
DIEN0.79720.79870.80280.8027
MMa4CTR0.95270.94210.94060.9468
I/%14.4511.6810.6811.47

新窗口打开| 下载CSV


表 2   抖音数据集上的推荐性能对比

Tab.2  Rec-performance comparison on TikTok

模型AUC@10AUC@20AUC@30AUC@50
BPR$ 0.380\;5 $$ 0.380\;5 $$ 0.382\;8 $$ 0.389\;7 $
FPMC$ 0.401\;5 $$ 0.407\;0 $$ 0.413\;3 $$ 0.427\;3 $
NCGF$ 0.440\;1 $$ 0.438\;2 $$ 0.447\;5 $$ 0.455\;6 $
LightGCN$ 0.386\;3 $$ 0.386\;2 $$ 0.386\;2 $$ 0.386\;2 $
BERT4Rec0.584 40.583 40.629 50.535 9
GCSAN0.586 90.482 90.455 00.473 6
DIN$ 0.508\;7 $$ 0.546\;9 $$ 0.548\;0 $$ 0.561\;9 $
DIEN0.578 80.578 70.578 70.578 7
MMa4CTR$ {\boldsymbol{0.889\;5}} $$ {\boldsymbol{0.890\;2}} $$ {\boldsymbol{0.891\;0}} $$ {\boldsymbol{0.888\;4}} $
I/%$ 51.55$$ 52.58 $$ 41.54 $$ 53.51 $

新窗口打开| 下载CSV


3.2.2. 计算性能对比实验

在计算性能对比实验中,超参数设置与推荐性能对比实验中的相同. 本实验比较各个模型的训练时间、推理时间和模型可训练的参数数目. 其在微信数据集和抖音数据集上的实验结果分别如表34所示. 表中,$ {T}_{\mathrm{t}} $表示训练时间,$ {T}_{\mathrm{i}} $表示推理时间,$ N $表示参数个数. 可以看出,基于统计学习方法的BPR模型的训练和推理所需时间相对较少,而序列模型和图卷积模型的时间开销则显著较大,比如GCSAN,其同时使用了挖掘局部特征的图卷积算子和挖掘全局特征的自注意力算子,即图学习方法和序列学习方法并用. MMa4CTR的神经网络部分的计算时间消耗较少,且所需要训练的参数也显著少于其他基线模型,这既得益于在保证推荐性能的前提下尽可能使用更少的隐藏层数和神经元数的设计理念,也得益于多层感知机本身的计算性能优势.

表 3   微信数据集上的计算性能对比

Tab.3  Compute-performance comparison on WeChat

模型Tt/sTi/sN
BPR 54.77 45 7 460 224
FPMC 62.43 48 19 820 544
NCGF 126.54 109 7 485 184
LightGCN 91.54 79 7 460 224
BERT4Rec 471.41 317 6 915 904
GCSAN 4756.09 4385 6 908 032
DIN 170.44 108 1 449 310
DIEN 643.73 243 1 587 847
MMa4CTR 180.78 17 29 225

新窗口打开| 下载CSV


表 4   抖音数据集上的计算性能对比实验

Tab.4  Compute-performance comparison on TikTok

模型$ {T}_{\mathrm{t}}/{\mathrm{s}} $$ {T}_{\mathrm{i}}/{\mathrm{s}} $$ N $
BPR 619.19 601 195 060 416
FPMC 549.91 399 584 966 336
NCGF 1332.28 799 195 085 376
LightGCN 1929.59 1908 195 060 416
BERT4Rec 71639.71 5060 195 056 384
GCSAN 44006.24 37142 195 048 512
DIN 643.46 574 30 761 840
DIEN 2315.56 1464 30 900 377
MMa4CTR 163.80 23 26 025

新窗口打开| 下载CSV


3.3. 消融实验

为了研究模型结构设计对推荐性能的影响,针对用户多模态嵌入向量、多模态特征交互、验证中断与学习率自动半衰这4个重要模块设计6类变体. 其中针对多模态特征交互方式的4个变体如下:分别用3个多模态之间两两组合、3个多模态之间两两交叉、3个多模态交叉、仅使用单一的模态(无模态交互)来取代3种多模态信息拼接. 另外2个变体分别为删除用户多模态嵌入表示或者改变多模态嵌入的长度、删除验证中断机制和学习率自动半衰机制.

在消融实验中,变体模型均只改变MMa4CTR中的一个方面,其余超参数设置和架构设置如无特殊说明则和MMa4CTR保持相同设置. 训练轮次采用$ 10 $$ 30 $这2种.

1)多模态信息两两组合. 将每条短视频的视觉、声音和文本3个模态向量两两拼接,在微信数据集和抖音数据集上的实验结果如表5所示. 可以看出,不同的模态组合之间推荐性能相差较小,在微信数据集的实验中同批次下最大的AUC相对差(相对差=(最大值−最小值)/最大值)分别为$ 0.756{\text{%}} $$ 0.504{\text{%}} $,在抖音数据集的实验中同批次下最大的AUC相对差分别为$ 0.033{\text{%}} $$ 0.303{\text{%}} $. 2种模态拼接与3种模态拼接的推荐性能差异也较小,在微信数据集的实验中同批次下最显著的AUC相对差分别为$ 0.829{\text{%}} $$ 1.180{\text{%}} $,在抖音数据集的实验中同批次下最显著的AUC相对差分别为$ 0.101{\text{%}} $$ 0.337{\text{%}} $.

表 5   多模态信息两两组合的推荐性能

Tab.5  Rec-performance via pairwise combination of multi-modal information

组合WeChatTikTok
AUC@10AUC@30AUC@10AUC@30
视觉+声音$ 0.944\;8 $$ 0.949\;7 $$ 0.888\;6 $$ 0.888\;0 $
视觉+文本$ 0.952\;0 $$ 0.951\;7 $$ 0.888\;9 $$ 0.888\;0 $
声音+文本$ 0.951\;3 $$ 0.946\;9 $$ 0.888\;6 $$ 0.890\;7 $

新窗口打开| 下载CSV


2) 多模态信息两两交叉.将每条短视频的视觉、声音、文本向量两两做哈达玛积,在微信数据集和抖音数据集上的实验结果如表6所示. 可以看出,不同组的模态交叉之间推荐性能相差较小,在微信数据集上的实验中同批次下最大的AUC相对差分别为$ 0.598{\text{%}} $$ 0.902{\text{%}} $,在抖音数据集上的实验中同批次下最大的AUC相对差分别为$ 0.461{\text{%}} $$ 0.223{\text{%}} $. 2种模态拼接与3种模态拼接的推荐性能差异也较小,在微信数据集上的实验中同批次下最显著的AUC相对差分别为$ 0.713{\text{%}} $$ 1.260{\text{%}} $,在抖音数据集上的实验中同批次下最显著的AUC相对差分别为$ 0.481{\text{%}} $$ 0.246{\text{%}} $. 此外,对比相同双模态对的组合与交叉2种方式,同一训练批次下其AUC绝对差不超过$ 0.01 $,说明哈达玛积交叉的结果和拼接组合的结果输入多层感知机后,多层感知机均能学习到相适应的权重.

表 6   多模态信息两两交叉的推荐性能

Tab.6  Rec-performance via pairwise cross of multi-modal information

组合WeChatTikTok
AUC@10AUC@30AUC@10AUC@30
视觉+声音$ 0.945\;9 $$ 0.943\;9 $$ 0.891\;5 $$ 0.892\;1 $
视觉+文本$ 0.951\;6 $$ 0.950\;3 $$ 0.889\;7 $$ 0.891\;2 $
声音+文本$ 0.951\;6 $$ 0.952\;5 $$ 0.893\;8 $$ 0.893\;2 $

新窗口打开| 下载CSV


3) 3种多模态信息交叉. 将每条短视频的视觉、声音、文本向量依次做哈达玛积运算,在微信数据集上,训练10轮和30轮时模型的推荐性能AUC分别为0.9512和0.9499;在抖音数据集上,训练10轮和30轮时模型的推荐性能AUC分别为0.8911和0.8942. 可以看出,在同一训练批次内,3种多模态信息交叉和组合2种方式下,在微信数据集上的实验中相对差分别为$ 0.157{\text{%}} $$ 0.988{\text{%}} $,在抖音数据集上的实验中相对差分别为$ 0.179{\text{%}} $$ 0.357{\text{%}} $,绝对差均不超过$ 0.01 $. 这一步验证了,特征工程中的哈达玛积和拼接组合方式可以根据实际业务场景灵活选择,其对MMa4CTR的推荐性能影响较小.

4) 仅分别使用单一的模态. 取消掉特征工程中挖掘不同模态之间关联交互的步骤,仅使用单模态信息进行推荐. 在微信和抖音数据集上的实验结果如表7所示. 可以看出,没有经过特征工程中的交叉或者组合操作,每种模态信息单独的推荐性能,相较于MMa4CTR中采用的3种模态组合方案,在微信数据集的实验中AUC分别下降了$ 2.823{\text{%}} $$ 1.392{\text{%}} $,在抖音数据集的实验中AUC分别下降$ 0.202{\text{%}} $$ 0.190{\text{%}} $. 可见,不挖掘多模态之间的相关交互,会对推荐性能有小幅度的负面影响.

表 7   单一模态的推荐性能

Tab.7  Rec-performance via single modal

模态WeChatTikTok
AUC@10AUC@30AUC@10AUC@30
视觉$ 0.947\;2 $$ 0.946\;3 $$ 0.822\;1 $$ 0.887\;3 $
声音$ 0.944\;2 $$ 0.942\;9 $$ 0.886\;8 $$ 0.887\;3 $
文本$ 0.886\;2 $$ 0.893\;5 $$ 0.894\;2 $$ 0.893\;3 $
平均$ 0.925\;9 $$ 0.927\;6 $$ 0.867\;7 $$ 0.889\;3 $

新窗口打开| 下载CSV


5) 删除或者改变用户的多模态嵌入向量. 由用户的邻居节点的多模态信息生成的该用户的多模态嵌入向量,是挖掘用户对短视频多模态兴趣的关键. 对该步骤的消融分2种,一种是彻底不做用户的多模态嵌入,仅以userid作为唯一标识,但保留辅助信息嵌入;另一种是改变多模态嵌入的长度,用户辅助信息嵌入长度不受影响. MMa4CTR中设置的用户多模态嵌入长度为21. 在微信数据集和抖音数据集上的实验结果分别如表8所示. 表中,L为用户多模态嵌入长度. 可以看出,是否有用户多模态嵌入,对模型的推荐性能影响最大. 不生成用户的多模态嵌入,该推荐算法几乎不具有使用价值,由此可见,挖掘用户对短视频多模态兴趣的嵌入技术给推荐性能带来了质的提升. 多模态嵌入本身的长度对推荐性能影响不大的核心原因在于全连接的多层感知机所具有的全局视野,本身就能够较好地拟合向量的各个维度之间的关系,能够自适应地学习到各个维度的权重.

表 8   不同用户多模态嵌入长度的推荐性能

Tab.8  Rec-performance with different length of user's multi-modal embeddings

lWeChatTikTok
AUC@10AUC@30AUC@10AUC@30
$ 0 $$ 0.616\;2 $$ 0.621\;3 $$ 0.576\;1 $$ 0.578\;3 $
$ 5 $$ 0.949\;9 $$ 0.951\;2 $$ 0.891\;0 $$ 0.890\;2 $
$ 11 $$ 0.951\;1 $$ 0.941\;8 $$ 0.889\;5 $$ 0.888\;4 $
$ 15 $$ 0.945\;3 $$ 0.948\;4 $$ 0.890\;0 $$ 0.888\;0 $
$ 21 $$ 0.952\;7 $$ 0.940\;6 $$ 0.889\;5 $$ 0.891\;0 $
$ 30 $$ 0.947\;8 $$ 0.945\;6 $$ 0.889\;1 $$ 0.887\;5 $

新窗口打开| 下载CSV


6) 禁用验证中断机制和学习率自动半衰机制. 验证中断和学习率自动半衰是MMa4CTR模型训练过程中重要的迭代优化机制. 本消融实验对比了开启和禁用这2个机制时MMa4CTR训练过程中的训练损失和验证损失下降趋势以及测试集上的推荐性能. 在微信数据集上,开启和禁用这2个机制,模型的AUC分别为0.9483和0.9016;在抖音数据集上,开启和禁用这2个机制,模型的AUC分别为0.8886和0.8769. 可以看出,禁用验证中断和学习率自动半衰这2个迭代优化机制,在微信数据集和抖音数据集上的推荐性能分别下降了$ 4.924{\text{%}} $$ 1.316{\text{%}} $,说明迭代优化机制能够小幅提升MMa4CTR模型的推荐性能.

综上,用户嵌入层的用户多模态嵌入生成模块对MMa4CTR推荐性能影响最大,特征工程中挖掘模态之间彼此相关交互的交叉算子或者组合算子的影响次之. 用户多模态嵌入的维度和特征交互中采用的算子种类可以根据实际业务场景来灵活选择,在本研究的实验探索范围内,其变化对推荐性能的影响并不显著,这得益于多层感知机对任意函数的拟合能力以及全连接层对列维度的全局感知野. 从上述消融实验的结果中,可以分析出3个重要结论:1)用户多模态嵌入生成的过程能够有效挖掘不同用户对短视频多模态特征的兴趣;2)短视频的各种模态信息之间在自然语义(面向用户)和特征向量(面向模型)上均是高度相关的,采用组合或者交叉的特征交互方式能够进一步增强推荐模型学习到模态之间相关性的能力;3)验证中断机制和学习率自动半衰机制分别通过监视验证集上推荐性能来保证本轮次训练的有效性,通过训练初期使用较大学习率、训练后期使用较小学习率的策略提升了MMa4CTR的收敛性,两者共同用于MMa4CTR模型的迭代优化,小幅提升了推荐性能.

3.4. 超参数敏感性实验

MMa4CTR模型重要的超参数有$ 3 $个:训练轮次(epoch)、学习率(learning rate)和批处理大小(batch size). 本节实验旨在通过控制变量法,每次改变一个超参数设置,通过推荐性能的变化来量化分析MMa4CTR对不同超参数的敏感程度.

1) 训练轮次改变对模型推荐性能的影响.

超参数训练轮次等价于模型遍历训练总体空间的次数. 通常来说,如果训练轮次不足,模型会出现欠拟合,即未能学到总体空间中数据分布特点;如果训练轮次过多,则模型会表现出过拟合,即在验证集上性能优异,但是在测试集上性能表现不佳.

在研究训练轮次对推荐性能影响的实验中,其测试集上推理所用的权重参数取自最后一轮训练迭代后的结果,其余的超参数之类的变量均保持不变. 在微信数据集和抖音数据集上的实验结果分别如图23所示. 可以看出,在微信数据集和抖音数据集上各自$ 20 $组实验中,最佳结果与最差结果绝对差值分别为$ 0.046\;7 $$ 0.055\;2 $,相对比例分别为$ 4.910{\text{%}} $$ 6.185{\text{%}} $. 当模型训练轮次高于$ 80 $时,其出现过拟合可能性显著上升. 随着训练批次增加,MMa4CTR的推荐性能曲线呈现一定的波动,而波动的相对幅度不大,一部分可能原因是权重初始化的随机性,模型可能落入了与全局最优解差距较大的局部最优解.

图 2

图 2   微信数据集上训练轮次对推荐性能的影响

Fig.2   Impact of epochs on rec-performance on WeChat


图 3

图 3   抖音数据集上训练轮次对推荐性能的影响

Fig.3   Impact of epochs on rec-performance on TikTok


2) 学习率改变对模型推荐性能的影响.

学习率为模型训练过程中反向传播时模型参数更新的步长. 如果学习率过大,权重参数更新步长过大,则有可能导致模型性能振荡,即在较优解附近徘徊,始终进入不到较优解附近较小的邻域内;如果学习率过小,权重参数更新步长过小,则有可能导致收敛速度慢、容易陷入局部最优解的问题.

在研究学习率超参数对MMa4CTR性能影响的实验中,为了提升实验结果的可靠程度,暂且关闭了自动半衰和验证中断2套机制,即每一个训练轮次的学习率与初始值相同且不会依据验证集上计算出来的AUC对训练进行调整. 训练轮次设置为$ 10 $$ 30 $,在微信数据集和抖音数据集上的实验结果如表9所示. 可以看出,当学习率为$ 0.010 $$ 0.005 $时,MMa4CTR陷入了性能震荡,即由于权重更新步长过大,其无法靠近收敛点附近的较小邻域. 当学习率缩小到$ 0.002 $及以下时,推荐性能得到了显著提升,AUC均保持在可用水准以上,说明模型得到了有效收敛. 当学习率进一步降低时,模型的推荐性能略有下跌,这可能有两方面的原因:学习率过小导致模型陷入了性能更差一些的局部收敛点,或者学习率过小导致模型梯度下降缓慢,从而在有限的训练轮次内模型还未能充分逼近该局部最优点.

表 9   学习率对推荐性能的影响

Tab.9  Impact of learning rate on rec-performance

学习率WeChatTikTok
AUC@10AUC@30AUC@10AUC@30
0.01000 0.5000 0.7433 0.7025 0.5000
0.00500 0.5003 0.5000 0.8518 0.5000
0.00200 0.9178 0.9329 0.8938 0.8919
0.00100 0.9521 0.9406 0.8899 0.8843
0.00050 0.9479 0.9435 0.8871 0.8888
0.00020 0.9470 0.9516 0.8898 0.8867
0.00010 0.9427 0.9485 0.8909 0.8908
0.00005 0.9473 0.9453 0.8893 0.8924
0.00002 0.9494 0.9426 0.8902 0.8892
0.00001 0.9443 0.9489 0.8926 0.8890

新窗口打开| 下载CSV


3) 批处理大小改变对模型推荐性能的影响.

批处理大小等于一次前向反向传播中训练样本空间的大小,等价于模型单次迭代中所采样的样本空间大小,代表着模型的并行化能力. 批处理大小的值设置过小,等价于每次模型迭代更新权重时的采样空间过小,过小的采样空间不能反映样本总体的数据分布特点,容易导致欠拟合、模型难以收敛,而且越小的批处理大小意味着越多的迭代次数,延长了训练时间. 反之,批处理大小的值设置过大,即采样空间过大,虽然能够一定程度上更加贴近总体分布情况,但是容易导致过拟合、模型泛化程度降低,并且要占用计算机设备更高的内存.

在研究批处理大小的实验中,除了批处理大小外,其他设置均保持不变. 训练轮次设置为$ 10 $$ 30 $,在微信数据集和抖音数据集上的实验结果分别如折线图45所示. 图中,B为批处理大小. 可以看出,在训练轮次分别为$ 10 $$ 30 $的2组实验中,在微信数据集上,批次大小设置为$ 16\;384 $的组均取得了最佳的推荐性能;在抖音数据集上,批次大小设置为$ 32\;768 $$ 2\;048 $的组分别取得了最佳推荐性能. 随着批处理规模的进一步降低,模型的推荐性能有明显的下降趋势,即单次迭代样本量不足导致的欠拟合. 设置更大的批次大小,其性能较设置为$ 16\;384 $的组有所下降,则有可能是由于模型的过拟合. 图中,B为批处理大小.

图 4

图 4   微信数据集上批处理大小对推荐性能的影响

Fig.4   Impact of batch size on rec-performance on WeChat


图 5

图 5   抖音数据集上批处理大小对推荐性能的影响

Fig.5   Impact of batch size on rec-performance on TikTok


4. 结 语

MMa4CTR使用多模态信息来增强推荐系统性能,以卷积操作和平均池化操作从用户的邻居短视频节点的多模态信息来生成该用户个性化的多模态嵌入表示,以拼接操作或者哈达玛积操作来挖掘每条短视频各自多模态信息的交互特征,这2个设计使得MMa4CTR能够有效挖掘用户对多模态信息的兴趣以及短视频不同模态信息中所隐藏的相同的深层次语义. MMa4CTR以最小的训练参数规模和较短的训练推理时间取得了在点击率预估任务上超越了$ 8 $个基线模型的优异性能,这证明了其整体设计的可用性和有效性.

MMa4CTR模型具有一定的局限性. 首先,MMa4CTR所构建的用户-短视频交互二分加权图中,未包含代表用户交互短视频行为发生的真实世界时间戳特征. 在实际生产应用中,用户群体观看短视频往往是利用碎片化的通勤时间、排队时间,而在不同的时间段内,用户的心境不同可能导致其兴趣点发生一定的偏移,因此可以将用户交互路径上节点标注的时间戳加入到用户嵌入表达中,从而挖掘用户在不同时间段内的兴趣迁移,可以进一步精细化短视频推荐系统. 此外,挖掘用户交互的历史序列下潜藏的长短期兴趣已在电商推荐和外卖推荐中均取得了广泛研究,因此可以迁移思考,用户点击反馈短视频的路径下,是否也潜藏了用户的兴趣特征. 这需要将MMa4CTR中的二分加权图进一步扩充为有向图,即通过有向边来标注交互路径. 路径采样可以通过控制卷积核的大小来完成,卷积核的采样起始点和尺寸决定了在不同长度的路径中挖掘到的用户长期兴趣和短期兴趣.

参考文献

LINDEN G, SMITH B, YORK J

2003. Amazon. com recommendations: item-to-item collaborative filtering

[J]. IEEE Internet Computing, 2003, 7 (1): 76- 80

DOI:10.1109/MIC.2003.1167344      [本文引用: 1]

RICHARDSON M, DOMINOWSKA E, RAGNO R. Predicting clicks: estimating the click-through rate for new ads [C]// Proceedings of the 16th International Conference on World Wide Web . Banff Alberta: Association for Computing Machinery, 2007: 521–530.

[本文引用: 1]

ZHANG W, QIN J, GUO W, et al. Deep learning for click-through rate estimation [C]// Proceedings of the 30th International Joint Conference on Artificial Intelligence . [s. l.]: International Joint Conferences on Artificial Intelligence Organization, 2021: 4695–4703.

[本文引用: 2]

SEDHAIN S, KRISHN MENON A, SANNER S, et al. AutoRec: autoencoders meet collaborative filtering [C]// Proceedings of the 24th International Conference on World Wide Web . Florence: Association for Computing Machinery, 2015: 111–112.

[本文引用: 1]

SHAN Y, HOENS R, JIAO J, et al. Deep crossing: web-scale modeling without manually crafted combinatorial features [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . San Francisco California: Association for Computing Machinery, 2016: 255–262.

[本文引用: 1]

HE X, LIAO L, ZHANG H, et al. Neural collaborative filtering [C]// Proceedings of the 26th International Conference on World Wide Web . Perth: Republic and Canton of Geneva, 2017: 173–182.

[本文引用: 1]

QU Y, FANG B, ZHANG W, et al

Product-based neural networks for user response prediction over multi-field categorical data

[J]. ACM Transactions on Information Systems, 2019, 37 (1): 1- 35

[本文引用: 1]

ZHOU G, ZHU X, SONG C, et al. Deep interest network for click-through rate prediction [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . London: Association for Computing Machinery, 2018: 1059–1068.

[本文引用: 2]

ZHOU G, MOU N, FAN Y, et al. Deep interest evolution network for click-through rate prediction [C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence and 31st Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence . Honolulu: AAAI Press, 2019: 5941–5948.

[本文引用: 2]

LIN Q, XIE R, CHEN L, et al. Graph neural network for tag ranking in tag-enhanced video recommendation [C]// Proceedings of the 29th ACM International Conference on Information and Knowledge Management . [s. l.]: Association for Computing Machinery, 2020: 2613–2620.

[本文引用: 1]

HE R, MCAULEY J. VBPR: visual Bayesian Personalized Ranking from implicit feedback [C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence . Phoenix Arizona: AAAI Press, 2016: 144–150.

[本文引用: 2]

CHEN J, ZHANG H, HE X, et al. Attentive collaborative filtering: multimedia recommendation with item- and component-level attention [C]// Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval . Shinjuku Tokyo: Association for Computing Machinery, 2017: 335–344.

[本文引用: 2]

FAN H, POOLE, M

What is personalization? perspectives on the design and implementation of personalization in information systems

[J]. Journal of Organizational Computing and Electronic Commerce, 2006, 16 (3/4): 179- 202

[本文引用: 1]

ACHIAM J, ADLER S, AGARWAL S, et al. GPT-4 Technical Report [R/OL]. (2023-03-15) [2023-12-24]. https://arxiv.org/abs/2303.08774.

[本文引用: 1]

RENDLE S, FREUENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback [C]// Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence . Montreal Quebec: AUAI Press, 2009: 452–461.

[本文引用: 2]

WEI Y, WANG X, NIE L, et al. MMGCN: multi-modal graph convolution network for personalized recommendation of micro-video [C]// Proceedings of the 27th ACM International Conference on Multimedia . Nice: Association for Computing Machinery, 2019: 1437–1445.

[本文引用: 1]

PU S, HE, Y, LI Z, et al. Multi-modal topic learning for video recommendation [EB/OL]. (2020-10-26) [2023-12-24]. https://arxiv.org/abs/2010.13373.

[本文引用: 1]

YANG M, LI S, PENG Z, et al

Multi-head multi-modal deep interest recommendation network

[J]. Knowledge-Based Systems, 2023, 276 (C): 110869

[本文引用: 1]

WEI W, HUANG C, XIA L, et al. Multi-modal self-supervised learning for recommendation [C]// Proceedings of the ACM Web Conference . Austin Texas: Association for Computing Machinery, 2023: 790−800.

[本文引用: 1]

SUN R, CAO X, ZHAO Y, et al. Multi-modal knowledge graphs for recommender systems [C]// Proceedings of the 29th ACM International Conference on Information and Knowledge Management . [s. l.]: Association for Computing Machinery, 2020: 1405–1414.

[本文引用: 1]

HE L, CHEN H, WANG D, et al. Click-through rate prediction with multi-modal hypergraphs [C]// Proceedings of the 30th ACM International Conference on Information and Knowledge Management . Queensland: Association for Computing Machinery, 2021: 690–699.

[本文引用: 1]

WEI Y, WANG X, NIE L, et al. Graph-refined convolutional network for multimedia recommendation with implicit feedback [C]// Proceedings of the 28th ACM International Conference on Multimedia . Seattle Washington: Association for Computing Machinery, 2020: 3541–3549.

[本文引用: 1]

ZHAO W, MU S, HOU Y, et al. RecBole: towards a unified, comprehensive and efficient framework for recommendation algorithms [C]// Proceedings of the 30th ACM International Conference on Information and Knowledge Management . Queensland: Association for Computing Machinery, 2021: 4653–4664.

[本文引用: 1]

RENDLE S, FREUDENTHALER C, SCHMIDT-THIEME L. Factorizing personalized Markov chains for next-basket recommendation [C]// Proceedings of the 19th International Conference on World Wide Web . Raleigh North Carolina: Association for Computing Machinery, 2010: 811–820.

[本文引用: 1]

WANG X, HE X, WANG M, et al. Neural graph collaborative filtering [C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval . Paris: Association for Computing Machinery, 2019: 165–174.

[本文引用: 1]

HE X, DENG K, WANG X, et al. LightGCN: simplifying and powering graph convolution network for recommendation [C]// Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval . [s. l.]: Association for Computing Machinery, 2020: 639–648.

[本文引用: 1]

SUN F, LIU J, WE J, et al. BERT4Rec: sequential recommendation with bidirectional encoder representations from transformer [C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management . Beijing: Association for Computing Machinery, 2019: 1441–1450.

[本文引用: 1]

XU C, ZHAO P, LIU Y, et al. Graph contextualized self-attention network for session-based recommendation [C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence . Macao: AAAI Press, 2019: 3940–3946.

[本文引用: 1]

/