<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 验证中断机制的流程图

Fig.1 Flowchart of validation interruption mechanism

多层感知机输出层连接到预测层，预测层的输出值即为MMa4CTR模型的最终输出结果，代表发生点击的概率预估值. 预测层使用的是$ \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $函数，该函数能够将整个实空间映射到$ 0 $~$ 1.0 $的概率值：

(2)$ \mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\;\left(x\right)=\frac{1}{1+{{\mathrm{e}}}^{-x}}. $

分析多层感知机的时间、空间复杂度. 每个训练批次中有$ n $个样本，每个样本有$ m $个特征，多层感知机有$ k $个隐藏层，其神经元个数依次为$ \{{h}_{1},\cdots ,{h}_{k}\} $，输出层有$ o $个神经元，且须迭代$ i $轮，则其时间复杂度为$ O\left(nmoi{\displaystyle\sum }_{j=1}^{k}{h}_{j}\right) $. 空间复杂度即为其模型参数量，由于MMa4CTR的多层感知机采用全连接层且不设有丢失(dropout)机制，其模型参数量等于所有相邻神经层的神经元个数积的和：$ \left|{\varTheta }\right|=m{h}_{1}+{\displaystyle\sum }_{j=1}^{k-1}\left({h}_{j}{h}_{j+1}\right)+{h}_{k}o $.

3. 实验评估

3.1. 数据集

使用$ 2021 $年微信大数据挑战赛的视频号数据集和$ 2019 $年字节跳动(抖音)短视频推荐竞赛的数据集. 2个数据集均具有视觉、声音和文本3种多模态信息. 按照8∶1∶1的比例划分为彼此互不相交的训练集、验证集和测试集，本研究所有推荐模型的实验结果均为测试集上的推理结果.

3.2. 性能对比实验

基线模型均使用开源推荐系统代码库RecBole^[23]实现，选取的基线模型有BPR^[15]、FPMC^[24]、NGCF^[25]、LightGCN^[26]、BERT4Rec^[27]、GCSAN^[28]、DIN^[8]、DIEN^[9].

3.2.1. 推荐性能对比实验

选用受试者特征曲线(receiver operating characteristic, ROC)的曲线下面积(AUC)作为评价各个模型推荐性能的指标.

微信和抖音数据集上的实验结果分别如表1、2所示. 表中，最优异的性能结果用粗体标识，次优的性能结果用下划线标识，AUC@后数字表示训练轮次，I表示MMa4CTR相较于最优基线的性能的升高幅度. 可以看出，在微信数据集上$ 5 $组不同训练轮次的实验中，DIN均是推荐性能最优异的基线模型，而具有多模态信息加强的MMa4CTR的表现则显著高于所有基线模型，且在多轮实验中MMa4CTR相较于最优异的基线模型性能提高幅度一直高于$ 10{\text{%}} $. 在抖音数据集上的$ 5 $组不同训练轮次的实验中，BERT4Rec、GCSAN和DIEN分别取得过基线模型中最优异的推荐性能，MMa4CTR的推荐性能依旧显著高于基线模型，且相较于最优异的基线模型在推荐性能上的提高幅度高于40% .

表 1 微信数据集上的推荐性能对比

Tab.1 Rec-performance comparison on WeChat

模型	AUC@10	AUC@20	AUC@30	AUC@50
BPR	0.5113	0.5981	0.6386	0.6716
FPMC	0.5204	0.6338	0.6761	0.7038
NCGF	0.6112	0.6159	0.6310	0.6612
LightGCN	0.5068	0.5663	0.6110	0.6744
BERT4Rec	0.7478	0.7566	0.7716	0.7714
GCSAN	0.7445	0.7508	0.7534	0.7834
DIN	0.832 4	0.843 6	0.849 8	0.849 4
DIEN	0.7972	0.7987	0.8028	0.8027
MMa4CTR	0.9527	0.9421	0.9406	0.9468
I/%	14.45	11.68	10.68	11.47

表 2 抖音数据集上的推荐性能对比

Tab.2 Rec-performance comparison on TikTok

模型	AUC@10	AUC@20	AUC@30	AUC@50
BPR	$ 0.380\;5 $	$ 0.380\;5 $	$ 0.382\;8 $	$ 0.389\;7 $
FPMC	$ 0.401\;5 $	$ 0.407\;0 $	$ 0.413\;3 $	$ 0.427\;3 $
NCGF	$ 0.440\;1 $	$ 0.438\;2 $	$ 0.447\;5 $	$ 0.455\;6 $
LightGCN	$ 0.386\;3 $	$ 0.386\;2 $	$ 0.386\;2 $	$ 0.386\;2 $
BERT4Rec	0.584 4	0.583 4	0.629 5	0.535 9
GCSAN	0.586 9	0.482 9	0.455 0	0.473 6
DIN	$ 0.508\;7 $	$ 0.546\;9 $	$ 0.548\;0 $	$ 0.561\;9 $
DIEN	0.578 8	0.578 7	0.578 7	0.578 7
MMa4CTR	$ {\boldsymbol{0.889\;5}} $	$ {\boldsymbol{0.890\;2}} $	$ {\boldsymbol{0.891\;0}} $	$ {\boldsymbol{0.888\;4}} $
I/%	$ 51.55$	$ 52.58 $	$ 41.54 $	$ 53.51 $

3.2.2. 计算性能对比实验

在计算性能对比实验中，超参数设置与推荐性能对比实验中的相同. 本实验比较各个模型的训练时间、推理时间和模型可训练的参数数目. 其在微信数据集和抖音数据集上的实验结果分别如表3、4所示. 表中,$ {T}_{\mathrm{t}} $表示训练时间，$ {T}_{\mathrm{i}} $表示推理时间，$ N $表示参数个数. 可以看出，基于统计学习方法的BPR模型的训练和推理所需时间相对较少，而序列模型和图卷积模型的时间开销则显著较大，比如GCSAN，其同时使用了挖掘局部特征的图卷积算子和挖掘全局特征的自注意力算子，即图学习方法和序列学习方法并用. MMa4CTR的神经网络部分的计算时间消耗较少，且所需要训练的参数也显著少于其他基线模型，这既得益于在保证推荐性能的前提下尽可能使用更少的隐藏层数和神经元数的设计理念，也得益于多层感知机本身的计算性能优势.

表 3 微信数据集上的计算性能对比

Tab.3 Compute-performance comparison on WeChat

模型	T_t/s	T_i/s	N
BPR	54.77	45	7 460 224
FPMC	62.43	48	19 820 544
NCGF	126.54	109	7 485 184
LightGCN	91.54	79	7 460 224
BERT4Rec	471.41	317	6 915 904
GCSAN	4756.09	4385	6 908 032
DIN	170.44	108	1 449 310
DIEN	643.73	243	1 587 847
MMa4CTR	180.78	17	29 225

表 4 抖音数据集上的计算性能对比实验

Tab.4 Compute-performance comparison on TikTok

模型	$ {T}_{\mathrm{t}}/{\mathrm{s}} $	$ {T}_{\mathrm{i}}/{\mathrm{s}} $	$ N $
BPR	619.19	601	195 060 416
FPMC	549.91	399	584 966 336
NCGF	1332.28	799	195 085 376
LightGCN	1929.59	1908	195 060 416
BERT4Rec	71639.71	5060	195 056 384
GCSAN	44006.24	37142	195 048 512
DIN	643.46	574	30 761 840
DIEN	2315.56	1464	30 900 377
MMa4CTR	163.80	23	26 025

3.3. 消融实验

为了研究模型结构设计对推荐性能的影响，针对用户多模态嵌入向量、多模态特征交互、验证中断与学习率自动半衰这4个重要模块设计6类变体. 其中针对多模态特征交互方式的4个变体如下：分别用3个多模态之间两两组合、3个多模态之间两两交叉、3个多模态交叉、仅使用单一的模态(无模态交互)来取代3种多模态信息拼接. 另外2个变体分别为删除用户多模态嵌入表示或者改变多模态嵌入的长度、删除验证中断机制和学习率自动半衰机制.

在消融实验中，变体模型均只改变MMa4CTR中的一个方面，其余超参数设置和架构设置如无特殊说明则和MMa4CTR保持相同设置. 训练轮次采用$ 10 $、$ 30 $这2种.

1）多模态信息两两组合. 将每条短视频的视觉、声音和文本3个模态向量两两拼接，在微信数据集和抖音数据集上的实验结果如表5所示. 可以看出，不同的模态组合之间推荐性能相差较小，在微信数据集的实验中同批次下最大的AUC相对差(相对差=(最大值−最小值)/最大值)分别为$ 0.756{\text{%}} $和$ 0.504{\text{%}} $，在抖音数据集的实验中同批次下最大的AUC相对差分别为$ 0.033{\text{%}} $和$ 0.303{\text{%}} $. 2种模态拼接与3种模态拼接的推荐性能差异也较小，在微信数据集的实验中同批次下最显著的AUC相对差分别为$ 0.829{\text{%}} $和$ 1.180{\text{%}} $，在抖音数据集的实验中同批次下最显著的AUC相对差分别为$ 0.101{\text{%}} $和$ 0.337{\text{%}} $.

表 5 多模态信息两两组合的推荐性能

Tab.5 Rec-performance via pairwise combination of multi-modal information

组合	WeChat		TikTok
组合	AUC@10	AUC@30	AUC@10	AUC@30
视觉+声音	$ 0.944\;8 $	$ 0.949\;7 $	$ 0.888\;6 $	$ 0.888\;0 $
视觉+文本	$ 0.952\;0 $	$ 0.951\;7 $	$ 0.888\;9 $	$ 0.888\;0 $
声音+文本	$ 0.951\;3 $	$ 0.946\;9 $	$ 0.888\;6 $	$ 0.890\;7 $

2) 多模态信息两两交叉.将每条短视频的视觉、声音、文本向量两两做哈达玛积，在微信数据集和抖音数据集上的实验结果如表6所示. 可以看出，不同组的模态交叉之间推荐性能相差较小，在微信数据集上的实验中同批次下最大的AUC相对差分别为$ 0.598{\text{%}} $和$ 0.902{\text{%}} $，在抖音数据集上的实验中同批次下最大的AUC相对差分别为$ 0.461{\text{%}} $和$ 0.223{\text{%}} $. 2种模态拼接与3种模态拼接的推荐性能差异也较小，在微信数据集上的实验中同批次下最显著的AUC相对差分别为$ 0.713{\text{%}} $和$ 1.260{\text{%}} $，在抖音数据集上的实验中同批次下最显著的AUC相对差分别为$ 0.481{\text{%}} $和$ 0.246{\text{%}} $. 此外，对比相同双模态对的组合与交叉2种方式，同一训练批次下其AUC绝对差不超过$ 0.01 $，说明哈达玛积交叉的结果和拼接组合的结果输入多层感知机后，多层感知机均能学习到相适应的权重.

表 6 多模态信息两两交叉的推荐性能

Tab.6 Rec-performance via pairwise cross of multi-modal information

组合	WeChat		TikTok
组合	AUC@10	AUC@30	AUC@10	AUC@30
视觉+声音	$ 0.945\;9 $	$ 0.943\;9 $	$ 0.891\;5 $	$ 0.892\;1 $
视觉+文本	$ 0.951\;6 $	$ 0.950\;3 $	$ 0.889\;7 $	$ 0.891\;2 $
声音+文本	$ 0.951\;6 $	$ 0.952\;5 $	$ 0.893\;8 $	$ 0.893\;2 $

3) 3种多模态信息交叉. 将每条短视频的视觉、声音、文本向量依次做哈达玛积运算，在微信数据集上，训练10轮和30轮时模型的推荐性能AUC分别为0.9512和0.9499；在抖音数据集上，训练10轮和30轮时模型的推荐性能AUC分别为0.8911和0.8942. 可以看出，在同一训练批次内，3种多模态信息交叉和组合2种方式下，在微信数据集上的实验中相对差分别为$ 0.157{\text{%}} $和$ 0.988{\text{%}} $，在抖音数据集上的实验中相对差分别为$ 0.179{\text{%}} $和$ 0.357{\text{%}} $，绝对差均不超过$ 0.01 $. 这一步验证了，特征工程中的哈达玛积和拼接组合方式可以根据实际业务场景灵活选择，其对MMa4CTR的推荐性能影响较小.

4) 仅分别使用单一的模态. 取消掉特征工程中挖掘不同模态之间关联交互的步骤，仅使用单模态信息进行推荐. 在微信和抖音数据集上的实验结果如表7所示. 可以看出，没有经过特征工程中的交叉或者组合操作，每种模态信息单独的推荐性能，相较于MMa4CTR中采用的3种模态组合方案，在微信数据集的实验中AUC分别下降了$ 2.823{\text{%}} $和$ 1.392{\text{%}} $，在抖音数据集的实验中AUC分别下降$ 0.202{\text{%}} $和$ 0.190{\text{%}} $. 可见，不挖掘多模态之间的相关交互，会对推荐性能有小幅度的负面影响.

表 7 单一模态的推荐性能

Tab.7 Rec-performance via single modal

模态	WeChat		TikTok
模态	AUC@10	AUC@30	AUC@10	AUC@30
视觉	$ 0.947\;2 $	$ 0.946\;3 $	$ 0.822\;1 $	$ 0.887\;3 $
声音	$ 0.944\;2 $	$ 0.942\;9 $	$ 0.886\;8 $	$ 0.887\;3 $
文本	$ 0.886\;2 $	$ 0.893\;5 $	$ 0.894\;2 $	$ 0.893\;3 $
平均	$ 0.925\;9 $	$ 0.927\;6 $	$ 0.867\;7 $	$ 0.889\;3 $

5) 删除或者改变用户的多模态嵌入向量. 由用户的邻居节点的多模态信息生成的该用户的多模态嵌入向量，是挖掘用户对短视频多模态兴趣的关键. 对该步骤的消融分2种，一种是彻底不做用户的多模态嵌入，仅以userid作为唯一标识，但保留辅助信息嵌入；另一种是改变多模态嵌入的长度，用户辅助信息嵌入长度不受影响. MMa4CTR中设置的用户多模态嵌入长度为21. 在微信数据集和抖音数据集上的实验结果分别如表8所示. 表中，L为用户多模态嵌入长度. 可以看出，是否有用户多模态嵌入，对模型的推荐性能影响最大. 不生成用户的多模态嵌入，该推荐算法几乎不具有使用价值，由此可见，挖掘用户对短视频多模态兴趣的嵌入技术给推荐性能带来了质的提升. 多模态嵌入本身的长度对推荐性能影响不大的核心原因在于全连接的多层感知机所具有的全局视野，本身就能够较好地拟合向量的各个维度之间的关系，能够自适应地学习到各个维度的权重.

表 8 不同用户多模态嵌入长度的推荐性能

Tab.8 Rec-performance with different length of user's multi-modal embeddings

l	WeChat		TikTok
l	AUC@10	AUC@30	AUC@10	AUC@30
$ 0 $	$ 0.616\;2 $	$ 0.621\;3 $	$ 0.576\;1 $	$ 0.578\;3 $
$ 5 $	$ 0.949\;9 $	$ 0.951\;2 $	$ 0.891\;0 $	$ 0.890\;2 $
$ 11 $	$ 0.951\;1 $	$ 0.941\;8 $	$ 0.889\;5 $	$ 0.888\;4 $
$ 15 $	$ 0.945\;3 $	$ 0.948\;4 $	$ 0.890\;0 $	$ 0.888\;0 $
$ 21 $	$ 0.952\;7 $	$ 0.940\;6 $	$ 0.889\;5 $	$ 0.891\;0 $
$ 30 $	$ 0.947\;8 $	$ 0.945\;6 $	$ 0.889\;1 $	$ 0.887\;5 $

6) 禁用验证中断机制和学习率自动半衰机制. 验证中断和学习率自动半衰是MMa4CTR模型训练过程中重要的迭代优化机制. 本消融实验对比了开启和禁用这2个机制时MMa4CTR训练过程中的训练损失和验证损失下降趋势以及测试集上的推荐性能. 在微信数据集上，开启和禁用这2个机制，模型的AUC分别为0.9483和0.9016；在抖音数据集上，开启和禁用这2个机制，模型的AUC分别为0.8886和0.8769. 可以看出，禁用验证中断和学习率自动半衰这2个迭代优化机制，在微信数据集和抖音数据集上的推荐性能分别下降了$ 4.924{\text{%}} $和$ 1.316{\text{%}} $，说明迭代优化机制能够小幅提升MMa4CTR模型的推荐性能.

综上，用户嵌入层的用户多模态嵌入生成模块对MMa4CTR推荐性能影响最大，特征工程中挖掘模态之间彼此相关交互的交叉算子或者组合算子的影响次之. 用户多模态嵌入的维度和特征交互中采用的算子种类可以根据实际业务场景来灵活选择，在本研究的实验探索范围内，其变化对推荐性能的影响并不显著，这得益于多层感知机对任意函数的拟合能力以及全连接层对列维度的全局感知野. 从上述消融实验的结果中，可以分析出3个重要结论：1）用户多模态嵌入生成的过程能够有效挖掘不同用户对短视频多模态特征的兴趣；2）短视频的各种模态信息之间在自然语义(面向用户)和特征向量(面向模型)上均是高度相关的，采用组合或者交叉的特征交互方式能够进一步增强推荐模型学习到模态之间相关性的能力；3）验证中断机制和学习率自动半衰机制分别通过监视验证集上推荐性能来保证本轮次训练的有效性，通过训练初期使用较大学习率、训练后期使用较小学习率的策略提升了MMa4CTR的收敛性，两者共同用于MMa4CTR模型的迭代优化，小幅提升了推荐性能.

3.4. 超参数敏感性实验

MMa4CTR模型重要的超参数有$ 3 $个：训练轮次(epoch)、学习率(learning rate)和批处理大小(batch size). 本节实验旨在通过控制变量法，每次改变一个超参数设置，通过推荐性能的变化来量化分析MMa4CTR对不同超参数的敏感程度.

1) 训练轮次改变对模型推荐性能的影响.

超参数训练轮次等价于模型遍历训练总体空间的次数. 通常来说，如果训练轮次不足，模型会出现欠拟合，即未能学到总体空间中数据分布特点；如果训练轮次过多，则模型会表现出过拟合，即在验证集上性能优异，但是在测试集上性能表现不佳.

在研究训练轮次对推荐性能影响的实验中，其测试集上推理所用的权重参数取自最后一轮训练迭代后的结果，其余的超参数之类的变量均保持不变. 在微信数据集和抖音数据集上的实验结果分别如图2、3所示. 可以看出，在微信数据集和抖音数据集上各自$ 20 $组实验中，最佳结果与最差结果绝对差值分别为$ 0.046\;7 $和$ 0.055\;2 $，相对比例分别为$ 4.910{\text{%}} $和$ 6.185{\text{%}} $. 当模型训练轮次高于$ 80 $时，其出现过拟合可能性显著上升. 随着训练批次增加，MMa4CTR的推荐性能曲线呈现一定的波动，而波动的相对幅度不大，一部分可能原因是权重初始化的随机性，模型可能落入了与全局最优解差距较大的局部最优解.

图 2

图 2 微信数据集上训练轮次对推荐性能的影响

Fig.2 Impact of epochs on rec-performance on WeChat

图 3

图 3 抖音数据集上训练轮次对推荐性能的影响

Fig.3 Impact of epochs on rec-performance on TikTok

2) 学习率改变对模型推荐性能的影响.

学习率为模型训练过程中反向传播时模型参数更新的步长. 如果学习率过大，权重参数更新步长过大，则有可能导致模型性能振荡，即在较优解附近徘徊，始终进入不到较优解附近较小的邻域内；如果学习率过小，权重参数更新步长过小，则有可能导致收敛速度慢、容易陷入局部最优解的问题.

在研究学习率超参数对MMa4CTR性能影响的实验中，为了提升实验结果的可靠程度，暂且关闭了自动半衰和验证中断2套机制，即每一个训练轮次的学习率与初始值相同且不会依据验证集上计算出来的AUC对训练进行调整. 训练轮次设置为$ 10 $和$ 30 $，在微信数据集和抖音数据集上的实验结果如表9所示. 可以看出，当学习率为$ 0.010 $和$ 0.005 $时，MMa4CTR陷入了性能震荡，即由于权重更新步长过大，其无法靠近收敛点附近的较小邻域. 当学习率缩小到$ 0.002 $及以下时，推荐性能得到了显著提升，AUC均保持在可用水准以上，说明模型得到了有效收敛. 当学习率进一步降低时，模型的推荐性能略有下跌，这可能有两方面的原因：学习率过小导致模型陷入了性能更差一些的局部收敛点，或者学习率过小导致模型梯度下降缓慢，从而在有限的训练轮次内模型还未能充分逼近该局部最优点.

表 9 学习率对推荐性能的影响

Tab.9 Impact of learning rate on rec-performance

学习率	WeChat		TikTok
学习率	AUC@10	AUC@30	AUC@10	AUC@30
0.01000	0.5000	0.7433	0.7025	0.5000
0.00500	0.5003	0.5000	0.8518	0.5000
0.00200	0.9178	0.9329	0.8938	0.8919
0.00100	0.9521	0.9406	0.8899	0.8843
0.00050	0.9479	0.9435	0.8871	0.8888
0.00020	0.9470	0.9516	0.8898	0.8867
0.00010	0.9427	0.9485	0.8909	0.8908
0.00005	0.9473	0.9453	0.8893	0.8924
0.00002	0.9494	0.9426	0.8902	0.8892
0.00001	0.9443	0.9489	0.8926	0.8890

3) 批处理大小改变对模型推荐性能的影响.

批处理大小等于一次前向反向传播中训练样本空间的大小，等价于模型单次迭代中所采样的样本空间大小，代表着模型的并行化能力. 批处理大小的值设置过小，等价于每次模型迭代更新权重时的采样空间过小，过小的采样空间不能反映样本总体的数据分布特点，容易导致欠拟合、模型难以收敛，而且越小的批处理大小意味着越多的迭代次数，延长了训练时间. 反之，批处理大小的值设置过大，即采样空间过大，虽然能够一定程度上更加贴近总体分布情况，但是容易导致过拟合、模型泛化程度降低，并且要占用计算机设备更高的内存.

在研究批处理大小的实验中，除了批处理大小外，其他设置均保持不变. 训练轮次设置为$ 10 $和$ 30 $，在微信数据集和抖音数据集上的实验结果分别如折线图4、5所示. 图中，B为批处理大小. 可以看出，在训练轮次分别为$ 10 $和$ 30 $的2组实验中，在微信数据集上，批次大小设置为$ 16\;384 $的组均取得了最佳的推荐性能；在抖音数据集上，批次大小设置为$ 32\;768 $和$ 2\;048 $的组分别取得了最佳推荐性能. 随着批处理规模的进一步降低，模型的推荐性能有明显的下降趋势，即单次迭代样本量不足导致的欠拟合. 设置更大的批次大小，其性能较设置为$ 16\;384 $的组有所下降，则有可能是由于模型的过拟合. 图中，B为批处理大小.

图 4

图 4 微信数据集上批处理大小对推荐性能的影响

Fig.4 Impact of batch size on rec-performance on WeChat

图 5

图 5 抖音数据集上批处理大小对推荐性能的影响

Fig.5 Impact of batch size on rec-performance on TikTok

4. 结　语

MMa4CTR使用多模态信息来增强推荐系统性能，以卷积操作和平均池化操作从用户的邻居短视频节点的多模态信息来生成该用户个性化的多模态嵌入表示，以拼接操作或者哈达玛积操作来挖掘每条短视频各自多模态信息的交互特征，这2个设计使得MMa4CTR能够有效挖掘用户对多模态信息的兴趣以及短视频不同模态信息中所隐藏的相同的深层次语义. MMa4CTR以最小的训练参数规模和较短的训练推理时间取得了在点击率预估任务上超越了$ 8 $个基线模型的优异性能，这证明了其整体设计的可用性和有效性.

MMa4CTR模型具有一定的局限性. 首先，MMa4CTR所构建的用户-短视频交互二分加权图中，未包含代表用户交互短视频行为发生的真实世界时间戳特征. 在实际生产应用中，用户群体观看短视频往往是利用碎片化的通勤时间、排队时间，而在不同的时间段内，用户的心境不同可能导致其兴趣点发生一定的偏移，因此可以将用户交互路径上节点标注的时间戳加入到用户嵌入表达中，从而挖掘用户在不同时间段内的兴趣迁移，可以进一步精细化短视频推荐系统. 此外，挖掘用户交互的历史序列下潜藏的长短期兴趣已在电商推荐和外卖推荐中均取得了广泛研究，因此可以迁移思考，用户点击反馈短视频的路径下，是否也潜藏了用户的兴趣特征. 这需要将MMa4CTR中的二分加权图进一步扩充为有向图，即通过有向边来标注交互路径. 路径采样可以通过控制卷积核的大小来完成，卷积核的采样起始点和尺寸决定了在不同长度的路径中挖掘到的用户长期兴趣和短期兴趣.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LINDEN G, SMITH B, YORK J

2003. Amazon. com recommendations: item-to-item collaborative filtering

[J]. IEEE Internet Computing, 2003, 7 (1): 76- 80

DOI:10.1109/MIC.2003.1167344 [本文引用: 1]

[2]

RICHARDSON M, DOMINOWSKA E, RAGNO R. Predicting clicks: estimating the click-through rate for new ads [C]// Proceedings of the 16th International Conference on World Wide Web . Banff Alberta: Association for Computing Machinery, 2007: 521–530.

[3]

ZHANG W, QIN J, GUO W, et al. Deep learning for click-through rate estimation [C]// Proceedings of the 30th International Joint Conference on Artificial Intelligence . [s. l.]: International Joint Conferences on Artificial Intelligence Organization, 2021: 4695–4703.

[4]

SEDHAIN S, KRISHN MENON A, SANNER S, et al. AutoRec: autoencoders meet collaborative filtering [C]// Proceedings of the 24th International Conference on World Wide Web . Florence: Association for Computing Machinery, 2015: 111–112.

[5]

SHAN Y, HOENS R, JIAO J, et al. Deep crossing: web-scale modeling without manually crafted combinatorial features [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . San Francisco California: Association for Computing Machinery, 2016: 255–262.

[6]

HE X, LIAO L, ZHANG H, et al. Neural collaborative filtering [C]// Proceedings of the 26th International Conference on World Wide Web . Perth: Republic and Canton of Geneva, 2017: 173–182.

[7]

QU Y, FANG B, ZHANG W, et al

Product-based neural networks for user response prediction over multi-field categorical data

[J]. ACM Transactions on Information Systems, 2019, 37 (1): 1- 35

[8]

ZHOU G, ZHU X, SONG C, et al. Deep interest network for click-through rate prediction [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . London: Association for Computing Machinery, 2018: 1059–1068.

[9]

ZHOU G, MOU N, FAN Y, et al. Deep interest evolution network for click-through rate prediction [C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence and 31st Innovative Applications of Artificial Intelligence Conference and 9th AAAI Symposium on Educational Advances in Artificial Intelligence . Honolulu: AAAI Press, 2019: 5941–5948.

[10]

LIN Q, XIE R, CHEN L, et al. Graph neural network for tag ranking in tag-enhanced video recommendation [C]// Proceedings of the 29th ACM International Conference on Information and Knowledge Management . [s. l.]: Association for Computing Machinery, 2020: 2613–2620.

[11]

HE R, MCAULEY J. VBPR: visual Bayesian Personalized Ranking from implicit feedback [C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence . Phoenix Arizona: AAAI Press, 2016: 144–150.

[12]

CHEN J, ZHANG H, HE X, et al. Attentive collaborative filtering: multimedia recommendation with item- and component-level attention [C]// Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval . Shinjuku Tokyo: Association for Computing Machinery, 2017: 335–344.

[13]

FAN H, POOLE, M

What is personalization? perspectives on the design and implementation of personalization in information systems

[J]. Journal of Organizational Computing and Electronic Commerce, 2006, 16 (3/4): 179- 202

[14]

ACHIAM J, ADLER S, AGARWAL S, et al. GPT-4 Technical Report [R/OL]. (2023-03-15) [2023-12-24]. https://arxiv.org/abs/2303.08774.

[15]

RENDLE S, FREUENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback [C]// Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence . Montreal Quebec: AUAI Press, 2009: 452–461.

[16]

WEI Y, WANG X, NIE L, et al. MMGCN: multi-modal graph convolution network for personalized recommendation of micro-video [C]// Proceedings of the 27th ACM International Conference on Multimedia . Nice: Association for Computing Machinery, 2019: 1437–1445.

[17]

PU S, HE, Y, LI Z, et al. Multi-modal topic learning for video recommendation [EB/OL]. (2020-10-26) [2023-12-24]. https://arxiv.org/abs/2010.13373.

[18]

YANG M, LI S, PENG Z, et al

Multi-head multi-modal deep interest recommendation network

[J]. Knowledge-Based Systems, 2023, 276 (C): 110869

[19]

WEI W, HUANG C, XIA L, et al. Multi-modal self-supervised learning for recommendation [C]// Proceedings of the ACM Web Conference . Austin Texas: Association for Computing Machinery, 2023: 790−800.

[20]

SUN R, CAO X, ZHAO Y, et al. Multi-modal knowledge graphs for recommender systems [C]// Proceedings of the 29th ACM International Conference on Information and Knowledge Management . [s. l.]: Association for Computing Machinery, 2020: 1405–1414.

[21]

HE L, CHEN H, WANG D, et al. Click-through rate prediction with multi-modal hypergraphs [C]// Proceedings of the 30th ACM International Conference on Information and Knowledge Management . Queensland: Association for Computing Machinery, 2021: 690–699.

[22]

WEI Y, WANG X, NIE L, et al. Graph-refined convolutional network for multimedia recommendation with implicit feedback [C]// Proceedings of the 28th ACM International Conference on Multimedia . Seattle Washington: Association for Computing Machinery, 2020: 3541–3549.

[23]

ZHAO W, MU S, HOU Y, et al. RecBole: towards a unified, comprehensive and efficient framework for recommendation algorithms [C]// Proceedings of the 30th ACM International Conference on Information and Knowledge Management . Queensland: Association for Computing Machinery, 2021: 4653–4664.

[24]

RENDLE S, FREUDENTHALER C, SCHMIDT-THIEME L. Factorizing personalized Markov chains for next-basket recommendation [C]// Proceedings of the 19th International Conference on World Wide Web . Raleigh North Carolina: Association for Computing Machinery, 2010: 811–820.

[25]

WANG X, HE X, WANG M, et al. Neural graph collaborative filtering [C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval . Paris: Association for Computing Machinery, 2019: 165–174.

[26]

HE X, DENG K, WANG X, et al. LightGCN: simplifying and powering graph convolution network for recommendation [C]// Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval . [s. l.]: Association for Computing Machinery, 2020: 639–648.

[27]

SUN F, LIU J, WE J, et al. BERT4Rec: sequential recommendation with bidirectional encoder representations from transformer [C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management . Beijing: Association for Computing Machinery, 2019: 1441–1450.

[28]

XU C, ZHAO P, LIU Y, et al. Graph contextualized self-attention network for session-based recommendation [C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence . Macao: AAAI Press, 2019: 3940–3946.