源域数据增强与多兴趣细化迁移的跨域推荐模型
Cross-domain recommendation model based on source domain data augmentation and multi-interest refinement transfer
通讯作者:
收稿日期: 2023-11-19
基金资助: |
|
Received: 2023-11-19
Fund supported: | 国家自然科学基金资助项目(62141201);重庆市自然科学基金资助项目(CSTB2022NSCQ-MSX1672);重庆市教育委员会科学技术研究计划资助项目(KJZD-M202201102);重庆理工大学研究生教育高质量发展行动计划资助项目(gzlcx20233203). |
作者简介 About authors
尹雅博(1999—),男,硕士生,从事推荐系统的研究.orcid.org/0009-0008-6597-6932.E-mail:
针对跨域推荐任务中源域用户交互数据不丰富所导致的兴趣偏好建模困难问题,以及多个兴趣之间的关联被忽略问题,提出源域数据增强与多兴趣细化迁移的跨域推荐模型. 该模型引入源域数据增强策略,为每个用户在源域中生成经过去噪处理的辅助序列,缓解用户在源域中的交互数据稀疏问题,获得更丰富的用户兴趣偏好. 使用双序列多兴趣提取模块和多兴趣细化迁移模块,完成兴趣提取与多个兴趣的细化迁移. 在基于3个公开跨域推荐评测任务的对比实验中,与最优的基线相比,提出方法的平均MAE降低了22.86%,平均RMSE降低了19.65%,取得了最优的性能表现,证明了提出方法的有效性.
关键词:
A cross-domain recommendation model that utilizes source domain data augmentation and multi-interest refinement transfer was proposed in order to address the issues of difficulty in modeling interest preferences in cross-domain recommendation tasks caused by the lack of user interaction data in the source domain, as well as the problem of ignored associations between multiple interests. A source-domain data augmentation strategy was introduced, generating a denoised auxiliary sequence for each user in the source domain. Then the sparsity of user interaction data in the source domain was alleviated, and enriched user interest preferences were obtained. The interest extraction and multi-interest refinement transfer were implemented by utilizing the dual sequence multi-interest extraction module and the multi-interest refinement transfer module. Three publicly cross-domain recommendation evaluation tasks were conducted. The proposed model achieved the best performance compared with the best baseline, reducing the average MAE by 22.86% and the average RMSE by 19.65%, which verified the effectiveness of the method.
Keywords:
本文引用格式
尹雅博, 朱小飞, 刘议丹.
YIN Yabo, ZHU Xiaofei, LIU Yidan.
尽管之前的跨域推荐方法已经在解决冷启动问题方面已经取得了较大的成功,但是在这些工作中忽略了用户在源域中的交互信息可能不丰富这一事实. 以被广泛使用的亚马逊(Amazon)数据集为例,在Book域中交互长度≤10的用户占全部用户的68.4%,在Movie域中交互长度≤10的用户占全部用户的71.7%. 尽管与冷启动的目标域相比,源域中用户的交互数据相对丰富,但源域中多数用户的交互商品数量存在严重的不足. 过于稀疏的用户交互数据可能会导致无法有效地建模用户的兴趣偏好,从而在跨域迁移的过程中取得次优的结果.
针对之前工作中存在的问题,本文提出源域数据增强与多兴趣细化迁移的跨域推荐模型(cross-domain recommendation model based on source domain data augmentation and multi-interest refinement transfer,CDR-ART)来解决上述问题. 针对源域中用户交互数据稀疏的问题,本文提出应用于跨域推荐场景的源域数据增强策略,通过为用户生成额外的辅助序列,显式地挖掘用户的潜在兴趣. 对于用户存在的多个相互关联的兴趣,本文使用双序列多兴趣提取模块和多兴趣细化迁移模块,实现提取多个兴趣与进行用户表示的多兴趣细化迁移. 最终在3个公开跨域推荐评测任务中,CDR-ART的性能优于现存的基线模型,证明了本文提出方法的有效性。
1. 相关工作
1.1. 跨域推荐
近年来,越来越多的研究人员关注跨域推荐研究. Singh等[10]提出通过建模跨领域的全局用户嵌入表示来解决目标域中用户的冷启动问题. Pan等[11]提出的整合迁移学习的协同过滤(transfer learning in collaborative filtering,CST)通过使用源域中用户的嵌入表示作为目标域用户嵌入表示的初始表征,并进行微调,提高目标域中对用户推荐的准确性. 在Man等[6]的工作中指出,通过2个域中的共享用户来学习用户嵌入表示的映射函数,能够有效地实现跨域知识迁移. Zhu等[8]提出在学习映射函数的同时,可以通过考虑不同领域中用户交互的稀疏程度来指导训练过程. Cao等[12]通过探索不同领域中相似的商品,从商品的角度来解决跨域推荐问题. 在Li等[13]提出的深度双向迁移的跨域推荐(deep dual transfer cross domain recommendation,DDTCDR)中指出之前的工作没有考虑用户和商品的双向潜在关系,提出双元学习策略,实现了领域与领域之间的对偶迁移. 在Zhu等[9]提出的用户偏好个性化迁移的跨域推荐(personalized transfer of user preferences for cross-domain recommendation,PTUPCDR)工作中,对源域中的用户交互序列进行个性化偏好的提取,并使用元网络将用户兴趣偏好从源域迁移到目标域,实现了个性化的跨域推荐. 在自监督信号挖掘及利用上,Zhao等[14]通过引入自监督学习来挖掘跨领域的用户对商品的兴趣不变性,实现跨域场景下用户兴趣对齐. Xie等[15]提出对比跨域推荐模型(contrastive cross-domain recommendation,CCDR),通过引入对比学习,更好地实现表征学习及跨域迁移.
1.2. 多兴趣推荐
由于用户的兴趣偏好往往不是单一且独立的,仅用一个嵌入表示来表示用户的多个兴趣,会对兴趣表达的准确性造成限制. 在MIND[18]中使用动态路由机制[19](dynamic routing mechanism),从用户的多个行为中提取多个兴趣. Cen等[20]指出胶囊网络不是唯一提取多兴趣的方式,提出使用注意力机制来实现多兴趣提取. 在UMI[21]中对动态路由机制进行改进,将用户的属性融合进入兴趣提取的过程. 在MINER[22]中通过将多兴趣的方法应用到新闻推荐领域,从一个用户的交互新闻序列中使用注意力机制建模多个兴趣偏好,并使用目标感知的注意力网络[23](target-aware attention network),根据不同的候选新闻生成最终的评分.
2. 模型简介
提出的CDR-ART的整体模型框架如图1所示. 该模型包括以下3个主要的部分. 1)双序列多兴趣提取模块,用以提取用户交互商品序列及辅助序列中蕴含的多个兴趣偏好. 2)多兴趣细化迁移模块,用以实现用户多个兴趣与用户嵌入的融合及细化迁移. 3)评分预测模块,采用自适应的聚合策略来生成最终对候选商品的预测评分.
图 1
2.1. 问题定义
跨域推荐通过迁移用户在源域中丰富交互信息,对目标域中的商品进行推荐. 在跨域推荐任务中,源域的用户集合记为
2.2. 单域模型预训练与辅助序列生成
在实现跨域推荐之前,对源域与目标域中的用户与商品进行预训练,获得2个域中用户与商品的嵌入表示,为每个冷启动用户生成辅助序列. 整体的流程如图2所示.
图 2
图 2 单域预训练与用户辅助序列生成
Fig.2 Single domain pre-training and user auxiliary sequence generation
2.2.1. 单域模型预训练
式中:
通过对上述损失进行优化,可以获得源域中第i个用户与第j个商品的嵌入表示
2.2.2. 辅助序列生成
在进行跨域推荐的过程中,之前的工作通过将用户在源域中较丰富的交互信息迁移到目标域中,生成目标域的用户嵌入表示. 用户在源域中过少的交互数量会直接影响跨域推荐的性能. 受GraphDA[24]的启发,通过挖掘用户源域中潜在的交互商品来实现源域交互商品的增强,从而更好地建模用户兴趣偏好.
给定用户
对于用户
式中:
与用户真实发生的对商品交互相比,筛选出的
式中:
式中:
2.3. 双序列多兴趣提取
在基于映射的跨域推荐[9]方法中,仅在用户对商品的交互序列中提取用户兴趣偏好向量,将这个兴趣偏好融合到跨域推荐中. 一个用户的兴趣偏好往往存在多个且多个兴趣之间存在关联,将多个兴趣偏好聚合到一个向量表示中, 可能会损害用户多个兴趣的准确表达. 为了解决上述问题, 提出使用双序列多兴趣提取模块,从用户在源域中的交互序列和生成的辅助序列中分别提取多个兴趣,实现将源域中用户多个兴趣嵌入表示的解耦.
在多兴趣提取上,基于注意力的多兴趣提取已经被证明是有效的方法[21, 25]. 该方法通过引入可学习的注意力权重实现用户交互商品的软聚类,提取用户蕴含在交互商品中的多个兴趣偏好. 具体来说,对于用户
为了从用户
式中:
式中:
对于用户
式中:
由于交互嵌入矩阵
2.4. 多兴趣细化迁移
根据多兴趣提取的过程可知,用户的多个兴趣的提取是相互独立的,但这样的提取过程忽略了兴趣与兴趣之间可能存在的关联. 为了在跨域迁移中更好地细化用户的兴趣,受FRNet[26]的启发,本文提出多兴趣细化迁移模块,在实现用户嵌入表示跨域映射的同时,融合多个被细化的兴趣.
具体来说,通过将用户
式中:broadcast表示向量的广播操作,
针对兴趣与兴趣之间关联被忽略的问题,通过引入自注意层(self-attention layer)作为兴趣交互层,将融合了不同兴趣偏好的用户嵌入进行充分地交互. 为了避免融合了不同兴趣偏好的用户嵌入表示在细化的过程中被过度地平滑,通过使用残差连接来实现在感知其他兴趣进行细化的同时,保持兴趣之间的差异性.
式中:
使用前馈神经网络(FFN),将用户
式中:
2.5. 评分预测与模型优化
2.5.1. 评分预测
对于目标域用户
式中:
2.5.2. 模型优化
在模型的参数优化上,采用任务导向的优化方式来训练优化整个模型,具体的优化目标损失如下:
式中:
3. 实验分析
3.1. 实验设置
3.1.1. 数据集和评价指标
表 1 任务定义及数据统计
Tab.1
任务 | 领域 | 用户数量 | 商品数量 | 交互评分数量 | ||||||||
源域 | 目标域 | 源域 | 目标域 | 重叠 | 源域 | 目标域 | 源域 | 目标域 | ||||
任务1 | Movie | Music | 123 960 | 75 258 | 18 031 | 50 052 | 64 443 | 1 697 533 | 1 097 592 | |||
任务2 | Book | Movie | 603 668 | 123 960 | 37 388 | 367 982 | 50 052 | 8 898 041 | 1 697 533 | |||
任务3 | Book | Music | 603 668 | 75 258 | 16 738 | 367 982 | 64 443 | 8 898 041 | 1 097 592 |
用户对商品的评分为1~5分,为了公平起见,在实验中使用的指标与Zhu等[9]的工作保持一致,使用平均绝对误差(mean absolute error, MAE)和均方根绝对误差(root mean square error, RMSE)来评估不同模型的性能. 指标的计算方式如下:
式中:
3.1.2. 实施细节和基线模型
在整体的实验设置中,批处理大小设置为512,学习率设置为0.01,使用Adam优化器对模型参数进行优化. 对于其他的超参数,检索潜在交互商品数量
提出的CDR-ART是基于映射的跨域推荐算法,在模型的跨域推荐过程中不使用商品和用户的额外信息,如商品的类别、用户性别和用户年龄等. 为了保持场景的一致性,本方法的比较对象是基于映射且不使用辅助信息的跨域推荐算法. 本文选择以下的基线模型进行对比.
1) TGT[9]. TGT为仅使用目标域中的交互数据进行模型训练的推荐方法,考虑到冷启动用户没有对商品的交互信息,这会导致无法为用户学习到合适的用户嵌入表示.
2) CMF[10]. CMF通过对多个领域的交互数据进行混合训练,为用户学习不同领域通用的用户嵌入表示.
3) EMCDR[6]. EMCDR学习用户在源域和目标域中的嵌入表示,通过源域与目标域的重叠用户来学习跨域映射函数.
4) DCDCSR[8]. DCDCSR在EMCDR的基础上考虑将不同领域的稀疏程度作为辅助信息整合到跨域迁移过程中,减小交互稀疏领域中不准确的用户嵌入表示对跨域推荐性能的损害.
5) SSCDR[7]. SSCDR为了缓解2个领域之间重叠用户的稀疏问题,在EMCDR上引入不重叠用户作为额外的辅助信号,有效地增强了模型的性能.
6) PTUPCDR[9]. PTUPCDR为每个用户提取个性化偏好,将个性化偏好通过元网络转换成个性化桥,实现用户的个性化跨域迁移映射.
3.2. 结果对比与分析
3.2.1. 总体性能实验
表 2 模型在3个任务上的总体表现
Tab.2
任务 | 模型 | MAE | RMSE | |||||
β=20% | β=50% | β=80% | β=20% | β=50% | β=80% | |||
任务1 | TGT | 4.480 3 | 4.498 9 | 4.502 0 | 5.158 0 | 5.173 6 | 5.189 1 | |
CMF | 1.520 9 | 1.689 3 | 2.418 6 | 2.015 8 | 2.227 1 | 3.093 6 | ||
DCDCSR | 1.491 8 | 1.814 4 | 2.719 4 | 1.921 0 | 2.343 9 | 3.306 5 | ||
SSCDR | 1.301 7 | 1.376 2 | 1.504 6 | 1.657 9 | 1.747 7 | 1.922 9 | ||
EMCDR | 1.235 0 | 1.327 7 | 1.500 8 | 1.551 5 | 1.664 4 | 1.877 1 | ||
PTUPCDR | 1.150 4 | 1.280 4 | 1.404 9 | 1.519 5 | 1.638 0 | 1.823 4 | ||
CDR-ART | 0.812 3 | 0.958 3 | 1.176 7 | 1.160 0 | 1.337 2 | 1.545 7 | ||
任务2 | TGT | 4.183 1 | 4.228 8 | 4.212 3 | 4.753 6 | 4.792 0 | 4.814 9 | |
CMF | 1.363 2 | 1.581 3 | 2.157 7 | 1.791 8 | 2.088 6 | 2.677 7 | ||
DCDCSR | 1.397 1 | 1.673 1 | 2.361 8 | 1.734 6 | 2.055 1 | 2.770 2 | ||
SSCDR | 1.239 0 | 1.213 7 | 1.317 2 | 1.652 6 | 1.560 2 | 1.702 4 | ||
EMCDR | 1.116 2 | 1.183 2 | 1.315 6 | 1.412 0 | 1.498 1 | 1.643 3 | ||
PTUPCDR | 0.997 0 | 1.089 4 | 1.199 9 | 1.331 7 | 1.439 5 | 1.591 6 | ||
CDR-ART | 0.874 4 | 0.922 7 | 0.997 2 | 1.159 1 | 1.241 2 | 1.322 6 | ||
任务3 | TGT | 4.487 3 | 4.507 3 | 4.620 4 | 5.167 2 | 5.172 7 | 5.230 8 | |
CMF | 1.828 4 | 2.128 2 | 3.013 0 | 1.382 9 | 2.727 5 | 3.694 8 | ||
DCDCSR | 1.841 1 | 2.173 6 | 3.140 5 | 2.295 5 | 2.677 1 | 3.584 2 | ||
SSCDR | 1.541 4 | 1.473 9 | 1.641 4 | 1.928 3 | 1.844 1 | 2.140 3 | ||
EMCDR | 1.352 4 | 1.473 2 | 1.719 1 | 1.673 7 | 1.800 0 | 2.111 9 | ||
PTUPCDR | 1.228 6 | 1.376 4 | 1.578 4 | 1.608 5 | 1.744 7 | 2.051 0 | ||
CDR-ART | 0.869 7 | 0.978 7 | 1.131 2 | 1.244 3 | 1.324 0 | 1.515 5 |
从表2可知,CDR-ART在所有任务上均取得最优性能,与最优的基线PTUPCDR相比,CDR-ART在所有任务上的平均MAE降低了22.86%,平均RMSE降低了19.65%. 相对于其他2个任务而言,任务2的提升相对较小,MAE平均下降了14.97%,RMSE下降了14.67%. 一个可能的原因是任务2的重叠用户最多,几乎所有的基线模型都可以通过大量的重叠用户来学习较优的映射函数. 在重叠数据稀疏的任务1和任务3中,与其他基线模型相比,提出的CDR-ART表现更优,体现出CDR-ART在重叠数据稀疏场景下的优势.
3.2.2. 消融实验
为了验证提出CDR-ART模型中源域数据增强策略与多兴趣细化模块的有效性,从CDR-ART中移除各个模块进行比较,其变体如下.
1) w/o aux:去掉模型中的辅助序列,仅从用户对商品的交互序列中提取多个兴趣.
2) w/o refine: 去掉模型中的多兴趣细化迁移模块,使用全连接层,将用户和提取出的多个兴趣进行融合来替代.
3) w/o aux&&refine:同时去掉模型中的辅助序列与兴趣细化模块,从用户对商品的交互序列中提取多个兴趣且不经过兴趣细化.
表 3 CDR-ART在3个任务上的消融实验
Tab.3
任务 | MAE | ||||
CDR-ART | w/o aux | w/o refine | w/o aux&&refine | ||
任务1 | 20 | 0.812 3 | 0.847 0 | 0.865 4 | 0.943 5 |
50 | 0.958 3 | 1.048 7 | 1.041 3 | 1.084 3 | |
80 | 1.176 7 | 1.255 7 | 1.255 9 | 1.342 9 | |
任务2 | 20 | 0.874 4 | 0.887 1 | 0.897 2 | 0.920 2 |
50 | 0.922 7 | 0.935 7 | 0.938 0 | 0.961 8 | |
80 | 0.997 2 | 1.027 4 | 1.026 4 | 1.044 3 | |
任务3 | 20 | 0.869 7 | 0.909 9 | 0.944 5 | 0.972 8 |
50 | 0.978 7 | 1.040 8 | 1.038 7 | 1.080 9 | |
80 | 1.131 2 | 1.189 7 | 1.195 8 | 1.245 9 |
1)去掉本文提出的任意一个模块后,模型的效果均明显下降. 这说明提出的模块起到了积极的作用.
2)在去掉辅助序列模块(w/o aux)后,推荐性能产生的下降表明仅依赖于用户在源域中交互的商品无法充分地挖掘用户在源域中的兴趣偏好,体现出辅助序列在增强用户源域兴趣挖掘方面的积极作用.
3)相对于去掉辅助序列模块而言,去掉兴趣细化模块(w/o refine)对模型的影响更大,这表明兴趣细化在用户兴趣跨域迁移过程中发挥的重要作用.
4)同时去掉辅助序列模块和多兴趣细化模块,模型的性能相比于去掉其中任意一个模块都有显著下降,这说明在提取多个兴趣的基础上,对兴趣进行细化能够提升迁移的效果.
3.2.3. 参数敏感性实验
超参数
表 4
兴趣数量
Tab.4
任务1 | 任务2 | 任务3 | ||||||
MAE | RMSE | MAE | RMSE | MAE | RMSE | |||
2 | 0.819 0 | 1.166 9 | 0.881 1 | 1.161 7 | 0.869 7 | 1.256 6 | ||
4 | 0.822 3 | 1.160 0 | 0.884 0 | 1.159 6 | 0.885 6 | 1.267 7 | ||
6 | 0.817 4 | 1.163 4 | 0.874 4 | 1.160 5 | 0.882 8 | 1.263 3 | ||
8 | 0.823 4 | 1.162 7 | 0.886 9 | 1.163 5 | 0.887 9 | 1.244 3 | ||
10 | 0.812 3 | 1.164 5 | 0.881 9 | 1.159 8 | 0.880 6 | 1.249 1 |
从表4可以看出,当
此外,
图 3
图 3 潜在交互商品的数量对性能的影响
Fig.3 Influence of number of potential interactive item on performance
从图3可知,与不引入辅助交互商品序列(
3.2.4. 模型泛化性实验
图 4
在GMF作为单域的基础模型的设置下,CDR-ART取得了最优的效果. 在任务1和任务3中取得了更大的优势. 在相对困难的任务2中,CDR-ART的性能提升明显. 实验结果验证,提出的跨域推荐方法CDR-ART不太依赖基础模型的选择,具有较强的泛化性能.
3.2.5. 用户交互数量与辅助序列的影响
通过对测试集中拥有不同交互长度的用户进行划分,将用户序列划分为长度≤10的一类和序列长度>10的另一类. 针对这2类用户,使用完整的CDR-ART(full)模型和去掉数据增强策略的CDR-ART变体CDR-ART(w/o aux)分别进行测试,最终的结果如图5所示.
图 5
图 5 CDR-ART(full)与CDR-ART(w/o aux)对源域中交互序列长度不同用户的性能表现
Fig.5 Performance of CDR-ART(full) and CDR-ART(w/o aux) for users with different lengths of interaction sequences in source domain
从实验结果可以看出,交互序列长度大于10且使用数据增强策略的实验设置,在与其他条件相同的对比实验中均取得了最优的结果. 这验证了在源域中拥有丰富交互数据的用户更容易在跨域推荐中取得好的表现. 此外,相对于拥有长序列的用户,提出的数据增强策略对拥有短序列的用户的性能提升更加明显,这验证了本文方法能够有效地解决源域用户的交互数据稀疏问题. 无论是拥有长序列的用户还是短序列的用户,提出的数据增强策略均显著提升了模型的性能,这验证了在跨域推荐的过程中对用户源域的交互序列进行增强的有效性.
3.2.6. 案例分析
为了研究用户潜在交互序列在跨域推荐中的作用,从测试数据中随机采样一名用户,将这名用户真实交互的商品与采样的潜在交互商品进行部分展示,结果如图6所示.
图 6
图 6 被采样用户的部分交互商品案例研究
Fig.6 Case study of sampled user’s partial interaction with items
通过观察用户潜在交互序列中的商品可以发现,用户在源域的潜在交互商品中包含与这名用户真实交互商品相关的商品,如与“健康饮食”相关的书籍. 在跨域推荐的过程中,这种相关的商品可能在建模用户兴趣偏好的准确性上发挥作用. 对于潜在交互中出现的与真实交互商品类型不同的商品,如“惊悚与悬疑”类型的商品,更有可能在挖掘用户源域中的隐式兴趣偏好上发挥作用.
4. 结 语
本文提出基于源域数据增强与多兴趣细化迁移的跨域推荐模型CDR-ART,解决跨域推荐中在源域中用户交互稀疏问题与用户存在多个兴趣且兴趣之间关联的问题. 实验结果表明,本文提出的方法相对于基线模型在3个评测任务上均取得了最优性能. 相对于对目标域冷启动用户推荐性能的提升,如何有效整合用户在多个领域中的交互信息以及将本文方法泛化到更广泛的应用场景值得进一步的探索.
参考文献
Matrix factorization techniques for recommender systems
[J].DOI:10.1109/MC.2009.263 [本文引用: 2]
CaSe4SR: using category sequence graph to augment session-based recommendation
[J].
Modeling user micro-behaviors and original interest via adaptive multi-attention network for session-based recommendation
[J].DOI:10.1016/j.knosys.2022.108567 [本文引用: 1]
/
〈 |
|
〉 |
