浙江大学学报(工学版), 2023, 57(1): 133-143 doi: 10.3785/j.issn.1008-973X.2023.01.014

计算机技术、通信工程

基于Transformer和知识图谱的新闻推荐新方法

凤丽洲,, 杨阳, 王友卫,, 杨贵军

1. 天津财经大学 统计学院,天津 300222

2. 中央财经大学 信息学院,北京 100081

New method for news recommendation based on Transformer and knowledge graph

FENG Li-zhou,, YANG Yang, WANG You-wei,, YANG Gui-jun

1. School of Statistics, Tianjin University of Finance and Economics, Tianjin 300222, China

2. School of Information, Central University of Finance and Economics, Beijing 100081, China

通讯作者: 王友卫, 男, 副教授. orcid.org/0000-0002-3925-3422. E-mail: ywwang15@126.com

收稿日期: 2022-04-9  

基金资助: 国家自然科学基金资助项目(61906220);国家社科基金资助项目(18CTJ008);教育部人文社科资助项目(19YJCZH178);天津市自然科学基金资助项目(18JCQNJC69600);内蒙古纪检监察大数据实验室2020—2021年度开放课题资助项目(IMDBD202002, IMDBD202004)

Received: 2022-04-9  

Fund supported: 国家自然科学基金资助项目(61906220);国家社科基金资助项目(18CTJ008);教育部人文社科资助项目(19YJCZH178);天津市自然科学基金资助项目(18JCQNJC69600);内蒙古纪检监察大数据实验室2020—2021年度开放课题资助项目(IMDBD202002,IMDBD202004)

作者简介 About authors

凤丽洲(1987—),女,副教授,博士,从事机器学习、数据挖掘的研究.orcid.org/0000-0002-1010-8539.E-mail:flzvg@126.com , E-mail:flzvg@126.com

摘要

为了增加新闻推荐的辅助信息并提高预测精度,提出基于Transformer和知识图谱的新闻推荐方法. 为了结合新闻语义信息和实体信息,利用自注意力机制获取新闻单词之间和新闻实体之间的联系,采用加法注意力机制捕捉单词和实体对新闻表示的影响. 考虑到用户对新闻的偏好具有时序性特点,引入Transformer以捕捉用户点击新闻间的关联信息及用户兴趣随时间的变化情况. 利用知识图谱中的高阶结构信息,融合候选新闻邻接实体,提升候选新闻嵌入向量所含信息的完整性. 在2个版本的MIND新闻数据集上与5个典型推荐方法的对比实验表明,注意力机制、Transformer和知识图谱的引入提高了算法在新闻推荐方面的表现.

关键词: 新闻推荐 ; 知识图谱 ; 注意力机制 ; 新闻实体 ; 高阶结构信息

Abstract

A news recommendation method based on Transformer and knowledge graph was proposed to increase the auxiliary information and improve the prediction accuracy. The self-attention mechanism was used to obtain the connection between news words and news entities in order to combine news semantic information and entity information. The additive attention mechanism was employed to capture the influence of words and entities on news representation. Transformer was introduced to pick up the correlation information between clicked news of user and capture the change of user interest over time by considering the time-series characteristics of user preference for news. High-order structural information in knowledge graphs was used to fuse adjacent entities of the candidate news and enhance the integrity of the information contained in the candidate news embedding vector. The comparison experiments with five typical recommendation methods on two versions of the MIND news dataset show that the introduction of attention mechanism, Transformer and knowledge graph can improve the performance of the algorithm on news recommendation.

Keywords: news recommendation ; knowledge graph ; attention mechanism ; news entity ; high-order structural information

PDF (1590KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

凤丽洲, 杨阳, 王友卫, 杨贵军. 基于Transformer和知识图谱的新闻推荐新方法. 浙江大学学报(工学版)[J], 2023, 57(1): 133-143 doi:10.3785/j.issn.1008-973X.2023.01.014

FENG Li-zhou, YANG Yang, WANG You-wei, YANG Gui-jun. New method for news recommendation based on Transformer and knowledge graph. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(1): 133-143 doi:10.3785/j.issn.1008-973X.2023.01.014

随着互联网的不断发展,用户阅读新闻的来源逐渐从传统的电视或者报纸转为互联网,导致线上新闻阅读量增加. 网上新闻平台从多个信息源获取新闻,在带来海量数据的同时,带来了信息过载的问题. 提高新闻推荐的准确性,改善用户的个性化体验在当前新闻阅读中变得日益重要[1].

传统的基于协同过滤[2]的推荐方法面临数据稀疏和冷启动两大问题[3]. 为了缓解信息不足带来的问题,可以考虑从新闻端和用户端2个方面增加辅助信息. 在新闻端增加辅助信息的研究如下. 1)基于知识图谱嵌入的方法[4-5]:DKN方法[4]采用知识感知卷积神经网络(knowledge-aware convolutional neural networks, KCNN),将新闻语义、新闻实体与实体上下文融合. MKR[5]用交叉压缩单元学习推荐项目和知识图谱实体之间的高阶交互效应. 2)基于元路径的方法[6]:PGPR方法[6]使用强化学习搜索知识图谱中用户与物品的合理路径. 3)基于混合的方法[7-9]:KGCN方法[8]以用户与关系的得分作为权重,将周围实体信息融入到候选实体. RippleNet[9]与KGCN类似,通过实体传播学习知识图谱高阶结构信息. 现有基于知识图谱的新闻推荐方法普遍具有以下问题. 1)只考虑新闻实体的上下文信息,没有考虑实体对新闻表示的重要程度. 2)没有同时从新闻端和用户端引入辅助信息,忽略了用户对新闻知识图谱实体间关系类型的偏好不同. 例如,在电影推荐中,有的用户基于导演关系选择电影,有的用户基于演员关系选择电影.

在用户端引入用户的偏好变化,能够有效地捕捉用户在各时期的不同兴趣[10-13]. 刘羽茜等[10]利用神经网络提取新闻端的语义信息及新闻对不同用户的特征,但该方法忽略了外部信息的重要性. Chen等[11]使用Transformer捕捉用户的点击序列信息,缺点是该方法中的辅助信息属于用户私密信息. Tang等[12]采用卷积神经网络(convolutional neural networks, CNN)学习序列特征,隐因子模型(latent factor model, LFM)学习用户特征,但该方法在推荐中容易遇到冷启动和信息单薄的问题. 冯永等[13]提出混合动态推荐方法,关注用户的短期特征和长期特征,缺点是该方法忽略了新闻的语义信息.

考虑到基于知识图谱的推荐方法和基于用户偏好变化的推荐方法各自的优缺点,本文提出基于Transformer和知识图谱的新闻推荐方法(Transformer and knowledge graph combined network, TKGN),主要贡献如下. 1)为了丰富新闻表示信息,提出利用注意力机制同时捕捉单词互动和实体互动两方面信息,学习单词和实体对新闻表示的重要性. 2)考虑到用户点击序列信息的重要性,在知识图谱推荐中,采用Transformer[14]的位置编码学习用户的点击序列特征,利用自注意力机制捕捉用户对新闻类型的偏好. 3)基于用户对知识图谱中实体间关系的偏好不同,在候选新闻表示中引入知识图谱的高阶结构信息,提升候选新闻的表达精度.

1. 相关工作与技术

1.1. 相关工作

传统的新闻推荐方法基于协同过滤算法,如CCTM[15]利用主题模型对文章和评论建模,采用协同过滤表示新闻和用户. 由于深度学习方法在推荐上的优秀表现,更多的研究致力于利用深度学习建立新闻推荐方法. Kumar等[16]利用深度神经网络,将用户与新闻的互动和新闻内容融合学习,模拟用户和新闻的潜在特征. 仅依赖交互信息的方法存在信息不足的问题,增加辅助信息能够丰富新闻内容. UNBERT[17]通过BERT捕捉新闻间的匹配信号,利用Transformer获取单词和新闻2个维度的信息. FeedRec[18]融合隐式反馈和显式反馈特征,利用Transformer提取用户对新闻的反馈信息. 鉴于知识图谱能够带给推荐方法大量的外界知识,研究者在新闻推荐中融入知识图谱. Qi等[19]借助知识图谱,采用知识感知新闻联合编码器,学习用户点击新闻和候选新闻之间的语义相关性和实体相关性. Anchor KG[20]将知识图谱推理与新闻推荐联合训练,为每篇新闻创建子图,通过子图间的联系推理新闻间的联系.

与现有基于知识图谱新闻推荐的方法不同的是,本文方法从以下3个方面为新闻推荐增加辅助信息. 在利用周围实体的同时,将实体间关系与用户的得分引入算法中,增强候选新闻与用户的联系. 利用注意力机制捕捉单词之间和实体之间的关联性,以丰富新闻内容. 采用Transformer聚合用户点击新闻的内容信息和时序信息,以捕捉用户的偏好.

1.2. 相关技术

1.2.1. 知识图谱

知识图谱[4]是表示多领域的大规模实体之间关系的语义网络. 在知识图谱中,每2个实体间以关系连接,表示为三元组 $ (h,r,t) $,其中 $h$表示头实体, $r$表示关系, $ t $表示尾实体. 如图1所示为某知识图谱示例图,其中纳尔逊·曼德拉为新闻中包含的实体,姆维佐是邻接实体. 典型知识图谱包括Wikidata[21]、CN-DBPedia[22]和YAGO[23]等. Wikidata是维基媒体提出的多语言辅助知识库,主要以文档形式存储,支持免费使用. CN-DBPedia是最大的中文知识图谱数据库,由复旦大学提出,能自动从百度百科、沪东百科和维基百科中提取知识. YAGO是开源知识库,从Wikipedia和WordNet提取知识,包含超千万的实体及上亿的知识.

图 1

图 1   知识图谱的示例

Fig.1   Example of knowledge graph


1.2.2. Transformer

Vaswani等[14]提出基于自注意力机制的深度学习框架Transformer. 不同于RNN的顺序处理方式,Transformer能够有效处理长距离输入且具有训练并行化的特点. Transformer编码器采用多头自注意力机制,运用缩放点积计算第 $i$头自注意力 $ {{{\rm{head}}} _i} $

$ {{{\rm{head}}} _i} = {{\rm{Attention}}} \;({{\boldsymbol{Q}}_i},{{\boldsymbol{K}}_i},{{\boldsymbol{V}}_i}) = {{\rm{softmax}}} \left(\frac{{{{\boldsymbol{Q}}_i}{\boldsymbol{K}}_i^{\rm{T}}}}{{\sqrt {{d_k}} }}\right){{\boldsymbol{V}}_i} . $

式中: ${{\boldsymbol{Q}}_i}$${{\boldsymbol{K}}_i}$${{\boldsymbol{V}}_i}$分别为查询矩阵、键矩阵和值矩阵. 为了关注多方面信息, Transformer引入多头注意力:

$ \begin{aligned} {\boldsymbol{Z}} =\;& {\text{MultiHead}}\; \left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = \\ & {{\rm{Concat}}} \left( {{{{{\rm{head}}} }_1},{{{{\rm{head}}} }_2}, \cdots ,{{{{\rm{head}}} }_h}} \right){{\boldsymbol{W}}^O} . \end{aligned} $

式中: $ {{\boldsymbol{W}}^O} $为多头注意力层的参数, $ h $为多头的个数,Concat为拼接操作. 为了缓解过拟合和梯度消失的影响,加入 $ {\text{Dropout}} $函数和残差连接:

$ {\boldsymbol{O}} = {\text{LayerNorm}}\left( {{\boldsymbol{X}}+{\text{Dropout}}\left( {\boldsymbol{Z}} \right)} \right) . $

式中: $ {\text{LayerNorm}} $为归一化层. 为了增强非线性建模能力,加入非线性前馈神经网络:

$ {\boldsymbol{F}} = {\text{LayerNorm(}}{\boldsymbol{O}}+{\text{Dropout(max(0,}} {\boldsymbol{Z}}{{\boldsymbol{W}}_1}+{{\boldsymbol{b}}_1}){{\boldsymbol{W}}_2}+{{\boldsymbol{b}}_2})) . $

式中: $ {{\boldsymbol{W}}_1} $$ {{\boldsymbol{W}}_2} $为参数, $ {\boldsymbol{F}} $为编码器的输出. 前馈神经网络激活函数为 $ {\text{LeakyReLU}} $函数,包含 $ {\text{Dropout}} $函数和残差连接.

2. 本文方法

2.1. 问题定义

用户集和新闻集分别用 $ {U} = \left\{ {{{\boldsymbol{u}}_1},{{\boldsymbol{u}}_2}, \cdots ,{{\boldsymbol{u}}_{\left| {U} \right|}}} \right\} $$ {V} = \left\{ {{{\boldsymbol{v}}_1},{{\boldsymbol{v}}_2}, \cdots ,{{\boldsymbol{v}}_{\left| {V} \right|}}} \right\} $表示,用户和新闻之间的交互矩阵定义为 $ {\boldsymbol{Y}} = [ {y_{{\boldsymbol{uv}}}}|{\boldsymbol{u}} \in {U},{\boldsymbol{v}} \in {V}] $. 在给定交互矩阵 $ {\boldsymbol{Y}} $与知识图谱 $ {G} $下,新闻推荐的目标是预测用户是否会对没有交互过的新闻感兴趣,定义为函数 ${\hat y_{{\boldsymbol{uv}}}} = {F}\left( {{\boldsymbol{u}},{\boldsymbol{v}},{\boldsymbol{\varTheta }},{G}} \right)$,其中 $ {\hat y_{{\boldsymbol{uv}}}} $表示用户 $ {\boldsymbol{u}} $将会点击新闻 $ {\boldsymbol{v}} $的概率, $ {\boldsymbol{\varTheta}} $为TKGN的全部参数. 本文新闻和用户在计算中均由低维的嵌入向量代替,分别称为新闻表示和用户表示. $ {\hat y_{{\boldsymbol{uv}}}} $可以表示为用户表示和候选新闻表示的点积 ${\rm{ctr}} = \sigma \left( {{\boldsymbol{u}} \otimes {\boldsymbol{v}}} \right)$,其中 $  \sigma $表示 $ {\text{sigmoid}} $函数, $ \otimes $表示向量的点积. 用户 $ {\boldsymbol{u}} $对新闻 $ {\boldsymbol{v}} $的真实标签为用户与新闻之间的实际交互情况,如是否点击、观看或浏览新闻,具体定义如下:

$ {y}_{{\boldsymbol{uv}}}=\left\{ \begin{array}{l}1,\quad {\boldsymbol{u}}点击了{\boldsymbol{v}}; \\ 0,\quad 其他.\end{array}\right. $

2.2. 方法构建

TKGN框架如图2所示,主要分为3个模块:基于知识图谱和注意力机制的新闻表示、基于Transformer的用户表示、基于高阶结构信息的候选新闻表示. 图中, ${\boldsymbol{n}} ^{{v}}_i $表示用户第i个历史点击新闻, ${\boldsymbol{n}}_i $包含新闻单词 ${\boldsymbol{w}}^n_i $与新闻实体 ${\boldsymbol{e}}^n_i $p为用户u的历史点击新闻数. 将每一条新闻采用注意力机制生成单词表示和实体表示,拼接形成新闻表示 $ {\boldsymbol{n}} $. 利用Transformer学习用户点击过的新闻序列信息和偏好信息,生成用户表示 $ {\boldsymbol{u}} $. 融合知识图谱高阶结构信息 $ {S^v} $,计算用户与实体间关系的得分 $ \pi $,利用注意力机制生成候选新闻表示 $ {\boldsymbol{v}} $.

图 2

图 2   TKGN整体框架

Fig.2   Overall framework of TKGN


2.2.1. 基于知识图谱和注意力机制的新闻表示

在以知识图谱作为辅助信息的新闻推荐中,新闻标题分为标题单词和标题实体2部分,分别为 ${{\boldsymbol{w}}^n} $${{\boldsymbol{e}}^n}$. 传统新闻表示最常见的方式是直接拼接,即新闻 ${\boldsymbol{n}} = {{\boldsymbol{w}}^n} \oplus {{\boldsymbol{e}}^n} $. 该方法没有考虑到新闻中单词间与实体间的互动关系. DKN[4]虽然进行了改进,但忽略了不同单词和实体对句子的重要程度不同. NRMS[24]考虑了单词的重要性,但未将实体作为辅助信息. 本文利用自注意力机制捕捉单词间和实体间的互动关系,如图3所示,采用自注意力机制分别计算单词和实体的嵌入向量. 计算各单词在映射空间中的内积,进行归一化:

图 3

图 3   注意力机制的计算流程

Fig.3   Calculation process of attention mechanism


$ \alpha _{i,j}^{\rm{w}} = \frac{{{\text{exp}}\left( {{\boldsymbol{w}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{w}}{{\boldsymbol{w}}_j}} \right)}}{{\mathop \sum \nolimits_{k = 1}^m {\text{exp}}\left( {{\boldsymbol{w}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{w}}{{\boldsymbol{w}}_k}} \right)}} . $

式中: $ m $为序列长度, $ \alpha _{i,j}^{\rm{w}} $为单词 $ j $对单词 $ i $的相对重要性, $\;{\boldsymbol{\beta }}_1^{\rm{w}} \in {{\bf{R}}^{{d_{\rm{w}}} \times {d_{\rm{w}}}}}$为映射参数, $ {d_{\rm{w}}} $为单词的嵌入向量维度. 将 $ \alpha _{i,j}^{\rm{w}} $作为权重,对单词求加权和,得到单词 $ i $在映射空间中的向量表示:

$ {{\dot{\boldsymbol w}}_i} = {\boldsymbol{\beta }}_2^{\rm{w}}\mathop \sum \nolimits_{j = 1}^m \alpha _{i,j}^{\rm{w}}{{\boldsymbol{w}}_j} . $

式中: $\; {\boldsymbol{\beta }}_2^{\rm{w}} $为映射参数,该参数是单词间互动关系的体现. 采用加法注意力机制,计算单词在句子中的重要程度 $\rho _i^{\rm{w}}$

$ \rho _i^{\rm{w}} = {\boldsymbol{\beta }}_4^{\rm{w}}{\text{tanh}}\left( {{\boldsymbol{\beta }}_3^{\rm{w}}{{{\dot{\boldsymbol w}}}_i}+{{\boldsymbol{b}}^{\rm{w}}}} \right) . $

式中: $\; {\boldsymbol{\beta }}_3^{\rm{w}} $为激活函数 $ {\text{tanh}} $中的参数, $ \;{\boldsymbol{\beta }}_4^{\rm{w}} $为查询向量, $ {{\boldsymbol{b}}^{\rm{w}}} $为偏置项. 根据单词在句子中的重要程度,计算单词的加权和得到单词的向量表示:

$ {{\boldsymbol{w}}^n} = \mathop \sum \nolimits_{i = 1}^m \alpha _i^{\rm{w}}{{\dot{\boldsymbol w}}_i} . $

式中: $ \alpha _i^{\rm{w}} $满足 $ \alpha _i^{\rm{w}} = {\text{softmax}}\left( {\rho _i^{\rm{w}}} \right) $. 计算新闻的实体嵌入向量:

$ \alpha _{i,j}^{\rm{e}} = \frac{{{\text{exp}}\left( {{\boldsymbol{e}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{e}}{{\boldsymbol{e}}_j}} \right)}}{\displaystyle{\mathop \sum \nolimits_{k = 1}^m {\text{exp}}\left( {{\boldsymbol{e}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{e}}{{\boldsymbol{e}}_k}} \right)}} ,$

$ {{\boldsymbol{\dot e}}_i} = {\boldsymbol{\beta }}_2^{\rm{e}}\mathop \sum \nolimits_{j = 1}^m \alpha _{i,j}^{\rm{e}}{{\boldsymbol{e}}_j} , $

$ \rho _i^{\rm{e}} = {\boldsymbol{\beta }}_4^{\rm{e}}{\text{tanh}}\left( {{\boldsymbol{\beta }}_3^{\rm{e}}{{{\boldsymbol{\dot e}}}_i}+{{\boldsymbol{b}}^{\rm{e}}}} \right) , $

$ {{\boldsymbol{e}}^n} = \mathop \sum \nolimits_{i = 1}^m \alpha _i^{\rm{e}}{{\boldsymbol{\dot e}}_i}. $

式中: $\;{\boldsymbol{\beta }}_1^{\rm{e}} \in {{\bf{R}}^{{d_{\rm{e}}} \times {d_{\rm{e}}}}}$$\;\boldsymbol{\beta }_{2}^{{\rm{e}}}$$ \;{\boldsymbol{\beta }}_3^{\rm{e}} $$ \;{\boldsymbol{\beta }}_4^{\rm{e}} $为参数, $ {d_{\rm{e}}} $为实体的嵌入维度, $ \alpha _i^{\rm{e}} $满足 $ \alpha _i^{\rm{e}} = {\text{softmax}}\left( {\rho _i^{\rm{e}}} \right) $. 拼接单词嵌入向量和实体嵌入向量形成新闻表示 $ {\boldsymbol{n}} = \left[ {{{\boldsymbol{w}}^n},{{\boldsymbol{e}}^n}} \right] $.

2.2.2. 基于Transformer的用户表示

MKR[5]只对知识和新闻进行建模,忽略了不同时期用户兴趣的改变. 利用Transformer提取用户历史新闻的有效特征,捕捉用户对新闻的偏好信息. Transformer输入为用户点击新闻集合 $ {{\boldsymbol{U}}_n} = \left[ {{\boldsymbol{n}}_1^u,{\boldsymbol{n}}_2^u, \cdots ,{\boldsymbol{n}}_p^u} \right] $,其中 $ {\boldsymbol{n}}_i^u $表示用户第 $ i $个历史点击新闻, $ p $为用户 $ {\boldsymbol{u}} $的历史点击新闻数. 对用户历史向量矩阵进行线性变换,分别计算查询 $ {{\boldsymbol{Q}}_i} $、键 $ {{\boldsymbol{K}}_i} $与值 $ {{\boldsymbol{V}}_i} $矩阵:

$ {{\boldsymbol{Q}}_i} = {{\boldsymbol{U}}_n}{\boldsymbol{W}}_i^Q,$

$ {{\boldsymbol{K}}_i} = {{\boldsymbol{U}}_n}{\boldsymbol{W}}_i^K, $

$ {{\boldsymbol{V}}_i} = {{\boldsymbol{U}}_n}{\boldsymbol{W}}_i^V. $

式中: $ {\boldsymbol{W}}_i^Q $$ {\boldsymbol{W}}_i^K $$ {\boldsymbol{W}}_i^V $分别为相应矩阵的参数. 计算查询向量与键向量的点积,得到新闻向量的得分:

$ {{\boldsymbol{C}}_i} = {{\boldsymbol{Q}}_i}{\boldsymbol{K}}_i^{\rm{T}}. $

式中: $ {{\boldsymbol{C}}_i} $的每一个元素为相应新闻输入向量的得分. 可得多头自注意力的输出为

$ {\boldsymbol{Z}} = {{\rm{Concat}}} \left( {{{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2}, \cdots ,{{\boldsymbol{Z}}_h}} \right){{\boldsymbol{W}}^O}. $

式中: $ {{\boldsymbol{Z}}_i} $为第 $ i $头自注意力,

$ {{\boldsymbol{Z}}_i} = {{\boldsymbol{V}}_i}{{\rm{softmax}}} \left( {\frac{{{{\boldsymbol{C}}_i}}}{{\sqrt {{d_k}} }}} \right). $

将输出 $ {\boldsymbol{Z}} $输入到前馈神经网络层,得到Transformer编码器的输出:

$ {\boldsymbol{F}} = {\text{LayerNorm(}}{\boldsymbol{O}}+{\text{Dropout\;(max\;(0,}}{\boldsymbol{Z}}{{\boldsymbol{W}}_1}+ {{\boldsymbol{b}}_1}){{\boldsymbol{W}}_2}+{{\boldsymbol{b}}_2})). $

式中: ${\boldsymbol{F}} \in {{\bf{R}}^{p \times {d_{\rm{n}}}}}$,其中 $ {d_{\rm{n}}} $为新闻的嵌入维度.

为了在用户表示中融入所有的新闻信息,用户嵌入向量表示为 $ {\boldsymbol{F}} $的平均值:

$ {\boldsymbol{u}} = {\mathop \sum \limits_{i \leqslant p} {{\boldsymbol{f}}_{i}}} \Big/ p. $

式中: $ {{\boldsymbol{f}}_i} $为用户点击的第 $ i $个新闻经过编码器后的表示向量.

2.2.3. 基于高阶结构信息的候选新闻表示

KGCN[8]在推荐中加入用户与知识图谱中关系的得分,但该方法的项目和知识图谱的实体对应,不适用于包含多个实体的新闻推荐问题. 对KGCN方法进行改进,具体步骤如下:1)计算用户与关系的得分;2)计算候选新闻实体表示;3)利用注意力机制,计算候选新闻表示. 在步骤1)中,由于不同实体由不同关系进行连接,通过计算用户与关系的得分得到用户对关系的偏好,因用户与关系嵌入维度不一致,增加转换函数 $ g$

$ \pi = {{\rm{softmax}}} \left( {g({\boldsymbol{u}}){\boldsymbol{r}}} \right). $

式中: $ g({\boldsymbol{u}}) = {{\boldsymbol{u}}^{\rm{T}}}{\boldsymbol{M}} $${\boldsymbol{M}} \in {{\bf{R}}^{{d_{\rm{e}}} \times {d_{\rm{n}}}}}$为转换矩阵, $  {\boldsymbol{r}} $为知识图谱中某关系的嵌入向量.

在步骤2)中,如图4所示,从候选新闻实体 $ {{\boldsymbol{e}}_i} $的邻接实体中,随机选取 $ l $个实体作为周围实体,根据得分加权实体 $ {{\boldsymbol{e}}_i} $的周围实体嵌入向量,得到一阶实体信息 $ {\boldsymbol{S}}_i^1 $

图 4

图 4   候选新闻实体嵌入的计算流程

Fig.4   Calculation process for entity embedding of candidate news


$ {\boldsymbol{S}}_i^1 = \mathop \sum \limits_{j = 1}^l {\pi _{i,j}}{\boldsymbol{e}}_{i,j}^1. $

式中: $ l $为周围实体数, $ {\boldsymbol{e}}_{i,j}^1 $为实体 $ {{\boldsymbol{e}}_i} $的第 $ j $个一阶实体, $ {\pi _{i,j}} $为实体 $ {{\boldsymbol{e}}_i} $与实体 $ {\boldsymbol{e}}_{i,j}^1 $之间的关系得分. 寻找一阶实体的周围实体,得到二阶实体并计算二阶实体信息,以此类推,计算出 $ H $阶的周围实体嵌入向量,融合各阶的实体信息,以此得到候选新闻实体 $ {{\boldsymbol{e}}_i} $的上下文表示 $ {{\boldsymbol{c}}_i} $

$ {{\boldsymbol{c}}_i} = \mathop \sum \limits_{k = 1}^H {\boldsymbol{S}}_i^k. $

式中: $  {{\boldsymbol{S}}}_{i}^{k} $为实体 $ {{\boldsymbol{e}}_i} $$ k $阶实体信息, $ H $为最大阶数. 可见,本文方法能够融合每一阶的结构信息得到实体 $ {{\boldsymbol{e}}_i} $完整的周围实体信息,既保留了结构信息,又增加了与用户之间的互动信息. 结合 $ {{\boldsymbol{e}}_i} $$ {{\boldsymbol{c}}_i} $,计算实体 $ {{\boldsymbol{e}}_i} $最终嵌入 $ {\boldsymbol{\tilde e}}_i^v $

$ {\boldsymbol{\tilde e}}_i^v = {\text{tanh}}\left( {{\boldsymbol{W}}\left( {{{\boldsymbol{e}}_i}+{{\boldsymbol{c}}_i}} \right)+{\boldsymbol{b}}} \right). $

式中: $  {\boldsymbol{W}} $为转换参数, $ {\boldsymbol{b}} $为偏置项. 拼接实体嵌入得到候选新闻实体嵌入 $ {{\boldsymbol{\tilde e}}^v} $

$ {{\boldsymbol{\tilde e}}^v} = \left[ {{\boldsymbol{\tilde e}}_1^v,{\boldsymbol{\tilde e}}_2^v, \cdots ,{\boldsymbol{\tilde e}}_m^v} \right]. $

在步骤3)中,为了捕捉单词和实体对句子的重要性,引入注意力机制. 输出候选新闻表示:

$ {\boldsymbol{v}} = [{\rm{Attention}}\;({{\boldsymbol{w}}^v}),{\rm{Attention}}\;({\tilde {\boldsymbol{e}}^v})] . $

式中: ${\boldsymbol{w}}^v$为候选新闻单词嵌入, ${\rm{Attention}}$为2.2.1节中单词和实体的注意力机制运算过程.

根据问题定义可知,损失函数包含以下2个部分:第1部分为交叉熵函数,第2部分是L2正则项. 具体定义如下:

$ {L} =-\sum\limits_{{y_{{\boldsymbol{uv}}}} \in Y} {({y_{{\boldsymbol{uv}}}}\ln \; {{\hat y}_{{\boldsymbol{uv}}}} + (1 - {y_{{\boldsymbol{uv}}}})\ln \; (1 - {{\hat y}_{{\boldsymbol{uv}}}})) + \lambda \left\| {\boldsymbol{\varTheta}} \right\|_2^2} . $

式中: $\lambda$为正则项系数, $ {L} $为损失函数.

给出本文方法的执行流程如下.

输入:用户和新闻交互矩阵 ${\boldsymbol{Y}} = [ {y_{{\boldsymbol{uv}}}}|{\boldsymbol{u}} \in {U},{\boldsymbol{v}} \in {V}]$,知识图谱 ${G}=\{{E} ,{R}\}$,其中E为知识图谱实体集,R为知识图谱关系集

输出:预测函数 $ {F} ({\boldsymbol{u}},{\boldsymbol{v}},{\boldsymbol{\varTheta}}, {G})$

1) 初始化所有参数 ${\boldsymbol{\varTheta }}$

2) for ${\boldsymbol{u}},{\boldsymbol{v}}$ in ${\boldsymbol{Y}}$

3) 获取用户 $ {\boldsymbol{u}} $的历史点击新闻集合 $ {{U}}_n $

4)  for ${\boldsymbol{n}}^u_i$ in ${{U}}_n$

5)  根据式(6)~(13),计算新闻 $ {\boldsymbol{n}}^u_i $的单词嵌入 $ {\boldsymbol{w}}^{{n}}_{{i}} $与实体嵌入 $ {\boldsymbol{e}}^{{n}}_{{i}}$

6)  获得新闻表示 ${\boldsymbol{n}}=[{\boldsymbol{w}}^{{n}}_{{i}},{\boldsymbol{e}}^{{n}}_{{i}}]$

7)  end for

8)  根据式(14)~(21),计算用户表示 $ {\boldsymbol{u}} $

9) 按照式(22),计算得分 $ \pi $

10)  for $ {\boldsymbol{e}}_i $ in $ {\boldsymbol{e}}^v $

11)   for $ k $ in $ {\rm{range}}(H) $

12)   计算实体 ${\boldsymbol{e}}_i$$ k $阶实体信息 ${\boldsymbol{S}}^k_i$

13)   end for

14)   根据式(23)~(25)计算 ${\boldsymbol{e}}_i$实体嵌入 $\tilde {{\boldsymbol{e}}} ^{\boldsymbol{v}}_{{i}}$

15)  end for

16) 按照式(26),计算候选新闻实体最终嵌入 $\tilde {{\boldsymbol{e}}} ^{\boldsymbol{v}}$

17) 根据式(27),获得候选新闻表示 $ {\boldsymbol{v}} $

18)  $\hat y_{{\boldsymbol{uv}}}=\sigma ({\boldsymbol{u}} \otimes {\boldsymbol{v}}) $

19) end for

20) 利用损失函数 $ {L} $计算梯度,并更新参数 ${\boldsymbol{\varTheta}}$

21) 重复执行步骤2)~20),直到收敛

本文算法的时间复杂度从以下3个方面分析. 1)新闻表示:自注意力层与加法注意力层的时间复杂度均为 $ O(m{d^2}+{m^2}d) $,其中d为向量维度. 2)用户表示:Transformer多头自注意力的时间复杂度为 $ O({p^2}d) $,线性映射与前馈神经网络的时间复杂度均为 $ O(p{d^2}) $,输出 $ {\boldsymbol{F}} $生成用户表示的时间复杂度为 $ O(pd) $,因此该部分的时间复杂度为 $ O({p^2}d+p{d^2}) $. 3)候选新闻表示:用户与关系得分计算的时间复杂度为 $ O({d^2}) $,高阶信息计算的时间复杂度为 $ O(m{l^H}d) $,计算实体最终嵌入的时间复杂度为 $ O(m{d^2}) $. 综上可知,本文算法的整体时间复杂度为 $ O((m+p){d^2}+({m^2}+{p^2}+m{l^H})d) $.

3. 实验结果与分析

3.1. 数据介绍

分别采用MIND[25]和Wikidata知识库作为实验数据集和知识图谱. MIND数据是从微软新闻网站的匿名行为日志中收集,包含100万名用户在2019年10月12日至11月22日的新闻点击数据. MIND数据集包含以下2个版本,分别是MIND-small与MIND-large. 如表1所示为数据集的细节分析. 表中,Sn为新闻总数,Se为新闻总实体数,Mn为用户平均点击数,Mw为新闻平均单词数,Me为新闻平均实体数,Mr为新闻实体平均重复值,Ps为正样本数. 以MIND-small为例,执行去缺失值和去重操作后,新闻有93698条,用户平均点击新闻历史个数为22.5,新闻总实体数为108 497,平均每条新闻所含的单词数为10.8,大多数新闻单词个数小于15,所含实体的个数集中在0~2,单个新闻实体重复值为6.4,包含正样本339 498条. 在MIND-small中,将验证集的一半划分为测试集;在MIND-large中,将验证集作为测试集,训练集的1/5作为验证集. 实验中,将MIND-small数据集的实验作为超参数调节的依据.

表 1   数据集的描述分析

Tab.1  Description analysis of datasets

数据集 Sn Se Mn Mw Me Mr Ps
MIND-small 93 698 108 497 22.5 10.8 1.1 6.4 339 498
MIND-large 173 550 203 947 21.0 10.7 1.2 8.9 3 870 640

新窗口打开| 下载CSV


3.2. 评价指标

1)准确率P. P表示在被预测为正样本的样本中,正样本所占的比例. 计算公式为

$ {{{P}}} = \frac{{{{\rm{TP}}} }}{{{{\rm{TP}}} +{{\rm{FP}}} }} . $

式中: $ {{\rm{TP}}} $为预测与实际都为正样本的个数, ${{\rm{FP}}} $为预测为正样本而实际为负样本的个数.

2)召回率R. R表示在所有的正样本中,被正确预测的比例. 计算公式为

$ {{{R}}} = \frac{{{{\rm{TP}}} }}{{{{\rm{TP}}} +{{\rm{FN}}} }}. $

式中: ${{\rm{FN}}}$为预测为负样本而实际为正样本的个数.

3) F1. 鉴于准确率与召回率都不能准确衡量性能. F1综合准确率与召回率的优势,计算公式为

$ {F_1} = \frac{{2PR }}{P+R}. $

4) AUC. AUC指ROC曲线下的面积,可以看作是随机正样本的排名高于随机负样本排名的概率. 计算公式如下:

$ {\text{AUC}} = \frac{{\displaystyle\mathop \sum \nolimits_{i \in {\text{pos}}} {\text{ran}}{{\text{k}}_i} - {{M \left( {M+1} \right)}}/{2}}}{{M N}}. $

式中: $ i $为样本, $ {\text{pos}} $为正样本集合, $ {\text{ran}}{{\text{k}}_i} $为所有样本按照预测概率从小到大排序后的样本序号, $ M $$ N $分别为正样本和负样本的个数.

3.3. 超参数调整

采用Word2Vec[26]初始化单词嵌入向量,由于显存的限制,确定单词维度为200,实体维度为100. 为了验证Hl和Encoder模块数M对算法表现的影响,针对上述超参数取不同值,分别计算对应的AUC和F1.

图5(a)所示,当传播阶数为1时,增加传播的深度,能够更多地容纳知识图谱的高阶结构信息,给候选新闻带来更多的有效信息. 随着传播深度的增加,周围实体与候选新闻实体的联系减弱,此时增加阶数带来的噪音增加多于有效信息的增加,因此最佳的传播阶数为2阶. 如图5(b)所示,当周围实体数为1和4时,AUC和F1较高,这可能是因为一些实体与新闻内容无关,增加过多的周围实体会带来无效信息. 当周围实体数为4时性能较佳,说明增加少量的周围实体能够带来更多的信息,提高预测的精准率,因此设置TKGN中周围实体个数为4. 如图5(c)所示,当Encoder模块数为1和4时,AUC与F1较高,继续增加Encoder模块会导致复杂度过高,性能降低. 本文取Encoder模块数为1.

图 5

图 5   超参数调节实验

Fig.5   Hyperparameter regulation experiment


3.4. 不同方法的性能比较

3.4.1. 对比方法的介绍

为了验证本文算法的有效性,将本文算法与DKN[4]、KGCN[8]、RippleNet[9]、GNUD[27]和NRMS[24]进行比较. DKN[4]用TransE[28]作为获得知识图谱实体及上下文嵌入的学习方法,采用Word2Vec[26]作为词向量嵌入,过滤器数量设置为128. 在KGCN[8]中,聚合方法采用加法聚合,实体表示的迭代次数为2,采样的实体邻接数为4. RippleNet[9]在新闻嵌入中引入新闻的内容信息,多跳数为3,水波集的大小设置为32. GNUD[27]利用交互矩阵建立网络图,以利用高阶交互信息,将偏好特征映射到多个子空间,以学习潜在偏好因素. 子空间数设为7,传播层数为2. NRMS[24]在新闻端和用户端采用多头自注意力,分别建立新闻单词间的联系和用户点击新闻间的联系. 自注意力头数及各头的嵌入维度均为16,查询向量维度为200.

3.4.2. 实验结果的对比

所有实验的用户点击数设置为20,新闻标题长度为15,词向量维度为200,实体维度为100,batch大小为128. 每个实验重复5次,将5次结果的平均值作为最终的结果报告. 如表2所示为每个方法在2个数据集上的实验结果. 可以看出,KGCN的召回率仅为0.267和0.273,F1为0.335和0.372,说明KGCN不能正确地区分正样本和负样本. 这可能是因为一则新闻包含多个实体,减弱了实体传播带来的好处,KGCN无法获得新闻中的语义信息. RippleNet的整体预测性能比KGCN好,AUC为0.598和0.613,F1为0.529和0.567,这是由于在RippleNet输入中引入了新闻语义信息. RippleNet与KGCN类似,都是基于项目与知识图谱实体一对一的推荐,更适合电影、音乐和游戏等自身语义信息不丰富的推荐. DKN的AUC比RippleNet有所提高,召回率为0.501和0.528,F1为0.523、0.571,性能比KGCN好. 这是因为DKN融合了单词、实体和上下文信息,说明新闻本身单词语义的信息特征能够有效地提高对正、负样本的识别能力. DKN没有考虑到不同单词和实体对新闻重要性的差别. GNUD在MIND-small上的性能和DKN相近,在MIND-large上的性能比DKN提升更明显,这可能是因为交互数据少时,用户和新闻的连接较少. 基于互动关系构建网络图的GNUD性能下降,说明该方法会较大程度受到交互数据的影响. NRMS在基线中性能表现最佳,AUC为0.618和0.656,这是因为NRMS分别在新闻端和用户端利用注意力机制寻找单词和新闻间的隐藏信息,能够较大程度地丰富新闻信息. 缺点是NRMS只探究新闻内部的信息,没有进一步增加辅助信息. TKGN的AUC为0.637和0.679,分别比NRMS高0.019和0.023,F1比NRMS高0.024和0.013,说明注意力机制、Transformer和知识图谱的引入能够丰富新闻表示和用户表示的信息,提升新闻推荐预测的精度.

表 2   不同方法在数据集上的性能比较

Tab.2  Performance comparison of different methods on datasets

方法 MIND-small MIND-large
AUC F1 P R AUC F1 P R
NRMS 0.618 0.539 0.618 0.480 0.656 0.611 0.627 0.596
DKN 0.603 0.523 0.549 0.501 0.619 0.571 0.630 0.528
KGCN 0.582 0.335 0.449 0.267 0.604 0.372 0.598 0.273
RippleNet 0.598 0.529 0.544 0.515 0.613 0.567 0.622 0.524
GNUD 0.602 0.530 0.616 0.466 0.627 0.602 0.631 0.580
TKGN 0.637 0.563 0.623 0.515 0.679 0.624 0.655 0.601

新窗口打开| 下载CSV


3.4.3. 迭代次数的影响讨论

为了验证迭代次数对算法性能的影响,以2为增量逐步增加迭代次数,计算各方法在不同迭代次数e下的AUC和F1,结果如图6所示. 可以看出,不同方法达到最优性能所需的迭代次数不同,NRMS、GNUD、DKN、KGCN及RippleNet达到最优性能对应的e分别为8、12、18、16及10. TKGN在各训练阶段的性能几乎均高于其他基线方法,证明了TKGN在提升新闻推荐精度方面的有效性.

图 6

图 6   迭代次数对不同算法的影响

Fig.6   Impact of iteration number on different algorithms


3.4.4. 冷启动时方法有效性分析

该实验探究各方法在用户与新闻交互次数稀少时的性能表现. 挑选MIND-small验证集中用户历史点击新闻数小于5的用户及浏览新闻作为测试集,衡量各方法在测试集上的性能及性能下降的程度.

表3中,ΔAUC和ΔF1分别为AUC和F1的变化值. 如表3所示,TKGN在用户与新闻交互稀少时,AUC与F1高于其他方法,说明该方法在数据稀疏时性能较稳定. NRMS、DKN和GNUD性能下降较少,这是由于这3种方法都增加了辅助信息. 与TKGN相比,NRMS与GNUD方法忽略了外界信息的重要性,DKN没有探究单词和实体与新闻的联系. TKGN分别从候选新闻内容、用户点击新闻内容和用户点击新闻序列信息3个角度增加辅助信息,因此能够有效地减少冷启动情况带来的性能下降.

表 3   不同方法在冷启动数据上的性能表现

Tab.3  Performance of different methods at cold-start dataset

方法 AUC F1 ΔAUC ΔF1
NRMS 0.592 0.511 −0.026 −0.028
DKN 0.578 0.493 −0.025 −0.029
KGCN 0.559 0.230 −0.023 −0.105
RippleNet 0.556 0.507 −0.042 −0.022
GNUD 0.582 0.495 −0.020 −0.035
TKGN 0.619 0.541 −0.018 −0.022

新窗口打开| 下载CSV


3.5. 消融实验分析

将TKGN分为3个模块,分别为知识图谱模块、注意力机制模块与Transformer模块. 为了验证不同模块的有效性,在TKGN的基础上进行以下改动.

1)移除知识图谱模块,得到包含注意力机制和Transformer的方法NKG.

2) 移除注意力机制模块,得到包含Transformer和知识图谱的方法NA.

3)移除Transformer模块,得到包含知识图谱和注意力机制的方法NT.

计算不同方法对应的AUC、F1、Precision和Recall,结果如图7所示. 可见,在移除知识图谱后,AUC和F1分别为0.621与0.518,性能降低,这说明引入知识图谱,有利于完善新闻信息,提高新闻推荐的准确率. 在移除注意力机制后,分别对新闻中的单词和实体向量进行平均,再拼接作为新闻表示,AUC和F1分别降低至0.625与0.543,表明利用注意力机制捕捉单词和实体之间的关系,学习单词和实体对新闻表示的重要性能够进一步丰富新闻信息. 在移除Transformer后,将用户嵌入向量表示为用户点击新闻的平均值,AUC和F1分别降低至0.618与0.495,表明利用Transformer能够有效地学习用户的偏好,提取用户特征,增强性能. 可知,TKGN中3个模块都能带来性能提升,验证了各模块在提升新闻推荐效果方面的有效性.

图 7

图 7   消融实验

Fig.7   Ablation experiments


4. 结 语

提出基于Transformer和知识图谱的新闻推荐新方法. 具体贡献如下. 1)为了丰富新闻信息并减少噪声干扰,引入注意力机制,学习新闻中单词和实体对新闻的影响. 2)鉴于用户在不同时期的偏好不同,利用Transformer学习用户对不同新闻偏好信息的同时,考虑用户点击新闻的顺序信息,提升用户表示的准确性. 3)在候选新闻中,根据用户与关系的得分引入知识图谱高阶结构信息;在候选新闻表示过程中,有效学习用户的个性化特征. 在2个版本的MIND新闻数据集上,与现有的5个典型推荐方法对比表明,本文方法在新闻推荐准确性方面具有一定的优势,验证了该方法在新闻推荐中应用的可行性. 由于本文方法在寻找周围实体时需要在整个知识图谱上进行传播,后续将考虑如何在较小的子图上应用传播算法,以降低方法复杂度.

参考文献

LI L, CHU W, LANGFORD J, et al. A contextual-bandit approach to personalized news article recommendation [C]// Proceedings of the 19th International Conference on World Wide Web. Raleigh: ACM, 2010: 661-670.

[本文引用: 1]

KOREN Y, BELL R, VOLINSKY C

Matrix factorization techniques for recommender systems

[J]. Computer, 2009, 42 (8): 30- 37

DOI:10.1109/MC.2009.263      [本文引用: 1]

SUN Z, GUO Q, YANG J, et al

Research commentary on recommendations with side information: a survey and research directions

[J]. Electronic Commerce Research and Applications, 2019, 37 (1): 1- 30

[本文引用: 1]

WANG H, ZHANG F, XIE X, et al. DKN: deep knowledge-aware network for news recommendation [C]// Proceedings of the 2018 World Wide Web Conference. Lyon: ACM, 2018: 1835-1844.

[本文引用: 6]

WANG H, ZHANG F, ZHAO M, et al. Multi-task feature learning for knowledge graph enhanced recommendation [C]// Proceedings of the 2019 World Wide Web Conference. San Francisco: ACM, 2019: 2000-2010.

[本文引用: 3]

XIAN Y, FU Z, MUTHUKRISHNAN S, et al. Reinforcement knowledge graph reasoning for explainable recommendation [C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. Paris: ACM, 2019: 285-294.

[本文引用: 2]

宁泽飞, 孙静宇, 王欣娟

基于知识图谱和标签感知的推荐算法

[J]. 计算机科学, 2021, 48 (11): 192- 198

DOI:10.11896/jsjkx.201000085      [本文引用: 1]

NING Ze-fei, SUN Jing-yu, WANG Xin-juan

Recommendation algorithm based on knowledge graph and tag-aware

[J]. Computer Science, 2021, 48 (11): 192- 198

DOI:10.11896/jsjkx.201000085      [本文引用: 1]

WANG H, ZHAO M, XIE X, et al. Knowledge graph convolutional networks for recommender systems [C]// Proceedings of the 2019 World Wide Web Conference. San Francisco: ACM, 2019: 3307-3313.

[本文引用: 4]

WANG H, ZHANG F, WANG J, et al. Ripplenet: propagating user preferences on the knowledge graph for recommender systems [C]// Proceedings of the 27th ACM International Conference on Information and Knowledge Management. Torino: ACM, 2018: 417-426.

[本文引用: 4]

刘羽茜, 刘玉奇, 张宗霖, 等

注入注意力机制的深度特征融合新闻推荐模型

[J]. 计算机应用, 2022, 42 (2): 426- 432

[本文引用: 2]

LIU Yu-xi, LIU Yu-qi, ZHANG Zong-lin, et al

News recommendation model with deep feature fusion injecting attention mechanism

[J]. Computer Applications, 2022, 42 (2): 426- 432

[本文引用: 2]

CHEN Q, ZHAO H, LI W, et al. Behavior sequence transformer for e-commerce recommendation in Alibaba [C]// Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. Anchorage: ACM, 2019: 1-4.

[本文引用: 1]

TANG J, WANG K. Personalized top-n sequential recommendation via convolutional sequence embedding [C]// Proceedings of the 11th ACM International Conference on Web Search and Data Mining. Marina Del Rey: ACM, 2018: 565-573.

[本文引用: 1]

冯永, 张备, 强保华, 等

MN-HDRM: 长短兴趣多神经网络混合动态推荐模型

[J]. 计算机学报, 2019, 42 (1): 16- 28

[本文引用: 2]

FENG Yong, ZHANG Bei, QIANG Bao-hua, et al

MN-HDRM: a novel hybrid dynamic recommendation model based on long-short-term interests multiple neural networks

[J]. Journal of Computer Science, 2019, 42 (1): 16- 28

[本文引用: 2]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: MIT Press, 2017: 6000-6010.

[本文引用: 2]

BANSAL T, DAS M, BHATTACHARYYA C. Content driven user profiling for comment-worthy recommendations of news and blog articles [C]// Proceedings of the 9th ACM Conference on Recommender Systems. Vienna: ACM, 2015: 195-202.

[本文引用: 1]

KUMAR V, KHATTAR D, GUPTA S, et al. Deep neural architecture for news recommendation [C]// Proceedings of the 2017 Conference and Labs of the Evaluation Forum. Dublin: [s. n. ], 2017: 1-19.

[本文引用: 1]

ZHANG Q, LI J, JIA Q, et al. UNBERT: user-news matching BERT for news recommendation [C]// Proceedings of the 30th International Joint Conference on Artificial Intelligence. Montreal: Morgan Kaufmann, 2021: 3356-3362.

[本文引用: 1]

WU C, WU F, QI T, et al. Feedrec: news feed recommendation with various user feedbacks [C]// Proceedings of the ACM Web Conference. Lyon: ACM, 2022: 2088-2097.

[本文引用: 1]

QI T, WU F, WU C, et al. Personalized news recommendation with knowledge-aware interactive matching [C]// Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. Canada: ACM, 2021: 61-70.

[本文引用: 1]

LIU D, LIAN J, LIU Z, et al. Reinforced anchor knowledge graph generation for news recommendation reasoning [C]// Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Singapore: ACM, 2021: 1055-1065.

[本文引用: 1]

VRANDECIC D, KROTZSCH M

Wikidata: a free collaborative knowledgebase

[J]. Communications of the ACM, 2014, 57 (10): 78- 85

DOI:10.1145/2629489      [本文引用: 1]

XU B, XU Y, LIANG J, et al. CN-DBpedia: a never-ending Chinese knowledge extraction system [C]// Proceedings of the 30th International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. Arras: Springer, 2017: 428-438.

[本文引用: 1]

SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge [C]// Proceedings of the 16th International Conference on World Wide Web. Banff: ACM, 2007: 697-706.

[本文引用: 1]

WU C, WU F, GE S, et al. Neural news recommendation with multi-head self-attention [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong: ACL, 2019: 6389-6394.

[本文引用: 3]

WU F, QIAO Y, CHEN J H, et al. Mind: a large-scale dataset for news recommendation [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2020: 3597-3606.

[本文引用: 1]

MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [C]// Proceedings of the 1st International Conference on Learning Representations. Scottsdale: [s. n. ], 2013: 1-12.

[本文引用: 2]

HU L, XU S, LI C, et al. Graph neural news recommendation with unsupervised preference disentanglement [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2020: 4255-4264.

[本文引用: 2]

BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data [C]// Proceedings of the 26th Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2013: 2787-2795.

[本文引用: 1]

/