<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 知识图谱的示例

Fig.1 Example of knowledge graph

1.2.2. Transformer

Vaswani等^[14]提出基于自注意力机制的深度学习框架Transformer. 不同于RNN的顺序处理方式，Transformer能够有效处理长距离输入且具有训练并行化的特点. Transformer编码器采用多头自注意力机制，运用缩放点积计算第 $i$头自注意力 $ {{{\rm{head}}} _i} $：

(1) $ {{{\rm{head}}} _i} = {{\rm{Attention}}} \;({{\boldsymbol{Q}}_i},{{\boldsymbol{K}}_i},{{\boldsymbol{V}}_i}) = {{\rm{softmax}}} \left(\frac{{{{\boldsymbol{Q}}_i}{\boldsymbol{K}}_i^{\rm{T}}}}{{\sqrt {{d_k}} }}\right){{\boldsymbol{V}}_i} . $

式中： ${{\boldsymbol{Q}}_i}$、 ${{\boldsymbol{K}}_i}$和 ${{\boldsymbol{V}}_i}$分别为查询矩阵、键矩阵和值矩阵. 为了关注多方面信息， Transformer引入多头注意力：

(2) $ \begin{aligned} {\boldsymbol{Z}} =\;& {\text{MultiHead}}\; \left( {{\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}} \right) = \\ & {{\rm{Concat}}} \left( {{{{{\rm{head}}} }_1},{{{{\rm{head}}} }_2}, \cdots ,{{{{\rm{head}}} }_h}} \right){{\boldsymbol{W}}^O} . \end{aligned} $

式中： $ {{\boldsymbol{W}}^O} $为多头注意力层的参数， $ h $为多头的个数，Concat为拼接操作. 为了缓解过拟合和梯度消失的影响，加入 $ {\text{Dropout}} $函数和残差连接：

(3) $ {\boldsymbol{O}} = {\text{LayerNorm}}\left( {{\boldsymbol{X}}+{\text{Dropout}}\left( {\boldsymbol{Z}} \right)} \right) . $

式中： $ {\text{LayerNorm}} $为归一化层. 为了增强非线性建模能力，加入非线性前馈神经网络：

(4) $ {\boldsymbol{F}} = {\text{LayerNorm(}}{\boldsymbol{O}}+{\text{Dropout(max(0,}} {\boldsymbol{Z}}{{\boldsymbol{W}}_1}+{{\boldsymbol{b}}_1}){{\boldsymbol{W}}_2}+{{\boldsymbol{b}}_2})) . $

式中： $ {{\boldsymbol{W}}_1} $与 $ {{\boldsymbol{W}}_2} $为参数， $ {\boldsymbol{F}} $为编码器的输出. 前馈神经网络激活函数为 $ {\text{LeakyReLU}} $函数，包含 $ {\text{Dropout}} $函数和残差连接.

2. 本文方法

2.1. 问题定义

用户集和新闻集分别用 $ {U} = \left\{ {{{\boldsymbol{u}}_1},{{\boldsymbol{u}}_2}, \cdots ,{{\boldsymbol{u}}_{\left| {U} \right|}}} \right\} $和 $ {V} = \left\{ {{{\boldsymbol{v}}_1},{{\boldsymbol{v}}_2}, \cdots ,{{\boldsymbol{v}}_{\left| {V} \right|}}} \right\} $表示，用户和新闻之间的交互矩阵定义为 $ {\boldsymbol{Y}} = [ {y_{{\boldsymbol{uv}}}}|{\boldsymbol{u}} \in {U},{\boldsymbol{v}} \in {V}] $. 在给定交互矩阵 $ {\boldsymbol{Y}} $与知识图谱 $ {G} $下，新闻推荐的目标是预测用户是否会对没有交互过的新闻感兴趣，定义为函数 ${\hat y_{{\boldsymbol{uv}}}} = {F}\left( {{\boldsymbol{u}},{\boldsymbol{v}},{\boldsymbol{\varTheta }},{G}} \right)$，其中 $ {\hat y_{{\boldsymbol{uv}}}} $表示用户 $ {\boldsymbol{u}} $将会点击新闻 $ {\boldsymbol{v}} $的概率， $ {\boldsymbol{\varTheta}} $为TKGN的全部参数. 本文新闻和用户在计算中均由低维的嵌入向量代替，分别称为新闻表示和用户表示. $ {\hat y_{{\boldsymbol{uv}}}} $可以表示为用户表示和候选新闻表示的点积 ${\rm{ctr}} = \sigma \left( {{\boldsymbol{u}} \otimes {\boldsymbol{v}}} \right)$，其中 $ \sigma $表示 $ {\text{sigmoid}} $函数， $ \otimes $表示向量的点积. 用户 $ {\boldsymbol{u}} $对新闻 $ {\boldsymbol{v}} $的真实标签为用户与新闻之间的实际交互情况，如是否点击、观看或浏览新闻，具体定义如下：

(5) $ {y}_{{\boldsymbol{uv}}}=\left\{ \begin{array}{l}1,\quad {\boldsymbol{u}}点击了{\boldsymbol{v}}; \\ 0,\quad 其他.\end{array}\right. $

2.2. 方法构建

TKGN框架如图2所示，主要分为3个模块：基于知识图谱和注意力机制的新闻表示、基于Transformer的用户表示、基于高阶结构信息的候选新闻表示. 图中， ${\boldsymbol{n}} ^{{v}}_i $表示用户第i个历史点击新闻， ${\boldsymbol{n}}_i $包含新闻单词 ${\boldsymbol{w}}^n_i $与新闻实体 ${\boldsymbol{e}}^n_i $；p为用户u的历史点击新闻数. 将每一条新闻采用注意力机制生成单词表示和实体表示，拼接形成新闻表示 $ {\boldsymbol{n}} $. 利用Transformer学习用户点击过的新闻序列信息和偏好信息，生成用户表示 $ {\boldsymbol{u}} $. 融合知识图谱高阶结构信息 $ {S^v} $，计算用户与实体间关系的得分 $ \pi $，利用注意力机制生成候选新闻表示 $ {\boldsymbol{v}} $.

图 2

图 2 TKGN整体框架

Fig.2 Overall framework of TKGN

2.2.1. 基于知识图谱和注意力机制的新闻表示

在以知识图谱作为辅助信息的新闻推荐中，新闻标题分为标题单词和标题实体2部分，分别为 ${{\boldsymbol{w}}^n} $与 ${{\boldsymbol{e}}^n}$. 传统新闻表示最常见的方式是直接拼接，即新闻 ${\boldsymbol{n}} = {{\boldsymbol{w}}^n} \oplus {{\boldsymbol{e}}^n} $. 该方法没有考虑到新闻中单词间与实体间的互动关系. DKN^[4]虽然进行了改进，但忽略了不同单词和实体对句子的重要程度不同. NRMS^[24]考虑了单词的重要性，但未将实体作为辅助信息. 本文利用自注意力机制捕捉单词间和实体间的互动关系，如图3所示，采用自注意力机制分别计算单词和实体的嵌入向量. 计算各单词在映射空间中的内积，进行归一化：

图 3

图 3 注意力机制的计算流程

Fig.3 Calculation process of attention mechanism

(6) $ \alpha _{i,j}^{\rm{w}} = \frac{{{\text{exp}}\left( {{\boldsymbol{w}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{w}}{{\boldsymbol{w}}_j}} \right)}}{{\mathop \sum \nolimits_{k = 1}^m {\text{exp}}\left( {{\boldsymbol{w}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{w}}{{\boldsymbol{w}}_k}} \right)}} . $

式中： $ m $为序列长度， $ \alpha _{i,j}^{\rm{w}} $为单词 $ j $对单词 $ i $的相对重要性， $\;{\boldsymbol{\beta }}_1^{\rm{w}} \in {{\bf{R}}^{{d_{\rm{w}}} \times {d_{\rm{w}}}}}$为映射参数， $ {d_{\rm{w}}} $为单词的嵌入向量维度. 将 $ \alpha _{i,j}^{\rm{w}} $作为权重，对单词求加权和，得到单词 $ i $在映射空间中的向量表示：

(7) $ {{\dot{\boldsymbol w}}_i} = {\boldsymbol{\beta }}_2^{\rm{w}}\mathop \sum \nolimits_{j = 1}^m \alpha _{i,j}^{\rm{w}}{{\boldsymbol{w}}_j} . $

式中： $\; {\boldsymbol{\beta }}_2^{\rm{w}} $为映射参数，该参数是单词间互动关系的体现. 采用加法注意力机制，计算单词在句子中的重要程度 $\rho _i^{\rm{w}}$：

(8) $ \rho _i^{\rm{w}} = {\boldsymbol{\beta }}_4^{\rm{w}}{\text{tanh}}\left( {{\boldsymbol{\beta }}_3^{\rm{w}}{{{\dot{\boldsymbol w}}}_i}+{{\boldsymbol{b}}^{\rm{w}}}} \right) . $

式中： $\; {\boldsymbol{\beta }}_3^{\rm{w}} $为激活函数 $ {\text{tanh}} $中的参数， $ \;{\boldsymbol{\beta }}_4^{\rm{w}} $为查询向量， $ {{\boldsymbol{b}}^{\rm{w}}} $为偏置项. 根据单词在句子中的重要程度，计算单词的加权和得到单词的向量表示：

(9) $ {{\boldsymbol{w}}^n} = \mathop \sum \nolimits_{i = 1}^m \alpha _i^{\rm{w}}{{\dot{\boldsymbol w}}_i} . $

式中： $ \alpha _i^{\rm{w}} $满足 $ \alpha _i^{\rm{w}} = {\text{softmax}}\left( {\rho _i^{\rm{w}}} \right) $. 计算新闻的实体嵌入向量：

(10) $ \alpha _{i,j}^{\rm{e}} = \frac{{{\text{exp}}\left( {{\boldsymbol{e}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{e}}{{\boldsymbol{e}}_j}} \right)}}{\displaystyle{\mathop \sum \nolimits_{k = 1}^m {\text{exp}}\left( {{\boldsymbol{e}}_i^{\rm{T}}{\boldsymbol{\beta }}_1^{\rm{e}}{{\boldsymbol{e}}_k}} \right)}} ,$

(11) $ {{\boldsymbol{\dot e}}_i} = {\boldsymbol{\beta }}_2^{\rm{e}}\mathop \sum \nolimits_{j = 1}^m \alpha _{i,j}^{\rm{e}}{{\boldsymbol{e}}_j} , $

(12) $ \rho _i^{\rm{e}} = {\boldsymbol{\beta }}_4^{\rm{e}}{\text{tanh}}\left( {{\boldsymbol{\beta }}_3^{\rm{e}}{{{\boldsymbol{\dot e}}}_i}+{{\boldsymbol{b}}^{\rm{e}}}} \right) , $

(13) $ {{\boldsymbol{e}}^n} = \mathop \sum \nolimits_{i = 1}^m \alpha _i^{\rm{e}}{{\boldsymbol{\dot e}}_i}. $

式中： $\;{\boldsymbol{\beta }}_1^{\rm{e}} \in {{\bf{R}}^{{d_{\rm{e}}} \times {d_{\rm{e}}}}}$、 $\;\boldsymbol{\beta }_{2}^{{\rm{e}}}$、 $ \;{\boldsymbol{\beta }}_3^{\rm{e}} $和 $ \;{\boldsymbol{\beta }}_4^{\rm{e}} $为参数， $ {d_{\rm{e}}} $为实体的嵌入维度， $ \alpha _i^{\rm{e}} $满足 $ \alpha _i^{\rm{e}} = {\text{softmax}}\left( {\rho _i^{\rm{e}}} \right) $. 拼接单词嵌入向量和实体嵌入向量形成新闻表示 $ {\boldsymbol{n}} = \left[ {{{\boldsymbol{w}}^n},{{\boldsymbol{e}}^n}} \right] $.

2.2.2. 基于Transformer的用户表示

MKR^[5]只对知识和新闻进行建模，忽略了不同时期用户兴趣的改变. 利用Transformer提取用户历史新闻的有效特征，捕捉用户对新闻的偏好信息. Transformer输入为用户点击新闻集合 $ {{\boldsymbol{U}}_n} = \left[ {{\boldsymbol{n}}_1^u,{\boldsymbol{n}}_2^u, \cdots ,{\boldsymbol{n}}_p^u} \right] $，其中 $ {\boldsymbol{n}}_i^u $表示用户第 $ i $个历史点击新闻, $ p $为用户 $ {\boldsymbol{u}} $的历史点击新闻数. 对用户历史向量矩阵进行线性变换，分别计算查询 $ {{\boldsymbol{Q}}_i} $、键 $ {{\boldsymbol{K}}_i} $与值 $ {{\boldsymbol{V}}_i} $矩阵：

(14) $ {{\boldsymbol{Q}}_i} = {{\boldsymbol{U}}_n}{\boldsymbol{W}}_i^Q,$

(15) $ {{\boldsymbol{K}}_i} = {{\boldsymbol{U}}_n}{\boldsymbol{W}}_i^K, $

(16) $ {{\boldsymbol{V}}_i} = {{\boldsymbol{U}}_n}{\boldsymbol{W}}_i^V. $

式中： $ {\boldsymbol{W}}_i^Q $、 $ {\boldsymbol{W}}_i^K $和 $ {\boldsymbol{W}}_i^V $分别为相应矩阵的参数. 计算查询向量与键向量的点积，得到新闻向量的得分：

(17) $ {{\boldsymbol{C}}_i} = {{\boldsymbol{Q}}_i}{\boldsymbol{K}}_i^{\rm{T}}. $

式中： $ {{\boldsymbol{C}}_i} $的每一个元素为相应新闻输入向量的得分. 可得多头自注意力的输出为

(18) $ {\boldsymbol{Z}} = {{\rm{Concat}}} \left( {{{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2}, \cdots ,{{\boldsymbol{Z}}_h}} \right){{\boldsymbol{W}}^O}. $

式中： $ {{\boldsymbol{Z}}_i} $为第 $ i $头自注意力，

(19) $ {{\boldsymbol{Z}}_i} = {{\boldsymbol{V}}_i}{{\rm{softmax}}} \left( {\frac{{{{\boldsymbol{C}}_i}}}{{\sqrt {{d_k}} }}} \right). $

将输出 $ {\boldsymbol{Z}} $输入到前馈神经网络层，得到Transformer编码器的输出：

(20) $ {\boldsymbol{F}} = {\text{LayerNorm(}}{\boldsymbol{O}}+{\text{Dropout\;(max\;(0,}}{\boldsymbol{Z}}{{\boldsymbol{W}}_1}+ {{\boldsymbol{b}}_1}){{\boldsymbol{W}}_2}+{{\boldsymbol{b}}_2})). $

式中： ${\boldsymbol{F}} \in {{\bf{R}}^{p \times {d_{\rm{n}}}}}$，其中 $ {d_{\rm{n}}} $为新闻的嵌入维度.

为了在用户表示中融入所有的新闻信息，用户嵌入向量表示为 $ {\boldsymbol{F}} $的平均值：

(21) $ {\boldsymbol{u}} = {\mathop \sum \limits_{i \leqslant p} {{\boldsymbol{f}}_{i}}} \Big/ p. $

式中： $ {{\boldsymbol{f}}_i} $为用户点击的第 $ i $个新闻经过编码器后的表示向量.

2.2.3. 基于高阶结构信息的候选新闻表示

KGCN^[8]在推荐中加入用户与知识图谱中关系的得分，但该方法的项目和知识图谱的实体对应，不适用于包含多个实体的新闻推荐问题. 对KGCN方法进行改进，具体步骤如下：1）计算用户与关系的得分；2）计算候选新闻实体表示；3）利用注意力机制，计算候选新闻表示. 在步骤1）中，由于不同实体由不同关系进行连接，通过计算用户与关系的得分得到用户对关系的偏好，因用户与关系嵌入维度不一致，增加转换函数 $ g$：

(22) $ \pi = {{\rm{softmax}}} \left( {g({\boldsymbol{u}}){\boldsymbol{r}}} \right). $

式中： $ g({\boldsymbol{u}}) = {{\boldsymbol{u}}^{\rm{T}}}{\boldsymbol{M}} $， ${\boldsymbol{M}} \in {{\bf{R}}^{{d_{\rm{e}}} \times {d_{\rm{n}}}}}$为转换矩阵， $ {\boldsymbol{r}} $为知识图谱中某关系的嵌入向量.

在步骤2）中，如图4所示，从候选新闻实体 $ {{\boldsymbol{e}}_i} $的邻接实体中，随机选取 $ l $个实体作为周围实体，根据得分加权实体 $ {{\boldsymbol{e}}_i} $的周围实体嵌入向量，得到一阶实体信息 $ {\boldsymbol{S}}_i^1 $：

图 4

图 4 候选新闻实体嵌入的计算流程

Fig.4 Calculation process for entity embedding of candidate news

(23) $ {\boldsymbol{S}}_i^1 = \mathop \sum \limits_{j = 1}^l {\pi _{i,j}}{\boldsymbol{e}}_{i,j}^1. $

式中： $ l $为周围实体数， $ {\boldsymbol{e}}_{i,j}^1 $为实体 $ {{\boldsymbol{e}}_i} $的第 $ j $个一阶实体， $ {\pi _{i,j}} $为实体 $ {{\boldsymbol{e}}_i} $与实体 $ {\boldsymbol{e}}_{i,j}^1 $之间的关系得分. 寻找一阶实体的周围实体，得到二阶实体并计算二阶实体信息，以此类推，计算出 $ H $阶的周围实体嵌入向量，融合各阶的实体信息，以此得到候选新闻实体 $ {{\boldsymbol{e}}_i} $的上下文表示 $ {{\boldsymbol{c}}_i} $：

(24) $ {{\boldsymbol{c}}_i} = \mathop \sum \limits_{k = 1}^H {\boldsymbol{S}}_i^k. $

式中： $ {{\boldsymbol{S}}}_{i}^{k} $为实体 $ {{\boldsymbol{e}}_i} $的 $ k $阶实体信息， $ H $为最大阶数. 可见，本文方法能够融合每一阶的结构信息得到实体 $ {{\boldsymbol{e}}_i} $完整的周围实体信息，既保留了结构信息，又增加了与用户之间的互动信息. 结合 $ {{\boldsymbol{e}}_i} $与 $ {{\boldsymbol{c}}_i} $，计算实体 $ {{\boldsymbol{e}}_i} $最终嵌入 $ {\boldsymbol{\tilde e}}_i^v $：

(25) $ {\boldsymbol{\tilde e}}_i^v = {\text{tanh}}\left( {{\boldsymbol{W}}\left( {{{\boldsymbol{e}}_i}+{{\boldsymbol{c}}_i}} \right)+{\boldsymbol{b}}} \right). $

式中： $ {\boldsymbol{W}} $为转换参数， $ {\boldsymbol{b}} $为偏置项. 拼接实体嵌入得到候选新闻实体嵌入 $ {{\boldsymbol{\tilde e}}^v} $：

(26) $ {{\boldsymbol{\tilde e}}^v} = \left[ {{\boldsymbol{\tilde e}}_1^v,{\boldsymbol{\tilde e}}_2^v, \cdots ,{\boldsymbol{\tilde e}}_m^v} \right]. $

在步骤3）中，为了捕捉单词和实体对句子的重要性，引入注意力机制. 输出候选新闻表示：

(27) $ {\boldsymbol{v}} = [{\rm{Attention}}\;({{\boldsymbol{w}}^v}),{\rm{Attention}}\;({\tilde {\boldsymbol{e}}^v})] . $

式中： ${\boldsymbol{w}}^v$为候选新闻单词嵌入， ${\rm{Attention}}$为2.2.1节中单词和实体的注意力机制运算过程.

根据问题定义可知，损失函数包含以下2个部分：第1部分为交叉熵函数，第2部分是L2正则项. 具体定义如下：

(28) $ {L} =-\sum\limits_{{y_{{\boldsymbol{uv}}}} \in Y} {({y_{{\boldsymbol{uv}}}}\ln \; {{\hat y}_{{\boldsymbol{uv}}}} + (1 - {y_{{\boldsymbol{uv}}}})\ln \; (1 - {{\hat y}_{{\boldsymbol{uv}}}})) + \lambda \left\| {\boldsymbol{\varTheta}} \right\|_2^2} . $

式中： $\lambda$为正则项系数， $ {L} $为损失函数.

给出本文方法的执行流程如下.

输入：用户和新闻交互矩阵 ${\boldsymbol{Y}} = [ {y_{{\boldsymbol{uv}}}}|{\boldsymbol{u}} \in {U},{\boldsymbol{v}} \in {V}]$，知识图谱 ${G}=\{{E} ,{R}\}$，其中E为知识图谱实体集，R为知识图谱关系集

输出：预测函数 $ {F} ({\boldsymbol{u}},{\boldsymbol{v}},{\boldsymbol{\varTheta}}, {G})$

1) 初始化所有参数 ${\boldsymbol{\varTheta }}$

2) for ${\boldsymbol{u}},{\boldsymbol{v}}$ in ${\boldsymbol{Y}}$

3)　获取用户 $ {\boldsymbol{u}} $的历史点击新闻集合 $ {{U}}_n $

4)　 for ${\boldsymbol{n}}^u_i$ in ${{U}}_n$

5)　　根据式(6)~(13)，计算新闻 $ {\boldsymbol{n}}^u_i $的单词嵌入 $ {\boldsymbol{w}}^{{n}}_{{i}} $与实体嵌入 $ {\boldsymbol{e}}^{{n}}_{{i}}$

6)　　获得新闻表示 ${\boldsymbol{n}}=[{\boldsymbol{w}}^{{n}}_{{i}},{\boldsymbol{e}}^{{n}}_{{i}}]$

7)　 end for

8) 　根据式(14)~(21)，计算用户表示 $ {\boldsymbol{u}} $

9)　按照式(22)，计算得分 $ \pi $

10)　 for $ {\boldsymbol{e}}_i $ in $ {\boldsymbol{e}}^v $

11)　　 for $ k $ in $ {\rm{range}}(H) $

12)　　　计算实体 ${\boldsymbol{e}}_i$的 $ k $阶实体信息 ${\boldsymbol{S}}^k_i$

13)　　 end for

14) 　　根据式(23)~(25)计算 ${\boldsymbol{e}}_i$实体嵌入 $\tilde {{\boldsymbol{e}}} ^{\boldsymbol{v}}_{{i}}$

15)　 end for

16)　按照式(26)，计算候选新闻实体最终嵌入 $\tilde {{\boldsymbol{e}}} ^{\boldsymbol{v}}$

17)　根据式(27)，获得候选新闻表示 $ {\boldsymbol{v}} $

18)　 $\hat y_{{\boldsymbol{uv}}}=\sigma ({\boldsymbol{u}} \otimes {\boldsymbol{v}}) $

19) end for

20) 利用损失函数 $ {L} $计算梯度，并更新参数 ${\boldsymbol{\varTheta}}$

21) 重复执行步骤2)~20)，直到收敛

本文算法的时间复杂度从以下3个方面分析. 1)新闻表示：自注意力层与加法注意力层的时间复杂度均为 $ O(m{d^2}+{m^2}d) $，其中d为向量维度. 2)用户表示：Transformer多头自注意力的时间复杂度为 $ O({p^2}d) $，线性映射与前馈神经网络的时间复杂度均为 $ O(p{d^2}) $，输出 $ {\boldsymbol{F}} $生成用户表示的时间复杂度为 $ O(pd) $，因此该部分的时间复杂度为 $ O({p^2}d+p{d^2}) $. 3)候选新闻表示：用户与关系得分计算的时间复杂度为 $ O({d^2}) $，高阶信息计算的时间复杂度为 $ O(m{l^H}d) $，计算实体最终嵌入的时间复杂度为 $ O(m{d^2}) $. 综上可知，本文算法的整体时间复杂度为 $ O((m+p){d^2}+({m^2}+{p^2}+m{l^H})d) $.

3. 实验结果与分析

3.1. 数据介绍

分别采用MIND^[25]和Wikidata知识库作为实验数据集和知识图谱. MIND数据是从微软新闻网站的匿名行为日志中收集，包含100万名用户在2019年10月12日至11月22日的新闻点击数据. MIND数据集包含以下2个版本，分别是MIND-small与MIND-large. 如表1所示为数据集的细节分析. 表中，S_n为新闻总数，S_e为新闻总实体数，M_n为用户平均点击数，M_w为新闻平均单词数，M_e为新闻平均实体数，M_r为新闻实体平均重复值，P_s为正样本数. 以MIND-small为例，执行去缺失值和去重操作后，新闻有93698条，用户平均点击新闻历史个数为22.5，新闻总实体数为108 497，平均每条新闻所含的单词数为10.8，大多数新闻单词个数小于15，所含实体的个数集中在0~2，单个新闻实体重复值为6.4，包含正样本339 498条. 在MIND-small中，将验证集的一半划分为测试集；在MIND-large中，将验证集作为测试集，训练集的1/5作为验证集. 实验中，将MIND-small数据集的实验作为超参数调节的依据.

表 1 数据集的描述分析

Tab.1 Description analysis of datasets

数据集	S_n	S_e	M_n	M_w	M_e	M_r	P_s
MIND-small	93 698	108 497	22.5	10.8	1.1	6.4	339 498
MIND-large	173 550	203 947	21.0	10.7	1.2	8.9	3 870 640

新窗口打开| 下载CSV

3.2. 评价指标

1)准确率P. P表示在被预测为正样本的样本中，正样本所占的比例. 计算公式为

(29) $ {{{P}}} = \frac{{{{\rm{TP}}} }}{{{{\rm{TP}}} +{{\rm{FP}}} }} . $

式中： $ {{\rm{TP}}} $为预测与实际都为正样本的个数， ${{\rm{FP}}} $为预测为正样本而实际为负样本的个数.

2)召回率R. R表示在所有的正样本中，被正确预测的比例. 计算公式为

(30) $ {{{R}}} = \frac{{{{\rm{TP}}} }}{{{{\rm{TP}}} +{{\rm{FN}}} }}. $

式中： ${{\rm{FN}}}$为预测为负样本而实际为正样本的个数.

3) F₁. 鉴于准确率与召回率都不能准确衡量性能. F₁综合准确率与召回率的优势，计算公式为

(31) $ {F_1} = \frac{{2PR }}{P+R}. $

4) AUC. AUC指ROC曲线下的面积，可以看作是随机正样本的排名高于随机负样本排名的概率. 计算公式如下：

(32) $ {\text{AUC}} = \frac{{\displaystyle\mathop \sum \nolimits_{i \in {\text{pos}}} {\text{ran}}{{\text{k}}_i} - {{M \left( {M+1} \right)}}/{2}}}{{M N}}. $

式中： $ i $为样本， $ {\text{pos}} $为正样本集合， $ {\text{ran}}{{\text{k}}_i} $为所有样本按照预测概率从小到大排序后的样本序号， $ M $和 $ N $分别为正样本和负样本的个数.

3.3. 超参数调整

采用Word2Vec^[26]初始化单词嵌入向量，由于显存的限制，确定单词维度为200，实体维度为100. 为了验证H、l和Encoder模块数M对算法表现的影响，针对上述超参数取不同值，分别计算对应的AUC和F₁.

如图5(a)所示，当传播阶数为1时，增加传播的深度，能够更多地容纳知识图谱的高阶结构信息，给候选新闻带来更多的有效信息. 随着传播深度的增加，周围实体与候选新闻实体的联系减弱，此时增加阶数带来的噪音增加多于有效信息的增加，因此最佳的传播阶数为2阶. 如图5(b)所示，当周围实体数为1和4时，AUC和F₁较高，这可能是因为一些实体与新闻内容无关，增加过多的周围实体会带来无效信息. 当周围实体数为4时性能较佳，说明增加少量的周围实体能够带来更多的信息，提高预测的精准率，因此设置TKGN中周围实体个数为4. 如图5(c)所示，当Encoder模块数为1和4时，AUC与F₁较高，继续增加Encoder模块会导致复杂度过高，性能降低. 本文取Encoder模块数为1.

图 5

图 5 超参数调节实验

Fig.5 Hyperparameter regulation experiment

3.4. 不同方法的性能比较

3.4.1. 对比方法的介绍

为了验证本文算法的有效性，将本文算法与DKN^[4]、KGCN^[8]、RippleNet^[9]、GNUD^[27]和NRMS^[24]进行比较. DKN^[4]用TransE^[28]作为获得知识图谱实体及上下文嵌入的学习方法，采用Word2Vec^[26]作为词向量嵌入，过滤器数量设置为128. 在KGCN^[8]中，聚合方法采用加法聚合，实体表示的迭代次数为2，采样的实体邻接数为4. RippleNet^[9]在新闻嵌入中引入新闻的内容信息，多跳数为3，水波集的大小设置为32. GNUD^[27]利用交互矩阵建立网络图，以利用高阶交互信息，将偏好特征映射到多个子空间，以学习潜在偏好因素. 子空间数设为7，传播层数为2. NRMS^[24]在新闻端和用户端采用多头自注意力，分别建立新闻单词间的联系和用户点击新闻间的联系. 自注意力头数及各头的嵌入维度均为16，查询向量维度为200.

3.4.2. 实验结果的对比

所有实验的用户点击数设置为20，新闻标题长度为15，词向量维度为200，实体维度为100，batch大小为128. 每个实验重复5次，将5次结果的平均值作为最终的结果报告. 如表2所示为每个方法在2个数据集上的实验结果. 可以看出，KGCN的召回率仅为0.267和0.273，F₁为0.335和0.372，说明KGCN不能正确地区分正样本和负样本. 这可能是因为一则新闻包含多个实体，减弱了实体传播带来的好处，KGCN无法获得新闻中的语义信息. RippleNet的整体预测性能比KGCN好，AUC为0.598和0.613，F₁为0.529和0.567，这是由于在RippleNet输入中引入了新闻语义信息. RippleNet与KGCN类似，都是基于项目与知识图谱实体一对一的推荐，更适合电影、音乐和游戏等自身语义信息不丰富的推荐. DKN的AUC比RippleNet有所提高，召回率为0.501和0.528，F₁为0.523、0.571，性能比KGCN好. 这是因为DKN融合了单词、实体和上下文信息，说明新闻本身单词语义的信息特征能够有效地提高对正、负样本的识别能力. DKN没有考虑到不同单词和实体对新闻重要性的差别. GNUD在MIND-small上的性能和DKN相近，在MIND-large上的性能比DKN提升更明显，这可能是因为交互数据少时，用户和新闻的连接较少. 基于互动关系构建网络图的GNUD性能下降，说明该方法会较大程度受到交互数据的影响. NRMS在基线中性能表现最佳，AUC为0.618和0.656，这是因为NRMS分别在新闻端和用户端利用注意力机制寻找单词和新闻间的隐藏信息，能够较大程度地丰富新闻信息. 缺点是NRMS只探究新闻内部的信息，没有进一步增加辅助信息. TKGN的AUC为0.637和0.679，分别比NRMS高0.019和0.023，F₁比NRMS高0.024和0.013，说明注意力机制、Transformer和知识图谱的引入能够丰富新闻表示和用户表示的信息，提升新闻推荐预测的精度.

表 2 不同方法在数据集上的性能比较

Tab.2 Performance comparison of different methods on datasets

方法	MIND-small				MIND-large
方法	AUC	F₁	P	R	AUC	F₁	P	R
NRMS	0.618	0.539	0.618	0.480	0.656	0.611	0.627	0.596
DKN	0.603	0.523	0.549	0.501	0.619	0.571	0.630	0.528
KGCN	0.582	0.335	0.449	0.267	0.604	0.372	0.598	0.273
RippleNet	0.598	0.529	0.544	0.515	0.613	0.567	0.622	0.524
GNUD	0.602	0.530	0.616	0.466	0.627	0.602	0.631	0.580
TKGN	0.637	0.563	0.623	0.515	0.679	0.624	0.655	0.601

新窗口打开| 下载CSV

3.4.3. 迭代次数的影响讨论

为了验证迭代次数对算法性能的影响，以2为增量逐步增加迭代次数，计算各方法在不同迭代次数e下的AUC和F₁，结果如图6所示. 可以看出，不同方法达到最优性能所需的迭代次数不同，NRMS、GNUD、DKN、KGCN及RippleNet达到最优性能对应的e分别为8、12、18、16及10. TKGN在各训练阶段的性能几乎均高于其他基线方法，证明了TKGN在提升新闻推荐精度方面的有效性.

图 6

图 6 迭代次数对不同算法的影响

Fig.6 Impact of iteration number on different algorithms

3.4.4. 冷启动时方法有效性分析

该实验探究各方法在用户与新闻交互次数稀少时的性能表现. 挑选MIND-small验证集中用户历史点击新闻数小于5的用户及浏览新闻作为测试集，衡量各方法在测试集上的性能及性能下降的程度.

表3中，ΔAUC和ΔF₁分别为AUC和F₁的变化值. 如表3所示，TKGN在用户与新闻交互稀少时，AUC与F₁高于其他方法，说明该方法在数据稀疏时性能较稳定. NRMS、DKN和GNUD性能下降较少，这是由于这3种方法都增加了辅助信息. 与TKGN相比，NRMS与GNUD方法忽略了外界信息的重要性，DKN没有探究单词和实体与新闻的联系. TKGN分别从候选新闻内容、用户点击新闻内容和用户点击新闻序列信息3个角度增加辅助信息，因此能够有效地减少冷启动情况带来的性能下降.

表 3 不同方法在冷启动数据上的性能表现

Tab.3 Performance of different methods at cold-start dataset

方法	AUC	F₁	ΔAUC	ΔF₁
NRMS	0.592	0.511	−0.026	−0.028
DKN	0.578	0.493	−0.025	−0.029
KGCN	0.559	0.230	−0.023	−0.105
RippleNet	0.556	0.507	−0.042	−0.022
GNUD	0.582	0.495	−0.020	−0.035
TKGN	0.619	0.541	−0.018	−0.022

新窗口打开| 下载CSV

3.5. 消融实验分析

将TKGN分为3个模块，分别为知识图谱模块、注意力机制模块与Transformer模块. 为了验证不同模块的有效性，在TKGN的基础上进行以下改动.

1）移除知识图谱模块，得到包含注意力机制和Transformer的方法NKG.

2）移除注意力机制模块，得到包含Transformer和知识图谱的方法NA.

3）移除Transformer模块，得到包含知识图谱和注意力机制的方法NT.

计算不同方法对应的AUC、F₁、Precision和Recall，结果如图7所示. 可见，在移除知识图谱后，AUC和F₁分别为0.621与0.518，性能降低，这说明引入知识图谱，有利于完善新闻信息，提高新闻推荐的准确率. 在移除注意力机制后，分别对新闻中的单词和实体向量进行平均，再拼接作为新闻表示，AUC和F₁分别降低至0.625与0.543，表明利用注意力机制捕捉单词和实体之间的关系，学习单词和实体对新闻表示的重要性能够进一步丰富新闻信息. 在移除Transformer后，将用户嵌入向量表示为用户点击新闻的平均值，AUC和F₁分别降低至0.618与0.495，表明利用Transformer能够有效地学习用户的偏好，提取用户特征，增强性能. 可知，TKGN中3个模块都能带来性能提升，验证了各模块在提升新闻推荐效果方面的有效性.

图 7

图 7 消融实验

Fig.7 Ablation experiments

4. 结　语

提出基于Transformer和知识图谱的新闻推荐新方法. 具体贡献如下. 1)为了丰富新闻信息并减少噪声干扰，引入注意力机制，学习新闻中单词和实体对新闻的影响. 2)鉴于用户在不同时期的偏好不同，利用Transformer学习用户对不同新闻偏好信息的同时，考虑用户点击新闻的顺序信息，提升用户表示的准确性. 3)在候选新闻中，根据用户与关系的得分引入知识图谱高阶结构信息；在候选新闻表示过程中，有效学习用户的个性化特征. 在2个版本的MIND新闻数据集上，与现有的5个典型推荐方法对比表明，本文方法在新闻推荐准确性方面具有一定的优势，验证了该方法在新闻推荐中应用的可行性. 由于本文方法在寻找周围实体时需要在整个知识图谱上进行传播，后续将考虑如何在较小的子图上应用传播算法，以降低方法复杂度.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LI L, CHU W, LANGFORD J, et al. A contextual-bandit approach to personalized news article recommendation [C]// Proceedings of the 19th International Conference on World Wide Web. Raleigh: ACM, 2010: 661-670.

[2]

KOREN Y, BELL R, VOLINSKY C

Matrix factorization techniques for recommender systems

[J]. Computer, 2009, 42 (8): 30- 37

DOI:10.1109/MC.2009.263 [本文引用: 1]

[3]

SUN Z, GUO Q, YANG J, et al

Research commentary on recommendations with side information: a survey and research directions

[J]. Electronic Commerce Research and Applications, 2019, 37 (1): 1- 30

[4]

WANG H, ZHANG F, XIE X, et al. DKN: deep knowledge-aware network for news recommendation [C]// Proceedings of the 2018 World Wide Web Conference. Lyon: ACM, 2018: 1835-1844.

[本文引用: 6]

[5]

WANG H, ZHANG F, ZHAO M, et al. Multi-task feature learning for knowledge graph enhanced recommendation [C]// Proceedings of the 2019 World Wide Web Conference. San Francisco: ACM, 2019: 2000-2010.

[本文引用: 3]

[6]

XIAN Y, FU Z, MUTHUKRISHNAN S, et al. Reinforcement knowledge graph reasoning for explainable recommendation [C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. Paris: ACM, 2019: 285-294.

[7]

宁泽飞, 孙静宇, 王欣娟

基于知识图谱和标签感知的推荐算法

[J]. 计算机科学, 2021, 48 (11): 192- 198

DOI:10.11896/jsjkx.201000085 [本文引用: 1]

NING Ze-fei, SUN Jing-yu, WANG Xin-juan

Recommendation algorithm based on knowledge graph and tag-aware

[J]. Computer Science, 2021, 48 (11): 192- 198

DOI:10.11896/jsjkx.201000085 [本文引用: 1]

[8]

WANG H, ZHAO M, XIE X, et al. Knowledge graph convolutional networks for recommender systems [C]// Proceedings of the 2019 World Wide Web Conference. San Francisco: ACM, 2019: 3307-3313.

[本文引用: 4]

[9]

WANG H, ZHANG F, WANG J, et al. Ripplenet: propagating user preferences on the knowledge graph for recommender systems [C]// Proceedings of the 27th ACM International Conference on Information and Knowledge Management. Torino: ACM, 2018: 417-426.

[本文引用: 4]

[10]

刘羽茜, 刘玉奇, 张宗霖, 等

注入注意力机制的深度特征融合新闻推荐模型

[J]. 计算机应用, 2022, 42 (2): 426- 432

LIU Yu-xi, LIU Yu-qi, ZHANG Zong-lin, et al

News recommendation model with deep feature fusion injecting attention mechanism

[J]. Computer Applications, 2022, 42 (2): 426- 432

[11]

CHEN Q, ZHAO H, LI W, et al. Behavior sequence transformer for e-commerce recommendation in Alibaba [C]// Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. Anchorage: ACM, 2019: 1-4.

[12]

TANG J, WANG K. Personalized top-n sequential recommendation via convolutional sequence embedding [C]// Proceedings of the 11th ACM International Conference on Web Search and Data Mining. Marina Del Rey: ACM, 2018: 565-573.

[13]

冯永, 张备, 强保华, 等

MN-HDRM: 长短兴趣多神经网络混合动态推荐模型

[J]. 计算机学报, 2019, 42 (1): 16- 28

FENG Yong, ZHANG Bei, QIANG Bao-hua, et al

MN-HDRM: a novel hybrid dynamic recommendation model based on long-short-term interests multiple neural networks

[J]. Journal of Computer Science, 2019, 42 (1): 16- 28

[14]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: MIT Press, 2017: 6000-6010.

[15]

BANSAL T, DAS M, BHATTACHARYYA C. Content driven user profiling for comment-worthy recommendations of news and blog articles [C]// Proceedings of the 9th ACM Conference on Recommender Systems. Vienna: ACM, 2015: 195-202.

[16]

KUMAR V, KHATTAR D, GUPTA S, et al. Deep neural architecture for news recommendation [C]// Proceedings of the 2017 Conference and Labs of the Evaluation Forum. Dublin: [s. n. ], 2017: 1-19.

[17]

ZHANG Q, LI J, JIA Q, et al. UNBERT: user-news matching BERT for news recommendation [C]// Proceedings of the 30th International Joint Conference on Artificial Intelligence. Montreal: Morgan Kaufmann, 2021: 3356-3362.

[18]

WU C, WU F, QI T, et al. Feedrec: news feed recommendation with various user feedbacks [C]// Proceedings of the ACM Web Conference. Lyon: ACM, 2022: 2088-2097.

[19]

QI T, WU F, WU C, et al. Personalized news recommendation with knowledge-aware interactive matching [C]// Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. Canada: ACM, 2021: 61-70.

[20]

LIU D, LIAN J, LIU Z, et al. Reinforced anchor knowledge graph generation for news recommendation reasoning [C]// Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Singapore: ACM, 2021: 1055-1065.

[21]

VRANDECIC D, KROTZSCH M

Wikidata: a free collaborative knowledgebase

[J]. Communications of the ACM, 2014, 57 (10): 78- 85

DOI:10.1145/2629489 [本文引用: 1]

[22]

XU B, XU Y, LIANG J, et al. CN-DBpedia: a never-ending Chinese knowledge extraction system [C]// Proceedings of the 30th International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. Arras: Springer, 2017: 428-438.

[23]

SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge [C]// Proceedings of the 16th International Conference on World Wide Web. Banff: ACM, 2007: 697-706.

[24]

WU C, WU F, GE S, et al. Neural news recommendation with multi-head self-attention [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong: ACL, 2019: 6389-6394.

[本文引用: 3]

[25]

WU F, QIAO Y, CHEN J H, et al. Mind: a large-scale dataset for news recommendation [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2020: 3597-3606.

[26]

MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [C]// Proceedings of the 1st International Conference on Learning Representations. Scottsdale: [s. n. ], 2013: 1-12.

[27]

HU L, XU S, LI C, et al. Graph neural news recommendation with unsupervised preference disentanglement [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2020: 4255-4264.

[28]

BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data [C]// Proceedings of the 26th Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2013: 2787-2795.