<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 深度神经网络结构

Fig.1 Structure of deep neural network

(3) $\left.\begin{array}{c} {{{h}}^1} = {\sigma ^1}\left( {{{{W}}^1}{{z}} + {{{b}}^1}} \right) ,\\ {{{h}}^2} = {\sigma ^2}\left( {{{{W}}^2}{{{h}}^1} + {{{b}}^2}} \right), \\ \vdots \\ {{{h}}^t} = {\sigma ^t}\left( {{{{W}}^t}{{{h}}^{t - 1}} + {{{b}}^t}} \right) ,\\ \hat {{y}} = {{{W}}^{{\rm{out}}}}{{{h}}^t} + {{{b}}^{{\rm{out}}}}. \\ \end{array} \right\}$

式中： $t$为隐藏层的数量， ${{{h}}^i}$、 ${{{W}}^i}$、 ${{{b}}^i}$、 ${\sigma ^i}$分别为深度神经网络中第 $i$个隐藏层的输出向量、权重矩阵、偏差向量和激活函数， ${{{W}}^{{\rm{out}}}}$、 ${{{b}}^{{\rm{out}}}}$分别为输出层的权重矩阵和偏差向量. 输出层是没有激活函数的；隐藏层的激活函数可以有许多选择，如Sigmoid函数、Tanh函数和ReLU函数.

随着大数据和芯片技术的飞速发展，深度神经网络在单标签分类任务中已经展现出优越的性能^[21-22]. 将一些多标签算法^[18]引入神经网络结构，极大地提升了其特征提取能力. 但是，现有的分类器链算法的基分类器大多为简单的支持向量机或朴素贝叶斯等分类器，分类效果较差，无法处理大规模数据集. 因此，本研究重点探究如何采用深度神经网络作为基分类器，提升分类器链算法性能.

由于神经网络的训练需要大量的训练数据，并且参数规模较大，训练速度较慢，无法将其应用在集成分类器链中. 同时，如果仅训练一个分类器链，那么将会出现标签相关性提取不充分的问题，即对于第 $j$个基分类器，单个分类器链只能提取当前标签和前 $j - 1$个标签的相关性. 因此，如何在保证较快训练速度的同时，应用神经网络有效提升分类器链算法的性能已经成为亟待解决的问题.

2. 深度双向分类器链

为了解决上述问题，本研究提出基于神经网络的双向分类器链. 对于任意标签序列 $({y^j})_{j = 1}^q$，DBCC通过一条正向链获取每个标签和前面所有标签的依赖关系；之后引入逆向链，从最后一个基分类器的输出开始反向利用每个标签和所有其他标签的依赖关系. 在这样的设置下，DBCC无须预先得到合理的标签顺序以及使用集成算法训练多个弱分类器. 此时，模型只需要一个双向分类器链就可以有效地提取标签依赖性，因此可以使用神经网络作为基分类器进一步提高预测性能. 如图2所示为DBCC模型在测试阶段的结构.

图 2

图 2 DBCC测试阶段结构图

Fig.2 Structure of DBCC in testing phase

2.1. 正向链

正向链模型与原始分类器链相同，采用二分类神经网络模型作为原始分类器链的基分类器. 在训练阶段，每个分类器的输入为特征向量 $ x$和之前所有的真实标签 ${y^1},{y^2},\cdots,{y^q}$，输出为一个预测标签 ${\tilde y_j}$；在测试阶段，算法将输入标签替换为前面所有分类器预测的标签 ${\tilde y^1},{\tilde y^2},\cdots,{\tilde y^q}$. 定义正向链第 $j$个基分类器 ${C_j}$的神经网络函数为 ${\tilde f_j}$，预测结果表达式如下：

(4) $\!\!\!\!\!\left. \begin{array}{l} \qquad\qquad\qquad\qquad{{\tilde y}^j} = {{\tilde f}_j}\left( {{{{u}}_j}} \right),\\ {{{u}}_j} = \left\{ \begin{array}{c} \left[ {{x^1},{x^2},\cdots,{x^p},{y^1},{y^2},\cdots,{y^{j - 1}}} \right],{\text{训练阶段}};\\ \left[ {{x^1},{x^2},\cdots,{x^p},{{\tilde y}^1},{{\tilde y}^2},\cdots,{{\tilde y}^{j - 1}}} \right],{\text{测试阶段}}. \end{array} \right. \end{array} \right\}\!\!\!\!\!$

通过上述过程，正向链已经能够在一定程度上提取标签相关性，但对前 $q - 1$个标签，其标签提取是不充分的. 例如，对第 $j$（ $j < q$）个标签的预测没有考虑后续第 $j + 1$至最后一个标签的相关性. 因此，正向链得到的标签是一个训练不充分的标签. 接下来，算法引入一条逆向链，进一步提取更复杂的标签相关性.

2.2. 逆向链

在正向链中，最后一个分类器的输入是特征向量和前 $q - 1$个标签，因此该分类器的预测充分考虑了该标签和其他所有标签的依赖关系，即最后一个标签的预测 ${\tilde y^q}$是最佳预测. 另一方面，正向链对第 $q - 1$个标签的预测只考虑了该标签与前 $q - 2$个标签的相关性，而忽视了与第 $q$个标签的关系. 引入另一个神经网络分类器 ${\hat f^{q - 1}}$，结合 ${\tilde y^q}$与 ${\tilde y^{q - 1}}$，得到对第 $q - 1$个标签的最佳预测 ${\hat y^{q - 1}} = {\hat f^{q - 1}}$ $ \left( {\left[ {{{\tilde y}^q},{{\tilde y}^{q - 1}}} \right]} \right)$. ${\tilde y^{q - 1}}$中包含特征向量和前 $q - 1$个标签的信息，缺少最后一个标签的信息，而 ${\hat y^q}$能够为这个不充分预测提供有效的补充，因此最终的预测值完全考虑了第 $q - 1$个标签与其他所有标签的依赖性，可以作为第 $q - 1$个标签的最佳预测.

以此类推该过程至正向链的所有输出，形成一条逆向链，最终每个输出的标签都考虑了与其他所有标签的相关性. 定义 ${\hat y^q} = {\tilde y^q}$，可以得到逆向链的迭代公式表达式如下：

(5) $\left. \begin{array}{l} \qquad\qquad\qquad{{\hat y}^j} = {{\hat f}_j}\left( {{{{v}}_j}} \right),\\ {{{v}}_j} = \left\{ \begin{array}{l} \left[ {{{\tilde y}^j},{y^{j + 1}},{y^{j + 2}},\cdots,{y^q}} \right],{\text{训练阶段}};\\ \left[ {{{\tilde y}^j},{{\hat y}^{j + 1}},{{\hat y}^{j + 2}},\cdots,{{\hat y}^q}} \right],{\text{测试阶段}}. \end{array} \right. \end{array} \right\}$

结合正向链，DBCC模型包含 $2q - 1$个深度神经网络，假设 $S$为神经网络的复杂度，则模型训练和测试的时间复杂度为 $O\left( {\left( {2q - 1} \right)S} \right)$. 在训练过程中，同一条链上的分类器可以并行训练，所以实际训练的时间复杂度仅为 $O\left( {2S} \right)$. 这只是简单估计，由于逆向链没有引入特征向量 $ x$，因此复杂度更低. 同时，DBCC模型的空间复杂度仅为简单替换基分类器为神经网络的原始分类器链的常数倍，这样的空间开销是可以接受的.

通过上述过程，DBCC充分利用了每个标签和其他所有标签的相关性，使得标签依赖顺序不再须预先确定. 在保证时间和空间复杂度的情况下，DBCC引入神经网络作为基分类器，提取线性依赖以外更强的标签依赖，提高模型的预测性能.

2.3. 模型训练

为了训练DBCC中的神经网络模型，DBCC使用均方误差函数（mean square error，MSE）. 该损失函数常用于回归中，表达式为

(6) $\begin{array}{*{20}{l}} {l\left( {{{{y}}^j},{{{{\hat y}}}^j}} \right) = {{({{{{\hat y}}}^j} - {{{y}}^j})}^2}} \end{array}.$

式中： $j = 1,2,3,\cdots,q$.

正向链的错误预测将会直接影响逆向链提取相关性的能力. 因此，DBCC结合2条链的输出信息，得到最终需最小化的目标函数：

(7) $\begin{split} {\cal L} = & \frac{\tau }{2}\sum\limits_{\theta \in \varTheta } {{{\left\| \theta \right\|}^2}} + \\ & \frac{1}{{\left( {1 + \lambda } \right)qN}}\mathop \sum \limits_{i = 1}^N {\rm{}}\mathop \sum \limits_{j = 1}^q \left( {l\left( {y_i^j,\tilde y_i^j} \right) + \lambda l\left( {y_i^j,\hat y_i^j} \right)} \right). \end{split}$

式中： $\lambda $为用来权衡2个预测值损失的变量， $y_i^j$、 $\tilde y_i^j$、 $\hat y_i^j$分别为第 $i$个样本的第 $j$个真实标签、正向链预测标签、逆向链预测标签， $\varTheta $为模型所有参数的集合， $\tau $为正则系数.

DBCC采用随机梯度下降算法（stochastic gradient descent，SGD）来训练模型. SGD是通用的训练神经网络的方法，使用后向传播算法迭代更新参数，直到整个模型收敛为止. 在每次迭代中，SGD随机选择一个训练样本 ${{x}}$，朝着梯度相反的方向更新每一个参数.

3. 实验与结果

3.1. 实验设置

3.1.1. 数据集

使用RCV1-v2数据集来验证所提出算法的有效性. RCV1-v2数据集是Lewis等^[27]从新闻网站路透社（Reuters）上收集的新闻稿件集合. 该社每天生产用23种语言写成的11 000 篇新闻稿件，但是这些稿件太过杂乱，也有不少错误. Lewis等^[27]收集了部分新闻稿件，并加以整理和修改，最后发布了RCV1-v2数据集. 该数据集包含30 000条新闻稿件，每个新闻稿件具有47 236个特征，对应着101个标签. 为了提高算法运行速度，本研究使用主成分分析算法将特征进行降维，提取前500个特征向量. 同时，在实验时随机选择80%的数据用来训练，剩余20%的数据用作测试. 每个实验均运行5次，并报告平均值和标准差.

3.1.2. 对比试验

用于对比的方法为2个先进的分类器链算法和2个其他多标签算法. 1）CC算法^[19]. 选择2个不同的分类器链算法：使用SVM作为基分类器的原始分类器链（Vanilla CC）算法和使用深度神经网络作为基分类器（deep classifier chains，DCC）的分类器链算法. 2）CCE算法^[20]. CCE使用圈结构来避免分类器链，使用多轮迭代求得较为精确的标签值. 3）C2AE算法^[18]. 作为首个基于深度神经网络的多标签投影算法，C2AE结合深度典型相关分析算法（deep canonical correlation analysis, DCCA）和自动编码器来提取标签依赖.4）BR算法^[16]. BR算法将多标签问题转化为多个独立的单标签问题进行求解. BR的基分类器同样被设置为深度神经网络.

3.1.3. 参数设置

使用TensorFlow^[28]实现DBCC算法. 设置随机梯度下降算法的学习率默认值 $\eta = 0.001$，损失函数的权重参数 $\lambda = 1$，正则系数 $\tau {\rm{ = 0}}{\rm{.01}}$. 每个基分类器均为3 层神经网络，维度为 $\left[ {64,8,1} \right]$. 神经网络的参数由一个标准高斯分布初始化. 在对比实验方面，VanillaCC和CCE算法的基分类器为使用RBF核函数的SVM分类器. 设置CCE算法的迭代次数为5次，BR、DCC算法的学习率 $\eta $=0.001，BR算法的基分类器为维度为 $\left[ {64,8,1} \right]$的3层神经网络，C2AE算法的参数为文献[18]中的默认参数. 此外，本研究还探究了算法对参数的敏感性，学习率 $\eta $的取值范围为 $\left\{ {10^{ - 4}},3 \times{10^{ - 4}}, {10^{ - 3}},\; \right.$ $3\times{10^{ - 3}} ,{10^{ - 2}}{\rm{\} }}$.

3.1.4. 评价指标

使用如下4种不同的评价指标来衡量方法的性能.

1）Micro-F1. 计算总的精准率和召回率，之后计算F1分数. F1分数的表达式为

(8) $\begin{array}{*{20}{l}} {{\rm{F}}1 = 2 {{{{P}} {{R}}}}/({{{{P}} + {{R}}}})} \end{array}.$

式中：P、R分别为精准率和召回率.

2）Macro-F1. 在标签维度上计算F1分数并取平均.

3）Example-F1. 在每个测试样本的标签上计算F1分数并取平均.

4）Precision@ $K$. 该指标为精确率度量. 给定预测标签向量 $\hat {{y}} \in {{\bf{R}}^q}$和真实值向量 ${{y}} \in {\{ 0,1\} ^q}$，则Precision@ $K$的表达式为

(9) $\begin{array}{*{20}{l}} {{\rm{Precision}}@K = \dfrac{1}{K}\mathop {\displaystyle\sum} \limits_{j \in {\rm{ran}}{{\rm{k}}_K}\left( {{{\hat y}}} \right)} {y_j}} \end{array}.$

式中： ${\rm{rank}}{_K}\left( {\hat {{y}}} \right)$为分数最高的 $K$个 ${y_j}$对应的下标集合. 在实验中，选择 $K = 1,2,3,4,5$.

3.2. 实验结果

如表1所示为不同方法在Micro-F1、Macro-F1和Example-F1度量上的实验结果. 如图3所示为不同方法的Precision@ $K$结果. 如图4所示为不同的度量结果随学习率的变化. 可以看出：1）由于BR算法缺少对标签相关性的提取，最终效果不理想. 2）DCC算法的效果显著优于Vanilla CC算法，说明神经网络作为基分类器能够有效提升预测性能. 3）DBCC算法的效果显著优于其他所有算法. 这证明了所提出的DBCC算法具有较好的性能. 其中，优于Vanilla CC算法和CCE算法说明神经网络的特征提取能力较强，能够显著提升预测性能；优于DCC算法说明所提算法不易受到标签顺序的影响. 4）随着学习率的变化，模型的3个指标的变化幅度不大，说明该模型较稳定，对参数不敏感. 综上可知，DBCC算法性能高且稳定.

表 1 3个F1度量的实验结果

Tab.1 Experimental results of three F1-measures

方法	Micro-F1	Macro-F1	Example-F1
DBCC	0.491±0.010	0.270±0.009	0.487±0.003
Vanilla CC	0.456±0.008	0.216±0.013	0.461±0.009
DCC	0.459±0.015	0.267±0.010	0.471±0.008
CCE	0.454±0.002	0.249±0.005	0.437±0.003
C2AE	0.423±0.021	0.272±0.018	0.403±0.022
BR	0.419±0.011	0.219±0.019	0.397±0.016

新窗口打开| 下载CSV

图 3

图 3 不同方法的Precision@$ K$度量实验结果

Fig.3 Experimental results of Precision@ $K$ for different methods

图 4

图 4 学习率敏感性实验结果

Fig.4 Experimental results of learning rate sensitivity

4. 结　语

本研究提出基于深度神经网络的双向分类器链算法DBCC. 算法在传统分类器链算法的基础上，引入一条逆向分类器链依次提取当前标签和其他所有标签的依赖关系. DBCC算法使用神经网络模型作为基分类器，使得算法能够提取非线性标签依赖关系，进一步提升了预测性能. 在多标签新闻数据集RCV1-v2上的实验结果表明，DBCC算法不仅在预测性能上显著优于其他先进的分类器链算法和多标签算法，还具有较好的鲁棒性.

Nam等^[29]提出基于LSTM的分类器链变种算法. 注意到DBCC算法在结构上与双向循环神经网络模型较相似，因此后续工作将致力于结合双向分类器链算法与RNN、LSTM等神经网络模型.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

MCCALLUM A, NIGAM K. A comparison of event models for naive Bayes text classification [C]// AAAI-98 Workshop on Learning for Text Categorization. Madison: AAAI, 1998, 752(1): 41-48.

[2]

DILRUKSHI I, DE Z K, CALDERA A. Twitter news classification using SVM [C]// International Conference on Computer Science and Education. Colombo: IEEE, 2013: 287-291.

[3]

KUMAR R B, KUMAR B S, PRASAD C S S

Financial news classification using SVM

[J]. International Journal of Scientific and Research Publications, 2012, 2 (3): 1- 6

[4]

SELAMAT A, OMATU S

Web page feature selection and classification using neural networks

[J]. Information Sciences, 2004, 158: 69- 88

DOI:10.1016/j.ins.2003.03.003 [本文引用: 1]

[5]

KIM Y. Convolutional neural networks for sentence classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha: ACL, 2014: 1746-1751.

[6]

KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1725-1732.

[7]

WERMTER S

Neural network agents for learning semantic text classification

[J]. Information Retrieval, 2000, 3 (2): 87- 103

DOI:10.1023/A:1009942513170 [本文引用: 1]

[8]

BLEI D M, NG A Y, JORDAN M I

Latent Dirichlet allocation

[J]. Journal of Machine Learning Research, 2003, 3: 993- 1022

[9]

涂鼎, 陈岭, 陈根才, 等

基于在线层次化非负矩阵分解的文本流主题检测

[J]. 浙江大学学报: 工学版, 2016, 50 (8): 1618- 1626

TU Ding, CHEN Ling, CHEN Gen-cai, et al

Hierarchical online NMF for detecting and tracking topic

[J]. Journal of Zhejiang University: Engineering Science, 2016, 50 (8): 1618- 1626

[10]

林萌, 罗森林, 贾丛飞, 等

融合句义结构模型的微博话题摘要算法

[J]. 浙江大学学报: 工学版, 2015, 49 (12): 2316- 2325

LIN Meng, LUO Sen-lin, JIA Cong-fei, et al

Microblog topics summarization algorithm merging sentential structure model

[J]. Journal of Zhejiang University: Engineering Science, 2015, 49 (12): 2316- 2325

[11]

HARRIS Z S

Distributional structure

[J]. Word, 1954, 10 (2/3): 146- 162

[12]

SALTON G, YU C T. On the construction of effective vocabularies for information retrieval [C]// ACM SIGIR Forum. Gaithersburg: ACM, 1973: 48-60.

[13]

BI W, KWOK J T. Multi-label classification on tree-and dag-structured hierarchies [C]// Proceedings of the 28th International Conference on Machine Learning. Bellevue: IMLS, 2011: 17-24.

DOI:10.1016/j.patcog.2006.12.019 [本文引用: 1]

[14]

ZHANG M L, ZHOU Z H

ML-KNN: a lazy learning approach to multi-label learning

[J]. Pattern Recognition, 2007, 40 (7): 2038- 2048

[15]

BRINKER K, HÜLLERMEIER E. Case-based multilabel ranking [C]// IJCAI. Hyderabad: IJCAI, 2007: 702-707.

[16]

TSOUMAKAS G, KATAKIS I, VLAHAVAS I. Mining multi-label data [M]// Data Mining and Knowledge Discovery Handbook. Boston: Springer, 2009: 667-685.

[17]

HSU D J, KAKADE S M, LANGFORD J, et al. Multi-label prediction via compressed sensing [C]// Advances in Neural Information Processing Systems. Vancouver: NIPS, 2009: 772-780.

[18]

YEH C K, WU W C, KO W J, et al. Learning deep latent space for multi-label classification [C]// AAAI. San Francisco: AAAI, 2017: 2838-2844.

[本文引用: 5]

[19]

READ J, PFAHRINGER B, HOLMES G, et al

Classifier chains for multi-label classification

[J]. Machine Learning, 2011, 85 (3): 333

DOI:10.1007/s10994-011-5256-5 [本文引用: 3]

[20]

王少博, 李宇峰

用于多标记学习的分类器圈方法

[J]. 软件学报, 2015, 26 (11): 2811- 2819

WANG Shao-bo, LI Yu-feng

Classifier circle method for multi-label learning

[J]. Journal of Software, 2015, 26 (11): 2811- 2819

[21]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks [C]// Advances in Neural Information Processing Systems. Lake Tahoe: NIPS, 2012: 1097-1105.

[22]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[23]

MCCULLOCH W S, PITTS W

A logical calculus of the ideas immanent in nervous activity

[J]. The Bulletin of Mathematical Biophysics, 1943, 5 (4): 115- 133

DOI:10.1007/BF02478259 [本文引用: 2]

[24]

ROSENBLATT F

The perceptron: a probabilistic model for information storage and organization in the brain

[J]. Psychological Review, 1958, 65 (6): 386

DOI:10.1037/h0042519 [本文引用: 1]

[25]

LECUN Y, BOTTOU L, BENGIO Y, et al

Gradient-based learning applied to document recognition

[J]. Proceedings of the IEEE, 1998, 86 (11): 2278- 2324

DOI:10.1109/5.726791 [本文引用: 1]

[26]

MIKOLOV T, KARAFIÁT M, BURGET L, et al. Recurrent neural network based language model [C]// 11th Annual Conference of the International Speech Communication Association. Florence: ISCA, 2011: 2877-2880.

[27]

LEWIS D D, YANG Y, ROSE T G, et al

Rcv1: a new benchmark collection for text categorization research

[J]. Journal of Machine Learning Research, 2004, 5: 361- 397

[28]

ABADI M, BARHAM P, CHEN J, et al. Tensorflow: a system for large-scale machine learning [C]// OSDI. Savannah: USENIX, 2016, 16: 265-283.

[29]

NAM J, MENCIA E L, KIM H J, et al. Maximizing subset accuracy with recurrent neural networks in multi-label classification [C]// Advances in Neural Information Processing Systems. Long Beach: NIPS, 2017: 5413-5423.