浙江大学学报(工学版), 2020, 54(2): 331-339 doi: 10.3785/j.issn.1008-973X.2020.02.014

计算机技术、信息工程

基于改进三体训练法的半监督专利文本分类方法

胡云青,, 邱清盈,, 余秀, 武建伟

Semi-supervised patent text classification method based on improved Tri-training algorithm

HU Yun-qing,, QIU Qing-ying,, YU Xiu, WU Jian-wei

通讯作者: 邱清盈,男,副教授,博士. orcid.org/0000-0001-6884-3125. E-mail: medesign@zju.edu.cn

收稿日期: 2018-12-27  

Received: 2018-12-27  

作者简介 About authors

胡云青(1994—),男,硕士生,从事专利知识挖掘和创新设计研究.orcid.org/0000-0003-1710-4423.E-mail:huyunqing616@163.com , E-mail:huyunqing616@163.com

摘要

针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.

关键词: 专利文本分类 ; 特征选择 ; 信息增益 ; 半监督 ; 三体训练算法

Abstract

An improved information gain (IG) algorithm was proposed, in order to solve the problem that the IG algorithm can only be used to investigate the contribution of features to the whole system, but not for a single category. The weight coefficient is introduced to adjust the information gain values of features important for classification, so the inhomogeneity of distribution of a word among categories can be better considered. A semi-supervised classification method based on the improved Tri-training algorithm was proposed, aiming at the bottleneck problem of training set labeling in traditional patent automatic classification. The prediction probability thresholds of the same unlabeled sample's category of three classifiers are dynamically changed by tracking the distribution of sample categories of training sets after each iteration. As a result, the influence of noise data is reduced and the full advantage of the unmarked training samples is achieved. Results indicate that the proposed classification method has positive automatic classification effect in the case of fewer labeled training samples, and the generalization ability of the classifier can be improved through appropriately increasing unlabeled sample data.

Keywords: patent text classification ; feature selection ; information gain ; semi-supervised ; Tri-training algorithm

PDF (615KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

胡云青, 邱清盈, 余秀, 武建伟. 基于改进三体训练法的半监督专利文本分类方法. 浙江大学学报(工学版)[J], 2020, 54(2): 331-339 doi:10.3785/j.issn.1008-973X.2020.02.014

HU Yun-qing, QIU Qing-ying, YU Xiu, WU Jian-wei. Semi-supervised patent text classification method based on improved Tri-training algorithm. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(2): 331-339 doi:10.3785/j.issn.1008-973X.2020.02.014

在传统的监督学习[1-2]中,分类器通过对大量有标注的样本进行学习来建立模型用于预测未标注的样本. 随着数据采集和存储技术的飞速发展,收集大量未标注的文本样本较为容易,而获取大量有标注的样本则相对较为困难,特别是在文本分类领域,因为对这些样本打上标注须耗费大量的人力和时间. 如果只使用少量的有标注样本,那么训练得到的分类器往往不具备较强的泛化能力;无法利用大批量的未标注样本,也是对数据的极大浪费[3]. 因此,如何在有标注样本较少时利用大量未标注样本来提高分类器的准确率,成为当前机器学习研究中最受关注的问题之一.

半监督学习[4-7]研究的主要内容就是如何高效地利用少量标记数据和大量的未标记数据来训练分类器,与监督学习相比,它能以更高的性价比,获取同样甚至更好的学习效果. 半监督学习将大量的无标记样本同少量的有标记样本一起训练,以改善模型的性能. 目前半监督学习主要分为以下4种形式:生成式方法[8-10]、基于低密度划分的方法[11]、图半监督学习[12]、基于分歧的方法[13-14]. 基于分歧的半监督学习始于协同训练(Co-training)方法. 协同训练算法由Blum等[14]提出. 在该方法中,假设数据集有2个充分冗余的视图,每个视图各自对应一个属性集. 其中,对视图的定义有2个充分必要条件:每个属性集都能对原数据集进行描述,且每个属性集都独立于另一个属性集. 但是,在现实中这2个条件较难满足,比如不少数据具有多视图[15-16],但未必是充分视图;往往2个视图并不是充分独立的. 文献[17]不要求问题本身具有充分冗余视图,但引入了对分类器种类的限制,此外为了估计标记置信度,也增大了计算开销. 针对Co-training的缺陷,三体训练法[18](Tri-training)应运而生,在利用多分类器协同训练的同时,避免传统协同策略验证时间长的问题,提高了效率. 传统的Tri-training协同训练方法通过判断3个分类器的预测一致性来隐式地对不同未标记示例的标记置信度进行比较[19],这一做法使得该算法无须频繁地使用耗时的统计测试技术. 与显式估计标记置信度相比,隐式处理往往不够准确,特别是如果初始分类器较弱,未标记示例可能被错误标记,从而给第3个分类器的训练引入噪声. 另外,虽然该算法定义了误差约束公式来约束噪声数据的引入,但未考虑分类器误差积累导致训练集中样本类别不平衡的问题. 针对以上问题,本研究将半监督学习和协同训练的思想引入专利文本分类,同时对传统的信息增益算法和Tri-training算法进行改进,提出基于改进Tri-training算法的半监督分类方法来实现对专利文本的分类,充分利用未标记样本数据来提升分类性能.

1. 专利文本预处理

专利文本分类过程包括:1)专利文本部分选择,对专利中标题、摘要、技术领域等文本部分进行选择以代表整个专利文本进行后续处理;2)专利文本清洗,对所选择的文本部分进行清洗;3)分类特征训练选择,根据特征选择算法对过程2)中所选择的文本部分的单词计算评估值,根据评估值排序并按设定的特征维度选取一定数量的单词作为特征;4)分类器训练,利用所选取的特征构建文本向量空间,并训练专利分类算法,构建专利分类器;5)将测试集专利按照步骤4)中同样的方法表示为特征向量,并利用所构建的分类器对其进行分类.

1.1. 专利文本清洗

专利文本清洗是指对选取的专利文本数据进行规范化处理,使之转换成可供后续特征提取的形式,主要包括分词、去停用词、删除特殊字符和英文单词词根还原. 其中,分词利用英文中的空格和标点符号作为分隔符来得到单词;去停用词是剔除没有意义的词语,利用常用的英文停用词表对这些单词进行过滤;删除特殊字符利用正则表达式对除英文字符、数字、标点符号外的其他字符进行过滤;英文单词词根还原是去除词缀以获得单词的基本形式.

1.2. 专利文本特征选择方法

在文本分类[20]中常用的特征选择算法是信息增益[21]. 信息增益体现了特征的重要性,信息增益越大说明特征越重要.

总的信息增益公式[22]如下:

$\begin{split} {\rm{IG(}}t) =& - \sum\limits_{i = {\rm{1}}}^{k} {P({C_i}){{\log }_{\rm{2}}}\;P({C_i}) + P(t)\sum\limits_{i = {\rm{1}}}^{k} {P({C_i}|t) } } \times \\&{{\log }_{\rm{2}}}\;P({C_i}|t) + P(\overline t )\sum\limits_{i = {\rm{1}}}^{k} {P({C_i}|\bar t)} {\log _{\rm{2}}}\;P({C_i}|\bar t). \end{split} $

式中:k为专利类别数; $P({C_i})$为某类专利文本在所有类别专利文本总数中出现的概率, $P({C_i}) = {{{N_{{C_i}}}}/ N}$${N_{{C_i}}}$为某类专利文本的数量, $N$为总专利文本的数量; $P(t)$为包含特征 $t$的文本在总专利文本中出现的概率, $P(t) = {{{N_t}} / N}$${N_t}$为包含特征 $t$的专利数量; $P({C_i}|t)$为当特征 $t$出现时该专利属于类别 ${C_i}$的条件概率, $P({C_i}|t) = {{{N_{{c_i} \cap t}}} / {{N_t}}}$${N_{{c_i} \cap t}}$${C_i}$类中出现特征 $t$的专利数; $P(\overline t )$为不包含特征 $t$的文本在总专利文本中出现的概率, $P(\overline t ) = {{{N_{\overline t }}} / N}$${N_{\overline t }}$为不包含特征 $t$的专利数量; $P({C_i}|\overline t )$为当特征 $t$不出现时该专利属于类别 ${C_i}$的条件概率, $P({C_i}|\overline t ) = {{{N_{{c_i} \cap \overline t }}}/ {{N_{\overline t }}}}$${N_{{c_i} \cap \overline t }}$${C_i}$类中没有出现特征 $t$的专利数.

信息增益的最大问题在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,忽略了特征对单个类别的信息贡献[23]. 对于不同类别的专利来说,其文本的特征常常差异较大,其中存在一些对某类专利有较大区分价值的特征,因在其他类别中的信息增益值较低,综合信息增益评估值也较低. 因此须设法调整这类词的信息增益. 石慧等[24]从特征在类内出现的频数、类内位置分布、不同类间的分布等方面对IG算法的参数进行修正,但该算法时间复杂度较高;本研究参考Ko[25]提出的应用于文本分类的特征权重方案,该方案综合考虑类别信息和类间词频分布来表示特征的权重,能有效提高重要特征的权重. 本研究将其应用在信息增益算法中,一个词在类别间的分布越不均匀,便赋予它越高的权重,例如:特征 $t$在类别 ${C_i}$内出现的概率远大于出现在其他类别中的概率,且出现的频数较多,那么就认为该特征对 ${C_i}$有较大的区分能力. 提出如下权重系数计算方法:

${E_i} = {\log _{\rm{2}}}\;({f_t} + {\rm{1}}) {\log _{\rm{2}}}\;\left({{P(t|{C_i})}}/{{P(t|\overline {{C_i}} )}} + \alpha \right)\,.$

式中: ${f_t}$为特征 $t$出现的频数; $P(t|{C_i})$为特征 $t$出现在类别 ${C_i}$中的概率, $P(t|{C_i}) = \displaystyle\sum\nolimits_{k = {\rm{1}}}^{{N_{{C_i}}}} {P(t|{d_k})P({d_k}|{C_i})} $$P(t|{d_k}) = {{f_t^{{d_k}}} / {\left| {{d_k}} \right|}}$为文档 ${d_k}$中特征 $t$出现的频率, $f_t^{{d_k}}$为文档 ${d_k}$中特征 $t$的频数, $\left| {{d_k}} \right|$为文档 ${d_k}$的长度, $P({d_k}|{C_i})$dkCi类专利文本中的平均分布, $P({d_k}|{C_i}) \!= $ $ {1 / {{N_{{C_i}}}}}$$P(t|\overline {{C_i}} )$为特征 $t$出现在除类别 ${C_i}$外的其他类别中的概率, $P(t|\overline {{C_i}} ) = \displaystyle\sum\nolimits_{h = {\rm{1}}}^{{N_{\overline {{C_i}} }}} {P(t|{d_h})P({d_h}|\overline {{C_i}} )} $$P(t|{d_h}) = $ $ {{f_t^{{d_h}}}/ {\left| {{d_h}} \right|}}$为文档 ${d_h}$中特征 $t$出现的频率, $P({d_h}|{\overline C _i})$${d_h}$在除 ${C_i}$类外的其他类别专利文本中的平均分布, $P({d_h}|{\overline C _i}) = {1 / {{N_{\overline {{C_i}} }}}}$${N_{\overline {{{\rm{C}}_i}} }}$为除类别 ${C_i}$外其他类别的数量; $\log_2\; ({f_t} + {\rm{1}})$中的加1是为了避免当 ${f_t}$=1时整体为0,导致权重系数为0; $\alpha $作用在于使得log2 $\left({{P(t|{C_i})}}/{{P(t|\overline {{C_i}} )}} + \alpha \right)$整体大于0,本研究中取 $\alpha = 2$. 考虑到不同特征的词频差异,对式(2)进行归一化处理:

${\xi _i} = ({{{E_i}^{\rm{2}} - {\rm{1}}}})/{{{E_i}^{\rm{2}}}}\,.$

可以看出, ${f_t} \geqslant {\rm{1}}$,故 ${\log _{\rm{2}}}\,\;({f_t} + {\rm{1}}) \geqslant {\rm{1}}$$\alpha = {\rm{2}}$${{P(t|{C_i})}}/ $ ${{P(t|\overline {{C_i}} )}} \geqslant 0$,故 ${\log _{\rm{2}}}\;\left({{P(t|{C_i})}}/{{P(t|\overline {{C_i}} )}} + \alpha \right) >\! {\rm{1}}$. 所以, ${E_i}$>1,系数 ${\xi _i}$<1,且和 ${E_i}$正相关. ${E_i}$越大表示该特征在分类中的价值越大.

在传统IG算法的基础上,引入权重系数 ${\xi _i}$,对某类具有重要价值特征的信息增益赋予较大的 ${\xi _i}$,对价值较低特征的信息增益赋予较小的 ${\xi _i}$,得到改进后的信息增益表达式:

$\begin{split} {\rm{IG}}(t) =& - {\xi _i}\sum\limits_{i = {\rm{1}}}^N {P({C_i}){{\log }_{\rm{2}}}\;P({C_i}) + } {\xi _i}P(t)\sum\limits_{i = {\rm{1}}}^N {P({C_i}|t)}\times\\& {{\log }_{\rm{2}}}\;P({C_i}|t) + {\xi _i}P(\bar t)\sum\limits_{i = {\rm{1}}}^N {P({C_i}|\bar t){{\log }_{\rm{2}}}\;P({C_i}|\bar t)} . \end{split} $

2. 基于改进Tri-training的半监督分类方法

Tri-training算法在本质上属于多分类器组合方法,主要目的是将各个分类器的输出组合到一起,从而获得比单个分类器更优的性能[26-27]. 传统Tri-training算法在协同训练过程中,各分类器所获得的新标记示例都由其余2个分类器协作提供. 未标记数据中样本类别比例未知,且在训练过程中不断引入噪音数据,分类器判别误差不断积累,从而导致更新后的训练集样本类别不平衡. 针对这一问题,本研究提出改进的Tri-training算法. 与标准的Tri-training算法主要有以下3点不同. 1)所提出的改进算法不再同时更新3个训练集,而是3个分类器共享1个训练集,即采用3种差异较大的分类算法来训练同一个数据集;2)在对未知样本进行预测并添加到训练集时,提高训练集的“准入条件”,即只有当3个分类器对同一个未标记样本的预测相同,且3个分类器给出的预测概率均大于各自的概率阈值时,才能认为该样本具有较高的标记置信度,并在标记后将其添加到有标记训练集中;3)追踪每次更新后的训练集样本类别分布,动态地更新3个分类器对同一未标记样本的概率阈值. 例如,当更新完的训练集中某一类样本数目超过比例上界时,则扩大该类对应的概率阈值,反之,当某一类样本数小于比例下界时,则降低概率阈值. 这样做的目的在于在降低噪音数据影响的同时保持训练集样本类别平衡.

为了方便描述,设 ${D_{\rm{i}}}$为包含 $\left| {{D_{\rm{i}}}} \right|$个样本 $\{ {d_{{{\rm i}_{\rm{1}}}}}, $ ${d_{{{\rm i}_{\rm{2}}}}},\cdots,{d_{{{\rm i}_{\left| {{D_{\rm{i}}}} \right|}}}}\} $且给定标签集合 $C = \{ {c_{\rm{1}}},{c_{\rm{2}}},{c_{\rm{3}}},\cdots,{c_m}\} $的有标记平衡训练集; ${D_{\rm{U}}}$为包含 $\left| {{D_{\rm{U}}}} \right|$个样本 $\{ {d_{{{\rm u}_{\rm{1}}}}}, $ ${d_{{{\rm u}_{\rm{2}}}}},\cdots,{d_{{{\rm u}_{\left| {{D_{\rm U}}} \right|}}}}\} $的无标记训练集;验证集和测试集为 ${D_{\rm{v}}}$${D_{\rm{t}}}$. ${D_{\rm{i}}}$${D_{\rm{v}}}$${D_{\rm{t}}}$服从同一数据分布. 令通过原始有标记平衡训练集训练得到的3个初始分类器为 ${h_1}$${h_2}$${h_3}$,使用这3个分类器对未知样本集进行预测判断,仅满足前文所述条件(即3个分类器对同一个未标记样本的预测相同,且3个分类器给出的预测概率均大于各自的概率阈值)的样本才可加入到原始训练集中. 预测概率由分类器的分类算法计算得到,3个分类器对 ${D_{\rm{U}}}$中任一样本 ${d_{{{\rm u}_j}}}$均会得到 $\left| C \right|$个和为1的概率分布集合,表达式为

$\begin{split} {P({{d_{{{\rm u}_j}}}})} =& \{ {{\rm{pro}}{_{{h_k}}^{{c_i}}}({d_{{{\rm u}_j}}})}|{\rm{ 0}} < {{\rm{pro}}{_{{h_k}}^{{c_i}}}({d_{{{\rm u}_j}}})} < {\rm{1}},{\rm{ }}k = {\rm{1,2,3}}{\rm{, }} \\ &d_{{{\rm u}_j}} \in {D_{\rm U}}{\rm{, }}{c_i} \in C,\displaystyle\sum\limits_{i = {\rm{1}}}^m {{\rm{pro}}{_{{h_k}}^{{c_i}}}({d_{{{\rm u}_j}}})} = {\rm{1}} \} \,. \end{split} $

其中最大的概率即为预测概率,表达式为

$ \max\; \{ {{\rm{pro}}{_{{h_k}}^{{c_i}}}({d_{{{\rm u}_j}}})}|0 < {{\rm{pro}}{_{{h_k}}^{{c_i}}}({d_{{{\rm u}_j}}})} < 1,{c_i} \in C\}. $

根据每轮迭代训练后样本类别比例的变化对概率阈值进行动态更新,因此首先须获得3个分类器概率阈值的初始值集合. 这里采取用频率代替的方法来近似估计概率阈值,首先用 ${h_1}$${h_2}$${h_3}$对未标记数据集 ${D_{\rm{U}}}$进行初步判定,得到3个分类器对 ${D_{\rm{U}}}$预测的“伪标记”集合 ${{{L}}^{\rm{0}}} = {\rm{\{ }}l_{{h_k}}^{{d_{{{\rm{u}}_j}}}}{\rm{|}}l_{{h_k}}^{{d_{{{\rm{u}}_j}}}} \in C,k = $ $ {\rm{1,2,3}},{d_{{{\rm{u}}_j}}} \in {D_{\rm{U}}}\} $,然后采用式(7)计算 ${L^{\rm{0}}}$中3个分类器对 $m$个类别的判定标记数量频率,作为概率阈值的初始值集合:

$\begin{split}&{\rm{Per}} = \{ {\rm{per}}_{{h_k}}^{{c_i}}{\rm{|}}{\rm{per}}_{{h_k}}^{{c_i}} = \frac{{\displaystyle\sum\limits_{j = {\rm{1}}}^{\left| {{D_{\rm U}}} \right|} F(l_{h_k}(d_{{\rm u}_j})=c_i) }}{{\displaystyle\sum\limits_{i = {\rm{1}}}^m {\displaystyle\sum\limits_{j = {\rm{1}}}^{\left| {{D_{\rm U}}} \right|} } F(l_{h_k}(d_{{\rm u}_j})=c_i) }},\quad\quad\\&\quad k = {\rm{1,2,3}},{\rm{ }}{c_i} \in C\}\;{\rm{.}}\end{split}$

式中:当 $l_{h_k}(d_{{\rm u}_j})=c_i $时,F(·)=1,否则为0.

算法具体步骤如下.

输入:原始有标记平衡训练集 ${D_{\rm{i}}}$,未标记训练集 ${D_{\rm{U}}}$,验证集 ${D_{\rm{v}}}$和测试集 ${D_{\rm{t}}}$,未标记训练集子集数 $n$,迭代次数 ${t_0}$,样本类别比例上界 ${P_{\rm{h}}}$,下界 ${P_{\rm{l}}}$,微调步长step.

输出:最终分类器 $C$,测试结果F1.

1)首先对有标记平衡训练集 ${D_{\rm{i}}}$进行预处理,即分词、去停用词和词形还原.

2)使用改进的IG特征选择算法,对预处理后的 ${D_{\rm{i}}}$进行降维处理并得到特征向量,并使用朴素贝叶斯、支持向量机、Xgboost[28]3种分类算法对特征向量进行训练得到3个差异较大的初始分类器 ${h_1}$${h_2}$${h_3}$.

3)用 ${h_1}$${h_2}$${h_3}$对未标记数据集 ${D_{\rm{U}}}$进行初步判定,得到3个分类器对 ${D_{\rm U}}$预测的“伪标记”集合 ${{{L}}^{\rm{0}}}$.

4)计算L0中3个分类器对 $m$个类别的判定标记数量频率:

${\rm{Per}} = {\rm{\{ }}{\rm{per}}_{{h_k}}^{{c_i}},k={\rm{1,2,3}},{c_i} \in C{\rm{\} }}.$

5)将 ${D_{\rm{U}}}$随机均分成 $n$个子集, ${D_{\rm{U}}} = {D_{{{\rm U}_{\rm{1}}}}}\cup {D_{{{\rm U}_{\rm{2}}}}}\cup$ $ \cdots \cup{D_{{{\rm U}_n}}}$${D_{{{\rm U}_t}}} = \{ d_{\rm{1}}^{{{\rm U}_t}},d_{\rm{2}}^{{{\rm U}_t}},d_{\rm{3}}^{{{\rm U}_t}},\cdots, d_{\left| {{D_{{{\rm U}_t}}}} \right|}^{{{\rm U}_t}}\},$ $\forall {D_{{{\rm U}_t}}} \subset {D_{\rm U}}.$

6)使用 ${h_1}$${h_2}$${h_3}$这3个分类器对同一数据集 ${D_{{{\rm U}_t}}}$进行判定,得到3个分类器对 ${D_{{{\rm U}_t}}}$预测的标记集合和概率分布集合:

$L(D_{{\rm U}_t})= \{{ll_{h_k}}(d^{{\rm U}_t}_l)|{ll_{h_k}}(d^{{\rm U}_t}_l) \in C,k = {\rm{1,2,3}},d_l^{{{\rm U}_t}} \in {D_{{{\rm U}_t}}}\} ,$

$\begin{split} P(D_{{\rm U}_t}) =& \{{\rm{pro}}^{c_i}_{h_k}(d^{{\rm U}_t}_l) |{\rm{0}} < {\rm{pro}}^{c_i}_{h_k}(d^{{\rm U}_t}_l) < {\rm{1}},k = {\rm{1,2,3}}, \\ & d_l^{{{\rm U}_t}} \in {D_{{{\rm U}_t}}},{c_i} \in C,\displaystyle\sum\limits_{i = {\rm{1}}}^m {\rm{pro}}^{c_i}_{h_k}(d^{{\rm U}_t}_l)=1 {\rm{\} }} . \end{split} $

7)对 ${D_{{{\rm U}_t}}}$中的每一篇专利文本 $d_l^{{{\rm U}_t}}$,进行如下操作:将该未标记样本 $d_l^{{{\rm U}_t}}$连同其标记 ${ll_{h_k}}(d^{{\rm U}_t}_l)$添加到 ${D_{{\rm{i}}}}$中,从 ${D_{\rm{U}}}$中删去 $d_l^{{{\rm U}_t}}$,即 ${D_{\rm{i}}}{\rm{ }} + = {\rm{ \{ }}d_l^{{{\rm U}_t}}\} $${D_{\rm{U}}}{\rm{ }} - = {\rm{ \{ }}d_l^{{{\rm U}_t}}{\rm{\} }}$,约束条件如下:

$ \left. \begin{split} ll_{h_1}(d_l^{{\rm U}_t})=ll_{h_2}(d_l^{{\rm U}_t})=ll_{h_3}(d_l^{{\rm U}_t})=c_i, \forall c_i \in C, \\ \max\; \{ {\rm{pro}}^{c_i}_{h_k}(d^{{\rm U}_t}_l) |{\rm{0}} < {\rm{pro}}^{c_i}_{h_k}(d^{{\rm U}_t}_l) < {\rm{1}},\\{c_i} \in C\} \geqslant {\rm{per}}_{{h_k}}^{{c_i}}, \forall k = {\rm{1,2,3}}.\end{split}\right\}$

目的是提高训练集的“准入条件”.

8)为了在降低噪音数据影响的同时保持训练集样本类别平衡,采取如下措施:如果 ${D_{\rm{i}}}$中某一类别 ${c_i}$的数量占总数的比例大于 ${P_{\rm{h}}}$或小于 ${P_{\rm{l}}}$,则将对应的 ${\rm{per}}_{{h_k}}^{{c_i}}$加上或减去step.

9)重复步骤6)~8),遍历完 ${D_{{{\rm U}_t}}}$中所有专利文本.

10)用更新后的 ${D_{\rm{i}}}$重新训练3个分类器 ${h_1}$${h_2}$${h_3}$,并对验证集 ${D_{\rm{v}}}$进行验证,记录验证结果和此时的迭代情况;

11)重复步骤5)~10),直至迭代次数等于 ${t_0}$

12)取3个分类器中验证结果最优的作为最终分类器 $C$,并对测试集 ${D_{\rm{t}}}$进行测试,输出测试结果F1.

3. 试验与分析

3.1. 试验数据及设置

设置以用户设计需求为导向的专利文献自动分类,用户需求是产品的设计目标,是创新设计的源动力. 专利产品设计目标与目标设计产品的相关程度决定专利知识对该产品设计任务的匹配程度. 产品设计目标可以分解为功能目标和性能目标. 功能目标是产品存在的目的和用途,是设计的必达目的,包括产品对象、目的功能和接口环境;性能目标是实现功能程度、质量和持久性的度量,用以实现产品质量的不断完善和提高,包括性能对象(如速度、重量、力等)、性能改进方向(如增加、减少、改变等)、性能改进程度,可以是具体数值. 例如目前须设计能够保持夹紧力,防止松动的钻夹头,得到功能目标(钻夹头、联接钻头、机床或电动工具)以及性能目标(夹紧力、保持、NULL).

本研究以设计目标相关性为专利分类的标准,将专利文献分为如下4类:Ⅰ类专利,具备与目标设计产品相同的功能目标和性能目标;Ⅱ类专利,具备与目标设计产品相同的功能目标,但性能目标不同;Ⅲ类专利,具备与目标设计产品不同的功能目标,但性能目标相同;Ⅳ类专利,具备与目标设计产品不同的功能目标和性能目标.

专利篇幅一般较长,如果将专利中全部文本作为特征选择的内容,会大大增加文本分类的计算复杂度,也有可能因为专利不同部分代表信息不同而影响最终的分类效果. 标题、摘要、发明背景篇幅较短,同时涵盖对专利进行概括性描述的信息,因此具备区分专利产品设计目标与目标设计产品的功能目标和性能目标相同与否的信息,同时避免文本冗余,因此本研究利用标题、摘要和发明背景构建专利文本分类语料库.

所采用的专利数据来源为网络爬虫爬取的美国专利商标服务局USPTO网站上的专利文本,并由创新设计专家对其按设计目标进行标注. 专利文本数据集来源如下:以“drill”与“clamp”为关键词构建网络爬虫爬取USPTO网站,获得11 196篇专利文本,对其中随机采样出的818 篇专利文本进行人工标注,其中类别Ⅰ专利数量为175 篇,类别Ⅱ数量为162 篇,类别Ⅲ数量为225 篇,类别Ⅳ数量为256 篇;为了保证数据集平衡,从上述专利集的类别Ⅰ、Ⅲ、Ⅳ各随机采样162 篇专利,与类别Ⅱ的专利共同形成648篇平衡专利集,按照同分布随机划分为比例为360∶80∶208的训练集 ${D_1}$、验证集 ${D_2}$和测试集 ${D_3}$,再从 ${D_1}$中按照随机重复采样的方法分别采样出分别包括160、200、240篇专利的平衡训练集;对从11 196篇专利文本中过滤掉已标注的818 篇专利文本后剩余的10 378篇 专利进行可重复随机采样,依次采样出4 000、5 500、7 000、8 500、10 000 篇专利分别组成集合 ${D_4}$~ ${D_{\rm{8}}}$作为未标记训练样本.

一般文本分类实验中超参数的选择是通过人工经验或者k-折交叉验证的方式进行的. 本研究为了避免算法复杂度过高,将部分超参数通过人工经验确定. 设定迭代次数 ${t_0}$=10,样本上限比例Ph=30%,下限比例Pl=20%,微调步长step=2.0×10−4,重点考察未标记训练集子集数n的选择对实验结果的影响. 子集数设定过大可能会使得算法时间复杂度过高,而分类效果提升并不显著;过小则可能由于分类器迭代不够充分,导致对未知样本的判别不够准确.

特征分类算法分别采用传统IG算法和本研究所提出的改进IG算法(IG_New)进行,分类算法采用支持向量机(support vector machine,SVM)、多项式朴素贝叶斯(naive Bayes,NB)、Xgboost、改进的Tri-training协同训练算法(Tri-training_New)和传统Tri-training协同训练算法(Tri-training). 为了对比基于特征选择算法IG_New和半监督分类算法Tri-training_New的改进专利自动分类方法与现有常用分类方法的分类效果,设置4组试验,试验设置如下.

1)试验1:对比IG_New、IG这2种特征选择算法和3个分类器分别搭配组合的分类方法(简称为IG_New&Xgboost、IG_New&NB、IG_New&SVM、IG&X-gboost、IG&NB、IG&SVM),设定特征维度为150~950,以100为间隔;以 ${D_1}$中的160篇专利组成训练集 ${D_{{\rm{i}}}}$,以 ${D_3}$作为测试集 ${D_{{\rm{t}}}}$.

2)试验2:对比不同未标记训练集子集数和不同数量初始训练集的改进专利自动分类方法(IG_New&Tri-training_New),以考察在不同数量初始训练集下,n的变化对分类效果的影响;设定n=6、7、8、9、10;设定特征维度为450;以D1中的160、200、240 篇专利依次组成原始有标记训练集Di,以D2作为验证集 ${D_{{\rm{v}}}}$,以D3作为测试集Dt,以D4作为未标记训练集 ${D_{\rm{U}}}$.

3)试验3:对比不同数量无标记样本和不同数量初始训练集的IG_New&Tri-training_New,以考察在不同数量初始训练集下,无标记样本数量的变化对分类效果的影响;设定n=8;设定特征维度为450;以 ${D_1}$中的160、200、240 篇专利依次组成原始有标记训练集 ${D_{{\rm{i}}}}$,以 ${D_2}$作为验证集 ${D_{{\rm{v}}}}$,以 ${D_3}$作为测试集 ${D_{{\rm{t}}}}$,以 ${D_4}$~ ${D_{\rm{8}}}$依次作为未标记训练集 ${D_{\rm{U}}}$.

4)试验4:对比不同数量初始训练集的IG_New&Tri-training_New、基于IG_New与传统Tri-training的分类算法(IG_New&Tri-training、IG_New&Xgboost,IG_New&SVM、IG_New&NB);设定n=8;设定特征维度为450;以 ${D_1}$中的160、200、240 篇专利组成的集合以及 ${D_1}$自身依次作为原始有标记训练集 ${D_{{\rm{i}}}}$,以 ${D_2}$作为验证集 ${D_{{\rm{v}}}}$,以 ${D_3}$作为测试集 ${D_{{\rm{t}}}}$,以 ${D_4}$作为未标记训练集 ${D_{\rm{U}}}$.

5)试验5~8:为了验证以上试验结果的合理性,采取标准数据集进行进一步验证. 采用文本分类中常用的国际标准数据集aclImdb,该数据集为IMDB电影评论数据集,包含12 500 条正面评价和12 500 条负面评价. 每组试验的数据大小和参数分别与试验1~4相同.

3.2. 评价指标

查准率 $P$和查全率 $R$的表达式分别为

$P = \frac{a}{{a + c}} \times 100{\text{%}},$

$R = \frac{a}{{a + b}} \times 100{\text{%}}.$

式中:a为实际属于某类别,并且分类器预测其为该类别的文本数;b为实际属于某类别,并且分类器预测其为其他类别的文本数;c为实际不属于某类别,但是分类器预测其为该类别的文本数.

查准率和查全率分别反映专利自动分类的2个不同方面的效果,一般来说查准率和查全率是互相矛盾的,即不可能同时提高这2个指标,因此须综合考虑. 采用评估值 $F_1$作为实验的评价指标,表达式为

$F_1 ={{2RP}}/({{R + P}})\, .$

3.3. 试验结果及分析

试验1~8的分类结果如表1~8所示. 表中,Dim为特征维度. 由表1可知,相比传统IG算法,本研究所提出的IG_New特征选择算法在3种分类器中的F1平均提升率分别为8.98%、9.26%、16.52%. 可以看出,IG_New算法相对于传统IG算法对3种分类器的分类效果提升帮助较大.

表 1   专利数据集特征选择对比结果(试验1)

Tab.1  Comparsion results of feature selection on patent dataset (Test 1)

分类器 F1
Dim=150 Dim=250 Dim=350 Dim=450 Dim=550 Dim=650 Dim=750 Dim=850 Dim=950
Xgboost IG_New&Xgboost 0.515 0.516 0.516 0.519 0.516 0.518 0.518 0.518 0.518
IG&Xgboost 0.469 0.471 0.471 0.480 0.473 0.474 0.475 0.474 0.475
SVM IG_New&SVM 0.474 0.470 0.475 0.502 0.475 0.471 0.470 0.474 0.474
IG&SVM 0.430 0.432 0.432 0.450 0.441 0.439 0.430 0.432 0.432
NB IG_New&NB 0.420 0.412 0.425 0.431 0.430 0.420 0.424 0.425 0.429
IG&NB 0.362 0.375 0.367 0.370 0.355 0.383 0.352 0.360 0.354

新窗口打开| 下载CSV


表 2   专利数据集未标记训练子集数对比结果(试验2)

Tab.2  Comparsion results of number of unlabeled training subsets on patent dateset (Test 2)

n F1
Num=160 Num=200 Num=240
6 0.667 0.675 0.684
7 0.679 0.688 0.698
8 0.684 0.690 0.698
9 0.683 0.690 0.698
10 0.683 0.690 0.699

新窗口打开| 下载CSV


表 3   专利数据集未标记训练集中样本数量对比结果(试验3)

Tab.3  Comparison results of sample size of unlabeled training sets on patent dataset (Test 3)

|DU| F1
Num=160 Num=200 Num=240
4 000 0.684 0.690 0.698
5 500 0.688 0.694 0.705
7 000 0.692 0.699 0.706
8 500 0.687 0.698 0.701
10 000 0.681 0.693 0.698

新窗口打开| 下载CSV


表 4   专利数据集分类方法对比结果(试验4)

Tab.4  Comparsion results of classification method selection on patent dataset (Test 4)

分类方法 F1
Num=160 Num=200 Num=240 Num=360
IG_New&Tri-training_New 0.684 0.690 0.698 0.711
IG_New&Tri-training 0.583 0.597 0.603 0.620
IG_New&Xgboost 0.519 0.527 0.538 0.562
IG_New&SVM 0.502 0.510 0.518 0.539
IG_New&NB 0.431 0.442 0.453 0.478

新窗口打开| 下载CSV


表 5   aclImdb数据集特征选择对比结果(试验5)

Tab.5  Comparsion results of feature selection on aclImdb dataset (Test 5)

分类器 F1
Dim=150 Dim=250 Dim=350 Dim=450 Dim=550 Dim=650 Dim=750 Dim=850 Dim=950
Xgboost IG_New&Xgboost 0.665 0.670 0.670 0.675 0.708 0.704 0.700 0.700 0.700
IG&Xgboost 0.648 0.660 0.660 0.662 0.690 0.690 0.674 0.670 0.670
SVM IG_New&SVM 0.664 0.670 0.665 0.673 0.671 0.674 0.674 0.674 0.635
IG&SVM 0.595 0.652 0.584 0.594 0.635 0.604 0.585 0.592 0.592
NB IG_New&NB 0.660 0.660 0.660 0.667 0.667 0.654 0.663 0.660 0.650
IG&NB 0.625 0.594 0.610 0.653 0.660 0.622 0.600 0.615 0.602

新窗口打开| 下载CSV


表 6   aclImdb数据集未标记训练子集数对比结果(试验6)

Tab.6  Comparsion results of number of unlabeled training subsets on aclImdb dataset (Test 6)

n F1
Num=160 Num=200 Num=240
6 0.710 0.715 0.729
7 0.714 0.715 0.731
8 0.726 0.730 0.741
9 0.717 0.730 0.745
10 0.719 0.728 0.741

新窗口打开| 下载CSV


表 7   aclImdb数据集未标记训练集中样本数量选择对比结果(试验7)

Tab.7  Comparison results of sample size of unlabeled training sets on aclImdb dataset (Test 7)

|DU| F1
Num=160 Num=200 Num=240
4 000 0.726 0.730 0.741
5 500 0.730 0.736 0.745
7 000 0.725 0.741 0.741
8500 0.725 0.741 0.741
10 000 0.732 0.745 0.645

新窗口打开| 下载CSV


表 8   aclImdb数据集分类方法选择对比结果(试验8)

Tab.8  Comparsion results of classification method selection on aclImdb dataset (Test 8)

分类方法 F1
Num=160 Num=200 Num=240 Num=360
IG_New&Tri-training_New 0.726 0.730 0.741 0.759
IG_New&Tri-training 0.710 0.724 0.735 0.738
IG_New&Xgboost 0.675 0.681 0.685 0.692
IG_New&SVM 0.673 0.676 0.679 0.684
IG_New&NB 0.667 0.675 0.680 0.689

新窗口打开| 下载CSV


表2可知,在有标记训练样本均相对较少的情况下,本研究提出的IG_New&Tri-training_New算法可以利用未标记专利样本以增强监督学习的能力. 在3种初始训练集数量下,当n从6到7,F1变化较大;当n继续增大,F1提升效果不明显. 表明想要同时获得最优的表现和较低的时间复杂度,n不能过大或过小,符合前文对n的论述. 当初始训练集数量不断增大时, $F_1$有所提升,说明适当增大初始训练集,能改善该算法的分类效果.

表3可知,在3种初始训练集数量下,当未标记训练集数目为7 000时,IG_New&Tri-training_New算法的F1均达到峰值,分别为0.692、0.699、0.706. 在不同初始训练集数量下,随着未标记训练集的增大,F1均表现出先增大后减小的趋势,表明该算法想要获得最优的表现,那么未标记训练集数量不能过大或过小. 在一定范围内增大未标记专利样本数目可以改善该算法的分类效果.

表4可知,在4种初始训练集数量下,IG_New&Tri-training_New算法的分类效果均比其他分类算法好. 随着训练集数量的增加,该算法F1增大幅度小于其他对比算法,表明在小数据集下,算法的分类效果趋于稳定,且能取得较好的分类效果.

表5可知,IG_New特征选择算法相比传统IG算法在3种分类器中F1平均提升率分别为2.79%、10.57%、6.56%. 可以看出,在标准数据集上,IG_New算法相对于传统IG算法对3种分类器的分类效果提升帮助各不相同,其中对SVM分类器的效果提升大于对其他2个分类器.

表6~7可知,IG_New&Tri-training_New算法在标准数据集上的分类效果有着与专利文本类似的体现.

表8可知,IG_New&Tri-training_New算法的分类效果优于其他分类算法,但可能由于分类器的选择与数据集不适配,该算法在标准数据集上的分类效果相比其他分类算法的提升程度并没有达到在专利文本上的表现.

综上分析,改进IG特征选择算法在专利文本分类效果上优于传统IG算法;改进基于Tri-training的半监督算法在专利文本中的分类效果也优于Xgboost、NB和SVM等其他常用文本分类算法;基于改进IG的特征选择算法和基于改进Tri-training的半监督算法结合的专利自动分类方法优于上述多种分类方法,在专利文本自动分类中具有较好的分类效果.

4. 结 语

在有标记训练样本相对较少的情况下,本研究所提出的改进专利分类方法可以利用未标记专利样本增强监督学习的能力,且在一定范围内适当增大初始训练集数目和未标记专利样本数目能改善算法的分类效果. 当然,本研究所提出的算法也存在不足,例如算法中较多超参数由人工经验确定,在未来的研究中,应当想办法解决这一问题.

参考文献

TAKERU M, SHIN-ICHI M, SHIN I, et al

Virtual adversarial training: a regularization method for supervisedand semi-supervised learning

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 2883039

[本文引用: 1]

YANG H F, LIN K, CHEN C S

Supervised learning of semantics-preserving hash via deep convolutional neural networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (2): 437- 451

DOI:10.1109/TPAMI.2017.2666812      [本文引用: 1]

周志华

基于分歧的半监督学习

[J]. 自动化学报, 2013, 39 (11): 1871- 1878

DOI:10.3724/SP.J.1004.2013.01871      [本文引用: 1]

ZHOU Zhi-hua

Disagreement-based semi-supervised learning

[J]. Actaautomatica Sinica, 2013, 39 (11): 1871- 1878

DOI:10.3724/SP.J.1004.2013.01871      [本文引用: 1]

CHAPELLE O, SCHÖLKOPFB, ZIEN A. Semi-supervised learning [J]. IEEE Transactions on Neural Networks, 2009, 20(3): 542.

[本文引用: 1]

TURIAN J, RATINOV L, BENGIO Y. Word representations: a simple and general method for semi-supervised learning [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics. Uppsala: ACL, 2010: 384-394.

KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [C]// ICLR 2017. [s.l.]: ICLR, 2017: 1-14.

DAI A M, LE Q V. Semi-supervised sequencelearning [C]// Neural Information Processing Systems. Montreal: NIPS, 2015: 1−9.

[本文引用: 1]

SHAHSHAHANI B M, LANDGREBE D A

The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon

[J]. IEEE Transactions on Geoscience and Remote Sensing, 1994, 32 (5): 1087- 1095

DOI:10.1109/36.312897      [本文引用: 1]

MILLER D, UYAR H. A mixture of experts classifier with learning based on both labeled and unlabeled data [C]// Advances in Neural Information Processing Systems 9. Denver: NIPS, 1997: 571-577.

NIGAM K, MCCALLUM A K, THRUN, S

Text classification from labeled and unlabeled documents using EM

[J]. Machine Learning, 2000, 39 (2/3): 103- 134

DOI:10.1023/A:1007692713085      [本文引用: 1]

JOACHIMS T. Transductive inference for text classification using support vector machines [C]// Proceedings of the 16th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc, 1999: 200-209.

[本文引用: 1]

ZHU X J, GHAHRAMANI Z, LAFFERTY J. Semi-supervised learning using gaussian fields and harmonic functions [C]// Proceedings of the 20th International Conference on Machine Learning. Washington DC: ICML, 2003: 912-919.

[本文引用: 1]

ZHOU Z H, LI M

Semi-supervised learning by disagrement

[J]. Knowledge and Information Systems, 2010, 24 (3): 415- 439

DOI:10.1007/s10115-009-0209-z      [本文引用: 1]

BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training [C]// Proceedings of the 11th Annual Conference on Computational Learning Theory. Madison: ACM, 1998: 92-100.

[本文引用: 2]

张倩, 刘怀亮

一种基于半监督学习的短文本分类方法

[J]. 现代图书情报技术, 2013, 29 (2): 30- 35

[本文引用: 1]

ZHANG Qian, LIU Huai-liang

An algorithm of short text classification based on semi-supervised learning

[J]. New Technology of Library and Information Service, 2013, 29 (2): 30- 35

[本文引用: 1]

LI S S, HUANG C R, ZHOU G D, et al. Employing personal/impersonal views in supervised and 30 semi-supervised sentiment classification [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala: ACL, 2010: 414-423.

[本文引用: 1]

GOLDAN S A, ZHOU Y. Enhancing supervised learning with unlabeled data [C]// Proceedings of the 17th International Conference on Machine Learning. San Francisco: IMLS: 327-334.

[本文引用: 1]

ZHOU Z H, LI M. Tri-Training: exploiting unlabeled data using three classifiers [J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11): 1529-1541.

[本文引用: 1]

SAITO K, USHIKU Y, HARADA T. A symmetric tri-training for unsupervised domain adaptation [C]// Proceedings of the 34th International Conference on Machine Learning. Sydney: JMLR, 2017: 2988-2997.

[本文引用: 1]

TELLEZ E S, MOCTEZUMA D, MIRANDA-JIMÉNEZ S, et al

An automated text categorization framework based on hyperparameter optimization

[J]. Knowledge-Based Systems, 2018, 149: 110- 123

DOI:10.1016/j.knosys.2018.03.003      [本文引用: 1]

XU Y, CHEN L. Term-frequency based feature selection methods for text categorization [C]// Proceedings of the 2010 4th International Conference on Genetic and Evolutionary Computing. Shenzhen: ICGEC, 2010: 280-283.

[本文引用: 1]

SHANG C, MIN L, FENG S, et al

Feature selection via maximizing global information gain for text classification

[J]. Knowledge-Based Systems, 2013, 54 (4): 298- 309

[本文引用: 1]

YIN C Y, XI J W

Maximum entropy model for mobile text classificationin cloud computing using improved information gain algorithm

[J]. Multimedia Tools and Applications, 2017, 76 (16): 16875- 16891

DOI:10.1007/s11042-016-3545-5      [本文引用: 1]

石慧, 贾代平, 苗培

基于词频信息的改进信息增益文本特征选择算法

[J]. 计算机应用, 2014, 34 (11): 3279- 3282

[本文引用: 1]

SHI Hui, JIA Dai-ping, MIAO Pei

Improved information gain text feature selection algorithm based on word frequency information

[J]. Journal of Computer Applications, 2014, 34 (11): 3279- 3282

[本文引用: 1]

KO Y. A study of term weighting schemes using class information for text classification [C]// Proceedings of the 35th International ACM SIGIR Conferenceon Research and Development in Information Retrieval. Portland: ACM, 2012: 1029-1030.

[本文引用: 1]

SUN S L

Local within-class accuracies for weighting individual outputs in multiple classifier systems

[J]. Pattern Recognition Letters, 2010, 31 (2): 119- 124

DOI:10.1016/j.patrec.2009.09.017      [本文引用: 1]

WANG S, MINGKU L L, YAO X. Resampling-based ensemble methods for online class imbalance learning [J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(5): 1356-1368.

[本文引用: 1]

CHEN T Q, GUESTRIN C. Xgboost: a scalable tree boosting system [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: ACM, 2016: 785-794.

[本文引用: 1]

/