浙江大学学报(工学版), 2023, 57(6): 1186-1194 doi: 10.3785/j.issn.1008-973X.2023.06.014

机械工程

航空装配领域中命名实体识别的持续学习框架

刘沛丰,, 钱璐, 赵兴炜,, 陶波

华中科技大学 数字制造装备与技术国家重点实验室,湖北 武汉 430074

Continual learning framework of named entity recognition in aviation assembly domain

LIU Pei-feng,, QIAN Lu, ZHAO Xing-wei,, TAO Bo

State Key Laboratory of Digital Manufacturing Equipment and Technology, Huazhong University of Science and Technology, Wuhan 430074, China

通讯作者: 赵兴炜,男,副研究员. orcid.org/0000-0002-1120-459X. E-mail: zhaoxingwei@hust.edu.cn

收稿日期: 2022-06-14  

基金资助: 国家自然科学基金资助项目(52275020, 62293514)

Received: 2022-06-14  

Fund supported: 国家自然科学基金资助项目(52275020,62293514)

作者简介 About authors

刘沛丰(1988—)男,高级工程师,博士生,从事知识图谱研究.orcid.org/0000-0001-5589-1662.E-mail:stevenpliu@hust.edu.cn , E-mail:stevenpliu@hust.edu.cn

摘要

为了构建航空装配领域中装配流程信息、装配技术知识、行业标准和三者内在联系组成的航空装配知识图谱,提出基于持续学习的命名实体识别技术框架. 所提框架的特点是从零语料到大规模语料的渐进式学习过程中,在不依赖人工设定特征的情况下,始终保持较高的识别效果. 从飞机总装配和部件对接的实际工业场景展开所提框架的性能对比实验,并以操纵拉杆和钢索的安装为实验案例. 实验结果表明,在处理不同规模的语料环境的情况下,所提框架在正确率、召回率、F1值上均显著优于以往算法,所提框架可以为航空装配领域命名实体识别任务持续提供可信的结果.

关键词: 智能制造 ; 航空装配 ; 命名实体识别 ; 持续学习 ; 深度学习

Abstract

In order to build an aviation assembly knowledge graph composed of assembly process information, assembly technology knowledge, related industry standards and internal connections of the three, a named entity recognition technology framework based on continual learning was proposed. The characteristic of the proposed framework was that it maintained high recognition performance throughout the progressive learning process from zero corpus to large-scale corpus, without relying on manual feature setting. A comparative performance experiment of the proposed framework was carried out in practical industrial scenarios, the experiment proceeded from general assembly and component assembly, and the manipulations of the pull rod and cable installation were regard as a specific experimental case. Experimental results show that the proposed framework is significantly better in accuracy, recall, and F1 value than previous algorithms, while handling different-scale corpus environments. And the credible results for named entity recognition tasks can be provided consistently by the proposed framework in the aviation assembly domain.

Keywords: intelligent manufacturing ; aviation assembly ; named entity recognition ; continual learning ; deep learning

PDF (1091KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘沛丰, 钱璐, 赵兴炜, 陶波. 航空装配领域中命名实体识别的持续学习框架. 浙江大学学报(工学版)[J], 2023, 57(6): 1186-1194 doi:10.3785/j.issn.1008-973X.2023.06.014

LIU Pei-feng, QIAN Lu, ZHAO Xing-wei, TAO Bo. Continual learning framework of named entity recognition in aviation assembly domain. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(6): 1186-1194 doi:10.3785/j.issn.1008-973X.2023.06.014

随着新一代人工智能技术的发展,从自然语言 中提取实体、属性、关系等高层次结构化语义信息以解决各行业的实际问题成为研究热点[1-2]. 智能制造对制造大数据蕴含的知识和数据的关联分析能力的要求越来越高. 知识和数据是新一代信息技术与智能制造深度融合的基础[3]. 研究航空制造领域的知识图谱具有重要的理论意义和实用价值[4]. 在航空制造领域,航空装配是核心关键技术之一,它对装配工程人员的专业知识和专业能力要求很高. 如何在装配过程中为工程人员提供更全面、有效的知识支持工具和辅助决策工具,在提高装配效率的同时降低装配出错率?为此,研究者提出构建航空装配知识图谱.

知识图谱(knowledge graph, KG)来源于谷歌下一代智能语义搜索引擎技术[5]. 构建知识图谱的关键基础技术之一是命名实体识别技术(named entity recognition,NER),该技术可以分为基于词典与规则的方法、基于统计模型的方法和基于深度学习的方法3种类型[6]. 在知识图谱通用领域积累的语料多且构建经验丰富,其主流方法是基于深度学习的方法,通过神经网络实现端到端的NER[7]. 领域知识图谱的架构须考虑目标领域特有因素[4],尤其是当进入新的领域(如航空装配知识图谱)时,往往面临结构化语料不足,技术路径不清晰,领域知识图谱结构缺乏统一标准等问题.

受持续学习[8]思想的启发,本研究提出基于持续学习的命名实体识别技术框架. 该框架的目的是联合统计模型和深度学习模型,使联合模型可以共享实体类别,通过并行计算,自动决策在不同语料环境下识别效果更优的模型. 本文的研究思路是1)构建基于持续学习的命名实体识别技术框架,并通过在公开语料库(微软亚洲研究院标注并公布的MSRA[9]语料库)上进行的实验,验证持续学习模型在不依赖人工设定特征的情况下,从零语料到大规模语料渐进式学习过程中的有效性. 2)结合航空装配领域专家的业务知识,通过复用已有相关领域知识库的本体共识[10],建立航空装配领域实体分类的规则. 3)通过从总装配和部件对接的实际场景展开的实验,证明所提框架的优异性. 4)以操纵拉杆和钢索的安装为具体实验案例,证明所提框架可以在航空装配领域实际场景的海量数据中提取核心价值数据.

1. 命名实体识别与持续学习思想的研究现状

命名实体识别任务可以被视为序列型标注任务. 在工业领域,基于词典与规则的方法应用效果较早取得良好的命名实体识别效果,但该方法依赖于人工设定的特征,使得研发和维护成本增加[6]. 基于词典与规则的方法在很多联合学习算法中依然被使用,如肖勇等[11]提出的联合学习算法. 该方法除了需要大量人工来维护和更新相关字典外,还无法识别集外词. 基于统计算法的模型是成熟的序列型标注问题的处理方法之一,如基于统计模型的隐马尔可夫模型(hidden Markov model,HMM)[12]与条件随机场(conditional random field,CRF)[13],这2种模型都是在线性统计模型的基础上发展而来的. Sutton等[13]根据标注语料,用最大似然法(maximum likelihood estimate)设定模型的参数和特征. 基于统计算法的模型不再依赖人工设定参数和特征,可以有效适应新任务和新领域. 深度学习算法在NER领域的应用取得丰富的成果. Hammerton[14]提出的基于单向长短期记忆神经网络(long-short term memory,LSTM)的NER模型,将深度学习与NER任务结合起来. Lample等[15]提出的基于双向长短期记忆神经网络(bidirectional long-short term memory,BiLSTM)结合CRF层的NER模型,在大多数命名实体识别任务中可以提升F1值,从此BiLSTM-CRF模型成为NER任务中核心模型之一. 如表1所示为具有代表性的NER模型在MSRA语料集上的实验结果. 表中,P为准确率,R为召回率,F1为F1值.

表 1   命名实体识别技术模型在MSRA语料集上的实验结果

Tab.1  Experimental results of named entity recognition models on MSRA corpus

模型 P/% R/% F1/%
CRF(2006)[16] 91.22 81.71 86.20
CRF(2013)[17] 91.86 88.75 90.28
BiLSTM+CRF[18] 92.97 90.80 91.87
Lattice LSTM[18] 93.57 92.79 93.18
BERT-BiGRU-CRF[19] 95.31 95.54 95.43

新窗口打开| 下载CSV


在智能制造和航空制造领域,张栋豪等[3-4]提供了领域知识图谱构建的综述性技术方案与可行技术路线,其中NER为构建知识图谱的核心任务. 航空装配领域的NER是新领域,面临少语料甚至零语料的挑战. 持续学习的思想给新领域NER任务提供了技术路径. Ring[8]在观察儿童学习知识并将知识运用在新领域后,提出持续学习的概念:持续学习是基于复杂环境与行为进行不断学习的过程,它可以在学得技能之上建立更复杂技能. 由此可知,持续学习架构为模型提供的应该是渐进的(continual)、有层次的(hierarchical)和不断进步的(incremental)学习能力. 持续学习(continual learning)是强化学习(reinforcement learning)的进一步推广,其允许使用已经训练好的模型,当遇到新的环境或任务时,通过对效果评估给予奖励,让模型进化后适合更加复杂的任务. 基于持续学习的思想,本研究构建的框架满足以下特点:1)具备主动学习的能力,能够感知环境变化(语料数量变化),能够对周围环境中的奖励(比上次训练获得更高的F1值)做出反应. 2)学习过程是渐进式的,系统能够在解决问题的同时进行学习;训练集不固定,学习发生在各个时间段,现在学习的技能可以在以后使用. 3)学习过程也是分层式的. 现在学习的技能可以在稍后进行修改甚至重新建立. 4)技能具有“黑盒”特性. 技能内部结构不需要被理解或操作,即不依赖人工设定特征,与现实世界有且只有一个人机交互界面,通过该界面技能系统可以完成任务并得到奖励.

2. 航空装配领域语料库的构建

2.1. 航空装配领域语料库的数据来源

本研究的应用数据来自文献[20],该文献供从事飞机装配工作的工艺人员和飞机工程设计工作的设计人员使用,具备极高的专业度和可信度. 本研究对文献[20]中篇名为“飞机总装配与调试”的内容进行标注;将章名为“总装配工艺流程设计”的内容作为总装配的语料数据来源,章名为“部件对接”的内容作为部件对接的语料数据来源,章名为“操纵拉杆和钢索的安装”的内容作为具体装配场景中实验用例的语料数据来源. 标注步骤为1)对文献[20]相应章节进行光学字符识别(optical character recognition,OCR);2)进行清洗数据,剔除图片和表格;3)将语料输入二次开发的人机交互工具进行实体标注.

2.2. 航空装配领域实体分类和标注

结合航空装配领域专家知识和相关书籍、文献资料,通过复用已有相关领域知识库的本体共识[10], 在考虑中英文的差距后,将实体术语分为5类:定义组件实体(component)、固定设施实体(facility)、操作项目实体(operation)、工序步骤实体(step)和工具实体(tool). 这5类实体对应的本体(航空装配本体)与现有相关领域知识库的本体的对应关系如表2所示. 中间介质工程本体(Intermediate Engineering Ontology, IEO)[10]弥合了顶级本体(top-level ontologies)与现有领域知识库间的差距,为本研究复用已有相关领域知识库的本体共识的基础. 5类航空装配领域实体的具体描述如下:1)定义组成飞机的部件为组件实体,如“发动机”、“起落架”,组件实体示例如图1所示;2)定义飞机组装过程中相对应的固定设施为固定设施实体,如“停机坪”、“主厂房”;3)定义人工操作的项目为操作项目实体,如“雷达校准”、“系统密封性实验”;4)定义飞机装配实际工序为工序步骤实体,如“总装配”、“部件装配”;5)定义装配过程中使用的具体工具为工具实体,如“千斤顶”、“动力保障设施”. 该实体分类方法,可以通过5个维度,具体重现装配实施细节,即时间(工序步骤实体)、地点(固定设施实体)、人工(操作项目实体)、工具(工具实体)和操作对象(组件实体). 在此基础上组成的知识图谱,可以完整还原装配知识的细节和逻辑关系,即在什么时间、什么地点、用什么工具、对什么部件、做什么.

表 2   航空装配本体与现有知识库本体的对照表

Tab.2  Comparison table of aviation assembly ontology and existing knowledge ontology

航空装配本体 现有知识库本体
组件实体(component) 产品实体(product)
固定设施实体(facility) 固定平台实体(plant)
操作项目实体(operation) 工序实体(process)
工序步骤实体(step) 工序计划实体(process plan)
工具实体(tool) 工具实体(tool)

新窗口打开| 下载CSV


图 1

图 1   航空装配领域中组件实体示例

Fig.1   Example of component entities in aviation assembly domain


在航空装配领域专家的指导下,使用BMEO标记方案进行基于字符的NER标记:B为实体的开始字符,M为实体的中间字符,E为实体的结束字符,O为非命名实体的字符. 如图2所示,本研究在Doccano[21]文本标注工具的基础上,二次开发出更适合渐进式持续学习任务的人机交互工具. 二次开发的核心目的是使人机交互工具利用已经训练好的模型,预先进行实体标注,将标注任务转化为审阅任务. 该工具可以大幅度提高标注效率、显著降低人工误差,直观展示标注结果. 本研究标注字符14 430个,包含空格和标点符号,其中包括总装配和部件对接部分的语料库AA-1(10 640个字符)、操纵拉杆和钢索的安装案例语料库AA-2(3 790个字符). 语料库实体数量nce统计如表3所示.

图 2

图 2   人机交互工具界面

Fig.2   Human-computer interaction tool interface


表 3   语料库实体数量统计

Tab.3  Statistics of corpus entity count

实体类别 nce
AA-1 AA-2 总计
组件实体(component) 336 213 549
固定设施实体(facility) 92 3 95
操作项目实体(operation) 263 91 354
工序步骤实体(step) 122 6 128
工具实体(tool) 139 18 157

新窗口打开| 下载CSV


2.3. 航空装配领域语料库的特点

通用领域的语料库丰富,维基百科开放了TB级别的语料. 相对通用语料库,领域语料库需要概念性的知识,还需要能够体现更为深层次关系的数据语料,须单独收集和标注. 一些专业领域已经有规模化、标准化的公开语料库,如微软亚洲研究院公布的新闻语料库[9]、媒体社交语料库[22]和人才简历语料库[18];也有一些领域的语料库非公开但相对成熟,如医学生物领域、国防军事领域和电力领域. 本研究构建的航空装配语料库中测试集实体字符占所有字符的32.15%,比通用语料库MSRA实体比例16.11%高. 航空装配领域语料库的特点如下:1)语料数量少;2)语料专业度高;3)噪声内容少,实体比例高;4)语料中命名实体边界模糊. 与通用语料库相比,航空装配语料库对命名实体识别的要求更高.

航空装配领域实体分类复杂且专业. 通用领域实体命名格式相对明确、规范和统一,比如实体类别可以分为人物、职务、地点、组织机构等. 航空装配领域实体分类须结合专家知识和工程场景,使实体能够充分还原装配过程,同时为可能进行的大规模扩充预留空间. 本研究通过复用已有相关领域知识库本体共识的方法,有效建立航空装配领域实体分类. 航空装配领域数据来源高度非结构化. 在构建专业领域语料库的过程中,数据主要来源于专业书籍、论文、企业内部文件和国家标准等. 这类数据来源提供的信息,往往是非结构化的文本. 航空装配领域存在命名实体边界模糊的问题. 如“雷达校准”可以整体定义为操纵项目实体,也可以分别定义“雷达”为组件实体,“校准”为操纵项目实体;“发动机短舱”可以整体定义为1个组件实体,也可以将“发动机” “短舱”定义为2个组件实体. 在实际实体定义过程中,针对边界模糊的情况,本研究以尽量保持实体语义完整度为原则. 如“雷达校准”和“发动机短舱”均被定义为1个完整的实体. 不同的实体分类须具备一定的语言学特征,尤其在词性特征上区别明确,这样的词性特征有助于标注和训练过程. 如组件实体、固定设施实体和工具实体为名词,操作项目实体和工序步骤实体大多为名词+动词的组合词组. 航空装配领域语料库建设过程对算法的实时性有需求. 专业领域的语料库建设往往从零开始,为了使建设的过程更高效,设计的算法须综合考虑运算速度与识别效果. 语料库的建设是人机交互的过程,机器标注与人工审核往往交替进行. 为了保证人机交互过程的实时性与流畅性,机器识别算法在保障识别效果的同时,对算法训练的速度也有一定的要求.

航空装配领域语料库的上述特点对模型的性能提出了更高的要求,语料持续建设需要拥有渐进式、分层式持续学习能力的NER框架.

3. 命名实体识别持续学习框架

3.1. 持续学习框架概述

本研究从零语料库开始建设,在实验中分析不同模型在不同规模语料数量上的表现差异,设计基于持续学习的NER框架. 该框架筛选和联合不同种类的模型,在不同规模语料数量上始终维持高水平,能够有效处理该领域包含复杂关系的海量数据. 如图3所示,所提框架分为3层,自下而上为嵌入层(embedding layer)、模型层(modelling layer)和强化层(reinforcement layer). 本研究专注持续学习框架在NER的作用,为了更加有效地观测学习效果,在嵌入层和模型层都使用基础方法作为效果标准线. 嵌入层采用根据语料情况训练字向量的方式;模型层分为基于概率的模型和基于深度学习的模型,包括HMM、CRF、BiLSTM和BiLSTM+CRF模型;强化层将模型层建立的多个模型在验证集上进行测试,筛选和联合出最终的NER模型. 根据强化学习思想,强化层引入贪婪指数 $ \lambda $和容忍指数B,框架试图联合最多的模型( $ \lambda $最大),前提是联合后所损失的F1值不能超过容忍指数,从而提高最终联合NER模型的外推性能.

图 3

图 3   持续学习命名实体识别框架

Fig.3   Continual learning framework for named entity recognition


3.2. 嵌入层

嵌入层完成文本的向量化. 本研究将字向量作为输入信号,即字向量 $ \boldsymbol{c}=[{ \boldsymbol{c}}_{1},\;{ \boldsymbol{c}}_{2},\;\cdots ,\;{ \boldsymbol{c}}_n] $$ { \boldsymbol{c}}_i $为第 $ i $个字对应的字向量,n为输入字的总个数. 字向量通过嵌入层后,得到字符向量 $ { \boldsymbol{x}}^{\mathrm{c}}= [{\boldsymbol{x}}_{1}^{\rm{c}}, \;{\boldsymbol{x}}_{2}^{\rm{c}},\;\cdots ,\;{\boldsymbol{x}}_n^{\rm{c}}] $,其中第 $ i $个字符向量 $ { \boldsymbol{x}}_{ {i}}^{ {{\rm{c}}}} $ 的计算式为

$ {\boldsymbol{x}}_i^{\rm{c}} = {{\boldsymbol{e}}^{\rm{c}}}\left( {{{\boldsymbol{c}}_i}} \right). $

式中: $ {\boldsymbol{e}}^{\mathrm{c}} $ 为根据语料情况建立字符嵌入词典矩阵. 上标c代表模型的输入为字符(character).

3.3. 模型层

模型层是序列型标注模型集合,HMM是其中之一. 给定观测序列 $ \boldsymbol{x}={[ \boldsymbol{x}}_{1},\;{\boldsymbol{x}}_{2},\;\cdots,\;{\boldsymbol{x}}_{{n}}] $,计算最终的标记序列 $\boldsymbol{y}={[ \boldsymbol{y}}_{1},\;{\boldsymbol{y}}_{2},\;\cdots,\;{\boldsymbol{y}}_n]$,使得条件概率 $ {P}\left( \boldsymbol{Y}| \boldsymbol{X}\right) $最大 ,NER任务被转化为寻找最优的 $ {\boldsymbol{Y}}^{\mathrm{*}} $,计算式为

$ {\boldsymbol{Y}}^* = \mathop {\arg \max }\limits_{\boldsymbol{Y}} P\left( {{\boldsymbol{Y}}\left| {\boldsymbol{X}} \right.} \right). $

式中:在随机的条件下变量 $ \boldsymbol{X} $取值为观测序列 $ \boldsymbol{x} $,变量 $ \boldsymbol{Y} $取值为标记序列 $ \boldsymbol{y} $,argmax是最大值自变量点集函数. 在实际运算中,先对式(2)进行简化近似,再用Veterbi算法求得最优解.

CRF是无向图模型,其最简单的形式是线性链CRF,适合用于线性数据序列的标注[23]. 与HMM不同,CRF的条件概率由2个部分组成:1)在输入状态 $ {\boldsymbol{x}}_{i} $ 的情况下, $ {\boldsymbol{y}}_i $ 的状态概率;2)在前一个状态标记为 $ {\boldsymbol{y}}_{i-1} $ 情况下,标记为 $ {\boldsymbol{y}}_i $ 的转移概率. CRF定义的条件概率分布式为

$\left. \begin{aligned} P\left( {{\boldsymbol{y|x}}} \right) = &\dfrac{1}{{Z{\boldsymbol{(x)}}}}{\rm{exp}}\left( {\sum\limits_{i,k} {{\lambda _k}{t_k}\left( {{{\boldsymbol{y}}_{i - 1}},{{\boldsymbol{y}}_i},{\boldsymbol{x}},i} \right)} + }\right.\\ &\left.{ \sum\limits_{i,l} {{\mu _l}{s_l}\left( {{{\boldsymbol{y}}_i},{\boldsymbol{x}},i} \right)} } \right) , \\ Z\left( {\boldsymbol{x}} \right) = &\sum\limits_{\boldsymbol{y}} {\rm{exp}}\left( {\sum\limits_{i,k} {{\lambda _k}{t_k}\left( {{{\boldsymbol{y}}_{i - 1}},{{\boldsymbol{y}}_i},{\boldsymbol{x}},i} \right)} + }\right.\\ &\left.{ \sum\limits_{i,l} {{\mu _l}{s_l}\left( {{{\boldsymbol{y}}_i},{\boldsymbol{x}},i} \right)} } \right). \end{aligned} \right\}$

式中: $ {t}_{k} $${s}_l\mathrm{}$均为特征函数; $ {\lambda _k} $$\; {\mu _l} $ $ \mathrm{均} $为对应的特征函数的权值;在随机的条件下, $ \boldsymbol{X} $取值为观测序列 $ \boldsymbol{x} $$ \boldsymbol{Y} $取值为标记序列 $ \boldsymbol{y} $;规范化因子 $ {Z}\left(\boldsymbol{x}\right) $的计算在所有可能的输出序列上进行. 使用CRF模型处理NER任务和使用HMM模型处理NER任务相似,将NER任务转化为寻找最优的 $ {\boldsymbol{Y}}^{\boldsymbol{*}} $,得到最大的 $ {P}\left(\boldsymbol{Y}|\boldsymbol{X}\right) $. 在实际运算中,依然须先对式(3)进行简化近似,再用Veterbi算法求得最优解.

LSTM是特殊的RNN,弥补了传统 RNN的不足,可以在捕获长距离序列信息的同时遗忘无关信息,适用于NER任务. 如图4所示为LSTM单元的基本结构,通常 LSTM 单元包含遗忘门、输入门和输出门,这些门控制信息遗忘和传递给下一时间步骤的信息比例[14]. LSTM函数表达式为

图 4

图 4   长短记忆模型单元的基本结构

Fig.4   Basic structure of long-short term memory unit


$\left. \begin{aligned} &\left[\begin{array}{c}{{\displaystyle {\boldsymbol{i}}}}_{j}^{{\rm{c}}}\\ {{\displaystyle {\boldsymbol{o}}}}_{j}^{{\rm{c}}}\\ {{\displaystyle {\boldsymbol{f}}}}_{j}^{{\rm{c}}}\\ {{\displaystyle {\boldsymbol{c}}{'}}}_{j}^{{\rm{c}}}\end{array}\right]=\left[\begin{array}{c}\sigma \\ \sigma \\ \sigma \\ {\rm{tanh}}\end{array}\right]\left({{\displaystyle {\boldsymbol{W}}}}^{{\rm{cT}}}\left[\begin{array}{c}{{\displaystyle {\boldsymbol{x}}}}_{j}^{{\rm{c}}}\\ {{\displaystyle {\boldsymbol{h}}}}_{j-1}^{{\rm{c}}}\end{array}\right]+{{\displaystyle {\boldsymbol{b}}}}^{{\rm{c}}}\right),\\ &{{\displaystyle {\boldsymbol{c}}}}_{j}^{{\rm{c}}}={{\displaystyle {\boldsymbol{f}}}}_{j}^{{\rm{c}}}\odot{{\displaystyle {\boldsymbol{c}}}}_{j-1}^{{\rm{c}}}+{{\displaystyle {\boldsymbol{i}}}}_{j}^{{\rm{c}}}\odot{{\displaystyle {\boldsymbol{c}}{'}}}_{j}^{{\rm{c}}},\\ &{{\displaystyle {\boldsymbol{h}}}}_{j}^{{\rm{c}}}={{\displaystyle {\boldsymbol{o}}}}_{j}^{{\rm{c}}}\odot{\rm{tanh}}\;{{\displaystyle {\boldsymbol{c}}}}_{j}^{{\rm{c}}}. \end{aligned}\right \}$

式中: $ {\boldsymbol{i}}_{j}^{{\rm{c}}} $$ {\boldsymbol{f}}_{j}^{{\rm{c}}} $$ {\boldsymbol{o}}_{j}^{{\rm{c}}} $分别为输入门、遗忘门和输出门; $ {{\text{W}}^{{\rm cT}}} $$ {{\boldsymbol{b}}^{\rm{c}}} $均为模型参数,可以通过训练获; $ \sigma $为sigmoid函数. 双向的LSTM输入字符向量 ${\boldsymbol{x}}^{\rm{c}}=[{\boldsymbol{x}}_{1}^{\rm{c}},\;{\boldsymbol{x}}_{2}^{\rm{c}},\;\cdots ,\;{\boldsymbol{x}}_n^{\rm{c}}]$得到左向右的隐藏向量 $\overrightarrow {\boldsymbol{h}^{\rm{c}}} = \left[ {\overrightarrow {{\boldsymbol{h}}_{\rm{1}}^{\rm{c}}} ,\;\overrightarrow {{\boldsymbol{h}}_{\rm{2}}^{\rm{c}}} ,\; \cdots, \overrightarrow {{\boldsymbol{h}}_n^{\rm{c}}} } \right]$和从右向左的隐藏向量 $\overleftarrow {{\boldsymbol{h}}^{\rm{c}}} = \left[ {\overleftarrow {{\boldsymbol{h}}_{\rm{1}}^{\rm{c}},}\; \overleftarrow {{\boldsymbol{h}}_{\rm{2}}^{\rm{c}}} ,\; \cdots ,\; \overleftarrow {{\boldsymbol{h}}_n^{\rm{c}}} } \right]$. 每个字符的隐藏向量表示为

$ {\boldsymbol{h}}^{\rm{c}} = \left[ {\overrightarrow {{\boldsymbol{h}}_{{j}}^{\rm{c}}} ;\; \overleftarrow {{\boldsymbol{h}}_{{j}}^{\rm{c}}} } \right]. $

通过解码得到与 ${{{\boldsymbol{h}}}}^{{\rm{c}}}$ 相对应的标签序列 $ {{\boldsymbol{y}}} $.

BiLSTM+CRF模型在BiLSTM模型的基础上增加CRF层,即将得到的 ${{{\boldsymbol{h}}}}^{{\rm{c}}}$ 作为CRF层的输入,最终得到标签序列 ${{\boldsymbol{y}}} $. 与BiLSTM模型相比,BiLSTM+CRF模型考虑了相邻标签之间的相关性,联合建模得到的标签序列更准确. 比如在BMEO标注体系中,M一定在B出现之后,M出现后一定会出现E的相邻标签等相关分析,CRF层可以将这些问题转化为条件概率来处理,有助于模型取得更好的命名实体识别结果,当然占用运算资源也更多. 如图5所示为输入为字符的BiLSTM+CRF模型的结构图.

图 5

图 5   基于字符的双向长短记忆模型基本结构

Fig.5   Basic structure of character-based bidirectional long-short term memory with conditional random field model


3.4. 强化层

强化层的目标是根据强化学习思想,筛选和联合不同种类的模型来强化预测结果. 如算法1所示,贪婪指数 $ \lambda $为筛选并用来联合的模型个数, $ \lambda $的初始值为模型层所有模型数量(设定为4个),表示该框架最多能够联合的模型数量,目的是提高NER模型的鲁棒性. 容忍指数表示能够最大容忍新模型下降的F1值, $ 0 < B < 1 $. 联合模型的F1值由每个字符的最终联合预测结果计算获得,具体为每个字符的联合预测结果由联合模型中的每个模型进行单独预测,取多数预测结果为最终联合预测结果,如果遇到没有多数结果的情况,取F1值最佳模型的预测结果为最终联合预测结果. 算法1试图联合最多的模型执行任务,前提是联合后的模型所损失的F1值不能超过容忍指数. 在不需要人为干预的情况下,该框架可以自动筛选并联合在当前语料环境下表现更强的模型.

算法1  连续学习框架的强化层算法

输入:建模层中所有模型的F1,f1= [f1_score_1,···, f1_score_m]T,这里 m 是模型的数量.   输出:联合模型和预测标签  1.  需要: 设定参数 $ \lambda $$ B $   2. 对 f1 按降序排列,并取 F1 = f1[0]  3.  While $ \lambda > 1 $   4.  联合 $ \lambda $ 个模型和计算联合模型的F1值,将该F1值赋值给 F1_temp  5. if F1 - F1_temp ≤ $ B $   6.    break  7.  else  9.     $ \lambda = \lambda {{ - }}1 $   10.  end while   11.  输出$ \lambda $ 个模型联合的联合模型并用该模型预测标签  12.  结束

4. 持续学习框架性能验证实验

4.1. 实验设置

所提框架的开发环境为Windows10,系统类型为64位操作器,CPU为Intel酷睿 i5-7500@ 3.40 GHz,内存为16 GB,没有使用GPU. 开发使用软件为python 3.8.8. 本研究模型基于torch1.11.0. LSTM的隐藏状态层数量为128,字向量维度为128,训练epoch=30,batch-size=64,学习率为0.001,使用随机梯度下降算法训练模型. CRF模型使用sklearn_crfsuite 0.3.6. 强化层贪婪指数 $\lambda $=4,容忍指数B=0.01.

4.2. 语料库信息

表4所示为语料库信息统计,统计字数n包括空格和标点符号. AA-1、AA-2的验证集和测试集均独立,验证集和测试集中语料的选择须兼顾语料的随机性和实体种类的分布特征.

表 4   语料库信息统计

Tab.4  Corpus information statistics

语料库 n 标注方式
训练集 验证集 测试集
MSRA 1 921 489 246 370 229 910 BIO
AA-1 9 364 621 665 BMEO
AA-2 13 068 709 653 BMEO

新窗口打开| 下载CSV


4.3. 持续学习框架在通用语料库的实验结果

在通用语料库中进行实验的目的是证明持续学习框架的性能,包括 1)持续学习框架在渐进式语料环境下,即语料库数量由少到多的情况下,是否有高性能的表现;2)持续学习框架在大规模通用语料库上的表现. 从训练集语料中随机选出约5 000、10 000、20 000、40 000、80 000字的新训练集,为了保证语句的完整性,训练集数量会轻微波动,同时保证验证集和测试集不变. 不同模型在MSRA语料库上实验的F1值如表5图6所示. 在MSRA数据库中,当字符数不超过20 000字时,HMM模型有明显优势,因此在强化层模型筛选后选定HMM模型进行持续学习. 当字符数为80 000字时,深度学习模型逐渐体现出优势,因此在强化层模型筛选后,使用HMM、CRF和BiLSTM+CRF组成的联合模型进行持续学习. 当字符数为190 000字时,深度学习模型体现出很大优势,因此在强化层模型筛选后,使用CRF、BiLSTM和BiLSTM+CRF组成的联合模型进行持续学习. 根据表5,可以验证在语料库数量渐进式由少变多的过程中,本研究所提框架的命名实体识别效果始终维持高F1值,表明该框架在持续学习过程中可以维持高性能. 如表6所示为本研究所提框架与不同模型在MSRA完整语料库上的实验结果. 以上数据表明持续学习框架在大规模通用语料库上,性能稳定且维持较高准确率、回归率和F1值. 本研究所提框架为接下来的航空装配领域NER提供了有效的技术框架.

表 5   不同模型在MSRA语料库上的F1值

Tab.5  F1-score of different models on MSRA corpus

n F1/%
HMM CRF BiLSTM BiLSTM+CRF 本研究
5 468 89.20 87.71 87.25 87.24 89.20
10 437 89.49 88.20 87.33 87.31 89.49
20 201 90.44 89.05 87.49 88.80 90.44
40 061 91.44 90.63 90.66 90.59 91.66
80 095 92.74 92.79 91.28 92.50 93.05
1 921 489 94.82 98.05 97.51 98.02 98.21

新窗口打开| 下载CSV


图 6

图 6   在MSRA语料库上不同模型的F1值与训练集字数的变化曲线

Fig.6   Variation curves of F1 values and training word counts on MSRA corpus


表 6   不同模型在MSRA语料库上的实验结果

Tab.6  Experimental results of different models on MSRAcorpus

模型 P/% R/% F1/%
HMM 94.76 94.90 94.82
CRF 98.03 98.07 98.05
BiLSTM 97.49 97.54 97.51
BiLSTM+CRF 98.01 98.04 98.02
本研究 98.19 98.23 98.21

新窗口打开| 下载CSV


4.4. 持续学习框架在航空装配语料库的实验结果

在划分训练集、验证集和测试集大小时,重点考虑应用场景. 由于本研究以书籍页为单位进行标注和分层式学习,将测试集大小设定为661个字,接近该书籍一页的最大字数,同时为其匹配相应数量的验证集. 为了保证模型的泛化能力和测试结果的有效性,验证集和测试集数据在保持随机性的同时须考虑5类实体同时出现的可能性.

4.4.1. 持续学习框架在总装配和部件对接场景的实验结果

实验语料库为AA-1,在测试集中的实体数量如表7所示. 不同模型在AA-1语料库上的实验结果如表8所示. AA-1语料库上的持续学习框架选择以HMM模型为主,辅助CRF模型的联合框架,因此实验结果与单独HMM框架相同. 这一结果与在通用数据库上相同语料数量下的实验结果保持一致,即在小规模语料库上,基于统计的模型能够发挥更好的效果. 持续学习框架对测试集中每种实体的预测效果如表9所示. 比较5类实体识别数据可以看出,组件实体、操作项目实体和工序步骤实体3类实体的实体名称格式相对统一,重复出现率较高,识别效果达到或接近80%,识别效果较好. 固定设施实体和工具实体识别效果欠佳,这2类实体数量在训练集和测试集中占比均较少,使得训练和测试效果较差. 被错误识别的实体,主要是由于实体边界模糊,比如“清洁度检测”为操作项目实体,但预测过程中“检测”被单独识别为1个实体;“部件装配车间”为固定设施实体,但预测过程中“部件装配”被识别为工序步骤实体. 实验结果表明,专业领域NER对模型的要求比通用领域更高.

表 7   2种航空装配语料库在测试集中的实体数量

Tab.7  Number of entities in test set for two aviation assembly corpuses

实体类别 nce,t
AA-1 AA-2
组件实体(component) 27 42
固定设施实体(facility) 6
操作项目实体(operation) 19 29
工序步骤实体(step) 10
工具实体(tool) 2 4

新窗口打开| 下载CSV


表 8   不同模型在AA-1语料库上的实验结果

Tab.8  Experimental results of different models on AA-1 corpus

模型 P/% R/% F1/%
HMM 89.94 86.62 88.24
CRF 86.33 85.85 86.09
BiLSTM 76.35 78.46 77.39
BiLSTM+CRF 74.44 78.15 76.25
本研究 89.94 86.62 88.24

新窗口打开| 下载CSV


表 9   持续学习框架在AA-1语料库5类实体上的实验结果

Tab.9  Experimental results of continual learning framework on five entities from AA-1 corpus

实体类别 P/% R/% F1/%
组件实体(component) 75.86 81.48 78.57
固定设施实体(facility) 100 33.33 50.00
操作项目实体(operation) 69.23 94.74 80.00
工序步骤实体(step) 75.00 90.00 81.82
工具实体(tool) 12.50 50.00 20.00

新窗口打开| 下载CSV


4.4.2. 持续学习框架在操纵拉杆和钢索的安装场景的实验结果

实验语料库为AA-2,在测试集中的实体数量如表7所示. 不同模型在AA-2语料库上的实验结果如表10所示. 持续学习框架对测试集中每种实体的预测效果如表11所示. 当实验场景具体到某个部件安装的时候,工序步骤实体和所在的固定设施实体明确,因此语料库中实体集中在其他3类实体上. 本研究所提框架在具体场景上性能保持稳定,为后续相关知识图谱的建设奠定了基础.

表 10   不同模型在AA-2语料库上的实验结果

Tab.10  Experimental results of different models on AA-2 corpus

模型 P/% R/% F1/%
HMM 85.12 86.39 85.75
CRF 84.03 85.60 84.81
BiLSTM 79.98 82.75 81.34
BiLSTM+CRF 79.61 81.80 80.69
本研究 85.12 86.39 85.75

新窗口打开| 下载CSV


表 11   持续学习框架在AA-2语料库3类实体上的实验结果

Tab.11  Experimental results of continual learning framework on three entities from AA-2 corpus

实体类别 P/% R/% F1/%
组件实体(component) 83.33 71.43 76.77
操作项目实体(operation) 79.31 79.31 79.31
工具实体(tool) 66.67 50.00 57.14

新窗口打开| 下载CSV


5. 结 论

(1)为了充分挖掘航空装配领域中海量数据的内在关联价值,全面准确地构建航空装配领域知识图谱,本研究用持续学习的思想,在不同的语料数量下评估不同种类的基于统计的模型和基于深度学习的模型,提出基于持续学习的NER框架. 该框架从零语料,到小规模语料,再到大规模语料,在不依赖人工设定特征的情况下,能够始终维持高的正确率、召回率、F1值,大大提高了在新领域NER任务中的效率. 该框架在领域语料库建设和领域NER任务方面的持续学习有一定的创新度.

(2)将所提框架应用于航空装配领域,在语料库渐进式积累的语料环境下,该框架始终维持命名实体识别的出色效果. 所提框架联合统计学习模型和深度学习模型,在不同语料数量上渐进式、分层式的持续学习. 在通用大规模语料库上,实验并证明所提框架在语料库增长的过程中,性能稳定且维持较高的准确率、回归率和F1值.

(3)利用本体复用的方法,提出航空装配领域的实体分类方法,并将其用于航空装配的实际案例中. 实验结果表明,在以航空装配领域为代表的新领域命名实体识别的任务中,所提方法能够较好完成任务,并持续提高人机交互的效率,实际应用价值较高.

(4)未来计划在航空装配领域语料库上进一步挖掘实体之间的关系,完成航空装配领域知识图谱的建设. 所提框架对固定设施实体和工具实体的识别效果欠佳.主要原因是这2类实体数量在训练集和测试集中占比少. 可以采用引入注意力机制的方法,即人为加强某些文本信息的权重,获得更好的识别效果. 但该方法通常会大大增加训练成本(训练时间和训练资源),降低持续学习的能力. 在其他方案中,通过增加语料中这2类实体的数量,也可以进一步强化模型效果. 这一步骤可以通过强化学习来完成语料的强化,将是未来重要的研究方向.

参考文献

陈永佩, 杜震洪, 刘仁义, 等

一种引入实体的地理语义相似度混合计算模型

[J]. 浙江大学学报: 理学版, 2018, 45 (2): 196- 204

[本文引用: 1]

CHEN Yong-pei, DU Zhen-hong, LIU Ren-yi, et al

A hybrid geo-semantic similarity measurement model introducing geographic entities

[J]. Journal of Zhejiang University: Science Edition, 2018, 45 (2): 196- 204

[本文引用: 1]

陈善雄, 王小龙, 韩旭, 等

一种基于深度学习的古彝文识别方法

[J]. 浙江大学学报: 理学版, 2019, 46 (3): 261- 269

[本文引用: 1]

CHEN Shan-xiong, WANG Xiao-long, HAN Xu, et al

A recognition method of Ancient Yi character based on deep learning

[J]. Journal of Zhejiang University: Science Edition, 2019, 46 (3): 261- 269

[本文引用: 1]

张栋豪, 刘振宇, 郏维强, 等

知识图谱在智能制造领域的研究现状及其应用前景综述

[J]. 机械工程学报, 2021, 57 (5): 90- 113

DOI:10.3901/JME.2021.05.090      [本文引用: 2]

ZHANG Dong-hao, LIU Zhen-yu, JIA Wei-qiang, et al

A review on knowledge graph and its application prospects to intelligent manufacturing

[J]. Journal of Mechanical Engineering, 2021, 57 (5): 90- 113

DOI:10.3901/JME.2021.05.090      [本文引用: 2]

邱凌, 张安思, 李少波, 等

航空制造知识图谱构建研究综述

[J]. 计算机应用研究, 2022, 39 (4): 968- 977

DOI:10.19734/j.issn.1001-3695.2021.09.0367      [本文引用: 3]

QIU Ling, ZHANG An-si, LI Shao-bo, et al

Survey on building knowledge graphs for aerospace manufacturing

[J]. Application Research of Computers, 2022, 39 (4): 968- 977

DOI:10.19734/j.issn.1001-3695.2021.09.0367      [本文引用: 3]

徐增林, 盛泳潘, 贺丽荣, 等

知识图谱技术综述

[J]. 电子科技大学学报, 2016, 45 (4): 589- 606

[本文引用: 1]

XU Zeng-lin, SHENG Yong-pan, HE Li-rong, et al

Review on knowledge graph techniques

[J]. Journal of University of Electronic Science and Technology of China, 2016, 45 (4): 589- 606

[本文引用: 1]

杨贺羽. 基于深度学习的半监督式命名实体识别[D]. 沈阳: 沈阳工业大学, 2019.

[本文引用: 2]

YANG He-yu. Semi-supervised named entity recognition based on deep learning [D]. Shenyang: Shenyang University of Technology, 2019.

[本文引用: 2]

LI J, SUN A, HAN J, et al

A survey on deep learning for named entity recognition

[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34: 50- 70

DOI:10.1109/TKDE.2020.2981314      [本文引用: 1]

RING M B. Child: a first stop towards continual learning [M]// THRUN S, PRATT L. Learning to learn. New York: Springer, 1998 : 261-292

[本文引用: 2]

LEVOW G. The third international Chinese language processing bakeoff: word segmentation and named entity recognition [C]// Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. Sydney: Association for Computational Linguistics, 2006: 108-117.

[本文引用: 2]

OCKER F, PAREDIS C J J, VOGEL-HEUSER B

Applying knowledge bases to make factories smarter

[J]. Automatisierungstechnik, 2019, 67 (6): 504- 517

DOI:10.1515/auto-2018-0138      [本文引用: 3]

肖勇, 郑楷洪, 王鑫, 等

基于联合神经网络学习的中文电力计量命名实体识别

[J]. 浙江大学学报: 理学版, 2021, 48 (3): 321- 330

[本文引用: 1]

XIAO Yong, ZENG Kai-hong, WANG Xin, et al

Chinese named entity recognition in electric power metering domain based on neural joint learning

[J]. Journal of Zhejiang University: Science Edition, 2021, 48 (3): 321- 330

[本文引用: 1]

CAMASTRA F, VINCIARELLI A. Markovian models for sequential data [M]// CAMASTRA F, VINCIARELLI A. Machine learning for audio, image and video analysis. London: Springer, 2008: 265-303.

[本文引用: 1]

SUTTON C, MCCALLUM A. An introduction to conditional random fields [EB/OL]. (2010-11-17). https://arxiv.org/pdf/1011.4088.pdf.

[本文引用: 2]

HAMMERTON J. Named entity recognition with long short-term memory [C]// Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg: Association for Computational Linguistics, 2003: 172-175.

[本文引用: 2]

LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language. San Diego: Association for Computational Linguistics, 2016: 260–270.

[本文引用: 1]

CHEN A, PENG F, SHAN R, et al. Chinese named entity recognition with conditional probabilistic models [C]// Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. Sydney: Association for Computational Linguistics, 2006: 173-176.

[本文引用: 1]

ZHOU J, QU W, FEN Z

Chinese named entity recognition via joint identification and categorization

[J]. Chinese Journal of Electronics, 2013, 22 (2): 225- 230

[本文引用: 1]

ZHANG Y, WANG Y, YANG J

Lattice LSTM for Chinese sentence representation

[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2020, 28: 1506- 1519

DOI:10.1109/TASLP.2020.2991544      [本文引用: 3]

杨飘, 董文永

基于BERT嵌入的中文命名实体识别方法

[J]. 计算机工程, 2020, 46 (4): 40- 45

DOI:10.19678/j.issn.1000-3428.0054272      [本文引用: 1]

YANG Piao, DONG Wen-yong

Chinese named entity recognition method based on BERT embedding

[J]. Computer Engineering, 2020, 46 (4): 40- 45

DOI:10.19678/j.issn.1000-3428.0054272      [本文引用: 1]

《航空制造工程手册》总编委会. 航空制造工程手册: 飞机装配[M]. 北京: 航空工业出版社, 2010: 589–625.

[本文引用: 3]

NAKAYAMA H, KUBO T, KAMURA J, et al. Doccano: text annotation tool for human [CP/DK]. (2022-05-19). https://github.com/doccano/doccano.

[本文引用: 1]

PENG N, DREDZE M. Named entity recognition for Chinese social media with jointly trained embeddings [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics, 2015: 548–554.

[本文引用: 1]

彭春艳, 张晖, 包玲玉, 等

基于条件随机域的生物命名实体识别

[J]. 计算机工程, 2009, 35 (22): 197- 199

DOI:10.3969/j.issn.1000-3428.2009.22.067      [本文引用: 1]

PENG Chun-yan, ZHANG Hui, BAO Ling-yu, et al

Biological named entity recognition based on conditional random fields

[J]. Computer Engineering, 2009, 35 (22): 197- 199

DOI:10.3969/j.issn.1000-3428.2009.22.067      [本文引用: 1]

/