浙江大学学报(工学版), 2023, 57(3): 512-521 doi: 10.3785/j.issn.1008-973X.2023.03.009

计算机与控制工程

基于知识图谱的商用飞机维修方案推荐系统集成建模

邢雪琪,, 丁雨童, 夏唐斌,, 潘尔顺, 奚立峰

1. 上海交通大学 机械与动力工程学院 工业工程与管理系,上海 200240

2. 上海交通大学中国质量发展研究院,上海 200240

Integrated modeling of commercial aircraft maintenance plan recommendation system based on knowledge graph

XING Xue-qi,, DING Yu-tong, XIA Tang-bin,, PAN Er-shun, XI Li-feng

1. Department of Industrial Engineering and Management, School of Mechanical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China

2. Chinese Institute for Quality Research, Shanghai Jiao Tong University, Shanghai 200240, China

通讯作者: 夏唐斌,男,副教授. orcid.org/0000-0001-9121-1716. E-mail: xtbxtb@sjtu.edu.cn

收稿日期: 2022-07-12  

基金资助: 国家自然科学基金资助项目(51875359);上海市“科技创新行动计划”自然科学基金资助项目(20ZR1428600);上海商用飞机系统工程科创中心联合研究基金资助项目(FASE-2021-M7);教育部-中国移动联合基金资助项目(MCM20180703);上海交通大学深蓝计划基金资助项目(SL2021MS008);中船-交大海洋装备前瞻创新联合基金资助项目(22B010432)

Received: 2022-07-12  

Fund supported: 国家自然科学基金资助项目(51875359);上海市“科技创新行动计划”自然科学基金资助项目(20ZR1428600);上海商用飞机系统工程科创中心联合研究基金资助项目(FASE-2021-M7);教育部-中国移动联合基金资助项目(MCM20180703);上海交通大学深蓝计划基金资助项目(SL2021MS008);中船-交大海洋装备前瞻创新联合基金资助项目(22B010432)

作者简介 About authors

邢雪琪(1998—),女,硕士生,从事基于知识图谱的民航飞机维修优化研究.orcid.org/0000-0002-3497-0537.E-mail:xingxueqi@sjtu.edu.cn , E-mail:xingxueqi@sjtu.edu.cn

摘要

针对我国商用飞机智能维修和数字化诊断的需求,面向非结构化故障隔离手册,提出新型BM长短期记忆网络(BM LSTM)算法. 运用多数投票法融合条件随机场(CRF)、双向长短期记忆网络(BiLSTM)、BiLSTM CRF 3种实体识别算法,有效提高实体识别精度. 基于商用飞机维修故障诊断手册构建维修方案知识图谱,结合词频-逆向文件频率(TF-IDF)相似度算法与BM LSTM算法,设计商用飞机维修方案推荐系统,实现通过检索非结构化故障描述文本准确匹配到维修方案的功能. 实验结果表明,利用商用飞机故障隔离手册构建知识图谱、基于所提创新方法开发的维修方案推荐系统,能够有效保证维修信息精确匹配,显著提高维修方案形成效率.

关键词: 商用飞机 ; 故障隔离手册 ; BM长短期记忆网络(BM LSM) ; 知识图谱 ; 词频-逆向文件频率(TF-IDF)相似度

Abstract

Aiming at the requirements of intelligent maintenance and digital diagnosis of commercial aircraft in China, a novel Boyer-Moore long short-term memory network (BM LSTM) algorithm was proposed for unstructured fault isolation manual. A majority voting method was used to fuse three entity recognition algorithms including conditional random fields (CRF), bi-directional long short-term memory (BiLSTM) and BiLSTM CRF. The accuracy of entity recognition was effectively improved by the proposed BM LSTM algorithm. On this basis, a maintenance scheme knowledge graph was constructed for the commercial aircraft maintenance fault diagnosis manual. A commercial aircraft maintenance scheme recommendation system was designed by combining term frequency-inverse document frequency (TF-IDF) similarity algorithm with BM LSTM. Maintenance schemes can be matched accurately with this recommendation system by retrieving the unstructured fault description texts. Experimental results show that the proposed knowledge graph and the maintenance scheme recommendation system can effectively ensure the accurate matching of maintenance information, and the efficiency of maintenance scheme formation is significantly improved.

Keywords: commercial aircraft ; fault isolation manual ; Boyer-Moore long short-term memory network (BM LSTM) ; knowledge graph ; term frequency-inverse document frequency (TF-IDF) similarity

PDF (2093KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

邢雪琪, 丁雨童, 夏唐斌, 潘尔顺, 奚立峰. 基于知识图谱的商用飞机维修方案推荐系统集成建模. 浙江大学学报(工学版)[J], 2023, 57(3): 512-521 doi:10.3785/j.issn.1008-973X.2023.03.009

XING Xue-qi, DING Yu-tong, XIA Tang-bin, PAN Er-shun, XI Li-feng. Integrated modeling of commercial aircraft maintenance plan recommendation system based on knowledge graph. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(3): 512-521 doi:10.3785/j.issn.1008-973X.2023.03.009

随着科技水平的日益发展,我国在商用飞机运营领域积累了丰富的经验[1]. 受制于信息分析能力薄弱、维修检索模式落后,国内民航维修企业仍存在维修工期无法满足客户需求的瓶颈问题. 大量维修指导文件采用如纸质媒介的非格式化形式储存,当维修人员使用维修手册制定维修计划时,仍需手动翻阅与查找. 这种依赖人工的传统模式不仅维修效率低下,而且不能充分利用历史故障数据以及飞机的航电设备信息,导致民航企业的运维数字化水平滞后[2]. 通过对非结构化文本进行知识提取和商用飞机检修领域知识的统一规范化表达,构建商用飞机维修方案智能推荐系统,对实现飞机故障的快速精准定位与提高诊断过程的信息化、自动化水平具有重要意义[3].

国内外学者通过对维修手册在内的专家知识进行了文本数据挖掘、特征提取和知识表达的相关研究,有效提高了装备故障智能诊断和维修技术能力[4-5]. 贾宝惠等[6]结合Transformer模型和多头注意力机制提取和融合文本的有效特征,采用轻量级梯度提升机实现故障原因分类. Wang等[7]结合卡方统计量和潜在狄利克雷分布,在语法和语义层面提出2层特征提取的文本挖掘方法,提高了铁路列车的故障诊断精度. Bhardwaj等[8]提出新的自定义单词嵌入模型,通过合并语义和分类信息来准确提取文本上下文细节,改进了维修决策和设备可靠性. Ebrahimipour等[9]提出利用Web本体语言和资源描述框架来解决维护记录中的异构性和不一致性问题,如噪声数据和歧义技术词. 上述研究所采用的文本挖掘方法没有考虑特征之间的关联性并且可解释性较弱. 知识图谱作为自动化知识获取、知识表示学习与推理的高效工具,可以充分挖掘特征之间的关联关系,并通过图谱形式直观展示特征之间的联系.

知识图谱通过采用语义网络揭示实体之间关系,不仅能够表达出丰富的关联信息用以特征提取,而且具有统一的结构化表现形式[10-12]. 知识图谱已被引入设备故障诊断和故障维修领域[13-15]. Ren等[16]构建新型多级知识图谱来描述故障特征,实现了故障检测和故障定位. 郭恒等[17]基于多领域本体融合和双向编码Transformer模型,构建了高速列车维修性设计的知识图谱. 欧一鸣等[18]将知识图谱应用于分布式光伏运维方案匹配. 田嘉鹏等[19]结合双向循环神经网络和条件随机场概率图模型,提出设备故障文本实体识别方法. 张亮等[20]采用双向神经网络层和条件随机场,构建了发动机故障知识图谱. 值得注意的是,现有的知识图谱智能诊断和维修方法研究多采用单一的命名实体识别算法,致使模型在不同应用场景下的泛化能力差. 在航空运维领域,除了研究方法的创新,与实际工业应用场景亟需紧密结合. 商用飞机的检修知识图谱构建和维修方案智能推荐方面,相关的研究与应用仍处于初步阶段.

针对上述问题,考虑商用飞机维修的实际应用场景和工程需求,为了实现商用飞机检修过程中文本数据规范化表达以及维修方案自动化查询,本研究基于商用飞机的维修隔离手册,提出集成和融合多种实体识别方法的BM长短期记忆网络(Boyer-Moore long short-term memory network,BM LSTM)算法,构建基于知识图谱的商用飞机维修方案智能推荐系统,以提高商用飞机故障诊断和维修的精度、效率和数字化水平.

1. 问题描述

商用飞机故障诊断与维修规划工作的开展主要通过:人工观察航电设备的故障参数与表现状态,翻阅现有纸质故障隔离手册进行细致繁杂的查找与匹配. 可直接读取的结构化参数数据可以通过翻阅手册进行精准匹配,以查找对应的维修方案. 针对飞机部件呈现的异常状态,技术人员往往需要依靠个人判断,给出非结构化的文本描述,再与故障隔离手册中的“故障描述”进行匹配. 这种依赖人工的传统检修模式在极大程度上依赖个体的工作经验,不仅精度与效率低下,而且历史数据信息的价值未能得到有效发挥.

就非结构化文本数据匹配的工程问题而言,其科学本质是衡量目标文字与文本库中备选的各段文字之间的文本相似性,返回相似程度最高的文本. 计算2段文本的相似度,须先将其转化为计算机可读的数值,如one-hot模型、词袋模型. 在此基础上,提取特征、计算相似度,实现文本匹配. 由于语言的不规则与多变性,导致语义相近但表达形式不同的文本相似度较低. 本研究通过设定相似度阈值,当匹配得到的文本最高相似度低于设定阈值的水平时,采用命名实体识别方法重新进行语义匹配,提取其中的关键语义信息作为实体进行智能检索.

以我国知名飞机制造商的故障隔离手册文件为例,其涵盖自动飞行、通信、电源、防火、飞行控制、空调以及燃油等多个飞机子系统. 飞机故障类型对应的解决方案以非结构化的形式储存,结构如图1所示. 文件包含概述、故障隔离程序2个板块,其中概述包含故障描述、可能原因,故障隔离主程序包含准备工作、故障隔离主程序和收尾工作.

图 1

图 1   故障隔离手册示例

Fig.1   Example of fault isolation manual


BM LSTM算法从非结构化的文本中抽取实体及实体关系,本研究由该算法建立基于知识图谱的商用飞机维修方案推荐系统. 根据技术人员输入的“故障描述”非结构化文本,该系统能够实现自动匹配并高效准确地返回相应故障处理方案集. 处理方案集包含“可能原因”、“准备工作”及“故障隔离主程序”等具体运维信息.

2. 算法设计

针对“故障描述”的非结构化文本字段特点,本研究通过构建商用飞机检修领域知识图谱,进行高精度的维修方案匹配. 知识图谱构建的重点在于实体抽取的过程,实体识别算法是实现实体抽取任务的关键算法. 中文命名实体识别算法先后经历基于规则、基于机器学习和基于深度学习的抽取阶段. 基于规则的实体识别算法须对应用语料进行人工规则设计,因此算法虽然对特定语料的识别效果较好,但缺乏迁移性且极大程度依赖专家知识. 基于机器学习的实体识别算法对语料的依赖性降低,利用少量标注数据,计算未知数据和现有数据的相似性,达到实体识别目的;该算法的精度提升空间较小,适用于准确性要求较宽松的场景,代表算法有隐马尔可夫(hidden Markov model,HMM)模型和条件随机场(conditional random fields,CRF)模型. 基于深度学习的实体识别算法通过挖掘文本中的隐含信息进行训练,泛化能力强、精度提升空间大;该算法调参复杂,适用于词汇量较大、精度和移植性要求高的场景,代表算法有双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)模型和在BiLSTM基础上添加CRF层的BiLSTM CRF模型.

为了克服单一模型的局限性,减少模型偏好性对实体识别结果带来的影响,本研究提出集成和融合多种实体识别方法的新型BM LSTM算法.

2.1. 知识图谱构建

知识图谱是获取自然语言文本中的语义信息和潜在关联的有效工具,以三元组(实体1,关系,实体2)的形式通用表达. 基于知识图谱构建的推荐系统,可以挖掘更多的语义关系,具有多样、精准和可解释性强的特点. 利用知识图谱构建的推荐系统可以从功能上划分为知识图谱模块、推荐模块以及连接模块. 知识图谱模块负责实体及语义信息的存储,推荐模块以计算得分序列的形式将用户输入与知识图谱进行匹配,连接模块连接知识图谱模块与推荐模块以实现推荐功能.

知识图谱中数据的存储主要分为3种类型:关系型数据库存储、图数据库存储和RDF存储. 其中图数据库为非关系数据库,可以快速检索难以在关系系统中建模的复杂层次结构,适用于本研究的维修方案推荐场景. Neo4j是主流的图数据库,它使用方便、查询语言完善、搜索效率极高. 如图2所示,Neo4j存储“故障描述”文本中相关的实体和关系数据提高了系统的推荐效率.

图 2

图 2   基于Neo4j图知识库存储的知识图谱界面

Fig.2   Knowledge graph interface based on Neo4j graph knowledge base storage


2.2. 命名实体识别算法

HMM模型是由隐藏的马尔科夫链得到无法观测的状态序列[21],再由此推测出可以观测到的随机序列的模型. 在商用飞机的实体识别任务中,HMM将故障实体标签视为隐状态,将可观测到的故障描述视为观测值. CRF模型是能够高效表达长距离依赖性和交叠性的机器学习实体抽取方法[22]. 它通过引入特征函数的形式,实现了飞机“故障描述”文本中各实体对应标签的前后依赖性,摆脱了HMM模型中输出独立以及当前故障实体标签预测只依赖前一个状态的假设. BiLSTM模型通过组合前向LSTM和后向LSTM捕捉双向的长期语义依赖,通过选择性遗忘的方式解决梯度消失或爆炸的问题[23-25],实现了“故障描述”文本中的旧信息的遗忘以及新信息的记忆,使得每次传递时只保留关键信息. BiLSTM CRF模型通过融合和叠加CRF层[26],解决了BiLSTM算法只能考虑文本序列到标签的关系,无法学习标签相互关系的缺陷.

针对商用飞机的实际维修场景,将上述算法在完成实体抽取任务过程中的优缺点总结如下. HMM假设当前状态只与前一个状态有关,没有考虑 “故障描述”文本的长期依赖性. CRF虽然解决了标记偏置问题,但须使用大量特定语料进行训练,且不适用于方案推荐精确度较高的场景. BiLSTM克服了前2种算法只能捕捉近距离的状态信息的问题,但是其调参过程复杂且没有考虑故障实体类型标签前后的依赖性. BiLSTM CRF通过加入CRF层提高了预测合理性,但是对短词的识别效果较差且易于过拟合. BM LSTM算法降低了对单个模型的依赖性,利用Bagging集成多种命名实体识别算法,实体识别精度显著提高.

2.3. 新型BM LSTM集成算法

BM LSTM通过使用多数投票法整合多种实体识别算法的计算结果,有效避免了因为个别学习模型预测效果不好而得到错误结果的情况[27]. 但当只依靠多数投票法,不考虑句子前后状态的关联,标签输出较为独立,容易产生不合理的预测结果. 假设某个知识图谱含有2种实体类型标号为1、2,如果以BIOES的形式进行编码,那么通过BM LSTM算法进行集成后,可能会出现“B-实体1,I-实体2,I-实体1,···”这类难以组合成实体的不合理预测序列. CRF作为概率图模型马尔可夫随机场范畴中的经典算法,通过引入特征函数,实现了飞机“故障描述”文本中各实体对应标签前后的依赖性. 为了提高文本预测序列的合理性,本研究在多数投票法的基础上添加1层CRF层,通过从训练中学习标签转移特征使得标签的预测与上下文产生关联,进一步提高实体识别算法的精确度. BM LSTM算法的决策式为

$ {t_{i,{y_i}}} = {\max _k}\left[\sum\limits_{m = 1}^n {{a_{i,{y_i},k,m}} \times f_m^t} +\frac{{s({w_{i,{y_j},k}}|{t_{i,{y_{i - 1}}}})}}{c}\right] . $
(1)

式中: $k$为标签的编号,取值范围根据具体的标注语境确定; $m$为算法的编号; $n$为最终选取的被集成算法的总数; ${f_m}$为第 $m$个算法的F1分数; $ {a_{i,{y_i},k,m}} $表示第 $i$句话的第 ${y_j}$个字是否被第 $m$个模型预测为第 $k$个标签,取值为1或0,其中1表示被预测为第 $k$个标签,0表示被预测为其他标签; ${{s}}({{{w}}_{i,{y_j},k}}|{{{t}}_{i,{y_{i - 1}}}})$表示在第i句话的第 ${y_{j - 1}}$个字的标签为 $ {t_{i,{y_{i - 1}}}} $的情况下,第 $i$句话的第 ${y_j}$个字的标签被预测为 $k$的概率,该值可由CRF的转移矩阵得出;其中CRF层为四维张量,分别表示句子编号、字的编号、上一个字被预测的标签编号、由上一个标签编号转移到当前标签标号的概率; $t$$c$均为模型的超参数,通过交叉验证进行调整. 式(1)通过集成多种实体识别算法的预测结果,得到第 $i$句话的第 ${y_j}$个字被预测为第 $k$个标签的概率,其中最高概率的标签将作为最终预测结果.

2.4. 维修方案推荐模型设计

基于BM LSTM集成命名实体识别算法,本研究结合词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)算法提出的商用飞机维修方案推荐系统,总体框架如图3所示.

图 3

图 3   商用飞机维修方案推荐系统流程

Fig.3   Commercial aircraft maintenance scheme recommendation system process


考虑实际应用场景,维修方案推荐系统设计包含文本相似度匹配模块和实体识别匹配模块. 针对文本差异性较小的故障描述,采用运行效率高的文本相似度匹配模块计算进行方案匹配. 当文本相似度匹配模块无法满足系统要求的匹配准确程度时,利用基于BM LSTM集成算法的实体识别匹配模块对“故障描述”文本中的关键信息进行抽取与检索,以获取更加准确的维修方案推荐. 针对文本相似度匹配模块的阈值设定,可以采用交叉验证方法或者基于经验的人工设定方法来确定阈值. 本研究以系统匹配准确率为评价准则,采用交叉验证的方法确定文本相似度匹配模块的阈值. 综上,本研究构建的基于知识图谱的维修方案推荐模型能够兼顾查询效率和推荐精度.

2.4.1. 文本相似性匹配模块

文本相似度匹配模块框架如图4所示. 文本相似度的衡量关键在于句子中重要信息的匹配,直接采用完整句子进行相似度衡量容易受到语序和语言习惯的影响,因此进行相似度匹配的文本的颗粒度不应太大. 本研究采用Jieba分词的方法进行文本颗粒度细化,再去除停用词以减少无用信息对文本相似性计算的影响.

图 4

图 4   文本相似度匹配模块框架

Fig.4   Framework of text similarity matching module


文本相似性匹配的关键在于构建文本的特征向量. TF-IDF算法在获取句子特征方面表现优异,具有简单、效率高以及无效标注数据等优点. 该算法通过加权技术将文本映射为向量,自动实现过滤常见词条并保存关键词条,即若某词条在文本中的出现频数越高,则权重越大. TF-IDF是词频TF和逆文本频率指数IDF的乘积. TF表示某个词条在文档中出现的频率,计算式为

$ v_{i,j}^t = \frac{{{n_{i,j}}}}{{\displaystyle\sum\nolimits_k {{n_{k,j}}} }} . $
(2)

式中: ${n_{i,j}}$为该词条在文档 $j$中的出现频次, $ \sum\nolimits_k {{n_{k,j}}} $为该文档中所有词条的出现频次总数. IDF代表某个词条的文档区分能力,计算式为

$ v_i^d = \lg \left( \frac{{|D|}}{{|\{ j:{t_i} \in {d_j}\} |+1}}\right) . $
(3)

式中: $|D|$为语料库中的文档总数, $ |\{ j:{t_i} \in {d_j}\} | $为包括某词条的文件总数, $ |\{ j:{t_i} \in {d_j}\} |+1 $用于解决某些不在语料库中的词语引起的零除问题. 采用余弦距离进行相似度的计算. 余弦距离衡量方向维度差异,可以用向量夹角的余弦值来表示. 假设向量J为得到用户描述的故障描述文本,向量K为维修手册中的相应的“故障描述”文本,则两者文本相似度的计算式为

$ {s}=\frac{{\boldsymbol{J}}·{{\boldsymbol{K}}}^{\text{T}}}{\left|{\boldsymbol{J}}\right|\times \left|{\boldsymbol{K}}\right|} . $
(4)

2.4.2. 实体识别匹配模块

当匹配得到的文本最高相似度低于设定阈值的水平时,触发实体识别匹配模块,提高系统匹配准确程度和精度. 本研究采用基于知识图谱的实体识别匹配模块进行更加精准的方案匹配. 如图5所示,面向商用飞机“故障描述”字段的实体识别匹配模块包括本体构建、基于BM LSTM集成算法的实体抽取、基于Neo4j的知识图谱构建以及基于实体识别的故障描述文本匹配.

图 5

图 5   实体识别匹配模块框架

Fig.5   Framework of entity recognition matching module


构建知识图谱的步骤如下. 1)根据专家知识设计知识图谱的本体,为实体抽取步骤提供规范. 本研究的应用背景为特定领域,因此采用专家知识人工构建本体. 本体的构建包括实体类型的规定以及实体间关系类型的规定. 2)基于BM LSTM算法对数据进行实体抽取,使抽取出的实体涵盖后续文本匹配需要的全部关键语义信息. 3)基于Neo4j知识图谱进行匹配. 在此过程中,利用抽取出的实体检索知识图谱进行实体间的相似度计算. 通过获取知识图谱中的相应实体,对包含这些实体的文本进行加分,返回得分最高的文本作为匹配结果. 匹配逻辑表达式为

$ {c_i} = \sum\limits_{j = 1}^n {{X_{i,j}} \times {k_j} \times s_j^2} . $
(5)

式中: $i$为用于匹配的数据集中文本的编号; ${c_i}$为第 $i$条文本的得分; $j$为实体编号; $n$为输入的待匹配文本中抽取得到的实体数量; ${X_{i,j}}$为第 $i$条文本中是否含有与待匹配文本中提取出的第 $j$个实体相似度最高的实体,取值为0或1;1代表包含,0代表不包含; ${k_j}$为第 $j$个实体所属类别的权重; ${s_j}$为第 $j$个实体与知识图谱中检索到的相应实体的最大相似度,采用编辑距离ED进行计算:

$ s_{\rm{max}} = 1 - \frac{{{\text{E}}{{\text{D}}_{J,K}}}}{{{L_J}+{L_K}}} . $
(6)

式中: ${L_J}$为待匹配的目标实体 $J$的长度; ${L_K}$为知识图谱中相应类别实体 $K$的长度; ${\text{E}}{{\text{D}}_{J,K}}$为实体 $J$$K$的编辑距离,即将实体 $K$转化为实体 $J$需要的最少操作数. 操作包括增加、删除以及替换;替换1个字符则编辑距离加2,其余操作编辑距离加1.

本研究所提出的商用飞机维修方案推荐系统通过综合考虑实际应用场景和需求,结合基于TF-IDF的文本相似度匹配模块和基于BM LSTM算法的实体识别匹配模块,能够智能和高效地实现维修方案的精准推荐功能.

3. 案例分析

3.1. 数据预处理

为了获得更加易于处理与分析的数据形式,须将故障维修手册的PDF数据转化为MySQL格式并进行储存. 1)利用python的第三方库pdfPlumber按页提取故障维修手册包含的表格和文字信息,转化为python格式的列表和字符串. 2)采用python的正则匹配模块re的re.findall()函数,根据关键字提取出“CMS信息”、“故障描述”、“可能原因”等相关信息,使用re.sub()函数将文本中杂糅的表格信息转换为后续处理所需的特定格式. 经过上述预处理,将7个子系统的PDF数据整合到Mysql表格中,如图6所示. 图中,因为“故障名称”与“故障描述”字段高度重合,所以将两者合并为“故障描述”. 按照表格顺序为每个故障方案编号,以便后续的索引处理. 剔除无效值后,得到1 066条数据.

图 6

图 6   SQL格式的维修手册数据示例

Fig.6   Example of service manual data in SQL format


对“故障描述”文本进行人工标注,方便训练实体识别模型. 本研究采用实体识别算法中最常见的BIOES编码进行标注. 结合知识图谱中的本体构建,4类实体对应的BMES标签共16个,再加上代表非实体的标签“O”、标记句子开头和结尾的标签“<START>”和“<END>”,共设置19种标签. 得到的以BOIES编码的故障描述数据结构如图7所示.

图 7

图 7   BIOES编码的故障描述数据示例

Fig.7   Examples of fault description data encoded by BIOES


3.2. 商用飞机检修领域知识图谱本体构建

实体抽取依赖专家知识人工设计实体类型和实体关系,在进行实体抽取前须构造商用飞机维修故障检测的知识图谱模型作为集成算法结果测试的数据来源. 分析“故障描述”文本可知,英文缩写(IOC、FMS)、特殊部件(升降舵、音频控制板)、通用部件(总线、按钮)以及具体表现(抗阻高、电压低)的出现频率较高,且这4类信息基本涵盖“故障描述”的重要语义信息,对定位“故障描述”及其推荐方案帮助较大. 本研究设计以下4类实体:英文缩写、特殊部件、通用部件和具体表现. 定义这些实体与“故障描述”的关系为整体和部分的关系,关系名称设为part_of. 将维修方案进行编号,包含可能原因、准备工作和故障隔离主程序3个字段,并将上述3个字段和“方案编号”的关系设置为包含关系,关系名称设为include. 故障描述与方案编号的关系定义为隶属关系,关系名称设为belong. 得到的本体设计方案如图8所示.

图 8

图 8   商用飞机检修领域知识图谱本体设计

Fig.8   Ontology design of knowledge graph in field of commercial aircraft maintenance


3.3. BM LSTM集成算法结果分析

将经过预处理的1 066条数据按照8∶1∶1的比例进行划分,得到训练集、验证集和测试集. 其中训练集的故障描述条数为854条,共33 223个标签. 经交叉验证,BiLSTM和BiLSTM CRF算法的参数设定如下:batch-size为10;学习速率为0.002;epoch为30;词向量和隐向量维度均为128;最大长度为400.

将正确率acc、准确率p、召回率r以及F1分数f作为实体识别算法的评价指标. HMM、CRF、BiLSTM以及组合模型BiLSTM CRF在测试集上的性能效果如图9所示. 可以看出,HMM表现最差,各指标结果差强人意,正确率明显低于其他3个算法,f=0.666. BiLSTM CRF 在4种算法中表现最佳,但与BiLSTM相差不大. CRF训练较简单且准确率勉强符合要求,适用于对准确率要求不高但对速率要求较高的场景. 本研究选取CRF、BiLSTM以及BiLSTM CRF3种算法进行Bagging集成,并添加CRF层组成BM LSTM算法. 如图1011所示,在验证集上调节超参数 $c$$t$,得到的参数调优三维和二维图. 可以看到,当参数 $t$=5、 $c$=10时,实体识别的精度达到较为平稳的峰值附近,为此将各基学习器的投票权重和转移权重投射到同个数量级进行计算.

图 9

图 9   不同算法的中文命名实体识别结果

Fig.9   Chinese named entity recognition results of different algorithms


图 10

图 10   集成算法参数调优三维图

Fig.10   Three-dimensional graph of integrated algorithm parameter tuning


图 11

图 11   集成算法参数调优二维图

Fig.11   Two-dimensional graph of integrated algorithm parameter tuning


在数据集上测试BM LSTM,对比4种单算法的测试结果可以发现,集成算法的正确率、准确率、召回率以及F1分数的得分均比其他4种算法的高,F1分数相较于表现最优的BiLSTM CRF提升了3.51%,准确率从0.850提升到0.885,召回率从0.867提升到0.883. 这说明BM LSTM的有效性和优越性.

依据本研究设计的本体模型,采用BM LSTM对经过预处理的“故障描述”文本进行实体抽取,基于Neo4j图数据库建立商用飞机检修领域知识图谱,结构展示如图12所示.

图 12

图 12   商用飞机检修领域知识图谱示例

Fig.12   Example of knowledge graph in field of commercial aircraft maintenance


3.4. 维修方案推荐模型结果分析

商用飞机维修方案推荐系统需要预先确定相似度阈值,当文本相似度模块可以满足相似度阈值时,系统直接输出推荐方案;否则,启动实体识别模块进一步匹配. 系统返回的推荐集包含相似度最高的前5条维修方案. 本研究采用交叉验证的方法,以系统推荐方案集能否包含正确维修方案为衡量标准. 基于现有数据集对(0.3,1)内均匀分布的13个不同阈值进行测试,结果如图13所示. 图中, $s_{\rm{d}}$为设定的相似度阈值, $P$为系统推荐集包含正确维修方案的概率. 图中最下方的曲线即代表在不同水平阈值的前提下,系统推荐集的第1个方案即为正确方案的概率,剩余4条曲线分别代表推荐集前2条、前3条、前4条、前5条包含正确维修方案的概率. 当阈值设定为0.8时,正确方案处于推荐集第1位的概率为最大值,且在剩余4条曲线的表现均较好,因此将系统相似度阈值设为0.8.

图 13

图 13   在不同阈值下维修方案推荐系统的表现

Fig.13   Performance of maintenance scheme recommendation system under different thresholds


测试数据包含106条故障描述,经过文本相似度与实体识别2个匹配模块处理后,模型返回相似度最高的前5条推荐方案,结果如图14所示. 图中, $n$为测试数据的数量,P1为系统推荐集第1条维修方案是正确方案的概率,P2为系统推荐集的前2条方案包含正确方案的概率,以此类推. 比较推荐方案与正确方案可以发现,正确的解决方案位于推荐方案集第1条的概率为70.8%,位于前2条的概率为82.1%,位于前5条的概率在90.7%. 结合实际情况中结构化信息(如 CMS代码、故障代码)的精确匹配,基本可以满足维修方案准确推荐的需求. 对于少部分正确方案未涵盖在推荐维修方案集的情况,造成系统推荐失败的主要原因如下:1)由于人工监督进行数据标注时可能存在标注错误的数据,导致实体识别算法对于部分实体无法准确识别;2)实体识别模型训练数据量不够,未能准确识别相关实体;3)某些故障描述的相似实体过多,导致正确方案位于推荐的前5条方案之外. 后续研究可从这些方面进行提升改进,以获得更好的推荐效果.

图 14

图 14   维修方案推荐模型效果测试

Fig.14   Effect test of maintenance scheme recommendation model


4. 结 语

本研究针对现有的商用飞机故障维修效率低下、维修成本高以及非结构化知识资源利用不足等问题,提出了BM LSTM算法. 考虑到航空领域的实际工业应用场景,结合TF-IDF相似度算法和BM LSTM算法,构建了基于知识图谱的面向商用飞机故障维修过程的维修方案智能推荐系统. 利用所提方法对商用飞机在使用阶段产生的大量非结构化数据进行统一规范化表达,有效地提高了维修效率和维修精度. 以实际商用飞机故障隔离手册语料为例,对所提出的方法进行验证,结果表明BM LSTM的精度优于单一算法,所构建的维修方案智能推荐系统实现了故障诊断知识结构化储存以及维修方案智能推荐,对提高飞机运维的信息化、自动化水平具有重要意义.

参考文献

WU G

A trio of commercial aircraft developments in China

[J]. Engineering, 2021, 7 (4): 424- 426

DOI:10.1016/j.eng.2020.07.033      [本文引用: 1]

姚明, 李君成, 陈龙

边缘计算智能装备技术在飞机检修行为识别领域的应用

[J]. 航空维修与工程, 2022, (2): 29- 31

[本文引用: 1]

YAO Ming, LI Jun-cheng, CHEN Long

Edge computing intelligent equipment technology and its application for aircraft maintenance and inspection behavior recognition

[J]. Aviation Maintenance and Engineering, 2022, (2): 29- 31

[本文引用: 1]

厦门航空有限公司维修高质量发展项目组

厦航维修系统高质量发展指标框架体系

[J]. 航空维修与工程, 2022, (6): 11- 13

[本文引用: 1]

High-quality Development Group of Xiamen Air

The high quality development index framework of Xiamen Airlines maintenance system

[J]. Aviation Maintenance and Engineering, 2022, (6): 11- 13

[本文引用: 1]

王锐光, 吴际, 刘超, 等

基于维修日志的飞机设备故障原因判别方法

[J]. 软件学报, 2019, 30 (5): 1375- 1385

[本文引用: 1]

WANG Rui-guang, WU Ji, LIU Chao, et al

Fault cause identification method for aircraft equipment based on maintenance log

[J]. Journal of Software, 2019, 30 (5): 1375- 1385

[本文引用: 1]

STEPHEN B, JIANG X, MCARTHUR S D J

Extracting distribution network fault semantic labels from free text incident tickets

[J]. IEEE Transactions on Power Delivery, 2020, 35 (3): 1610- 1613

DOI:10.1109/TPWRD.2019.2947784      [本文引用: 1]

贾宝惠, 姜番, 王玉鑫, 等

基于民机维修文本数据的故障诊断方法研究

[J]. 航空学报, 2022, 43: 1- 15

DOI:10.7527/j.issn.1000-6893.2022.7.hkxb202207001      [本文引用: 1]

JIA Bao-hui, JIANG Fan, WANG Yu-xin, et al

Research on fault diagnosis method based on civil Aircraft maintenance text data

[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43: 1- 15

DOI:10.7527/j.issn.1000-6893.2022.7.hkxb202207001      [本文引用: 1]

WANG F, XU T, TANG T, et al

Bilevel feature extraction-based text mining for fault diagnosis of railway systems

[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18 (1): 49- 58

DOI:10.1109/TITS.2016.2521866      [本文引用: 1]

BHARDWAJ A S, DEEP A, VEERAMANI D, et al

A custom word embedding model for clustering of maintenance records

[J]. IEEE Transactions on Industrial Informatics, 2022, 18 (2): 816- 826

DOI:10.1109/TII.2021.3079521      [本文引用: 1]

EBRAHIMIPOUR V, YACOUT S

Ontology-based schema to support maintenance knowledge representation with a case study of a pneumatic valve

[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2015, 45 (4): 702- 712

DOI:10.1109/TSMC.2014.2383361      [本文引用: 1]

JI S, PAN S, CAMBRIA E, et al

A survey on knowledge graphs: representation, acquisition, and applications

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33 (2): 494- 514

DOI:10.1109/TNNLS.2021.3070843      [本文引用: 1]

陶家琦, 李心雨, 郑湃, 等

制造领域知识图谱的应用研究现状与前沿

[J]. 计算机集成制造系统, 2022, 28 (12): 3720- 3736

TAO Jia-qi, LI Xin-yu, ZHENG Pai, et al

State-of-the-art and frontier of manufacturing knowledge graph application

[J]. Computer Integrated Manufacturing Systems, 2022, 28 (12): 3720- 3736

陈成, 张皞, 李永强, 等

关系生成图注意力网络的知识图谱链接预测

[J]. 浙江大学学报: 工学版, 2022, 56 (5): 1025- 1034

[本文引用: 1]

CHEN Cheng, ZHANG Hao, LI Yong-qiang, et al

Knowledge graph link prediction based on relational generative graph attention network

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (5): 1025- 1034

[本文引用: 1]

LOURENÇO V, PAES A

Learning attention-based representations from multiple patterns for relation prediction in knowledge graphs

[J]. Knowledge-Based Systems, 2022, 251: 109232

DOI:10.1016/j.knosys.2022.109232      [本文引用: 1]

MA R, GUO F, LI Z, et al

Knowledge graph random neural networks for recommender systems

[J]. Expert Systems with Applications, 2022, 201: 117120

DOI:10.1016/j.eswa.2022.117120     

宋邓强, 周彬, 申兴旺, 等

面向船舶分段制造过程的动态知识图谱建模方法

[J]. 上海交通大学学报, 2021, 55 (5): 544- 556

[本文引用: 1]

SONG Deng-qiang, ZHOU Bin, SHEN Xing-wang, et al

Dynamic knowledge graph modeling for ship block manufacturing process

[J]. Journal of Shanghai Jiao Tong University, 2021, 55 (5): 544- 556

[本文引用: 1]

REN H, CHEN Z, JIANG Z, et al

An industrial multilevel knowledge graph-based local–global monitoring for plant-wide processes

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 3526715

[本文引用: 1]

郭恒, 黎荣, 张海柱, 等

多域融合的高速列车维修性设计知识图谱构建

[J]. 中国机械工程, 2022, 33 (24): 3015- 3023

[本文引用: 1]

GUO Heng, LI Rong, ZHANG Hai-zhu, et al

Construction of knowledge graph of maintainability design based on multi-domain fusion of high-speed trains

[J]. China Mechanical Engineering, 2022, 33 (24): 3015- 3023

[本文引用: 1]

欧一鸣, 苏雍贺, 靳健, 等

基于知识图谱的分布式光伏运维方案匹配方法

[J]. 计算机集成制造系统, 2021, 27 (7): 1860- 1870

[本文引用: 1]

OU Yi-ming, SU Yong-he, JIN Jian, et al

Matching method for distributed photovoltaic maintenance scheme based on knowledge graph

[J]. Computer Integrated Manufacturing Systems, 2021, 27 (7): 1860- 1870

[本文引用: 1]

田嘉鹏, 宋辉, 陈立帆, 等

面向知识图谱构建的设备故障文本实体识别方法

[J]. 电网技术, 2021, 46 (10): 3913- 3922

[本文引用: 1]

TIAN Jia-peng, SONG Hui, CHEN Li-fan, et al

Entity recognition approach of equipment failure text for knowledge graph construction

[J]. Power System Technology, 2021, 46 (10): 3913- 3922

[本文引用: 1]

张亮, 吴闯, 唐希浪, 等

航空发动机故障实体识别方法及应用

[J]. 空军工程大学学报: 自然科学版, 2022, 23 (2): 1- 6

[本文引用: 1]

ZHANG Liang, WU Chuang, TANG Xi-lang, et al

A method of recognizing aero-engine fault entity and its application

[J]. Journal of Air Force Engineering University: Natural Science Edition, 2022, 23 (2): 1- 6

[本文引用: 1]

MOUHCINE R, MUSTAPHA A, ZOUHIR M

Recognition of cursive Arabic handwritten text using embedded training based on HMMs

[J]. Journal of Electrical System and Information Technology, 2018, 5 (2): 245- 251

DOI:10.1016/j.jesit.2017.02.001      [本文引用: 1]

LI M, SHI L, WANG Y, et al

Automated data function extraction from textual requirements by leveraging semi-supervised CRF and language model

[J]. Information and Software Technology, 2022, 143: 106770

DOI:10.1016/j.infsof.2021.106770      [本文引用: 1]

陈岳林, 田文靖, 蔡晓东, 等

基于密集连接网络和多维特征融合的文本匹配模型

[J]. 浙江大学学报: 工学版, 2021, 55 (12): 2352- 2358

[本文引用: 1]

CHEN Yue-lin, TIAN Wen-jing, CAI Xiao-dong, et al

Text matching model based on dense connection network and multi-dimensional feature fusion

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (12): 2352- 2358

[本文引用: 1]

农元君, 王俊杰, 陈红, 等

基于注意力机制和编码-解码架构的施工场景图像描述方法

[J]. 浙江大学学报: 工学版, 2022, 56 (2): 236- 244

NONG Yuan-jun, WANG Jun-jie, CHEN Hong, et al

A image caption method of construction scene based on attention mechanism and encoding-decoding architecture

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (2): 236- 244

于军琪, 杨思远, 赵安军, 等

基于神经网络的建筑能耗混合预测模型

[J]. 浙江大学学报: 工学版, 2022, 56 (6): 1220- 1231

[本文引用: 1]

YU Jun-qi, YANG Si-yuan, ZHAO An-jun, et al

Hybrid prediction model of building energy consumption based on neural network

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (6): 1220- 1231

[本文引用: 1]

LI Z, LI Q, ZOU X, et al

Causality extraction based on self-attentive BiLSTM-CRF with transferred embeddings

[J]. Neurocomputing, 2021, 423: 207- 219

DOI:10.1016/j.neucom.2020.08.078      [本文引用: 1]

李广龙, 申德荣, 聂铁铮, 等

数据库外基于多模型的学习式查询优化方法

[J]. 浙江大学学报: 工学版, 2022, 56 (2): 288- 296

[本文引用: 1]

LI Guang-long, SHEN De-rong, NIE Tie-zheng, et al

Learning query optimization method based on multi model outside database

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (2): 288- 296

[本文引用: 1]

/