基于梯度提升树的飞机机身对接状态识别
State recognition for fuselage join based on gradient boosting tree
通讯作者:
收稿日期: 2018-07-23
Received: 2018-07-23
作者简介 About authors
蔡畅(1993—),男,硕士生,从事工业数据挖掘的研究.orcid.org/0000-0002-1772-051X.E-mail:
为了实时监控飞机机身的对接过程,针对机身对接数据没有标注和样本不平衡的特点,提出基于梯度提升树(GBDT)的机身对接状态识别方法. 通过定位器及定位器上的载荷传感器,实时获取机身对接过程中的位移和载荷数据. 结合飞机部件对接的工艺流程对历史对接数据进行状态标注,提出准确、高效的对接状态自动标注方法. 在经过标注的对接数据上训练基于GBDT的机身对接状态识别模型,通过该模型可以获得各个特征的重要性. 与长短期记忆网络(LSTM)、卷积神经网络(CNN)以及一些传统机器学习方法相比,该方法对接状态识别的宏F1(macro_F1)指标高达0.998,能够精准地识别每一种对接状态且训练速度较快.
关键词:
A state recognition method for fuselage join based on gradient boosting decision tree (GBDT) was proposed by considering the practical conditions of the lack of label and sample imbalance of fuselage joining data in order to monitor the process of fuselage join in real time. The displacement and the load data were acquired in real time through the positioners and the load sensors during the process of fuselage join. The joining state of historical data was labeled based on the process of airliner component join, and an accurate and efficient automatic labeling method for fuselage joining state was proposed. The state recognition model for fuselage join based on GBDT was trained through the labeled data, from which the importance of each feature was obtained. The macro_F1 for joining state recognition of the proposed method was as high as 0.998, compared with the latest deep learning methods such as long short-term memory (LSTM), convolutional neural network (CNN) and some traditional machine learning methods. Each joining state was accurately recognized, and the model training process was more efficient.
Keywords:
本文引用格式
蔡畅, 黄亦翔, 邢宏文.
CAI Chang, HUANG Yi-xiang, XING Hong-wen.
关于机身对接过程的实时监控及对接状态识别的研究很少. Yang等[10]提出基于图像的飞机大部件对接过程质量监控方法,在理想的仿真环境中通过图像处理评估对接装配质量. 在实际装配生产中的影响因素众多,对接过程中可能出现传感器损坏、对接过程不稳定及其他异常情况. 为了更全面、准确地分析机身对接过程,提高监控的智能化水平,本文从数据驱动的角度,提出基于梯度提升树(GBDT)的飞机机身对接状态识别方法. 通过定位器及定位器上的载荷传感器实时获取机身对接过程中的位移和载荷数据,并录入对接数据库中,对历史数据进行对接状态标注;然后训练GBDT模型,用于实时地、智能地识别后续批次的机身对接状态. 与其他不同类型的机器学习方法相比,该方法的效果更好.
1. 梯度提升树模型原理
1.1. 分类与回归树
分类与回归树(CART)是应用广泛的决策树学习方法,既可以用于分类,也可以用于回归,包含特征选择、树生成和剪枝的过程. CART假设决策树为二叉树,递归地二分每个特征,将输入空间划分为有限个单元并确定预测的概率分布.
假设X和Y分别为输入和输出变量,给定训练集
1.2. 集成学习方法
集成学习(ensemble learning)是通过结合多个个体学习器(如决策树、神经网络)来完成学习任务的方法. 如图1所示,先产生一组“个体学习器”,再通过某种结合策略将各个体学习器结合起来. 若集成只包含同种类型的个体学习器,此时个体学习器称为“基学习器”. 集成学习一般会获得比单一学习器更准确、更稳定的结果.
图 1
Bagging和Boosting是2种常见的集成学习方法. Bagging的个体学习器是并行生成的,Boosting的个体学习器是串行生成的. Bagging主要关注降低方差,Boosting主要关注降低偏差.
1.3. 梯度提升树
梯度提升树(GBDT)是一种以CART为基学习器的Boosting方法. GBDT采用加法模型和前向分步算法实现学习的优化过程,为了解决一般损失函数的优化问题,Freidman提出梯度提升算法[11].
GBDT最终的模型可以表示为CART的加法模型:
式中:
GBDT采用前向分步算法,第m步的模型如下:
式中:
为了解决一般损失函数的优化问题,梯度提升树利用损失函数的负梯度在当前模型
给定训练集
1)初始化.
2)对于
a)计算每个样本属于各类的概率:
b)对于
(b1)计算概率残差:
(b2)对
(b3)对于
(b4)计算第m轮各类的模型:
GBDT本身是串行集成的,但是经过精心的设计和实现,GBDT可以非常高效地运行[12].
2. 机身对接数据准备
2.1. 飞机部件对接工艺流程
图 2
定位器上安装的载荷传感器实时获取调姿对接过程中定位器驱动轴方向的载荷,所有定位器都有带位置反馈的数字伺服电机,可以反馈定位器驱动轴相对于自身坐标系零点的主动位移.
飞机部件调姿对接的工艺流程如图3所示. 部件对接可以分为以下4种状态. 1)空工位:部件还未上架或者已经下架;2)对接准备:部件已经上架锁定,构建对接坐标系并计算部件的目标位姿;3)调姿对接:通过激光跟踪仪测量部件的位姿基准点并解算部件位姿,结合部件的目标位姿驱动柔性定位器进行调姿对接;4)部件连接:对接质量满足要求之后进行部件连接,如蒙皮铆接.
图 3
2.2. 机身对接数据预处理
研究某型飞机的前机身与中机身的对接过程. 如图4所示为前机身和中机身的对接示意图及对应的定位器布局. 图中,Y为重量方向,X和Z分别为纵向和展向. 中机身固定在理论位置,通过调节Section2的4个定位器,使前机身与中机身对接. 各定位器附近标明了各轴的具体情况,虚线表示从动轴,实线表示驱动轴,所有定位器Y方向均为驱动轴,Section2区域共计7个驱动轴. 在机身对接过程中,定位器驱动轴方向的载荷和位移实时地被写入对接数据库中.
图 4
从数据库提取整个对接过程中Section2区域定位器驱动轴方向载荷和位移的序列数据. 结合飞机部件对接工艺流程,完成原始数据中缺失值的填充.
各特征的箱线图如图5所示. 图中,D为位移,F为载荷,后缀为“LOAD_”表示载荷特征,后缀为“POS_”表示位移特征. 可以发现,部分特征取值很离散且存在较多的离群点,这是由于在机身对接的不同阶段这部分特征的取值差异很大引起的. 对数据中的异常点进行相应的剔除或替换,整个对接工艺流程的序列数据由14个特征组成.
图 5
2.3. 机身对接状态标注
对接数据库记录了各特征在对接过程中的变化情况,但不包含每个样本的对接状态. 为了训练状态识别模型,先对历史对接数据进行状态标注.
首先基于机身对接的工艺流程,结合不同对接状态下各特征的特点对历史对接数据进行人工标注.
1)空工位. 前机身未上架,该阶段的主要特点是所有定位器Y方向的载荷在0附近波动.
2)对接准备. 前机身上架锁定,构建对接坐标系并计算部件的目标位姿. 该阶段的主要特点是所有定位器Y方向的载荷较大并有小幅波动,各定位器位移维持不变.
3)调姿对接. 解算前机身位姿,并结合前机身的目标位姿驱动Section2的定位器进行调姿对接. 该阶段的主要特点是定位器驱动轴的位移发生变化. 以S2LAPOS_X为例,其在调姿对接过程中的变化序列如图6所示.
图 6
4)机身连接. 在对接质量满足要求之后,锁定定位器,进行部件连接. 该阶段定位器位移不变,各驱动轴的载荷由于连接操作的干扰出现不同程度的波动. 以S2RALOAD_Y和S2RFLOAD_Y为例,二者在机身连接过程中的变化序列如图7所示.
图 7
人工标注虽然更准确,但是需要标注人员熟知部件对接的原理与工艺流程,对专业知识的依赖程度较高. 当飞机实现量产后,数据量剧增会给标注带来重重困难. 需要一种能够不依赖于专业知识且能够高效进行数据标注的方法.
表 1 不同标注方法的各对接状态样本数量
Tab.1
对接状态 | 编号 | 人工标注 | 自动标注 | 协同标注 |
空工位 | 0 | 32 107 | 32 107 | 32 107 |
对接准备 | 1 | 19 081 | 19 084 | 19 081 |
调姿对接 | 2 | 987 | 956 | 987 |
连接1 | 3 | − | 24 881 | 24 853 |
连接2 | 4 | − | 80 928 | 80 928 |
图 8
图 8 当前样本与前一样本的欧氏距离
Fig.8 Euclidean distance between current sample and previous one
3. 机身对接状态识别模型的构建
构建机身对接状态识别模型的策略有以下2种:1)非序列模型,假设机身当前的对接状态仅由当前样本决定,与该样本之前的样本无关;2)序列模型,假设机身当前的对接状态不仅仅由当前样本决定,还与当前样本之前的样本有关.
对接状态识别模型的构建和验证方法如下:选择合适的模型评价指标,通过k折交叉验证的方式训练多分类模型并进行模型评估和选择,从而确定模型参数. 其中,k折交叉验证把数据集划分为k个大小相似的互斥子集,每次训练以其中k−1个子集作为训练集,余下的那个子集作为测试集. 这样可以获得k组训练/测试集,从而进行k次训练和测试,更客观地评估模型的表现.
3.1. 模型评价指标
图 9
对于二分类问题,可以将样本的真实类别与预测类别组合划分为真正例、假反例、假正例和真正例. 如表2所示为分类问题的混淆矩阵.
表 2 分类结果的混淆矩阵
Tab.2
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
根据表2所示的混淆矩阵,查准率P、查全率R和F1的定义分别为
查准率关注的是预测出的正例中有多少比例是真实的正例,查全率关注的是真实的正例有多少比例被预测出来. F1对二者的调和平均,表示对二者的重视程度相同.
对于机身对接状态识别的不平衡多分类问题,为了综合考虑模型整体的性能,使样本数相差悬殊的不同对接状态能够得到同等的关注,采用宏F1[15]作为模型的评价指标,定义如下:
式中:K为类别数,Pi和Ri分别为第i个类别的查准率和查全率,macro_P和macro_R分别为宏查准率和宏查全率. macro_F1越高,状态识别的整体准确性越高.
3.2. 基于GBDT的机身对接状态识别模型
训练机身对接状态识别的GBDT多分类模型,通过5折交叉验证的评估方法,以macro_F1作为评价指标进行模型选择. 通过网格搜索的方式,确定GBDT模型的参数. 最终GBDT模型的主要参数如下:学习率为0.1,迭代60轮,单颗决策树的最大树深为3.
图 10
图 11
4. 模型比较与结果分析
表3给出几种模型的预测结果,各模型均通过5折交叉验证的评估方法,以macro_F1作为评价指标进行模型选择. 表中,t为各模型每一折的平均训练时间,F1(0)与F1(2)分别表示“空工位”和“调姿对接”2个状态的F1度量. 其中非序列模型包括GBDT、LR(逻辑回归)、SVM和随机森林(RF),序列模型包括长短期记忆网络(LSTM)和卷积神经网络(CNN). 所有模型均在相同的计算机上训练,具体配置为6核CPU Intel i7-8700 3.20 GHz,GPU NVIDIA GeForce GTX 1060. LSTM和CNN通过GPU训练,其他模型通过CPU训练.
表 3 各模型评价指标的对比
Tab.3
模型 | macro_P | macro_R | macro_F1 | F1(0) | F1(2) | t/s |
GBDT | 0.998 | 0.998 | 0.998 | 1.000 | 1.000 | 0.2 |
LR | 0.984 | 0.837 | 0.889 | 0.857 | 0.653 | 0.4 |
SVM | 0.984 | 0.919 | 0.944 | 1.000 | 0.777 | 0.9 |
RF | 0.990 | 0.984 | 0.987 | 1.000 | 0.970 | 0.1 |
LSTM | 0.981 | 0.975 | 0.978 | 1.000 | 0.926 | 11.4 |
CNN | 0.984 | 0.972 | 0.977 | 1.000 | 0.925 | 18.6 |
除了关注各模型的macro_F1之外,样本数极少的“空工位”(0)和“调姿对接”(2)这2个状态需要给予额外的关注,尤其是“调姿对接”(2)状态,机身在调姿对接时最容易出现问题,如对接干涉.
根据表3的数据,如图12所示为各模型的macro_F1、F1(0)和F1(2). 如表3和图12所示,GBDT模型的F1(0)和F1(2)均为1.00,表明GBDT能够完全区分“空工位”(0)和“调姿对接”(2)这2种对接状态. 此外,GBDT的macro_F1高达0.998,能够精准地识别每一种对接状态,在所有模型中效果最佳. 在其他的非序列模型中,RF效果仅次于GBDT,由于是并行集成,训练速度最快. SVM的macro_F1较低,因此状态识别的整体效果一般. F1(0)为1.00,表明SVM能够完全识别“空工位”;F1(2)只有0.777,表明不足以准确地识别“调姿对接”状态. LR由于模型较简单,对应的3个指标均最低,效果最差.
图 12
如图12所示,序列模型中LSTM和CNN均假设机身当前的对接状态与当前样本及其前一个样本有关. 结果表明:LSTM和CNN的效果相当,F1(0)均为1.00,能够完全识别“空工位”;F1(2)和macro_F1均低于GBDT模型,即“调姿对接”状态和整体的识别效果不如GBDT. 从对接数据的角度来看,这是因为在机身对接数据中不存在所有特征相同但所属对接状态不同的样本,只需通过当前样本就能很好地判断对接状态. 对于机身对接状态识别而言,采用非序列模型可以保证极高的macro_F1.
5. 结 语
通过分析飞机部件对接的工艺流程,对某型飞机前机身与中机身的历史对接数据进行人工标注,提出准确、高效的自动标注方法. 结合2种标注方法协同完成机身对接状态的标注. 提出基于梯度提升树的机身对接状态识别方法,与LSTM、CNN及一些传统机器学习方法进行对比和分析,给出影响机身对接状态识别的关键特征. 该方法训练速度快,对接状态识别的macro_F1高达0.998且能精准地识别样本数量极少的对接状态,能够应用于机身对接状态的实时判别,把控机身对接过程. 该方法能够进一步推广应用于飞机其他大部件的对接过程中.
参考文献
大型飞机部件数字化对接装配技术研究
[J].DOI:10.3969/j.issn.1006-5911.2007.07.019 [本文引用: 1]
Large-size airplane parts digital assembly technology
[J].DOI:10.3969/j.issn.1006-5911.2007.07.019 [本文引用: 1]
基于数字化装配偏差建模的飞机舱段对接定位方案研究
[J].DOI:10.3969/j.issn.1001-3997.2012.01.092 [本文引用: 1]
Research of aircraft fuselage joining and positioning scheme based on digital assembly variation modeling
[J].DOI:10.3969/j.issn.1001-3997.2012.01.092 [本文引用: 1]
飞机数字化装配机翼姿态评价及调整方法
[J].
Estimation and alignment method of wing position and orientation for aircraft digital assembly
[J].
An optimal method of posture adjustment in aircraft fuselage joining assembly with engineering constraints
[J].
Optimization of aircraft fuselage assembly process using digital manufacturing
[J].DOI:10.1115/1.2753879 [本文引用: 1]
基于理想驱动力的中机身调姿多项式轨迹规划
[J].
Polynomial trajectory planning method based on ideal drive forces for aircraft fuselage pose adjustment
[J].
基于关键特征的飞机大部件对接位姿调整技术
[J].
Adjusting position-orientation of large components based on key features
[J].
大型飞机机身调姿与对接试验系统
[J].
Posture alignment and joining test system for large aircraft fuselages
[J].
Greedy function approximation: a gradient boosting machine
[J].
飞机大部件对接中的位姿计算方法
[J].DOI:10.3969/j.issn.1671-833X.2011.03.017 [本文引用: 1]
Posture calculating algorithm in large aircraft component butt
[J].DOI:10.3969/j.issn.1671-833X.2011.03.017 [本文引用: 1]
不平衡分类问题研究综述
[J].
A survey of imbalanced pattern classification problems
[J].
/
〈 |
|
〉 |
