基于模仿学习的变刚度人机协作搬运控制
Variable stiffiness control for human-robot cooperative transportation based on imitation learning
通讯作者:
收稿日期: 2020-10-27
基金资助: |
|
Received: 2020-10-27
Fund supported: | 人因工程国防科技重点实验室开放基金资助项目(6142222180311);空间智能控制技术国防科技重点实验室开放基金资助项目(6142208180301) |
作者简介 About authors
汤自林(1995—),男,硕士生,从事机械臂轨迹规划与柔顺控制研究.orcid.org/0000-0002-2496-7019.E-mail:
针对人-机器人协作搬运,现有的控制策略难以同时保证搬运过程的柔顺性和搬运终点位置的精确性,而且对不同搬运任务适应性不够. 基于模仿学习提出变刚度协作搬运控制策略. 使用任务参数化的高斯混合模型(TP-GMM)对多次搬运示教数据进行编码,学习不同搬运工况下的搬运轨迹概率模型;结合导纳控制建立机械臂末端变刚度交互模型,实现柔性搬运操作,并基于交互力阈值实现不同搬运任务的切换;搭建协作搬运平台进行实验验证. 实验结果表明,提出的策略在实现柔性协作搬运的同时将特定搬运任务的终点位置精度提高到1.9 mm,且保证了特定搬运任务中机械臂末端在期望区域内运动以及搬运任务的切换.
关键词:
Aiming at human-robot cooperative transportation, current control strategies are difficult to guarantee both the compliant control for cooperative transportation and the accuracy of the end point, and lack sufficient flexibility to different tasks. A variable stiffiness control strategy was proposed for cooperative transportation based on imitation learning. Firstly, several human demonstrations of cooperative transportation were encoded in task parameterized Gaussian mixture model (TP-GMM) and a probabilistic model of trajectories under different transport conditions was learned. Secondly, combined with admittance control, an interactive model of variable stiffness at the end of the manipulator was established for transportation to realize compliant control. Besides, a strategy of switching between different transportation tasks was developed with a threshold method of interaction force. Finally, a cooperative transportation platform was built for experiments. Results show that the proposed approach can improve the position accuracy of the end point to 1.9 mm in specific tasks while achieving compliant control for cooperative transportation, and ensure that the end effector of the robot in specific tasks is controlled to moved in desired space and the switching of transportation tasks is available.
Keywords:
本文引用格式
汤自林, 高霄, 肖晓晖.
TANG Zi-lin, GAO Xiao, XIAO Xiao-hui.
基于传统控制的策略主要采用阻抗/导纳控制,将机械臂末端等效为质量-弹簧-阻尼系统. Bussy等[4]结合导纳控制和有限状态机实现人和机器人角色的切换,并基于触觉信息验证人机协作搬运角色的静态分配和动态分配策略,证明动态角色分配策略效果更好,但协作搬运效果依赖于对运动基元的划分. Agravante 等[5-6]结合视觉和触觉信息确保被搬运的物体水平抬升. 这类基于传统控制的策略可以实现自由搬运任务(搬运前并不知道搬运终点,或者只知道大概的搬运终点区域,或者在搬运过程中须临时变更终点位置),且搬运的柔顺性较好,但是搬运终点的位置须人为控制,适用于对搬运终点位置精度要求不高的场合. 除此之外,这类方法还须针对机器人运动相关的任务模型来设计控制器参数,在学习新任务或者添加新约束时须重新设计控制器.
基于学习的策略常用方法为模仿学习[7],使用机器学习的方法建立状态和动作的概率模型,可以快速实现任务的复现或泛化. Vogt等[8]使用交互式网格(interactive meshes, IMs)表示两人协作示教的时间和空间关系,并通过隐含马尔可夫模型(hidden Markov model, HMM)将每个IMs组合起来. 这种方法可以复现复杂的连续任务,但没有涉及接触力信息,且动作滞后. Gu等[9]提出结合模仿学习和强化学习的方法,模仿学习用于实现仿人机器人伸手抓取桌子的过程,强化学习则用于保证桌子水平抬升,但是整个过程只涉及到桌子的上下运动一个自由度. 除此之外,还有高斯混合模型结合高斯混合回归(Gaussian mixture model + Gaussian mixture regression, GMM+GMR)[10],这种方法把问题转化为对模型的训练和轨迹的生成,不需要复杂编程,但针对的是特定搬运任务(搬运之前已经明确搬运终点,任务是定的. 终点可以通过视觉或其他方式定位),泛化能力不够;同GMM类似,动态运动基元(dynamic movement primitives, DMP)[11]也不需要复杂编程,并能泛化轨迹到不同起点和终点,但有较多参数须仔细调节(包括速度阈值和权重因子),而且也是针对特定搬运任务的;任务参数化的高斯混合模型(task-parameterized Gaussian mixture model,TP-GMM)模型[12-15]可以针对不同起点和终点生成轨迹,但是不能实现自由搬运任务,在增加机械臂末端柔性后易运动到期望区域外,且终点位置精度得不到保证. HMM模型[16]可以实现对力的简单预测,但在学习力和位置信号阶段中,分割算法须根据信号维度手动调整,且通过接触力预测并生成连续轨迹受到限制;除了模仿学习外,Dumora等[17]采集力矩信息并使用朴素贝叶斯分类器(naive Bayes classifier)预测人的行为,实现了未知任务中机器人对人的协作,但这种方法在批量学习中须提供整个数据集.
为了实现机械臂快速适应不同的协作搬运场景,并保证搬运过程的柔顺性和一定的搬运终点位置精度,提出基于模仿学习的变刚度协作搬运控制策略:使用TP-GMM模型学习搬运示教数据并生成轨迹;以此为参考轨迹,结合导纳控制,根据轨迹点的高斯分布协方差矩阵设计导纳控制的刚度系数,实现柔性搬运的变刚度控制,并增加基于交互力阈值的搬运任务切换,以提高协作搬运的灵活性. 主要创新点如下:1)修正TP-GMM模型起点和终点附近概率分布,并依据模型设计变刚度系数的导纳控制,保证搬运终点的位置精度以及机械臂末端在期望区域运动;2)根据示教数据确定交互力阈值,并用于切换搬运任务,保证特定搬运任务到自由搬运任务的平稳切换,使得系统能够适应多种搬运任务.
1. 协作搬运轨迹规划
采用基于TP-GMM的方法实现协作搬运轨迹规划. TP-GMM可以根据不同任务参数生成对应的轨迹概率模型,对于抓取和搬运,设定起点和终点坐标系作为任务参数,可以生成从不同起点到不同终点的轨迹概率模型.
图 1
1.1. 协作搬运示教数据采集
协作搬运数据采集系统如图2所示,左侧为主操作者搬运物体一侧移动,物体另一侧由协助者拖动示教机械臂夹持运动,两人协作完成搬运任务示教. 采集机械臂末端位置和力,对轨迹进行重采样后所得轨迹数据集为
图 2
1.2. TP-GMM模型训练
利用示教轨迹数据集进行模型训练,首先将示教轨迹分别变换到起点和终点坐标系进行TP-GMM编码,求取轨迹点的概率分布模型. TP-GMM参数包括
式中:
图 3
EM算法分2步迭代,不断更新均值和协方差矩阵直到对数似然函数收敛或者达到最大迭代次数,本研究取对数似然函数终止迭代值为
1)E-step.
2)M-step.
式中:
训练得到不同坐标系下GMM模型分别如图4(a)、(b)所示. 图中,实线为示教数据,椭球为高斯分布1-sigma区域.
图 4
将所得GMM模型分别进行GMR回归[18],以时间作为输入,轨迹三维坐标作为输出,求对应条件概率的概率分布为
式中:
得到在起点和终点坐标系下轨迹概率分布的GMR模型,如图5(a)、(b)所示. 图中,实线为轨迹概率模型均值,浅色区域为轨迹点对应高斯分布的椭球相互重叠形成.
图 5
1.3. 新任务轨迹生成
在模型训练好后可以针对不同任务参数生成对应的轨迹概率模型. 把训练得到的起点和终点坐标系下GMR模型分别变换到新的起点和终点坐标系,然后进行对应序列的高斯分布乘积,计算公式为
式中:
对训练所得模型进行轨迹生成测试,得到不同终点生成的轨迹均值,如图6所示. 图中只绘制了轨迹的概率分布中均值位置. 由于生成的轨迹在起点和终点位置有较小偏差,通过平移缩放对齐起点和终点,得到最终的轨迹概率模型.
图 6
2. 人机协作搬运下的变刚度交互
2.1. 修正TP-GMM轨迹概率模型
修正TP-GMM生成的初始概率模型并结合变刚度导纳控制可以获得需要的精度和柔顺性的组合. 针对须提高柔顺性的情况,可以适当放大对应点附近的协方差矩阵. 针对须提高位置精度的情况,可以缩小对应点附近的协方差矩阵. 针对提高搬运起点和终点的位置精度,使用缩小函数缩小起点和终点附近的协方差矩阵,协方差矩阵修正为
式中:
TP-GMM生成的原始轨迹概率模型和经修正后的轨迹概率模型分别如图7(a)、(b)所示. 图中,实线为轨迹概率模型均值. 通过对比可以看出,修正后模型在起点和终点附近的区域变小(可以通过起点和浅色区域的距离来判断),结合变刚度阻抗控制提高相应区域位置精度.
图 7
2.2. 变刚度交互模型
以TP-GMM模型生成的轨迹为参考轨迹,并结合导纳控制模型[19]表示机械臂末端在笛卡尔坐标系下的协作搬运交互模型,公式为
式中:
图 8
参考轨迹上每个点对应轨迹概率分布中的一个高斯分布,依据高斯分布确定每个点不同方向具有的不同刚度. 如图8所示,不同方向刚度与椭圆(三维高斯分布是椭球)主轴长度成反比,得到L坐标系下交互模型为
式中:
依据式(17)、(18)可以得到坐标系G到坐标系L的变换矩阵
式中:下标G表示全局坐标系G. 则在坐标系G下刚度矩阵为
由式(19)、(20)可以得到坐标系
为了保证机械臂末端具有一定柔性,同时距离参考轨迹不超过3个标准差,设定刚度矩阵因子随着距参考轨迹点距离增大而增大,本研究中刚度矩阵因子
式中:
式中:
图 9
2.3. 基于阈值的搬运任务切换
搬运任务主要包括特定搬运任务和自由搬运任务. 以TP-GMM模型生成的轨迹为参考轨迹,结合导纳控制的方法具有一定的抗干扰能力,但无法适应自由搬运任务.
采用基于阈值的搬运任务切换,在正常搬运情况下交互内力在一定范围内,当交互力大于阈值时系统则由特定搬运任务切换为自由搬运任务,从而可以完成自由搬运任务. 自由搬运任务采用PI控制器,输入机械臂末端受力,经低通滤波器和控制器,输出机械臂末端速度.
图 10
图 10 协作搬运交互力概率分布图
Fig.10 Diagram of probability distribution of mutual force in cooperative transportation
3. 人机协作搬运实验
3.1. 实验平台
协作搬运系统如图2所示. 搬运物体重量为0.5、1.0、1.5、2.0、2.5 kg,交互模型中刚度系数分别为本研究变刚度方法和现有变刚度方法所得刚度系数,以及恒定刚度系数,阻尼系数为
图 11
图 12
图 12 人机协作搬运实验场景
Fig.12 Experiment scene of human-robot cooperative transportation
3.2. 边界实验
在变刚度交互模型下分别施加
图 13
图 13 高斯分布椭球内变刚度系数对应轨迹
Fig.13 Trajectories corresponding to variable stiffness in ellipsoid of Gaussian distribution
图 14
图 15
图 15 恒定刚度方法和现有变刚度方法对应轨迹
Fig.15 Trajectories of constant stiffness method and existing variable stiffness method
表 1 变刚度方法与恒定刚度方法效果对比
Tab.1
实验 | 终点位置偏差/m | 轨迹平均刚度/(N·m−1) |
本研究所提变刚度方法 | 0.001 9 | 540.48 |
现有变刚度方法[12] | 0.284 2 | 158.71 |
| 0.100 8 | 107.78 |
| 0.007 2 | 1 312.20 |
1)在恒刚度方法中,当刚度系数较大时,轨迹偏差减小,但交互性不好,且无法保证终点的位置精度,如图15所示,刚度系数较小导致机械臂末端运动超过3个标准差,运动到期望区域外,也无法保证终点的位置精度. 如表1所示,恒定刚度系数对应终点位置偏差均较大,当刚度系数较大时终点位置偏差较小. 2)现有变刚度方法平衡了一部分搬运的柔顺性和终点位置精度,但是终点的位置精度不够高,这与估计出的刚度有关系. 如图14所示,估计的刚度较小,在图15中干扰力下易跑出范围,须人施加反方向力保持轨迹,抗干扰能力差. 3)所提出的变刚度方法可以保证交互的柔顺性并提高终点位置精度,同时限制机械臂末端运动轨迹在参考轨迹3个标准差范围内. 如表1所示,变刚度方法终点位置偏差更小,平均刚度(轨迹上点对应刚度的平均值)在较大和较小刚度系数对应的平均刚度之间. 这是因为变刚度控制策略允许搬运过程中平均刚度较小,而当搬运目标靠近终点时,修正后的模型轨迹协方差矩阵迅速变小,交互刚度迅速增大以提高搬运终点的位置精度. 由图13可以看出,变刚度系数对应轨迹在参考轨迹的3个标准差范围之内,且终点收敛到目标点. 这是因为刚度系数在快到3个标准差边界时刚度迅速增加,限制了运动范围.
3.3. 扰动实验
针对现有变刚度方法以及本研究变刚度方法,分别在
图 16
图 16 恒定扰动力和变扰动力对应轨迹
Fig.16 Trajectories corresponding to constant and variable force
3.4. 搬运任务切换实验
在特定搬运任务运行一段时间后施加逐渐增大的交互力直到超过阈值,切换成自由搬运任务,自由选择终点. 如图17所示为搬运任务切换对应机械臂末端轨迹. 图中,星号标记处为临时决定的搬运终点,点划线为本研究变刚度方法的轨迹,虚线为现有变刚度方法的轨迹. 可以看出,利用本研究的变刚度方法可以在想要的位置切换为自由搬运任务,增加了搬运的灵活性;利用现有变刚度方法则没办法直接往目标方向走,因为在中间阶段刚度系数较大,在刚度变小之后才能往目标方向走,绕了一圈,而且
本研究变刚度方法中机械臂关节速度如图18所示. 图中,
图 17
图 17 搬运任务切换对应机械臂末端轨迹
Fig.17 Trajectory of end effector corresponding to transportation tast switch
图 18
图 18 切换搬运任务机械臂关节速度曲线
Fig.18 Joint velocity of manipulator corresponding to transportation tast switch
4. 结 论
(1)基于TP-GMM模型生成的轨迹概率模型提出变刚度交互模型. 基于示教数据学习协作搬运交互轨迹概率模型,并基于导纳控制设计和轨迹方差设计变刚度,实现机械臂末端柔性交互,并且末端实际位置在参考轨迹的3个标准差之内,保证搬运终点的位置精度.
(2)考虑搬运任务的切换,以交互力阈值作为特定搬运任务和自由搬运任务切换的依据,提高协作搬运的灵活性.
(3)通过实验对比本研究变刚度交互和现有交互方法下协作搬运结果,验证了本研究变刚度交互的有效性. 本研究方法在保证搬运柔顺性的同时将特定搬运任务的终点位置精度提高到1.9 mm.
本研究只考虑了机械臂末端的三维位置,后续将考虑进行协作搬运的位置和姿态的同时规划. 对于切换搬运任务速度变化较大的问题,后续考虑优化切换搬运任务的策略.
参考文献
Progress and prospects of the human-robot collaboration
[J].DOI:10.1007/s10514-017-9677-2 [本文引用: 1]
模仿学习在机器人仿生机制研究中的应用
[J].
Application of imitation learning in the research of bionic mechanism of robots
[J].
Human robot cooperation with compliance adaptation along the motion trajectory
[J].DOI:10.1007/s10514-017-9676-3 [本文引用: 1]
Learning physical collaborative robot behaviors from human demonstrations
[J].DOI:10.1109/TRO.2016.2540623 [本文引用: 5]
A tutorial on task-parameterized movement learning and retrieval
[J].DOI:10.1007/s11370-015-0187-9 [本文引用: 1]
/
〈 |
|
〉 |
