基于集成概率模型的变阻抗机器人打磨力控制
Ensemble probabilistic model based variable impedance for robotic grinding force control
收稿日期: 2023-03-14
基金资助: |
|
Received: 2023-03-14
Fund supported: | 国家自然科学基金资助项目(52275005);中央高校基本科研业务费专项资金资助项目(300102253201);安徽省博士后研究人员科研活动经费资助项目(2023B675);中国博士后科学基金资助项目(2022M722435);哈尔滨工业大学机器人技术与系统国家重点实验室开放研究项目(SKLRS-2020-KF-08);安徽省教育厅科学研究重点项目(KJ2020A0364);高校优秀青年人才支持计划项目(2019YQQ023) |
作者简介 About authors
郭万金(1983—),男,副教授,博导,从事工业机器人打磨技术与主动柔顺控制研究.orcid.org/0000-0001-9654-0113.E-mail:
工业机器人对工件柔顺打磨作业的适应性差,为此设计机器人柔顺浮动力控末端执行器,基于集成贝叶斯神经网络模型的强化学习,提出主动自适应变阻抗的机器人打磨力控制方法. 所提方法根据打磨作业的接触环境信息,利用自助法获取小量数据的多次采样样本,训练集成贝叶斯神经网络模型以描述机器人打磨系统与工况环境交互作用,采用协方差矩阵自适应进化策略(CMA-ES)求解最优阻抗参数. 构建机器人打磨系统虚拟样机平台,开展叶片工件的打磨仿真实验,验证所提方法的有效性. 实验结果表明,所提方法在十几次训练后,能够将打磨力的绝对跟踪误差减小至较小值,较好地实现了机器人打磨系统的主动自适应变阻抗打磨力控制,提高了机器人打磨力控制的柔顺性和鲁棒性.
关键词:
A compliant floating force-controlled end-effector was designed, in order to resolve the problem of poor adaptability of industrial robots for the compliant grinding of workpieces. A robotic grinding force control method with the active adaptive variable impedance was proposed, using the reinforcement-learning based on the ensemble Bayesian neural networks model. According to the contact environment information of the robotic grinding, the multiple sampling samples from the small amount of data were obtained by the Bootstrapping method, and the ensemble Bayesian neural network model was trained to characterize the interactions between the robotic grinding system and the grinding condition environment. The optimal impedance parameters were solved by the covariance matrix adaptation evolution strategy (CMA-ES). A virtual prototype platform of the robotic grinding system was constructed. A robotic grinding simulation experiment of a blade workpiece was conducted, and the effectiveness of the proposed method was verified. Experimental results show that the proposed method reduces the absolute tracking error of the grinding force to a small value after a dozen training, realizes the active adaptive variable impedance for the grinding force control of the robotic grinding system, and improves the flexibility and the robustness of the robotic grinding force control.
Keywords:
本文引用格式
郭万金, 赵伍端, 利乾辉, 赵立军, 曹雏清.
GUO Wan-jin, ZHAO Wu-duan, LI Qian-hui, ZHAO Li-jun, CAO Chu-qing.
针对主动柔顺控制打磨作业,机器人末端执行器的性能直接影响打磨作业的柔顺性,其中对具有力控功能且能够实现力位解耦控制的末端执行器开展的相关研究是当前的主要研究方向. 阻抗控制是实现主动柔顺力控制的有效方式,其通过调节系统刚度实现输出力的柔顺调控. 为了解决机器人末端执行器在跟踪未知曲面工件时接触力难以保持恒定的问题,Zhang等[6]建立机器人末端执行器与工件表面的接触模型和力映射关系,提出基于强化学习算法的机器人力控制方法. 甘亚辉等[7]针对未知刚度及位置多变工况,设计自适应变阻抗力跟踪控制方法,通过建立阻抗模型来适应多变工况刚度的不确定性,并根据机器人末端与多变工况之间接触力的变化在线自适应调节阻抗模型参数. 李超等[8]提出基于强化学习的学习变阻抗控制方法,将高斯过程模型作为系统的变换动力学模型,在成本函数中加入能量损失项,实现了误差和能量的权衡. Zhou等[9]基于机器人系统与环境的接触模型,采用自适应阻抗实现了打磨力控制和位置跟踪控制. Shen等[10]提出基于模糊理论的自适应阻抗控制,通过递归最小二乘迭代计算估计环境参数,使得控制系统在没有环境先验信息的情况下跟踪期望打磨力. Zhong等[11]将自适应阻抗控制与基于非线性扰动观测器的滑模控制器相结合,实现了对期望接触力和轨迹的跟踪. 上述针对机器人自适应打磨力控制采用迭代类计算的研究方法[8, 10-11],存在数据更新过程慢与效率低的局限,对于需要严格控制打磨力精度和超调量的曲面工件机器人打磨作业,在打磨力控制的实时性和稳定性方面存在一定的不足. 机器人的工件柔顺打磨作业对机器人系统稳定性和鲁棒性的要求较高,通常需要严格控制打磨力的精度和超调量.
本研究采用基于位置的阻抗控制作为底层的打磨力控制结构,基于集成贝叶斯神经网络(Bayesian neural network,BNN)模型的强化学习,提出主动自适应变阻抗的机器人打磨力控制方法. 1)基于BNN的集成概率模型(ensemble probabilistic model,EPM)拟合打磨作业过程的概率动力学模型,以描述控制输入和工具与工件接触状态之间的不确定性. 2)采用固定轨迹采样法和随机轨迹采样法开展模型预测控制(model predictive control,MPC),利用协方差矩阵自适应进化策略(covariance matrix adaptation evolution strategy,CMA-ES)算法对模型预测过程进行动态参数优化,求解模型预测控制的最优解集. 3)在成本函数中引入基于方差的能量损失项,优化求解获取最优阻抗参数,用于主动自适应更新阻抗参数,实现机器人打磨力主动自适应控制. 4)在所构建的机器人打磨系统虚拟样机平台上,开展机器人与工件交互环境的强化学习主动自适应打磨力控制仿真与分析,验证所提方法的有效性.
1. 基于柔顺浮动力控末端执行器的机器人打磨系统
1.1. 柔顺浮动力控末端执行器设计
机器人打磨系统主要由工业机器人与末端执行器构成. 末端执行器的柔顺打磨作业由主动力控制技术实现,末端执行器的位置和姿态(简称位姿)由工业机器人控制. 工件的打磨质量与材料去除率有关,根据Preston材料去除理论,材料去除率与工具对工件的法向打磨力正相关[12]. 为了实现材料去除率可控,保证打磨质量,提高机器人打磨系统动态响应性能[13],设计柔顺浮动力控末端执行器[14],如图1所示. 该末端执行器通过音圈电机驱动打磨主轴往复直线轴向平移运动,实现打磨工具平移浮动调节,主动柔顺控制实现法向打磨力稳定准确控制,打磨主轴带动打磨工具高速旋转运动,轴向平移和旋转运动互不干扰,两者的调节控制便捷. 应用主动力控制技术进行法向打磨力稳定准确控制,并通过机器人进行打磨位姿控制,降低对工业机器人本体的力控制要求,减小力控制和位姿控制的复杂性.
图 1
1.2. 机器人打磨系统虚拟样机构建
采用Adams构建机器人打磨系统虚拟样机,如图2所示,该系统虚拟样机由柔顺浮动力控末端执行器、六自由度串联工业机器人和曲面工件组成. 通过Adams Controls插件将打磨系统虚拟样机导出为控制机械系统模型后导入Matlab/Simulink仿真控制系统,为机器人打磨系统自适应打磨力控制提供联合仿真平台. Matlab/Simulink仿真控制系统虚拟样机的输入分别为机器人关节变量、音圈电机输出力;输出分别为所设计末端执行器打磨主轴的轴向位置变化量、工具末端坐标系{E}的位置和机器人工具坐标系{T}表示的工件对工具的反作用力
图 2
式中:
2. 基于集成概率模型的强化学习主动自适应变阻抗控制
机器人打磨作业接触环境具有较强的时变耦合非线性动力学特性,而且工件型面各异、形状复杂,致使机器人柔顺打磨作业适应性差问题愈加严重. 本研究基于集成概率模型的强化学习,提出主动自适应变阻抗的机器人打磨力控制方法,以实现主动自适应机器人法向打磨力准确控制,提升机器人柔顺打磨作业的适应性和稳定性.
2.1. 变阻抗控制器设计
Hogan[15]针对接触作业的力控制问题,提出阻抗控制方法. 有学者将阻抗控制分为基于力的阻抗控制和基于位置的阻抗控制,后者可以实现较高的位置控制精度[16]. 基于位置的阻抗控制基本思想是将位置控制器作为控制系统的内环,将阻抗控制器作为控制系统的外环,外环产生位置修正量,内外环控制共同作用构成闭环控制回路. 通过反馈力计算阻抗控制器输出的位置补偿量,调节内环位置控制器的输入位置,实现对接触过程的力控制. 将基于位置的阻抗控制设计为变阻抗控制器作为控制外环,通过变阻抗控制实现对内环的位置控制系统的自适应补偿,从而实现对机器人打磨力的柔顺控制,提升机器人打磨作业的柔顺性和鲁棒性. 如图3所示为该变阻抗控制的控制框图,数学模型为
图 3
式中:Fe为法向打磨力Fn与期望打磨力Fd的偏差,作为变阻抗控制器的输入;通过数学模型的传递,算出对位置控制系统输入的补偿量Xr,将Xr与期望位置X0及位置变化量dl叠加,作为位置控制系统的输入Xi,再将位置控制器的输出Fi作为机器人末端执行器的输入,其中dl由位置控制系统的反馈位置信号提供;M(t)、D(t)、K(t)分别为变阻抗控制器的时变惯性系数、时变阻尼系数和时变刚度系数.
2.2. 基于集成概率模型的强化学习主动自适应参数调节
基于集成概率模型的强化学习,提出主动自适应变阻抗的机器人打磨力控制方法. 1)构建基于BNN的集成概率模型,描述机器人打磨系统在时变非线性接触环境下引起的系统不确定性. 采用BNN模型描述控制系统控制量和状态量之间的分布关系,量化由于测量引起的认知不确定性;根据多次采样的子数据集拟合多个BNN模型,构建集成概率模型,描述系统随机不确定性. 2)结合构建的集成概率模型,采用模型预测控制,根据工具与接触工况的交互状态,主动自适应更新阻抗参数,获取最优控制量,形成机器人打磨系统根据接触工况环境状态主动自适应变阻抗调节策略,以适应不同接触工况环境和打磨作业任务需求,提高机器人柔顺打磨作业的自适应性和鲁棒性.
2.2.1. 基于BNN的集成概率模型构建
在打磨工具与工件的接触作业过程中,机器人打磨系统的控制量与工具及工件接触的状态量具有马尔科夫性[17],将机器人打磨系统的动力学传递函数描述为
式中:
针对工具与工件接触状态和阻抗参数的非线性关系,以t时间段工具与工件的打磨力的均值和标准差
将
机器人打磨作业时,由于工具与工件接触时产生的不确定性扰动,导致控制系统存在不确定性. 要实现对打磨作业的稳定、准确控制,须考虑系统模型的不确定性,包含1)机器人时变耦合非线性打磨作业接触环境引起的系统随机不确定性,2)测量误差引起的认知不确定性. 这2种不确定性难以用精确的数学模型描述,因此采用基于BNN的集成概率模型从统计学角度进行描述.
1) BNN模型构建. BNN模型将传统BP神经网络的权重以概率分布的形式描述,建立输入和输出之间的概率分布关系,利用贝叶斯定理和变分推断思想,以证据下界(evidence lower bound,ELBO)作为损失函数训练网络权重,使拟合的BNN在有先验数据的区域表现出较小的不确定性,在无先验数据的区域表现出较大的不确定性. 利用BNN模型拟合控制系统,描述控制系统控制量和状态量之间的分布关系,即可量化由于测量引起的认知不确定性. BNN模型对网络的可训练网络模型参数的权重进行重参数化[20],使网络参数以概率分布的形式呈现. 假设网络模型输出Y的分布为
可训练网络模型x中的参数
式中:D为观测数据. 对于复杂的深度贝叶斯神经网络模型,后验分布的高维性与非凸性使得证据(边缘分布)
式中:
即通过最小化
式中:NM为蒙特卡洛采样次数. 按照ELBO的负梯度方向对网络参数不断更新,以达到网络输出逼近真实分布的目的,梯度下降算法采用随机梯度下降法(stochastic gradient descent,SGD)实现.
2) 集成概率模型构建. 机器人时变耦合非线性打磨作业接触环境引起的系统随机不确定性可以通过集成概率模型的方法来描述,即根据多次采样的数据集拟合多个BNN模型,构建集成概率模型,联合描述系统随机不确定性[23],表征机器人打磨系统的打磨工具与工件接触状态和阻抗参数之间的非线性关系. 采用自助法(Bootstrapping),从原始数据集中有放回地均匀抽样创建模拟数据集,将有限样本经由K次重复抽样,建立足以代表母体样本分布的K个子样本. 利用自助采样的K个样本,训练出K个BNN模型,利用模型预测采样轨迹法合成为集成概率模型. 动力学模型f(x,u)可用集成概率模型中K个BNN模型的输出分布Pi(x,u)代替,具体训练过程如图4所示.
图 4
2.2.2. 集成概率模型预测控制
在已知系统传递函数的基础上,根据初始状态量和控制量算出一系列预测域的状态量和控制量轨迹;采用反馈校正,对状态量和控制量进行优化;在控制过程中,采用滚动时域优化方法,在每个控制周期进行局部优化,提高控制系统的抗扰性和稳定性[24]. 通过非线性状态传递函数,求解h步预测域的状态轨迹
根据状态和控制序列以及状态量的权重Q、控制量的权重R,求得目标函数:
对Loss进行优化,得到最优控制序列:
取最优控制序列
1) 模型预测轨迹采样. 训练的集成概率模型中有K个BNN模型,须在预测时对BNN模型的利用方式进行分配. 采用固定轨迹采样法与随机轨迹采样法的随机混合进行分配. 固定轨迹采样法:每个训练时间段t选取同1个训练好的BNN模型进行模型预测控制;在下次预测时,预测模型更换为下个训练好的BNN模型. 随机轨迹采样法:每个预测时间段t随机地选取1个训练好的BNNt,每步均利用不同的模型进行模型预测控制. 这2种轨迹采样方法,分别从整体和局部2个角度描述系统的固有随机性,使得模型具有更好的泛化能力.
2) 基于协方差矩阵自适应进化策略算法的参数优化. 由于不宜采用集成概率模型计算梯度,选择非梯度优化算法解算最优控制量. CMA-ES算法作为数值优化算法,在求解非梯度的优化问题时具有全局收敛和收敛快速的优点[25],主要实现步骤如下. a) 采样重组:采用多变量正态分布生成新的样本点. 在第z代中,k个子代样本点生成式为
式中:
式中:
b) 全局步长自适应:使用共轭进化路径更新步长,
式中:
c) 协方差矩阵适应:与步长自适应类似,进化路径
式中:
更新
式中:
更新
2.2.3. 基于集成概率模型的强化学习主动自适应变阻抗的机器人打磨力控制
为了提高机器人打磨力控制的稳定性,在成本函数(奖励惩罚策略)中引入基于方差的能量损失项,减小机器人打磨时的不确定性扰动引起的不稳定性,提高系统的抗干扰能力. 假设目标状态为xtar,设定自适应参数调节策略的单步成本函数为
其中等号右边第一项为瞬时状态误差项,第二项为瞬时能量成本项,umax为最大控制输入量. 为了量化自适应参数调节策略的性能,定义时间段tend的总成本为
将式(28)作为自适应参数调节策略的评价指标,其中
图 5
图 5 基于集成概率模型的主动自适应变阻抗的机器人打磨力控制框图
Fig.5 Block diagram of robotic grinding force control with active adaptive variable impedance based on ensemble probabilistic model
集成概率模型EPM采用离线训练方式,所使用的采集观测数据只包含工具与工件接触模型信息,不包含外部环境信息,训练后的环境对机器人打磨力控制系统而言是未知环境. 当环境改变后,所训练的集成概率模型仍可结合CMA-ES算法实时优化求解最优阻抗参数. 训练后的变阻抗控制器适用于不同形状的曲面和环境刚度的工况. 本研究提出的基于集成概率模型的强化学习主动自适应变阻抗的机器人打磨力控制方法,强化学习包含有系统不确定性的工具与工件的交互过程,通过经训练的集成概率模型EPM描述状态观测量xt与控制输入量ut的关系,采用CMA-ES算法求解模型预测控制策略优化问题描述的最优解集控制输入量ut,获得与工作环境主动自适应的变阻抗参数,主动自适应调节工具与工件之间的阻抗特性,将打磨力偏差经变阻抗控制器产生的自适应修正补偿量作用于位置控制系统,实现打磨力控制,提高机器人打磨系统的自适应性能.
算法1 基于集成概率模型的强化学习算法
输入:
3. 机器人自适应打磨作业仿真实验
针对中小型曲面工件,采用所提机器人打磨力控制方法,提升打磨力控制的稳定性与准确性,使得打磨力控制能够主动自适应调节阻抗控制参数,保持打磨力的恒定,提高机器人柔顺打磨作业的适应性和稳定性. 在航空制造领域,航空发动机含有数千枚叶片,加工后叶片表面粗糙度要求较高,其磨抛加工任务量占近一半的叶片制造总工作量,由于叶片不断改进导致种类繁多,形状复杂,本研究选取该领域具有曲面典型特征的叶片开展机器人打磨作业仿真实验,验证所提方法的有效性. 1)采用具有平滑性特点的NURBS曲线规划机器人打磨轨迹,以实现打磨作业过程的位置、速度等的平滑过渡. 2)开展机器人与工件交互环境的强化学习主动自适应打磨力控制仿真与分析,验证所提方法的有效性.
3.1. 机器人打磨路径和打磨轨迹规划
1) 作业空间打磨路径和打磨姿态规划. 如图6(a)所示,采用子午线作为打磨作业路径,利用NURBS曲线插值对打磨作业笛卡尔空间位置进行轨迹规划. 在叶片上根据子午线的形状,采样48个路径点作为型值点,其空间位置和相对应的叶片曲面法向量如图6(b)所示. 将型值点作为控制点,利用5次NURBS曲线插值,对打磨路径进行插值平滑处理,求得经过平滑后的机器人末端执行器的作业工具末端点空间位置. 为了实现机器人打磨姿态平滑过渡,将姿态矩阵转换为单位四元数,利用单位对数四元数法,将单位四元数转换为三维空间点[26],对转换后的三维空间点进行5次NURBS曲线插值. 根据打磨路径和打磨姿态规划结果,获得机器人打磨系统对应打磨工具轨迹如图7所示.
图 6
图 6 叶片工件、规划路径点和曲面法向量
Fig.6 Blade workpiece, planned path points and surface normal vectors
图 7
2) 关节空间打磨轨迹规划. 5次NURBS曲线插值使机器人关节空间的角速度、角加速度和急动度(Jerk)均具有平滑性. 采用分段插值轨迹规划方法,对打磨作业路径对应的机器人各关节角进行5次NURBS曲线插值,规划打磨轨迹. 其中t=0~3 s,机器人打磨系统工具末端点从起始位置(对应机器人各关节角为零)移动到规划打磨路径的起始点;t>3 s,机器人打磨系统工具末端点从规划打磨路径的起始点开始,沿着规划路径,执行打磨作业,此时采用5次NURBS曲线插值,对机器人各关节进行轨迹规划. 所规划的机器人各关节的角度
图 8
图 8 机器人各关节的角度、角速度、角加速度及急动度曲线
Fig.8 Curves of robotic joints for angle, angular velocity, angular acceleration and jerk
3.2. 机器人强化学习主动自适应打磨力控制仿真
将所提机器人打磨力控制方法设计为机器人强化学习自适应打磨力控制器. 在控制器中设置集成概率模型的BNN数量为5,每个BNN均具有2层64个神经元的隐藏层,激活函数选用Swish函数,每次自助法采样数量为总体样本数量的50%,且对网络权重作L2正则化,采用小批量随机梯度下降法,利用Adam优化算法优化训练过程,单个BNN模型的训练迭代次数设置为3.0×104次. 选取初始阻抗参数M(t0)=3 kg、D(t0)=30 N·m/s和K(t0)=2 N/m,并设阻抗参数的待训练参数取值范围分别为D(t)∈[10, 200]和K(t)∈[0, 20]. 分别设打磨期望力(即打磨作业目标状态量)为15、20、30 N,期望的打磨力方差
对于不同的打磨期望力,经过多次训练,机器人打磨系统对选取叶片的打磨力获得有效控制,打磨力跟踪误差方差和均值均减小,实现了打磨力的有效跟踪控制. 经过不同次数的训练,机器人的不同打磨期望力对应的打磨力曲线如图9所示,训练过程的不同预测段m对应的奖励值RV曲线如图10所示;不同训练次数
图 9
图 9 不同打磨期望力在不同训练次数下的打磨力曲线
Fig.9 Grinding force curves of different expected grinding force after multiple trainings
图 10
图 10 不同打磨期望力在不同训练次数下的奖励值曲线
Fig.10 Reward curves of different expected grinding force after multiple trainings
表 1 打磨力绝对跟踪误差
Tab.1
| | | | | | | | | | |
15 | 1 | 16.676 0 | 3.316 8 | 0.186 7 | 20 | 10 | 17.913 7 | 3.111 4 | 0.115 2 | |
2 | 14.254 5 | 2.683 1 | 0.185 8 | 15 | 2.811 9 | 2.037 6 | 0.106 4 | |||
5 | 12.026 1 | 2.287 3 | 0.182 4 | 16 | 2.783 1 | 2.080 0 | 0.082 4 | |||
10 | 2.822 3 | 1.658 6 | 0.122 2 | 30 | 1 | 38.104 3 | 9.753 4 | 0.444 9 | ||
15 | 2.282 2 | 1.653 1 | 0.102 3 | 2 | 32.612 0 | 6.029 0 | 0.427 9 | |||
19 | 2.285 2 | 1.664 5 | 0.101 3 | 5 | 21.904 9 | 3.639 3 | 0.371 9 | |||
20 | 1 | 25.256 7 | 5.608 3 | 0.175 8 | 10 | 8.656 9 | 2.917 2 | 0.274 3 | ||
2 | 24.269 6 | 4.950 4 | 0.151 5 | 12 | 7.107 7 | 2.844 6 | 0.220 0 | |||
5 | 21.937 5 | 4.024 5 | 0.126 7 | 15 | 3.210 9 | 2.843 5 | 0.160 7 |
图 11
图 11 不同刚度工件的打磨力曲线
Fig.11 Grinding force curves for workpieces with different stiffnesses
表 2 不同刚度工件打磨力绝对跟踪误差
Tab.2
工件材料 | K/(N·m−1) | | | |
铝合金 | 3.5×104 | 2.382 5 | 2.700 1 | 0.093 1 |
碳钢 | 1.0×105 | 9.531 0 | 2.196 9 | 0.843 8 |
通过不同期望力的仿真实验可知,所提方法仅在十几次训练后,机器人打磨系统即可使打磨力绝对跟踪误差的最大值、方差和均值均减小至某一较小值,同时对于不同刚度工件也具有较好的打磨力跟踪性能,较好地实现了机器人打磨系统的主动自适应变阻抗打磨力控制,验证了所提方法的有效性. 对于恒定打磨力控制,模糊自适应变阻抗控制是常用方法,当其对某一种恒定打磨期望力调节好适宜模糊逻辑控制参数之后,对其他恒定打磨期望力的跟踪效果通常会变差,自适应性能不高[27-28]. 因此,当模糊变阻抗控制器对不同的恒定打磨期望力进行跟踪时,均应人为调整模糊逻辑参数. 与之相比,本研究所提方法在自适应打磨力控制器经过离线训练后,对于跟踪不同的恒定打磨期望力不需要再次调整参数,仅通过少量训练即可实现变阻抗控制器的主动自适应参数调节,具有较强的自适应性. 所提方法为机器人打磨系统对不同工件以不同期望恒定打磨力开展柔顺打磨作业提供了主动自适应柔顺恒力控制方法.
4. 结 论
(1) 为了解决机器人对工件柔顺打磨作业适应性差的问题,设计柔顺浮动力控末端执行器,并基于集成贝叶斯神经网络模型的强化学习提出主动自适应变阻抗的机器人打磨力控制方法. 该方法1)根据打磨作业过程中工具与工件的接触状态信息,采用自助法构建多个子数据集,对多个贝叶斯神经网络进行训练,构成集成概率模型;2)使用CMA-ES算法,预测阻抗控制器的阻抗参数,自适应求解当前工况状态的最优阻抗参数;3)将所提方法设计为机器人强化学习自适应打磨力控制器,实现法向打磨力对期望打磨力的自适应跟踪,提升机器人打磨力的稳定性和准确性.
(2) 采用Adams和Matlab/Simulink分别构建机器人打磨系统的虚拟样机和仿真控制系统,通过联合仿真,开展机器人与工件交互环境的强化学习主动自适应打磨力控制仿真与分析. 结果表明,在期望打磨力分别为15、20 、30 N的工况下,所提方法均在十几次训练后,机器人打磨系统即可实现从无法准确跟踪期望打磨力,训练到打磨力绝对跟踪误差减小至较小值,对不同刚度工件也具有较好的打磨力跟踪性能,验证了所提方法的有效性.
(3) 所提方法可为机器人柔顺打磨作业提供主动自适应机器人打磨力控制方法,具有一定的参考价值.
(4)后续在所提方法基础上,计划针对机器人打磨作业颤振这类非线性强扰动工况,深入开展机器人主动自适应打磨力控制研究,提高在强扰动环境下机器人主动自适应打磨力控制的鲁棒性.
参考文献
Robotic grinding of complex components: a step towards efficient and intelligent machining–challenges, solutions, and applications
[J].DOI:10.1016/j.rcim.2019.101908 [本文引用: 1]
航空发动机叶片机器人精密砂带磨削研究现状及发展趋势
[J].
Current situation and development trend of robot precise belt grinding for aero-engine blade
[J].
Force control-based vibration suppression in robotic grinding of large thin-wall shells
[J].DOI:10.1016/j.rcim.2020.102031
Contact force plan and control of robotic grinding towards ensuring contour accuracy of curved surfaces
[J].DOI:10.1016/j.ijmecsci.2022.107449 [本文引用: 1]
Robotic curved surface tracking with a neural network for angle identification and constant force control based on reinforcement learning
[J].DOI:10.1007/s12541-020-00315-x [本文引用: 1]
非结构环境下的机器人自适应变阻抗力跟踪控制方法
[J].
Adaptive variable impedance control for robot force tracking in unstructured environment
[J].
基于强化学习的学习变阻抗控制
[J].
Learning variable impedance control based on reinforcement learning
[J].
A hybrid control strategy for grinding and polishing robot based on adaptive impedance control
[J].
A fuzzy-based impedance control for force tracking in unknown environment
[J].DOI:10.1007/s12206-022-0936-6 [本文引用: 2]
An adaptive bilateral impedance control based on nonlinear disturbance observer for different flexible targets grasping
[J].DOI:10.1016/j.compeleceng.2022.108388 [本文引用: 2]
A novel force-controlled spherical polishing tool combined with self-rotation and co-rotation motion
[J].DOI:10.1109/ACCESS.2020.2997968 [本文引用: 1]
Synergistic integrated design of an electrochemical mechanical polishing end-effector for robotic polishing applications
[J].DOI:10.1016/j.rcim.2018.07.005 [本文引用: 1]
无先验模型曲面的机器人打磨主动自适应在线轨迹预测方法
[J].
Active adaptive online trajectory prediction for robotic grinding on surface without prior model
[J].
基于强化学习的机器人曲面恒力跟踪研究
[J].
Research on robot constant force control of surface tracking based on reinforcement learning
[J].
Hands-on bayesian neural networks: a tutorial for deep learning users
[J].DOI:10.1109/MCI.2022.3155327 [本文引用: 1]
Autogenerating microsecond solvers for nonlinear MPC: a tutorial using ACADO integrators
[J].DOI:10.1002/oca.2152 [本文引用: 1]
基于对数四元数的工业机器人Hermite样条曲线姿态插值
[J].DOI:10.1051/jnwpu/20193761165 [本文引用: 1]
Interpolating industrial robot orientation with Hermite spline curve based on logarithmic quaternion
[J].DOI:10.1051/jnwpu/20193761165 [本文引用: 1]
机器人主动柔顺恒力打磨控制方法
[J].
Grinding control method of robotic active compliance constant-force
[J].
Research on the algorithm of constant force grinding controller based on reinforcement learning PPO
[J].DOI:10.1007/s00170-023-11129-2 [本文引用: 1]
/
〈 |
|
〉 |
