知识继承型迭代学习控制的研究与应用

doi:10.3785/j.issn.1008-973X.2019.07.013

知识继承型迭代学习控制的研究与应用

蒲陈阳^,, 刘作军^,, 庞爽, 张燕

Research and application of iterative learning control with knowledge inheritance

PU Chen-yang^,, LIU Zuo-jun^,, PANG Shuang, ZHANG Yan

通讯作者: 刘作军，男，教授，博导．orcid.org/0000-0001-7671-4665. E-mail: liuzuojun@hebut.edu.cn

收稿日期: 2018-05-23

Received: 2018-05-23

作者简介 About authors

蒲陈阳(1992—)，男，博士生，从事智能控制方法的研究．orcid.org/0000-0002-0953-6739.E-mail:bjhync@126.com , E-mail：bjhync@126.com

摘要

针对一类具有同质特征的多维轨迹群，提出基于知识继承的迭代学习控制（ILC）策略. 该策略以一类工业机器人系统为控制对象，在跟踪具有渐变幅值的同质轨迹群（HTG）时，应用迭代学习控制方法，从起始源轨迹中获得基准控制知识. 将基准控制知识预设为下一新轨迹迭代学习的首次运行知识. 通过增益变换和偏移变换实现迭代学习控制的知识继承，使得该类工业机器人系统加快对新轨迹的学习速度，以此降低跟踪同质轨迹群的整体学习次数，实现跟踪效率的较大提升. 理论分析和仿真结果证明了所提控制策略的优越性.

关键词： 迭代学习控制（ILC） ; 工业机器人 ; 同质轨迹群（HTG） ; 源轨迹 ; 知识继承 ; 跟踪效率

Abstract

A new iterative learning control (ILC) strategy based on knowledge inheritance was proposed for a class of multi-dimensional trajectory with homogenous features. A kind of industrial robot system was taken as the control object throughout the tracking process. The homogeneous trajectory group (HTG) which was characterized by a gradual change in amplitude and the initial trajectory in HTG were respectively introduced. Then ILC scheme was utilized to track the initial trajectory in HTG. The effective knowledge could be obtained through ILC scheme from the initial trajectory. The knowledge was inherited to the next new trajectory in HTG for the first iteration. Gain transformation and offset transformation were applied according to the association of adjacent trajectories in HTG in order to effectively make the knowledge be inherited. Then the ILC with knowledge inheritance could make the industrial robot system track the new trajectory in fewer iterations. The overall learning times of tracking the HTG can be reduced and the tracking efficiency can be significantly improved compared with the traditional ILC. The theoretical analysis was presented to prove the convergence of the ILC based on knowledge inheritance, and the simulation results showed the advantage of the proposed control strategy.

Keywords： iterative learning control (ILC) ; industrial robot ; homogeneous trajectory group (HTG) ; initial trajectory ; knowledge inheritance ; tracking efficiency

PDF (1276KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

蒲陈阳, 刘作军, 庞爽, 张燕. 知识继承型迭代学习控制的研究与应用. 浙江大学学报(工学版)[J], 2019, 53(7): 1340-1348 doi:10.3785/j.issn.1008-973X.2019.07.013

PU Chen-yang, LIU Zuo-jun, PANG Shuang, ZHANG Yan. Research and application of iterative learning control with knowledge inheritance. Journal of Zhejiang University(Engineering Science)[J], 2019, 53(7): 1340-1348 doi:10.3785/j.issn.1008-973X.2019.07.013

在现代工业加工中，机器人系统多用于处理重复性的操作，20世纪70年代末提出的迭代学习控制（iterative learning control，ILC）特别适用于处理这类操作^[1-2]. 经过众多学者的不懈努力，ILC的理论体系得到逐步的完善^[3-4]，在理论研究^[5-8]和实践应用方面^[9-11]取得了巨大进步.

ILC是一种基于数据驱动的控制算法^[12]，并在机器人系统的应用中取得了极大的进展. 韦巍等^[13]以PUMA-560机械手的前三关节为控制对象，采用ILC策略，得到了良好的跟踪效果. 何熊熊等^[14]针对不确定的多连杆机械手，基于边界层设计自适应ILC策略，系统参数在迭代域内不断自适应调节，所提控制律能够保证算法的收敛性并满足平滑要求. 张雪峰等^[15]针对四足机器人的单腿机构模式，采用PD型ILC策略对关节轨迹进行跟踪控制，实现了触地和腾空2个阶段的垂直跳跃，达到了良好的鲁棒性. 田国会等^[16]针对家居机器人的物体搬运问题，提出基于视觉的ILC伺服算法. 朱雪枫等^[17]将ILC应用于五自由度上肢外骨骼机器人，提高了系统的跟踪性能. 上述文献均在参考轨迹一致的情况下，研究机器人控制中的ILC算法应用，然而迭代过程中变化的参考轨迹是ILC研究的关键问题之一^[12]，具有更广泛的工业应用背景. 对于参考轨迹非严格一致的情况，Saab等^[18]提出带遗忘因子的学习算法. Xu等^[19-20]针对参考轨迹的幅值刻度相异及时间刻度相异两类情况，分别设计控制器，从理论上分析算法的稳定性和收敛性. 王晔等^[21]通过引入小波来逼近逆系统的未知参数，使得系统能够近似跟踪非一致性轨迹. 安通鉴等^[22]针对含初态扰动的线性系统轨迹跟踪问题，设计每次迭代改变目标轨迹的方法，达到了加速收敛的目的. 周伟等^[23]针对离散非线性系统，利用高阶内模原理设计控制器增益，实现了参考轨迹在迭代域不严格重复时的有效跟踪. 这些方法虽然都讨论了ILC在参考轨迹出现一定变化时的应用问题，但其中所描述的参考轨迹变化，在本质上都属于随机变化，所以无法有效利用不同轨迹间的本质联系.

本文针对一类具有相似特征轨迹群的工业机器人加工对象，提出基于知识继承型ILC控制方法. 常规ILC策略具有3个轴，分别为时间轴、迭代轴和幅值轴，本文方法在此基础上引入控制系统跟踪的轨迹轴，目的是充分利用相似轨迹的控制知识，通过知识继承，加速学习、提高跟踪效率，同时进一步拓展ILC在工业机器人上的应用范围.

1. 同质轨迹群

1.1. 问题提出

在工业生产中，常需要加工出如图1所示的工件曲面，这类工件具有基面轮廓相同或相近的特点，即外曲面交于平面的曲线形状一致. 采用常规ILC方法的机器人系统，通常适于加工如图1（a）所示的全等曲线轨迹. 本文面向如图1（b）所示的非全等曲线轨迹跟踪问题，提出基于知识继承型ILC策略.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 具有同质特征的立体曲面

Fig.1 Spatial surface with homogeneous features

首先，将立体曲面分解为多条曲线组成的轨迹群. 这些轨迹虽然不完全一致，但具有相似的特征，本文称为同质轨迹. 其次，通过对初始源轨迹进行常规的迭代学习控制，获得有效的控制知识. 然后，从这类轨迹群的内在特征着手，通过对源轨迹控制知识的继承，工业机器人系统可以加快对新轨迹的跟踪. 最终实现对同质轨迹群的高效率跟踪控制.

1.2. 同质轨迹群

1.2.1. 源轨迹

源轨迹是同质轨迹群中的起始轨迹，若无特别说明，用 ${{{y}}_{{\rm{0}},{\rm{d}}}}(t) \in {\mathbb{{\bf{R}}}^n}$， $t \in [0,T]$表示源轨迹. 源轨迹具有 $n$个轨迹分量，可以表示为

(1) $ {{{y}}_{{\rm{0}},{\rm{d}}}}(t){ \buildrel \Delta \over =} {\left[ {{r_1}({\rm{0}},t),{r_2}({\rm{0}},t), \cdots ,{r_n}({\rm{0}},t)} \right]^{\rm{T}}}. $

式中： ${r_i}({\rm{0}},t)$（ $i = 1,2, \cdots ,n$）分别为源轨迹的第 $i$阶导数形成的位移、速度以及各级加速度轨迹分量，各轨迹分量均为已知轨迹.

1.2.2. 同质轨迹

将由源轨迹通过增益变换和偏移变换得到的轨迹群称为同质轨迹群（homogeneous trajectory group，HTG），其中任一轨迹均为同质轨迹，相邻同质轨迹的转换矩阵为

(2) $ \left. {\begin{array}{*{20}{l}} {{{M}}\left( l \right) \buildrel \Delta \over = {\rm{diag}}\;\left[ \!\!\!\!{\begin{array}{*{20}{c}} {{m_1}(l)},{{m_2}(l)}, \cdots, {{m_n}\left( l \right)} \end{array}} \!\!\!\!\right]\;,}\\ {{{N}}\left( l \right) \buildrel \Delta \over = {{\left[\!\!\!\! {\begin{array}{*{20}{c}} {{n_1}(l)},{{n_2}(l)}, \cdots, {{n_n}\left( l \right)} \end{array}} \!\!\!\!\right]}^{\rm{T}}}\;.} \end{array}} \right\} $

式中： ${{M}}(l) \in {\mathbb{{\bf{R}}}^{n \times n}}$为增益变换矩阵， ${{N}}(l) \in {\mathbb{{\bf{R}}}^n}$为偏移变换矩阵， $l = 0,1, \cdots ,N - 1$为轨迹序号. 转换矩阵可以描述相邻轨迹（第l条同质轨迹和第l+1条同质轨迹）的关系，如下所示：

(3) $ {{{y}}_{l + 1,{\rm{d}}}}(t) = {{M}}(l){{{y}}_{l,{\rm{d}}}}(t) + {{N}}(l). $

式中： ${{{y}}_{l,{\rm{d}}}}(t) \triangleq {[{r_1}(l,t),{r_2}(l,t), \cdots ,{r_n}(l,t)]^{\rm{T}}}\in {\mathbb{{\bf{R}}}^n}$为同质轨迹， $t \in [0,T]$为时间， $l = 0,1, \cdots ,N$为轨迹序号. 当 $l = 0$时， ${{{y}}_{l,{\rm{d}}}}(t)$为源轨迹.

通过 ${{M}}(l)$和 ${{N}}(l)$可以完全描述同质轨迹群. 同质轨迹各阶分量轨迹的关系，如下所示：

(4) $ \left. {\begin{array}{*{20}{c}} {{r_1}(l + 1,t) = {m_{\rm{1}}}(l){r_1}(l,t) + {n_1}(l)\;,}\\ {{r_2}(l + 1,t) = {m_2}(l){r_2}(l,t) + {n_2}(l)\;,}\\ \vdots \\ {{r_n}(l + 1,t) = {m_n}(l){r_n}(l,t) + {n_n}(l)\;.} \end{array}} \right\} $

式中： ${r_i}(l,t)$、 ${m_i}(l)$和 ${n_i}(l)$分别为第 $i$阶分量的同质轨迹及其增益变换系数和偏移变换系数.

2. 基于知识继承的ILC策略

2.1. 问题描述

考虑一类具有以下形式的工业机器人系统：

(5) $ \left. \begin{array}{l} {{{{{\dot x}}}_{l,k}}(t) = {{A}}{{{x}}_{l,k}}(t) + {{B}}{{{u}}_{l,k}}(t) + {{{\varphi }}_{l,k}}(t)\;,}\\ {{{{y}}_{l,k}}(t) = {{C}}{{{x}}_{l,k}}(t)\;.} \end{array} \right\} $

时间轴用 $t \in [0,T]$ 表示，工业机器人系统的状态量、控制量、输出量和扰动量分别由 ${{{x}}_{l,k}}(t) \in {\mathbb{{\bf{R}}}^n}$、 ${{{u}}_{l,k}}(t) \in {\mathbb{{\bf{R}}}^n}$、 ${{{y}}_{l,k}}(t) \in {\mathbb{{\bf{R}}}^n}$ 和 ${{{\varphi }}_{l,k}}(t) \in {\mathbb{{\bf{R}}}^n}$ 表示， ${{A}} \in {\mathbb{{\bf{R}}}^{n \times n}}$、 ${{B}} \in {\mathbb{{\bf{R}}}^{n \times n}}$ 和 ${{C}} \in {\mathbb{{\bf{R}}}^{n \times n}}$ 表示相应的系统参数. 为了描述方便，引入2个下角标l、k，轨迹轴用 $l = 0,1, \cdots ,N$ 表示，迭代轴用 $k = 1,2, \cdots ,{k_l}$ 表示.

以下给出本文控制策略所需的前提假设.

假设1：对于同一轨迹，引起系统模型偏差的扰动量在各次迭代中保持不变，即

(6) $ {{{\varphi }}_{l,k}}(t) = {{{\varphi '}}_l}(t). $

其中， ${{{\varphi '}}_l}(t) \in {\mathbb{{\bf{R}}}^n}$为未知扰动量， $t \in [0,T]$.

假设2：系统存在理想初态，并且满足

(7) $ {{{x}}_{l,k}}(0) = {{{x}}_{l,{\rm{d}}}}(0). $

其中， ${{{x}}_{l,{\rm{d}}}}(0)$为理想初态.

假设3：学习参数须满足以下收敛条件：

(8) $ \left\| {{{I}} - {{CB\varGamma }}} \right\| < 1\;. $

式中： ${{I}} \in {\mathbb{{\bf{R}}}^{n \times n}}$为单位阵， ${{\varGamma }} \in {\mathbb{{\bf{R}}}^{n \times n}}$为学习增益.

假设4：系统参数C、B均满足可逆条件，即

(9) $ {\begin{array}{*{20}{c}} {\det {{C}} \ne 0\;,}\;{\det {{B}} \ne 0\;.} \end{array}} $

假设5：增益变换矩阵 ${{M}}(l)$的对角元素，即增益系数 ${m_i}(l)$ $(i = 1,2, \cdots ,n)$须满足 ${m_i}(l) = m(l)$，即

(10) $ {{M}}(l) = m(l){{I}}. $

式中： ${{I}} \in {\mathbb{{\bf{R}}}^{n \times n}}$为单位矩阵， $l = 0,1, \cdots ,N - 1$.

假设6：系统的扰动量偏差有界，其界为 $\sigma $，且相邻轨迹的扰动量具有相近关系.

(11) $ \left\| {{{{\varphi }}_{l,k}}(t)} \right\| \leqslant \sigma. $

2.2. 控制策略设计

工业机器人系统的跟踪误差定义为

(12) $ {{{e}}_{l,k}}(t) = {{{y}}_{l,{\rm{d}}}}(t) - {{{y}}_{l,k}}(t). $

式中： ${{{y}}_{l,{\rm{d}}}}(t)$、 ${{{y}}_{l,k}}(t)$ 分别表示编号为 $l$ 的同质轨迹及其在第 $k$ 次迭代时的跟踪轨迹.

系统的最大跟踪误差定义为

(13) $ {J_{l,k}} = \mathop {{\rm{sup}}}\limits_{t \in [0,T]} \left\| {{{{e}}_{l,k}}(t)} \right\|. $

为了便于分析，有效跟踪的收敛条件定义为

(14) $ {J_{l,{k_l}}} \leqslant \varepsilon. $

式中： $\varepsilon $为误差精度. 式（14）的含义是编号为 $l$的同质轨迹学习 ${k_l}$次达到精度要求，完成学习任务.

基于知识继承型ILC的控制律为

(15) $ \left. {\begin{array}{*{20}{l}} {{{{u}}_{l,k{\rm{ + 1}}}}(t) = {{{u}}_{l,k}}(t) + {{L}}{{{e}}_{l,k}}(t) + {{\varGamma }}\displaystyle\frac{{{\rm{d}}{{{e}}_{l,k}}(t)}}{{{\rm{d}}t}}\;,}\\ {{{{u}}_{l{\rm{ + 1}},0}}(t) = {{P}}(l){{{u}}_{l,{k_l}}}(t) + {{O}}(l)\;.} \end{array}} \right\} $

式中： ${{{u}}_{l,k}}(t)$表示编号为l的同质轨迹迭代学习k次后的控制知识， ${{{u}}_{l,{k_l}}}(t)$表示编号为l的同质轨迹实现有效跟踪（ ${J_{l,{k_l}}} \leqslant \varepsilon $）时的控制知识， ${{{u}}_{l{\rm{ + 1}},{\rm{0}}}}(t)$表示编号为 $l + 1$的同质轨迹首次迭代的控制知识； ${{L}} \in {\mathbb{{\bf{R}}}^{n \times n}}$、 ${{\varGamma }} \in {\mathbb{{\bf{R}}}^{n \times n}}$分别为比例学习增益矩阵和微分学习增益矩阵； ${{P}}(l) \in {\mathbb{{\bf{R}}}^{n \times n}}$、 ${{O}}(l) \in {\mathbb{{\bf{R}}}^n}$分别为增益继承矩阵和偏移继承矩阵，

(16) $ \left. {\begin{array}{*{20}{c}} {{{P}}(l) = {{({{CB}})}^{ - 1}}{{M}}(l){{CB}}\;,}\\ {{{O}}(l) = - {{{B}}^{ - 1}}{{A}}{{{C}}^{ - 1}}{{N}}(l)\;.} \end{array}} \right\} $

定理：当工业机器人系统（5）满足假设1~6时，控制算法（15）表现出以下性质.

性质1：对于序号相同的同质轨迹，跟踪误差随着迭代次数在有限时间内渐近收敛于零，即

(17) $ \mathop {\lim }\limits_{k \to \infty } \mathop {\sup }\limits_{t \in [0,T]} \left\| {{{{e}}_{l,k}}(t)} \right\| = 0. $

性质2：对于同质轨迹群的跟踪任务，在满足相同的误差精度要求时，采用基于知识继承型ILC的控制策略可以加速收敛，从而降低学习次数，即

(18) $ {k_l} < {k_0}. $

式中： ${k_l}$、 ${k_{\rm{0}}}$分别表示编号为l和 $0$（源轨迹）的同质轨迹实现有效跟踪（14）所需要的学习次数.

2.3. 理论证明及分析

2.3.1. 收敛性分析

由式（5）的第1式，可得

(19) $ \begin{split} {{{x}}_{l,k}}(t) = & {{\rm{exp}}\;({{{A}}t}}){{{x}}_{l,k}}(0) + \\ & \int_0^t {{{\rm{exp}}\;({{{A}}(t - \tau ))}}[{{B}}{{{u}}_{l,k}}(\tau ) + {{{\varphi }}_{l,k}}(\tau )]} {\rm{d}}\tau . \end{split} $

结合假设1、2，可得

(20) $ \begin{split} {{{x}}_{l,k}}(t) = & {{\rm{exp}}\;({{{A}}t}}){{{x}}_{l,{\rm{d}}}}(0) + \\ & \int_0^t {{{\rm{exp}}\;({{{A}}(t - \tau ))}}[{{B}}{{{u}}_{l,k}}(\tau ) + {{{{\varphi '}}}_l}(\tau )]} {\rm{d}}\tau . \end{split} $

进一步可得

(21) $ \begin{split} & {{{x}}_{l,k + 1}}(t) - {{{x}}_{l,k}}(t) = \\ & \int_0^t {{{\rm{exp}}\;({{{A}}(t - \tau ))}}{{B}}[{{{u}}_{l,k + 1}}(\tau ) - {{{u}}_{l,k}}(\tau )]} {\rm{d}}\tau . \end{split} $

采用压缩映像法可以证明所提方法的收敛性，因为文献[2]已论述过该方法，不再赘述. 结合假设3、式（12）、式（15）第1式，可以推导出

(22) $ \mathop {\lim }\limits_{k \to \infty } \mathop {\sup }\limits_{t \in [0,T]} \left\| {{{{e}}_{l,k}}(t)} \right\| = 0. $

式（22）表明，具有扰动的工业机器人系统（5）在满足假设1~3时，跟踪误差渐近收敛.

2.3.2. 跟踪效率分析

由式（5）第2式并结合假设2，可得

(23) ${{{y}}_{l,{\rm{d}}}}(0) = {{C}}{{{x}}_{l,{\rm{d}}}}({\rm{0}}).$

由假设4可知，系统参数 $C$可逆，可得

(24) ${{{x}}_{l,{\rm{d}}}}({\rm{0}}) = {{{C}}^{ - 1}}{{{y}}_{l,{\rm{d}}}}(0).$

式（24）中令 $ l = l + 1$，可得

(25) $ {{{x}}_{l + 1,{\rm{d}}}}({\rm{0}}) = {{{C}}^{ - 1}}{{{y}}_{l + 1,{\rm{d}}}}(0). $

相邻轨迹关系式（3）在初始时刻为

(26) $ {{{y}}_{l + 1,{\rm{d}}}}(0) = {{M}}(l){{{y}}_{l,{\rm{d}}}}(0) + {{N}}(l). $

将式（26）代入式（25），可得

(27) $ {{{x}}_{l + 1,{\rm{d}}}}({\rm{0}}) = {{{C}}^{ - 1}}{{M}}(l){{{y}}_{l,{\rm{d}}}}(0) + {{{C}}^{ - 1}}{{N}}(l). $

将式（23）代入式（27），可以推导出同质轨迹的相邻初态关系：

(28) $ {{{x}}_{l + 1,{\rm{d}}}}({\rm{0}}) = {{{C}}^{ - 1}}{{M}}(l){{C}}{{{x}}_{l,{\rm{d}}}}({\rm{0}}) + {{{C}}^{ - 1}}{{N}}(l). $

当 $k = 0$时，由式（20）可得

(29) $ \begin{split} {{{x}}_{l{\rm{ + 1}},{\rm{0}}}}(t) = & {{\rm{exp}}\;({{{A}}t}}){{{x}}_{l{\rm{ + 1}},{\rm{d}}}}(0) + \\ & \int_0^t {{{\rm{exp}}\;({{{A}}(t - \tau ))}}} \left[ {{{B}}{{{u}}_{l{\rm{ + 1}},{\rm{0}}}}(\tau ){\rm{ + }}{{{{\varphi '}}}_{l{\rm{ + 1}}}}(\tau )} \right]{\rm{d}}\tau . \\ \end{split} $

结合式（5）第2式，可得

(30) $ \begin{split} {{{y}}_{l{\rm{ + 1}},{\rm{0}}}}(t) = & {{C}}{{\rm{exp}}\;({{{A}}t}}){{{x}}_{l{\rm{ + 1}},{\rm{d}}}}({\rm{0}}) + \\ & \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}\left[ {{{B}}{{{u}}_{l{\rm{ + 1}},{\rm{0}}}}(\tau ){\rm{ + }}{{{{\varphi '}}}_{l{\rm{ + 1}}}}(\tau )} \right]} {\rm{d}}\tau . \\ \end{split} $

将相邻初态关系（28）和控制律（15）第2式代入式（30），可得

(31) $ \begin{split} & {{{y}}_{l{\rm{ + 1}},{\rm{0}}}}(t) = {{C}}{{\rm{exp}}\;({{{A}}t}}){{{x}}_{l{\rm{ + 1}},{\rm{d}}}}({\rm{0}}) + \\ & \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}[{{B}}{{{u}}_{l{\rm{ + 1}},{\rm{0}}}}(\tau )} {\rm{ + }}{{{{\varphi '}}}_{l{\rm{ + 1}}}}(\tau )]{\rm{d}}\tau = \\ & {{C}}{{\rm{exp}}\;({{{A}}t}}){{{C}}^{ - 1}}{{M}}(l){{C}}{{{x}}_{l,{\rm{d}}}}({\rm{0}}) + {{C}}{{\rm{exp}}\;({{{A}}t}}){{{C}}^{ - 1}}{{N}}(l) + \\ & \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}[{{BP}}(l){{{u}}_{l,{k_l}}}(\tau )} + {{BO}}(l){\rm{ + }}{{{{\varphi '}}}_{l{\rm{ + 1}}}}(\tau )]{\rm{d}}\tau = \\ & {{C}}{{\rm{exp}}\;({{{A}}t}}){{{C}}^{ - 1}}{{M}}(l){{C}}{{{x}}_{l,{\rm{d}}}}({\rm{0}}) + {{C}}{{\rm{exp}}\;({{{A}}t}}){{{C}}^{ - 1}}{{N}}(l) + \\ & \int_0^t {{{C}}{{\rm{exp}}\; ({{{A}}(t - \tau ))}}[{{B}}{{({{CB}})}^{ - 1}}{{M}}(l){{CB}}{{{u}}_{l,{k_l}}}(\tau )} - \\ & {{A}}{{{C}}^{ - 1}}{{N}}(l){\rm{ + }}{{{{\varphi '}}}_{l{\rm{ + 1}}}}(\tau )]{\rm{d}}\tau . \end{split} $

由于 $\det {{CB}} = \det {{C}}\det {{B}}$，结合假设4可知 $\det {{CB}} \ne 0$，所以 ${{CB}}$可逆.

由假设5可知，

(32) $ {{M}}(l) = m(l){{I}}. $

因此，有下式成立：

(33) $ {{{C}}^{ - 1}}{{M}}(l){{C}} = {{{C}}^{ - 1}}m(l){{IC}} = m(l){{I}}. $

同理可得，

(34) $ {({{CB}})^{ - 1}}{{M}}(l){{CB}} = m(l){{I}}. $

将式（33）、（34）代入式（31），可得

(35) $ \begin{split} & {{{y}}_{l{\rm{ + 1}},{\rm{0}}}}(t) = m(l){{C}}{{\rm{exp}}\;({{{A}}t}}){{{x}}_{l,{\rm{d}}}}({\rm{0}}) + \\ & {{C}}{{\rm{exp}}\;({{{A}}t}}){{{C}}^{ - 1}}{{N}}(l) + \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}[m(l){{B}}{{{u}}_{l,{k_l}}}(\tau )} - \\ & {{A}}{{{C}}^{ - 1}}{{N}}(l){\rm{ + }}{{{{\varphi }}'}_{l{\rm{ + 1}}}}(\tau )]{\rm{d}}\tau = m(l)\biggl\{ {{C}}{{\rm{exp}}\;({{{A}}t}}){{{x}}_{l,{\rm{d}}}}({\rm{0}}) + \\ & \left. \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}[{{B}}{{{u}}_{l,{k_l}}}(\tau ) + {{{{\varphi }}'}_l}(\tau )]} {\rm{d}}\tau \right\} + \\ & \left[{{C}} {{\rm{exp}}\;({{{A}}t}}){{{C}}^{ - 1}} - {\int_0^t} {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}{{A}}{{{C}}^{ - 1}}} {\rm{d}}\tau \right]{{N}}(l) + \\ & \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t \!-\! \tau ))}}{{{{\varphi }}'}_{l{\rm{ \!+\! 1}}}}(\tau )} {\rm{d}}\tau \!-\! m(l)\int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t \!-\! \tau ))}}{{{{\varphi }}'}_l}(\tau )} {\rm{d}}\tau = \\ & \,m(l)\biggl\{ {{C}}{{\rm{exp}}\;({{{A}}t}}){{{x}}_{l,{\rm{d}}}}({\rm{0}}) + \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}[{{B}}{{{u}}_{l,{k_l}}}(\tau )} + \\ & {{{{\varphi }}'}_l}(\tau )]{\rm{d}}\tau \biggr\} + {{N}}(l) + \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}{{{{\varphi }}'}_{l{\rm{ + 1}}}}(\tau )} {\rm{d}}\tau - \\ & \,m(l)\int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}{{{{\varphi }}'}_l}(\tau )} {\rm{d}}\tau . \end{split} $

当 $k = {k_l}$时，结合式（20）和式（5）第2式，可得

(36) $ \begin{split} {{{y}}_{l,{k_l}}}(t) = & {{C}}{{\rm{exp}}\;({{{A}}t}}){{{x}}_{l,{\rm{d}}}}({\rm{0}}) + \\ & \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}[{{B}}{{{u}}_{l,{k_l}}}(\tau )} + {{{{\varphi '}}}_l}(\tau )]{\rm{d}}\tau . \end{split} $

将式（36）代入式（35），可得

(37) $ {{{y}}_{l{\rm{ + 1}},{\rm{0}}}}(t) = m(l){{{y}}_{l,{k_l}}}(t) + {{N}}(l) + {{b}}. $

式中： $ {{b}} = \int_0^t {{{C}}{{\rm{exp}}\;({{{A}}(t - \tau ))}}{{{{\varphi '}}}_{l{\rm{ + 1}}}}(\tau )} {\rm{d}}\tau - m(l)\int_0^t {{{C}}{{\rm{exp}}\;({{A}}(t - \tau ))}}\times$ ${{{{\varphi '}}}_l}(\tau ) {\rm{d}}\tau$.

第 $l + 1$条同质轨迹首次迭代时，将式（3）、（37）代入式（12）并结合假设5，可得首次迭代的跟踪误差为

(38) $ \begin{split} {{{e}}_{l + 1,0}}(t) = & {{{y}}_{l{\rm{ + 1}},{\rm{d}}}}(t) - {{{y}}_{l + 1,0}}(t)= m(l){{{y}}_{l,{\rm{d}}}}(t) + {{N}}(l) - \\ & \left( {m(l){{{y}}_{l,{k_l}}}(t) + {{N}}(l) + {{b}}} \right)= m(l)\left( {{{{y}}_{l,{\rm{d}}}}(t) - {{{y}}_{l,{k_l}}}(t)} \right) - {{b}}\;. \end{split} $

由式（12）可得，第 $l$条同质轨迹在迭代 ${k_l}$次后满足精度要求（14）的跟踪误差为

(39) $ {{{e}}_{l,{k_l}}}(t) = {{{y}}_{l,{\rm{d}}}}(t) - {{{y}}_{l,{k_l}}}(t). $

将式（39）代入式（38），可得

(40) $ {{{e}}_{l + 1,0}}(t) = m(l){{{e}}_{l,{k_l}}}(t) - {{b}}. $

由假设6可知， ${{{\varphi '}}_l}$、 ${{{\varphi '}}_{l + 1}}$为有界相近扰动，则有 ${{b}} \doteq {{0}}$，因此式（40）可以写为

(41) $ {{{e}}_{l + 1,0}}(t) \doteq m(l){{{e}}_{l,{k_l}}}(t). $

对式（41）在 $t \in [0,T]$内取上确界范数，可得

(42) $ \mathop {\sup }\limits_{t \in [0,T]} \left\| {{{{e}}_{l + 1,0}}(t)} \right\| \doteq m(l)\mathop {\sup }\limits_{t \in [0,T]} \left\| {{{{e}}_{l,{k_l}}}(t)} \right\|. $

由于 $m(l)$为相邻同质轨迹的增益系数，相邻轨迹变化量很小，所以 $m(l) \doteq 1$. 结合式（13），可得

(43) $ {J_{l{\rm{ + 1}},{\rm{0}}}} \doteq {J_{l,{k_l}}}. $

由式（14）可知，编号为 $l$的同质轨迹学习 ${k_l}$次后满足误差精度要求，所以式（43）表明编号为 $l + 1$的轨迹在首次迭代输出时，工业机器人系统的最大跟踪误差已接近满意值. 进一步可以推测得到，在实现有效跟踪的条件下，对编号为 $l$的同质轨迹的基准控制知识有效继承，能够使得该轨迹只需经过较少的学习次数，即该轨迹处的学习次数应不大于源轨迹处的学习次数，

(44) $ {k_{l + 1}} \leqslant {k_{\rm{0}}}. $

上述结果表明，采用基于知识继承型ILC策略跟踪同质轨迹群，通过大幅降低工业机器人系统在首次迭代时的跟踪误差可以减少学习次数，从而提升控制系统的跟踪效率.

注1：在动态系统（5）中，若 ${{{\varphi }}_{l,k}}(t)$恒为零，则式（43）为 ${J_{l{\rm{ + 1}},{\rm{0}}}} \leqslant {J_{l,{k_l}}}$，所以在首次跟踪该轨迹时，工业机器人系统已满足误差精度要求，无需再次学习.

注2：算法的知识继承由式（15）第2式实现；若无式（15）的第2式，则为常规ILC.

3. 仿真实例

3.1. 一类工业机器人

采用如图2所示的工业机器人系统，对所提算法进行验证. 图中，编号1为加工件，编号2为加工件旋转运动的驱动系统，编号3、4为沿轨迹轴运动的平移驱动系统，编号5为机械臂伸缩运动的驱动系统，编号6表示机械臂加工终端.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 加工同质轨迹群的一类工业机器人系统

Fig.2 Industrial robot system for processing homogeneous trajectory group

3.2. 轨迹群参数设置

为了验证所提控制策略的效果，以图2所示的工业机器人系统为被控对象，以跟踪图3所示的同质轨迹群为控制目标. 如图3（a）所示为需加工的立体曲面；对图3（a）所示的立体曲面进行等间距的空间高度离散化，得到图3（b）所示的同质轨迹群.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 空间曲面离散化后的同质轨迹群

Fig.3 Homogeneous trajectory group via spatial surface discreting

在极坐标下，零部件位移轨迹群方程和位移导数轨迹群方程分别为

(45) $ \left. \begin{array}{l} {\rho \left( {{\textit{z}},\theta } \right) = \sqrt {\displaystyle\frac{{{a^2}({\textit{z}}){b^2}({\textit{z}})}}{{{b^2}({\textit{z}}){{\cos }^2}\theta + {a^2}({\textit{z}}){{\sin }^2}\theta }}\;} \;,}\\ {\dot \rho \left( {{\textit{z}},\theta } \right) = \displaystyle\frac{{\left( {{a^{ - 2}}({\textit{z}}) - {b^{ - 2}}({\textit{z}})} \right) \sin \; (2\theta) }}{{2{{\left( {{a^{ - 2}}({\textit{z}}){{\cos }^2}\theta + {b^{ - 2}}({\textit{z}}){{\sin }^2}\theta } \right)}^{{\rm{3/}}2}}}}\;.} \end{array} \right\} $

式中： $\theta \in [0,2{\text{π}} ]$为角度； ${\textit{z}} \in [0,160]$为空间高度；参数a、b是关于z的连续函数a(z)、b(z)：

(46) $ \left. \begin{matrix} a({\textit{z}})=20+10\cos {(3{\text{π}} {\textit{z}}}/{320}\;)\ , \\ b({\textit{z}})=18+12\cos {(3{\text{π}} {\textit{z}}}/{320}\;). \end{matrix} \right\} $

空间高度的离散化公式为

(47) $ z = {{160l}}/{N}. $

式中：l为轨迹序号， $l = 0,1, \cdots ,N$；N为同质轨迹群的末轨迹号. 将式（47）代入式（46），可以得到a、b关于z的离散函数a(l)、b(l)：

(48) $ \left. \begin{matrix} a(l)=20+10\cos {(3{\text{π}} l}/({2N}))\ , \\ b(l)=18+12\cos {(3{\text{π}} l}/({2N})). \end{matrix} \right\} $

式中： $l = 0,1, \cdots ,N$. 角度 $\theta $与时间 $t$具有线性关系，表示为

(49) $ \theta = {{2{\text{π}} t}}/{T}. $

式中： $t \in [0,T]$； $T$为周期. 将式（49）代入式（45），并将参数a(z)、b(z)用a(l)、b(l)替换，可得

(50) $ \left. \begin{array}{l} {\rho \left( {l,t} \right) = \sqrt {\displaystyle\frac{{{a^2}(l){b^2}(l)}}{{{b^2}(l){{\cos }^2}(2{\text{π}} t/T) + {a^2}(l){{\sin }^2}(2{\text{π}} t/T)}}} \;,}\\ {\dot \rho \left( {l,t} \right) = \displaystyle\frac{{2{\text{π}}\left( {{a^{ - 2}}(l) - {b^{ - 2}}(l)} \right)\sin \;(4{\text{π}}t/T)}}{{2T{{\left[ {{a^{ - 2}}(l){{\cos }^2}(2{\text{π}} t/T) + {b^{ - 2}}(l){{\sin }^2}(2{\text{π}}t/T)} \right]}^{{\rm{3/}}2}}}}\;.} \end{array} \right\} $

式中：a(l)、b(l)由式（48）给出；N=16，T=10 s. 经计算可知，有下式成立：

(51) $ \frac{{\dot \rho \left( {l + 1,t} \right)}}{{\dot \rho \left( {l,t} \right)}} = \frac{{\rho \left( {l + 1,t} \right)}}{{\rho \left( {l,t} \right)}} = \frac{{a(l + 1)}}{{a(l)}} = \frac{{b(l + 1)}}{{b(l)}}\;. $

记 $ m(l) {\buildrel \Delta \over =} \displaystyle{{a(l + 1)}}/{{a(l)}}$，所以

(52) $ \left. {\begin{array}{*{20}{c}} {\rho \left( {l + 1,t} \right) = m(l)\rho \left( {l,t} \right)\;,}\\ {\dot \rho \left( {l + 1,t} \right) = m(l)\dot \rho \left( {l,t} \right)\;.} \end{array}} \right\} $

工业机器人系统加工终端的位移轨迹群和速度轨迹群与零部件的位移轨迹群和位移导数轨迹群的对应关系分别为

(53) $ {\begin{array}{*{20}{l}} {{r_1}\left( {l,t} \right) = 51 - \rho \left( {l,t} \right),}\; {{r_2}\left( {l,t} \right) = - \dot \rho \left( {l,t} \right).} \end{array}} $

当 $ l = l + 1$时，可得

(54) $ \left. {\begin{array}{*{20}{l}} {{r_1}\left( {l + 1,t} \right) = 51 - \rho \left( {l + 1,t} \right)\;,}\\ {{r_2}\left( {l + 1,t} \right) = - \dot \rho \left( {l + 1,t} \right).} \end{array}} \right\} $

式（54）结合式（52）、（53），可以推导出同质轨迹群各分量轨迹的关系为

(55) $ \left. \begin{array}{l} {{r_1}(l + 1,t) = m(l){r_1}(l,t) + 51\left[ {1 - m(l)} \right]\;,}\\ {{r_2}(l + 1,t) = m(l){r_2}(l,t).\;} \end{array} \right\} $

记 ${{{y}}_{l,{\rm{d}}}}(t){\buildrel \Delta \over =}{\left[ {\begin{array}{*{20}{c}} {{r_1}(l,t),}&{{r_2}(l,t)} \end{array}} \right]^{\rm{T}}},$ ${{M}}(l){\buildrel \Delta \over =}\left[ {\begin{array}{*{20}{c}} {m(l)}&0 \\ 0&{m(l)} \end{array}} \right]$, $ {{N}}(l){\buildrel \Delta \over =}$ ${\left[ {\begin{array}{*{20}{c}} {51\left( {1 - m(l)} \right)},&0 \end{array}} \right]^{\rm{T}}}$，所以式（55）可以写为

(56) $ {{{y}}_{l + 1,{\rm{d}}}}(t) = {{M}}(l){{{y}}_{l,{\rm{d}}}}(t) + {{N}}(l). $

由增益变换矩阵 ${{M}}(l)$中的 ${m_i}(l) = m(l)$， $i = 1,2$，故满足假设5.

3.3. 控制系统参数设置

工业机器人系统的参数设置为

(57) $ \left. {\begin{split} & \begin{split} & {{{{\dot x}}}_{l,k}}(t) = \left[ {\begin{array}{*{20}{c}} 0&1\\ { - 1}&{ - 2} \end{array}} \right]{{{x}}_{l,k}}(t) + \left[ {\begin{array}{*{20}{c}} 1&1\\ 0&1 \end{array}} \right]{{{u}}_{l,\,k}}(t) + {{{\varphi }}_{l,\,k}}(t), \end{split}\\ & {{{{y}}_{l,\,k}}(t) = \left[ {\begin{array}{*{20}{c}} 1&0\\ 1&1 \end{array}} \right]{{{x}}_{l,\,k}}(t).} \end{split}} \right\} $

式中： ${{y}}_{l,k}(t) $ 跟踪同质轨迹 $ {{y}}_{l,{\rm{d}}}(t)$，记 ${{y}}_{l,k}(t){\buildrel \Delta \over =}\left[ {{s}}_{l,k}(t),\right.$ $ \left.{{v}}_{l,k}(t)\right]^{\rm{T}}$，所以 ${{s}}_{l,k}(t)$ 跟踪期望位移轨迹分量 ${{r}}_1({l,t})$； ${{v}}_{l,k}(t) $ 跟踪期望速度轨迹分量 ${{r}}_2({l,t})$.

因为 $\left| {\begin{array}{*{20}{c}} 1&1 \\ 0&1 \end{array}} \right| \ne {\rm{0}}$， $\left| {\begin{array}{*{20}{c}} 1&{\rm{0}} \\ {\rm{1}}&1 \end{array}} \right| \ne {\rm{0}}$，满足假设4条件.

系统的扰动量设置为

(58) $ {{{\varphi }}_{l,k}}(t) = 0.01\left[ {\begin{array}{*{20}{c}} {{\rm{ran{d}}}_l(t)}\\ {{\rm{ran{d}}}_l(t)} \end{array}} \right]. $

式中： ${\rm{ran{d}}}_l(t)$表示在时间域 $t \in [0,T]$和轨迹域 $l \in \{ 0,1, \cdots ,N\} $产生 $[0,{\rm{1}}]$上的随机值函数. 因为随机值的产生不受迭代域影响，且 $\left\| {{{{\varphi }}_{l,k}}(t)} \right\|{\kern 1pt} \leqslant {\rm{0}}{\rm{.01}}$，满足假设1和假设6的条件.

控制算法的学习增益按照满足假设3中的收敛条件设置为

(59) $ {{L}} = \left[ {\begin{array}{*{20}{c}} {{\rm{0}}{\rm{.1}}}&{\rm{0}}\\ {\rm{0}}&{{\rm{0}}{\rm{.6}}} \end{array}} \right],\;{{\varGamma }} = \left[ {\begin{array}{*{20}{c}} {{\rm{3}}{\rm{.2}}}&{ - 1.6}\\ {{\rm{ - 1}}{\rm{.4}}}&{{\rm{1}}{\rm{.2}}} \end{array}} \right]\;. $

当 $l = 0$时，同质轨迹群中源轨迹的理想初态 ${{{x}}_{0,{\rm{d}}}}({\rm{0}}) = {[1, - 1]^{\rm{T}}}$可以由式（24）得出，同质轨迹群的理想初态 ${{{x}}_{l,{\rm{d}}}}({\rm{0}})$可以由式（28）得到. 预设系统的实际初态等于对应同质轨迹处的理想初态，即 ${{{x}}_{l,k}}(0) = {{{x}}_{l,{\rm{d}}}}(0)$，所以系统满足假设2.

有效跟踪的收敛条件设置为

(60) $ {J_{l,k}} \leqslant \varepsilon = 0.02. $

${{{u}}_{l,k}}(t)$在源轨迹（ $l = 0$）处设置的首次（ $k = {\rm{0}}$）控制知识为零，即 ${{{u}}_{{\rm{0}},0}}(t) = 0$.

3.4. 同质轨迹群的跟踪过程

如图4所示为工业机器人系统跟踪同质轨迹群中源轨迹的过程，图4（a）、（b）分别表示机器人系统对源轨迹中期望位移和期望速度的跟踪过程. 由图4可见，系统迭代15次后能够有效地跟踪期望轨迹.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 系统跟踪源轨迹的迭代学习过程

Fig.4 Tracking process of initial trajectory via ILC

如图5所示为同质轨迹群中源轨迹的最大跟踪误差随迭代次数的收敛曲线，最大跟踪误差 ${J_{0,k}}$的计算方法由式（13）给出. 可见，工业机器人系统的最大跟踪误差随着迭代次数的增加而渐近收敛.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 源轨迹最大跟踪误差的迭代收敛过程

Fig.5 Maximum error convergence process of initial trajectory along iterative axis

如图6所示为采用基于知识继承型ILC策略跟踪同质轨迹群的过程（迭代轴压缩在一个平面内）. 图6右上角表示同质轨迹群中第3条( $l = 2$)轨迹的跟踪过程. 图6（a）、（b）分别为跟踪同质轨迹群中期望位移分量和期望速度分量的过程. 可见，跟踪同质轨迹群中源轨迹需要较多的迭代次数，跟踪其他同质轨迹仅需较少的学习次数，这表明采用基于知识继承型ILC策略的工业机器人系统跟踪同质轨迹群，能够减少整体学习次数，提升跟踪效率.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 知识继承型迭代学习控制的同质轨迹群跟踪过程

Fig.6 Tracking processes of HTG via ILC based on knowledge inheritance

如图7所示为工业机器人系统跟踪同质轨迹群的最大跟踪误差随迭代次数的收敛过程. 如图7（a）、（b）所示分别为跟踪同质轨迹群的位移轨迹分量和速度轨迹分量的收敛过程. 值得注意的是，图7未展示出跟踪源轨迹（ $l = 0$）的收敛过程.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 知识继承型迭代学习控制的同质轨迹群误差收敛过程

Fig.7 Error convergence process of HTG via ILC based on knowledge inheritance

从图7可以得出，同质轨迹（ $l \ne 0$）在首次运行时的最大跟踪误差小于0.4 mm；由图5可以得出，源轨迹（ $l = 0$）在首次运行时的最大跟踪误差为20~25 mm. 这表明采用基于知识继承型ILC策略，能够急剧降低同质轨迹（ $l \ne 0$）在首次运行时的最大跟踪误差.

3.5. 跟踪效率

如图8所示为工业机器人系统在采用2种不同策略跟踪同质轨迹群时的迭代次数对比图. 由图8可见，当采用常规控制策略跟踪同质轨迹群时，对于所有轨迹，均需学习较多次数才能有效跟踪；当采用本文的控制策略时，仅有源轨迹需要学习较多的次数，其他同质轨迹只需学习较少的次数即可有效跟踪. 这表明本文方法在跟踪同质轨迹群时优于常规方法.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 采用不同策略跟踪同质轨迹群所需学习次数的比较

Fig.8 Comparison in HTG tracking of two different methods

工业机器人系统采用常规ILC完成对同质轨迹群有效跟踪的总时间记为 ${T_{\rm{1}}}$，采用基于知识继承型ILC完成相同任务的总时间记为 ${T_{\rm{2}}}$，则采用本文方法的系统较常规方法提高的跟踪效率为

(61) $ \eta = ({{{T_1} - {T_2}}})/{{{T_1}}}. $

在仿真中，同质轨迹群的末轨迹号 $N = {\rm{16}}$，系统运行周期 $T = {\rm{10}}\;{\rm{s}}$，所以常规方法跟踪时间 ${T_1} = 2\;290\;{\rm{s}}$，本文方法跟踪时间 ${T_2} = {\rm{750}}\;{\rm{s}}$. 根据式（61）可得，本文方法提高的跟踪效率为 $\eta \!=\! {\rm{67}}{\rm{.25}}$%. 由于在仿真中，系统扰动设置为不确定性随机扰动，所以每次的仿真结果不完全相同；通过多次统计表明，采用基于知识继承型ILC策略的跟踪效率均大于65%，体现了基于知识继承型ILC策略跟踪同质轨迹群的优越性.

4. 结　语

针对工业加工部件中普遍存在具有渐变特征的加工曲面，本文提出基于知识继承的ILC控制策略. 在常规ILC固有时间轴、迭代轴和幅值轴的基础上，在控制系统的设计中引入轨迹轴，通过增益变换和偏移变换实现ILC的知识继承. 对基准控制的知识继承可以显著降低跟踪新轨迹时首次运行的跟踪误差，大幅减少跟踪同质轨迹群的整体学习次数，实现跟踪效率的较大提升.

本文方法目前仅针对一类线性工业机器人系统进行分析，在后续的研究中，需要深入探讨非线性机器人系统在跟踪同质轨迹群时的知识继承问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

UCHIYAMA M

Formulation of high-speed motion pattern of a mechanical arm by trial

[J]. Transactions of the Society for Instrumentation and Control Engineering, 1978, 14 (6): 706- 712

DOI:10.9746/sicetr1965.14.706 [本文引用: 1]

[2]

ARIMOTO S, KAWAMURA S, MIYAZAKI F

Bettering operation of robots by learning

[J]. Journal of Robotic Systems, 1984, 1 (2): 123- 140

DOI:10.1002/(ISSN)1097-4563 [本文引用: 2]

[3]

许建新, 侯忠生

学习控制的现状与展望

[J]. 自动化学报, 2005, 31 (6): 943- 955