基于图卷积模仿学习的分布式群集控制

doi:10.3785/j.issn.1008-973X.2022.06.001

基于图卷积模仿学习的分布式群集控制

郭策^,, 曾志文^,, 朱鹏铭, 周智千, 卢惠民

国防科技大学智能科学学院，湖南长沙 410073

Decentralized swarm control based on graph convolutional imitation learning

GUO Ce^,, ZENG Zhi-wen^,, ZHU Peng-ming, ZHOU Zhi-qian, LU Hui-min

College of Intelligence Science and Technology, National University of Defense Technology, Changsha 410073, China

通讯作者: 曾志文，男，副教授. orcid.org/0000-0002-7045-8418. E-mail： z7z7w7@126.com

收稿日期: 2022-02-27

基金资助:

国家自然科学基金资助项目（U1913202, U1813205)

Received: 2022-02-27

Fund supported:

国家自然科学基金资助项目（U1913202,U1813205)

作者简介 About authors

郭策（1997—），男，博士生，从事智能机器人技术研究.orcid.org/0000-0002-4472-4604.E-mail：guoce1997@foxmail.com , E-mail：guoce1997@foxmail.com

摘要

针对受限通信条件下机器人群集协同控制问题，提出基于图卷积模仿学习的分布式群集控制策略. 该策略旨在实现群集内避障、速度一致性的基础上，提高群集鲁棒性，提升避免群集分裂的成功率. 提出基于熵评价的群集鲁棒性量化评价指标，建立节点和链路重要性的均衡分布与群集鲁棒性的联系. 提出重要度相关图卷积网络，用于实现受限通信条件下非欧氏数据的特征提取和加权聚合. 采用图卷积模仿学习方法，根据提升群集鲁棒性的要求设计集中式专家策略，通过对集中式专家策略的模仿，得到分布式群集协同控制策略. 设计仿真实验，证明所得的分布式策略基于受限通信条件实现了接近集中式的专家策略的控制效果.

关键词： 机器人群集 ; 图卷积网络 ; 模仿学习 ; 鲁棒性 ; 图重要度熵

Abstract

A distributed swarm control strategy based on graph convolutional imitation learning was proposed to deal with the cooperative control of robot swarms under restricted communication conditions. The strategy aimed to improve swarm robustness and enhance the success rate of avoiding swarm splitting based on achieving intra-swarm obstacle avoidance and velocity consistency. A quantitative evaluation index of swarm robustness based on entropy evaluation was proposed to establish the connection between the balanced distribution of node and link importance and cluster robustness. The importance-correlated graph convolutional networks were proposed to realize feature extraction and weighted aggregation of non-Euclidean data under restricted communication conditions. A centralized expert strategy was designed to improve swarm robustness, and the graph convolutional imitation learning method was adopted. Furthermore, a distributed swarm cooperative control strategy was obtained by imitating the centralized expert strategy. Simulation experiments demonstrate that the resulting distributed strategy achieves control effects close to those of the centralized expert strategy based on restricted communication conditions.

Keywords： robot swarm ; graph convolutional network ; imitation learning ; robustness ; graph importance entropy

PDF (894KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

郭策, 曾志文, 朱鹏铭, 周智千, 卢惠民. 基于图卷积模仿学习的分布式群集控制. 浙江大学学报(工学版)[J], 2022, 56(6): 1055-1061 doi:10.3785/j.issn.1008-973X.2022.06.001

GUO Ce, ZENG Zhi-wen, ZHU Peng-ming, ZHOU Zhi-qian, LU Hui-min. Decentralized swarm control based on graph convolutional imitation learning. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(6): 1055-1061 doi:10.3785/j.issn.1008-973X.2022.06.001

随着人工智能和机器人技术的快速发展，多机器人系统受到越来越广泛的关注^[1-6]. 群集问题是多机器人协同控制领域的重要研究方向，其目标是在避免群集内碰撞和保持通信的基础上实现群集速度的一致性. 研究者曾通过模拟如鸟群迁徙、鱼群捕食的生物群集行为，实现多机器人系统整体上的协调一致和高效移动. 整体上协调一致的形态对于提高个体存活率、提高完成任务的质量和效率、降低能量消耗等问题至关重要.

群集问题一般只依赖局部的观测和信息交互，在没有外部宏观行为指导的条件下，形成的群集形态和速度很大程度上由群集初始状态决定. 不确定的随机初始状态加上局部的信息结构，使得群集只能形成局部最优的群集稳定形态，也就导致少数关键节点和链路的形成. 关键节点和链路的失效将对群集结构造成重大破坏，常会由于信息传递通路断裂导致群集分裂，使得群集整体表现出较差的鲁棒性. 这种情况在当群集规模较小、通信受限时更为突出.

群集问题也被称为基于行为的编队控制问题. 类似生物界群集的形成和保持方式，机器人群集中的每个个体会根据局部观测信息进行独立分析，对应做出聚集和避障动作，实现多机器人编队. Reynolds^[7]在对鸟群飞行建模的过程中，提出群集行为的3条基本规则：避免碰撞、速度一致和群集聚集. 关于群集问题鲁棒性的研究相对较少. 有研究者从群集对抗的视角出发，将此类问题定义为群集的私密性问题^[8-10]，重点研究如何通过调整群集中个体的行为，使得多机器人系统在编队形成和保持的过程中，尽量少地暴露群集中个体的重要度排序，减少群集关键个体被发现、摧毁，造成群集分裂的情况.

多机器人协同控制方法按照控制形式可以分为2个大类：集中式控制和分布式控制. 针对这2类方法的不足，研究者提出基于模仿学习进行多机器人协同控制的方法，基于分布式架构和局部观测信息，对集中式专家算法进行行为克隆，得到规划控制效果与其相近的分布式控制策略. 同时，将模仿学习与图神经网络相结合，有效提取和利用局部观测信息，解决了系统中机器人数量变化导致的观测维度变化问题. 利用类似的方法，研究者实现了多机器人路径规划^[11]、多机器人群集协同控制^[12-13]、多机器人任务分配^[14]等工作. 还有一些新的工作使用图卷积神经网络^[15]、图循环神经网络^[16]、图注意力网络^[17]等方法解决在通信延迟条件下，基于行为和原始视觉图像的编队控制问题.

本研究旨在实现稀疏通信环境中的强鲁棒性分布式群集协同控制，通过在群集运动中维持节点和链路重要性的均衡分布，提升群集鲁棒性，有效减少群集分裂现象.

1. 问题描述

考虑二维平面上的 $ N $个机器人构成的离散系统，将采样时间间隔记为 $ {T}_{{\rm{s}}} $， $ n $为采样时间序号. $ {\boldsymbol{r}}_{i,n} $、 ${\boldsymbol{v}}_{i,n}\in {\bf{R}}^{2}$分别为群集中第 $ i(i=\mathrm{1,2},\cdots ,N) $个机器人在 $ n{T}_{\rm{s}} $时刻的位置和速度. ${\boldsymbol{u}}_{i,n}\in {\bf{R}}^{2}$为从 $ n $时刻到(n+1)时刻第i个机器的加速度. 第i个机器人的运动满足方程：

(1) $ \left.\begin{split} &{{\boldsymbol{r}}_{i,n+1}-{\boldsymbol{r}}_{i,n}={\boldsymbol{v}}_{i,n}{T}_{\rm{s}}+{\boldsymbol{u}}_{i,n}{T}_{\rm{s}}^{2}/2\text{，}}\\ &{{\boldsymbol{v}}_{i,n+1}-{\boldsymbol{v}}_{i,n}={\boldsymbol{u}}_{i,n}{T}_{\rm{s}}.} \end{split}\right\} $

下文将 ${\boldsymbol{r}}_{i,n},{\boldsymbol{v}}_{i,n},{\boldsymbol{u}}_{i,n}$表示为 ${\boldsymbol{r}}_{i},{\boldsymbol{v}}_{i},{\boldsymbol{u}}_{i}$.

使用无向图描述机器人群集. 无向图可以表示为顶点和边的集合，记为 $ \mathcal{G}=\left(\mathcal{V},\mathcal{E}\right) $，其中 $ \mathcal{V} $为顶点的集合，代表群集中的机器人节点， $ \mathcal{E} $为边的集合，代表群集中存在的通信链路， $ \mathcal{E} $中不包括节点与自身的通信链路. 如果存在边 $ {e}_{ij}\in \mathcal{E} $连接顶点 $ {v}_{i} $、 $ {v}_{j}\in \mathcal{V} $，其中 $ {v}_{i} $、 $ {v}_{j} $代表群集中的机器人节点，则称 $ {v}_{j} $是 $ {v}_{i} $的邻居，记 $ {v}_{i} $的所有邻居为集合 $ \mathcal{N}\left({v}_{i}\right) $，即：

(2) $ \mathcal{N}\left({v}_{i}\right)=\left\{{v}_{j}|{e}_{ij}\in \mathcal{E}\right\}. $

进一步定义 $k(k\in {\bf{N}})$阶邻居和 $ k $阶子图的概念. 某节点的 $ k $阶邻居是指信息从该节点出发，经过 $ k $次节点间单向通信可以到达的个体集合，0阶邻居代表个体本身. 某节点的 $ k $阶子图定义为从该节点出发所有 $ k $阶、小于 $ k $阶的邻居节点以及它们之间的通信链路所构成的子图. 无向图中以 $ {v}_{i} $为顶点的边的数目称为 $ {v}_{i} $的度，记为 $ \mathrm{d}\mathrm{e}\mathrm{g}\left({v}_{i}\right) $. 在无向图中，所有度的和与边数之间存在如下关系：

(3) $ \displaystyle\sum \limits_{{v}_{i}\in \mathcal{V}}\mathrm{deg}\;\left({v}_{i}\right)=2\left|\mathcal{E}\right|. $

如果无向图中存在孤立的顶点，没有任何边与之相连，这样的图称为非连通图；如果不存在孤立顶点，则称为连通图. 如果机器人群集的通信拓扑图是非连通的，则表示群集出现分裂，分裂出去的机器人个体将无法获取来自其他个体的任何行为参考数据，它的行为也不会被其他机器人所参考. 如果图中的每个节点都与其他所有节点通过链路直接相连，则称为全连通图.

对于不考虑通信限制且规模较大的机器人群集来说，网络中节点和链路具有较高的冗余度，个别节点或者链路失效对整个群集影响较小. 本研究针对小规模群集协同控制进行，考虑群集只能依靠局部通信获取有效信息.

2. 群集鲁棒性量化评价

提高群集的鲁棒性须对群集的鲁棒性优劣进行客观评价. 在具有稀疏通信关系的机器人群集中，机器人依赖局部通信传递信息，通信中断意味着群集的分裂. 因此在某种程度上，通信网络的可靠性等价于群集的鲁棒性. 在通信领域中，为了评价通信网络的可靠性，研究者提出基于熵评价的通信网络可靠性量化评价方法^[18].

在信息学中，香农信息熵用于评价信源的不确定性，其值表示消除信源不确定性需要的信息量. 对于随机变量 $ X $，其信息熵 $ H\left(X\right) $定义为，

(4) $ H\left(X\right)=-\sum _{m=1}^{M}{p}_{m}\mathrm{lg}\;\left({p}_{m}\right). $

式中： $ {p}_{m} $为 $ X={X}_{m} $的概率； $ M $为 $ X $的所有可能取值数量，满足：

(5) $ \sum _{m=1}^{M}{p}_{m}=1. $

信息熵还应满足以下条件：1）当 $ {p}_{m}=0 $时，设定 $H \left(X\right) = 0$；2） $0\leqslant H \left(X\right)\leqslant \mathrm{l}\mathrm{g}\;M$，当所有随机变量的可能取值出现概率均等时， $H \left(X\right)$取最大值 $\mathrm{l}\mathrm{g}\;M$，此时 $ X $的取值具有最大的不确定性，消除不确定性需要最大的信息量.

机器人群集内节点和链路的重要程度也是信息. 从群集外部来看，重要度越高的节点和链路，越容易成为被攻击的目标；从群集内部来看，实现节点和链路重要度的均衡分布，有助于减小个别节点或者链路失效对群集造成重大影响的总体风险. 因此，群集鲁棒性的强弱取决于节点和链路重要度是否实现均衡分布，分布越均衡，单个节点或者链路失效对群集的影响就越小. 参考信息熵定义，定义链路和节点重要度熵作为评价群集鲁棒性的量化指标.

当节点失效的时候，会导致与其直接相连的通信链路失效，节点的度越大，失效对网络的影响越大. 定义节点 $ i $的重要度为

(6) $ {p}_{i}=\left\{\begin{split}&\dfrac{\mathrm{deg}\;\left({v}_{i}\right)}{2\left|\mathcal{E}\right|},\;\text{|}\mathcal{E}\text{|≠0}\text{\text{；}}\\ &0,\qquad \;\;\;\;\text{其}\text{他}.\end{split}\right. $

参照信息熵的定义，定义节点重要度熵为

(7) $ {E}_{{\rm{N}}}=-\sum _{i=1}^{N}{p}_{i}\mathrm{lg}\;{p}_{i}. $

当所有节点均有相同的重要度时，节点重要度取最大值 $\mathrm{l}\mathrm{g}\;N$，节点个数 $ N $越多，节点重要度分布越均衡，节点重要度熵越高.

定义链路重要度要先明确链路收缩度的概念. 链路收缩度是将2个相连节点沿链路方向收缩成1个新节点后，与新节点直接相连的节点个数，用 $\mathrm{deg}\;\left({e}_{ij}\right)$表示. 类比节点重要度的定义，链路 $ {e}_{ij} $的重要度 $ {p}_{ij} $可以表示为

(8) $ {p}_{ij}=\left\{\begin{split}&\dfrac{\mathrm{deg}\;{(e}_{ij})}{\displaystyle\sum \mathrm{deg}\;{(e}_{ij})},\;\displaystyle\sum \mathrm{deg}\;{(e}_{ij})\ne 0\text{\text{，}}{e}_{ij}{\in \mathcal{E}}\text{\text{；}}\\ &0,\qquad\qquad\;\;\;\text{其}\text{他}.\end{split}\right. $

链路的重要性不仅体现在链路收缩度上，还体现在链路长度上，链路长度一致有助于实现节点的均匀分布，进而有助于节点和链路重要性的均衡分布. 对于1条链路来说，长度越接近当前平均的链路长度，其重要度越高，越应该得到维持与保护. 定义链路重要度衰减系数

(9) $ {\omega }_{ij}=1-\frac{\left|\left\|{\boldsymbol{r}}_{ij}\right\|-{d}_{\mathrm{b}\mathrm{e}\mathrm{s}\mathrm{t}}\right|}{{d}_{\mathrm{m}\mathrm{a}\mathrm{x}}}. $

式中： $ {d}_{\mathrm{m}\mathrm{a}\mathrm{x}} $为最大通信距离， $ {d}_{\mathrm{b}\mathrm{e}\mathrm{s}\mathrm{t}} $为预先设定的节点最佳间隔， $ \left|\right|{\boldsymbol{r}}_{ij}\left|\right| $为节点 $ {v}_{i} $和 $ {v}_{j} $的间距. 新的链路重要度定义为初始重要度和链路重要性衰减系数的乘积，为了满足式(5)，对衰减后的链路重要度进行归一化处理，链路重要度熵定义为

(10) $ {E}_{\mathrm{L}}=-\displaystyle\sum _{{e}_{ij}\in \mathcal{E}}\dfrac{{\omega }_{ij}{p}_{ij}}{\displaystyle\sum _{{e}_{ij}\in \mathcal{E}}{\omega }_{ij}{p}_{ij}}\mathrm{lg}\;\frac{{\omega }_{ij}{p}_{ij}}{\displaystyle\sum _{{e}_{ij}\in \mathcal{E}}{\omega }_{ij}{p}_{ij}}. $

对于机器人群集来说，在确保个体间不发生相互碰撞的前提下，结构越紧凑，链路的数量越多，链路的重要度分布越均衡，链路重要度熵越高. 图重要度熵 $ {E}_{\mathrm{G}} $为节点重要度熵和链路重要度熵的和，即

(11) $ {E}_{\mathrm{G}}={E}_{\mathrm{N}}+{E}_{\mathrm{L}}. $

图重要度熵通过量化评价群集节点和链路的重要度一致性来评价机器人群集的鲁棒性. 图重要度熵越大，表示节点和链路的重要度一致性越好，重要度分布越均衡，个别节点和链路的失效对群集的影响也就越小，群集的鲁棒性也就越强.

3. 基于重要度相关图卷积网络的模仿学习

人工势场法是解决群集问题的经典方法，通过定义群集内个体的吸引力、排斥力和对齐力的组合，实现群集协同控制. 文献[19]、[20]中基于全局信息的人工势场法可以为群集问题提供全局最优的解决方案. 但是对于机器人群集来说，获取全局信息不仅大大加重了通信负荷，也不适合局部通信结构.

为了解决受限通信环境下控制策略陷入局部最优的问题，本研究采用基于图神经网络的模仿学习方法，使用集中式专家算法生成学习模板，利用图神经网络实现群集观察量到群集控制量的映射，通过优化模型参数最小化专家数据与模型输出误差，使得学习策略基于分布式架构实现接近集中式专家算法的控制效果. 为了提高群集的鲁棒性，本研究提出重要度相关图卷积网络（importance-correlated graph convolution networks, IGCNs)，从专家数据集的生成、图位移算子的设计方面对原始的图卷积网络进行优化. 如图1所示为本研究所提方法的框架. 图中， $ L $为网络的层数.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 重要度相关图卷积网络模仿学习框架

Fig.1 Framework for imitation learning based on importance-correlated graph convolutional networks

3.1. 专家数据集的生成

基于经典的人工势场法生成专家数据集. 为了充分发挥集中式专家算法的性能，选择在小规模群集执行专家策略生成专家数据集，并假设群集中的每个个体都能实现全局通信实时获取所有节点的数据，这就形成了稳定的全连接图. 由文献[15]可知，基于人工势场可以在实现速度一致的同时避免碰撞，保证群集中的每个个体相对于群集的势能最低.

将机器人 $ {v}_{i} $、 $ {v}_{j} $间的相对势能函数定义为

(12) $ U\left({\boldsymbol{r}}_{i},{\boldsymbol{r}}_{j}\right)=\frac{G}{\left\|{\boldsymbol{r}}_{ij}\right\|}+\mathrm{lg}\left\|{\boldsymbol{r}}_{ij}\right\|. $

式中： $ G $为机器人之间的理想距离，通过调节G的大小可以实现群集的收缩或扩张. 当 $ \left\|{\boldsymbol{r}}_{ij}\right\|\to 0 $或者 $ \left\|{\boldsymbol{r}}_{ij}\right\|\to \infty $时， $ U({\boldsymbol{r}}_{i},{\boldsymbol{r}}_{j})\to \infty $；当 $ \left\|{\boldsymbol{r}}_{ij}\right\|=G $时，机器人 $ {v}_{i} $、 $ {v}_{j} $间的相对势能取最小值

集中式专家控制律定义为

(13) $ {\boldsymbol{u}}_{i}^{*}= -\sum _{j=1}^{N}\left({\boldsymbol{v}}_{i}-{\boldsymbol{v}}_{j}\right)-\sum _{j=1}^{N}{\nabla }_{{\boldsymbol{r}}_{i}}U\left({\boldsymbol{r}}_{i},{\boldsymbol{r}}_{j}\right). $

该控制律由2个部分组成：相对速度的矢量和用于控制实现速度一致性；相对势能的梯度定义机器人之间的作用力，用于维持群集聚集和避免碰撞.

将分布式专家控制律定义为

(14) $ {\boldsymbol{u}}_{i}^{{\rm{d}}}= -\sum _{{v}_{j}\in {\mathcal{N}}_{i}}\left({\boldsymbol{v}}_{i}-{\boldsymbol{v}}_{j}\right)-\sum _{{v}_{j}\in {\mathcal{N}}_{i}}{\nabla }_{{\boldsymbol{r}}_{i}}U\left({\boldsymbol{r}}_{i},{\boldsymbol{r}}_{j}\right). $

与式(13)不同，式(14)中节点的参考信息只来源于一阶邻居节点. 因此，式(14)是典型的分布式人工势场法，在本研究中将作为基准算法对比评估学习策略的性能.

专家数据集中，每个回合的群集初始状态随机生成，每个元素对应该回合的1个采样时间，由当前群集状态、专家控制量、下个时刻的群集状态、单步奖励组成. 群集状态的过渡由专家控制量决定，单步专家控制量用坐标形式的期望加速度矢量表示，专家控制量可以覆盖主要的策略空间，单步奖励包括速度标准差和图重要度熵.

3.2. 重要度相关图卷积网络

重要度相关图卷积网络由图卷积网络改进而来，并针对提升群集鲁棒性的要求进行优化设计. 重要度相关图卷积网络结构如图2所示. 图中， $ F $为机器人的观测量维度， $\boldsymbol{X}\in {{\bf{R}}}^{N\times F}$表示机器人群集观测矩阵， ${{\boldsymbol{S}}}$表示图位移算子， ${{{{\boldsymbol{SX}}}}}_{\cdot f}(f= \mathrm{1,2},\cdots , F)$表示对观测矩阵某一特征维度的图卷积， $ C $为网络输出的特征向量维度. ${\boldsymbol{x}}_{i,n}\in {\bf{R}}^{F}$为第 $ i $个机器人在第 $ n $个采样时间的观测向量，所有机器人在第 $ n $个时刻的观测矩阵 ${\boldsymbol{X}}_{n}\in {{\bf{R}}}^{N\times F}$可以表示为

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 重要度相关图卷积网络结构

Fig.2 Structure of importance-correlated graph convolution networks

(15) $ {\boldsymbol{X}}_{n}=\left[\begin{array}{c}{\left({\boldsymbol{x}}_{1,n}\right)}^{{\rm{T}}}\\ \vdots \\ {\left({\boldsymbol{x}}_{N,n}\right)}^{{\rm{T}}}\end{array}\right]. $

机器人观测量 $ {\boldsymbol{x}}_{i,n} $表示为

(16) $ {\boldsymbol{x}}_{i,n} = \left[ \sum _{{v}_{j}\in {\mathcal{N}}_{i}} {\boldsymbol{r}}_{ij,n}, \sum _{{v}_{j}\in {\mathcal{N}}_{i}} ({\boldsymbol{v}}_{i,n}-{\boldsymbol{v}}_{j,n}), \sum _{{v}_{j}\in {\mathcal{N}}_{i}}\frac{{\boldsymbol{r}}_{ij,n}}{{\left\|{\boldsymbol{r}}_{ij,n}\right\|}^{2}},\right. \left. \sum _{{v}_{j}\in {\mathcal{N}}_{i}} \frac{{\boldsymbol{r}}_{ij,n}}{{\left\|{\boldsymbol{r}}_{ij,n}\right\|}^{3}} \right]. $

式（16）前2项分别代表机器人 $ {v}_{i} $与一阶邻居 $ {v}_{j} $的相对距离和速度的矢量和，后2项与式(12)定义的势能函数梯度相关. 本研究假设机器人可以直接观测到其一阶邻居的速度和位置信息.

邻接矩阵和拉普拉斯矩阵常用于形式化描述机器人节点之间的通信关系，这类矩阵也被称为图位移算子. 考虑时变局部通信，统一用 $ {\boldsymbol{S}}_{n} $表示 $ n\mathrm{时}\mathrm{刻} $对应的图位移算子. 图位移操作 $ {\boldsymbol{S}}_{n}{\boldsymbol{X}}_{n} $实现了 $ n $时刻图信号沿边的线性转移与重新组合. 邻接矩阵和拉普拉斯矩阵为一阶子图中的每个节点赋予相同的权重. 也就是说，只要节点间建立了通信关系，那么它们的信息将被等权重交互聚合. 本研究认为，机器人群集不同的节点和链路之间重要性不同，在信息聚合的过程中所占的权重也应有所区分，因此提出使用加权链路收缩度矩阵替代传统的图位移算子. 基于链路收缩度 $ \mathrm{deg}\;{(e}_{ij}) $以及链路重要性衰减系数 $ {\omega }_{ij} $，评价来自不同节点信息的重要性. 为了保证控制策略的通用性，对同个节点所有链路的权重进行归一化处理，加权链路收缩度矩阵的各元素可以表示为

(17) $ \left[\boldsymbol{S}^{*}\right]_{i j}=\left\{\begin{split} &-\dfrac{\omega_{i j} \operatorname{deg}\;\left(e_{i j}\right)}{\displaystyle\sum_{v_{j} \in \mathcal{N}_{i}} \omega_{i j} \operatorname{deg}\;\left(e_{i j}\right)},\, e_{i j} \in \mathcal{E} ; \\ &1, \,\,\,\,\,\qquad\qquad\qquad\quad i=j ; \\ &0, \,\,\,\,\qquad\qquad\qquad\quad \text{其他. } \end{split}\right. $

加权链路收缩度矩阵使机器人节点倾向于维持收缩度高、长度更接近最佳通信距离的链路的稳定性，提高节点对来自骨干网络和重要邻居节点的信息的关注度，减小非关键节点的异动对整个群集的影响.

图卷积层可以定义为不同阶子图位移操作的加权线性组合^[8]：

(18) $ \mathcal{A}\left({\boldsymbol{X}}_{n};{\boldsymbol{S}}_{n}\right)=\sum _{k=0}^{K-1}\left({\boldsymbol{S}}_{n}^{k}{\boldsymbol{X}}_{n}{\boldsymbol{A}}_{n}\right). $

式中： ${\boldsymbol{S}}_{n}\in {{\bf{R}}}^{N\times N}$为描述 $ n $时刻的图结构； ${\boldsymbol{X}}_{n}\in {{\bf{R}}}^{N\times F}$为 $ n $时刻系统的观测矩阵； ${\boldsymbol{A}}_{n}\in {{\bf{R}}}^{F\times C}$为待学习的滤波系数矩阵，权值与各个节点共享； $ K $为参与中心节点图卷积的子图阶数，即节点行为决策所参考的信息范围. 1个完整的图卷积神经网络包括 $ L $层，第 $ l(l=\mathrm{1,2},\cdots ,L) $层除图卷积层外，还包括图激活函数层^[8]：

(19) $ {\boldsymbol{X}}_{l}=\eta \left[{\mathcal{A}}_{l}({\boldsymbol{X}}_{l-1};{\boldsymbol{S}}_{l-1})\right]. $

第 $ l $层的输入是维度为 $ {N\times F}_{l-1} $的图信号矩阵，输出是维度为 $ {N\times F}_{l} $维的图信号矩阵，末层的输出 ${{\boldsymbol{X}}_{L}=\boldsymbol{U}}_{n}$为每个机器人的动作策略.

通过模仿专家数据集，生成分布式协同控制策略，优化目标为

(20) $ {\boldsymbol{A}}^{*}=\mathrm{arg}\;\underset{\boldsymbol{A}}{\mathrm{mi}\mathrm{n}}\sum _{({\boldsymbol{u}}_{n}^{*},{\boldsymbol{X}}_{n},{\boldsymbol{S}}_{n})\in \mathcal{T}}\mathcal{L}\left({\boldsymbol{U}}_{n},{\boldsymbol{u}}_{n}^{*}\right). $

式中： $ \boldsymbol{A} $为待训练的滤波系数矩阵； $ \mathcal{T} $为专家数据集； $ \mathcal{L}\left({\boldsymbol{U}}_{n},{\boldsymbol{u}}_{n}^{*}\right) $为专家控制量和模型输出之间的平方损失函数. 训练目标为通过调节 $ \boldsymbol{A} $实现损失函数累加和的最小化，同时获得优化的控制策略. 个体的计算和通信负荷随与智能体通信的个体数目的增加呈指数级增长. 受限于分布式控制结构和群集避碰要求，实际与每个个体通信的机器人数目都被控制在可接受的范围内.

4. 仿真实验结果

为了验证本研究所得协同控制策略相对于其他分布式控制策略的优越性，选择基于延迟聚合图神经网络^[12]（delayed aggregation graph neural networks, DAGNNs）的分布式控制策略以及式(14)进行对比；集中式专家算法也同时参与对比，用以验证模仿学习的效果.

仿真平台基于Gym搭建，参考文献[9]提供的开源网络框架. 针对7个机器人构成的小规模群集，分别使用上述4种控制策略进行200个回合的测试，结果如表1所示. 表中，速度奖励 $ \stackrel{-}{\sigma } $定义为所有回合中速度标准差累加和的均值，为了保证奖励大小与速度一致性优劣的正相关性，取其相反数；图重要度熵 $ \stackrel{-}{{E}_{\mathrm{G}}} $为每个回合单步图重要度熵的均值；成功率Acc为所有回合中未出现群集分裂现象的回合所占的比例，群集分裂通过判断群集通信拓扑是否构成连通图来确定.

表 1 群集控制策略量化评价

Tab.1 Quantitative evaluation of swarm control strategies

群集控制策略	$ \stackrel{-}{\sigma } $	$ \stackrel{-}{{E}_{\mathrm{G}}} $	Acc
集中式专家策略	−52.878	1.891	1.000
IGCNs	−126.183	1.876	0.910
DAGNNs	−225.831	1.669	0.755
分布式专家策略	−1199.251	1.215	0.080

新窗口打开| 下载CSV

选取测试集中的某个回合， 4种策略控制下的群集稳定形态如图3所示. 图中， $ X $、 $ Y $分别表示机器人在二维平面的横纵坐标. 由图3 (e)可以看出，在分布式专家算法控制下的群集最终完全分裂. 如图4所示为所取测试回合中，2种基于图神经网络的控制策略在单步速度奖励和图重要度熵指标上的变化趋势. 图中， $\sigma $为单步速度奖励，E_G为图重要度熵，st为步数. 可以发现：1)从量化评价结果和群集稳定形态来看，通过模仿学习，2种基于图神经网络的分布式控制策略实现了接近集中式专家算法，并且显著优于分布式专家策略的控制效果. 2)比较2种基于图神经网络的控制策略的量化评价指标，基于IGCNs实现的群集控制，在速度一致性、群集鲁棒性上均明显好于基于DAGNNs的分布式控制策略. 特别是在避免群集分裂的成功率指标上，基于IGCNs的控制策略远好于后者. 从速度标准差的变化情况来看，尽管基于IGCNs的策略实现群集速度一致的时间略长，但所达到的稳态值更接近0，这意味着更好的速度一致性. 从图重要度熵的变化情况来看，基于IGCNs的策略的表现明显优于基于DAGNNs的策略，在群集的稳定形态上表现为更加均衡的节点和链路分布以及更充分的通信链接，具备更强的群集鲁棒性.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 不同策略控制下的机器人群集初始和稳定形态

Fig.3 Initial and stable formations of robot swarm under control of different strategies

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 选取的测试回合中单步量化评价指标变化情况

Fig.4 Variation of step quantitative evaluation value in selected episode

5. 结　语

本研究采用基于重要度相关图卷积网络的模仿学习算法，得到了分布式群集控制策略. 经过仿真实验验证，该策略能够实现接近于集中式专家策略的控制效果，且远好于分布式专家策略的控制效果. 与同类型方法相比，本研究得到的分布式群集控制策略在提升群集鲁棒性方面拥有显著的优势. 本研究没有验证算法的扩展性，无法保证算法能直接适用于更大规模的群集控制，未来计划对算法开展实物验证.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

GARATTONI L, BIRATTARI M

Autonomous task sequencing in a robot swarm

[J]. Science Robotics, 2018, 3 (20): eaat0430

DOI:10.1126/scirobotics.aat0430 [本文引用: 1]

[2]

VÁSÁRHELYI G, VIRÁGH C, SOMORIAI G, et al

Optimized flocking of autonomous drones in confined environments

[J]. Science Robotics, 2018, 3 (20): eaat3536

DOI:10.1126/scirobotics.aat3536

[3]

KHALDI B, HARROU F, CHERIF F, et al

Self organization in aggregating robot swarms: a DW-KNN topological approach

[J]. Biosystems, 2018, 165: 106- 121

DOI:10.1016/j.biosystems.2018.01.005

[4]

YAN L, STOURAITIS T, VIJAYKUMAR S

Decentralized ability-aware adaptive control for multi-robot collaborative manipulation

[J]. IEEE Robotics and Automation Letters, 2021, 6 (2): 2311- 2318

DOI:10.1109/LRA.2021.3060379

[5]

ZHOU L, TOKEKAR P

Multi-robot coordination and planning in uncertain and adversarial environments

[J]. Current Robotics Reports, 2021, 2 (2): 147- 157

DOI:10.1007/s43154-021-00046-5

[6]

ZHOU Z, YAO W, MA J, et al. Simatch: a simulation system for highly dynamic confrontations between multi-robot systems [C]// 2018 Chinese Automation Congress. Xi’an: IEEE, 2018: 3934-3939.

[本文引用: 1]

[7]

REYNOLDS C W. Flocks, herds and schools: a distributed behavioral model [C]// Proceedings of the 14th annual conference on Computer graphics and interactive techniques. New York: Association for Computing Machinery, 1987: 25-34.

[本文引用: 1]

[8]

PROROK A, KUMAR V. Privacy-preserving vehicle assignment for mobility-on-demand systems [C]// 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver: IEEE, 2017: 1869-1876.

[本文引用: 3]

[9]

ZHENG H, PANERATI J, BELTRAME G, et al

An adversarial approach to private flocking in mobile robot teams

[J]. IEEE Robotics and Automation Letters, 2020, 5 (2): 1009- 1016

DOI:10.1109/LRA.2020.2967331 [本文引用: 1]

[10]

LI L, BAYUELO A, BOBADILLA L, et al. Coordinated multi-robot planning while preserving individual privacy [C]// 2019 International Conference on Robotics and Automation. Montreal: IEEE, 2019: 2188-2194.

[本文引用: 1]

[11]

LI Q, GAMA F, RIBEIRO A, et al. Graph neural networks for decentralized multi-robot path planning [C]// 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas: IEEE, 2020: 11785-11792.

[本文引用: 1]

[12]

TOLSTAYA E, GAMA F, PAULOS J, et al. Learning decentralized controllers for robot swarms with graph neural networks [C]// Conference on robot learning. Osaka: PMLR. 2020: 671-682.

[本文引用: 2]

[13]

ZHU P, DAI W, YAO W, et al

Multi-robot flocking control based on deep reinforcement learning

[J]. IEEE Access, 2020, 8: 150397- 150406

DOI:10.1109/ACCESS.2020.3016951 [本文引用: 1]

[14]

WANG Z, GOMBOLAY M

Learning scheduling policies for multi-robot coordination with graph attention networks

[J]. IEEE Robotics and Automation Letters, 2020, 5 (3): 4509- 4516

DOI:10.1109/LRA.2020.3002198 [本文引用: 1]

[15]

HU T K, GAMA F, CHEN T, et al. VGAI: end-to-end learning of vision-based decentralized controllers for robot swarms [C]// ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 4900-4904.

[本文引用: 2]

[16]

GAMA F, TOLSTAYA E, RIBEIRO A. Graph neural networks for decentralized controllers [C]// ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 5260-5264.

[本文引用: 1]

[17]

WANG Z, LIU C, GOMBOLAY M

Heterogeneous graph attention networks for scalable multi-robot scheduling with temporospatial constraints

[J]. Autonomous Robots, 2022, 46 (1): 249- 268

DOI:10.1007/s10514-021-09997-2 [本文引用: 1]

[18]

JIANG Y, HU A, HE M. Evaluation method for the network reliability based on the entropy measures [C]// 2009 International Conference on Networks Security, Wireless Communications and Trusted Computing. Wuhan: IEEE, 2009, 2: 423-426.

[本文引用: 1]

[19]

TANNER H G, JADBABAIE A, PAPPAS G J. Stable flocking of mobile agents, part I: fixed topology [C]// 42nd IEEE International Conference on Decision and Control. Maui: IEEE, 2003, 2: 2010-2015.

[本文引用: 1]

[20]

TANNER H G, JADBABAIE A, PAPPAS G J. Stable flocking of mobile agents, part II: dynamic topology [C]// 42nd IEEE International Conference on Decision and Control. Maui: IEEE, 2003, 2: 2016-2021.

[本文引用: 1]

Autonomous task sequencing in a robot swarm

2018

... 随着人工智能和机器人技术的快速发展，多机器人系统受到越来越广泛的关注^[1-6]. 群集问题是多机器人协同控制领域的重要研究方向，其目标是在避免群集内碰撞和保持通信的基础上实现群集速度的一致性. 研究者曾通过模拟如鸟群迁徙、鱼群捕食的生物群集行为，实现多机器人系统整体上的协调一致和高效移动. 整体上协调一致的形态对于提高个体存活率、提高完成任务的质量和效率、降低能量消耗等问题至关重要. ...

Optimized flocking of autonomous drones in confined environments

2018

Self organization in aggregating robot swarms: a DW-KNN topological approach

2018

Decentralized ability-aware adaptive control for multi-robot collaborative manipulation

2021

Multi-robot coordination and planning in uncertain and adversarial environments

2021

... 群集问题也被称为基于行为的编队控制问题. 类似生物界群集的形成和保持方式，机器人群集中的每个个体会根据局部观测信息进行独立分析，对应做出聚集和避障动作，实现多机器人编队. Reynolds^[7]在对鸟群飞行建模的过程中，提出群集行为的3条基本规则：避免碰撞、速度一致和群集聚集. 关于群集问题鲁棒性的研究相对较少. 有研究者从群集对抗的视角出发，将此类问题定义为群集的私密性问题^[8-10]，重点研究如何通过调整群集中个体的行为，使得多机器人系统在编队形成和保持的过程中，尽量少地暴露群集中个体的重要度排序，减少群集关键个体被发现、摧毁，造成群集分裂的情况. ...

... 图卷积层可以定义为不同阶子图位移操作的加权线性组合^[8]： ...

... 式中：

${\boldsymbol{S}}_{n}\in {{\bf{R}}}^{N\times N}$

为描述

$ n $

时刻的图结构；

${\boldsymbol{X}}_{n}\in {{\bf{R}}}^{N\times F}$

为

$ n $

时刻系统的观测矩阵；

${\boldsymbol{A}}_{n}\in {{\bf{R}}}^{F\times C}$

为待学习的滤波系数矩阵，权值与各个节点共享；

$ K $

为参与中心节点图卷积的子图阶数，即节点行为决策所参考的信息范围. 1个完整的图卷积神经网络包括

$ L $

层，第

$ l(l=\mathrm{1,2},\cdots ,L) $

层除图卷积层外，还包括图激活函数层^[8]： ...

An adversarial approach to private flocking in mobile robot teams

2020

... 仿真平台基于Gym搭建，参考文献[9]提供的开源网络框架. 针对7个机器人构成的小规模群集，分别使用上述4种控制策略进行200个回合的测试，结果如表1所示. 表中，速度奖励

$ \stackrel{-}{\sigma } $

定义为所有回合中速度标准差累加和的均值，为了保证奖励大小与速度一致性优劣的正相关性，取其相反数；图重要度熵

$ \stackrel{-}{{E}_{\mathrm{G}}} $

为每个回合单步图重要度熵的均值；成功率Acc为所有回合中未出现群集分裂现象的回合所占的比例，群集分裂通过判断群集通信拓扑是否构成连通图来确定. ...

... 多机器人协同控制方法按照控制形式可以分为2个大类：集中式控制和分布式控制. 针对这2类方法的不足，研究者提出基于模仿学习进行多机器人协同控制的方法，基于分布式架构和局部观测信息，对集中式专家算法进行行为克隆，得到规划控制效果与其相近的分布式控制策略. 同时，将模仿学习与图神经网络相结合，有效提取和利用局部观测信息，解决了系统中机器人数量变化导致的观测维度变化问题. 利用类似的方法，研究者实现了多机器人路径规划^[11]、多机器人群集协同控制^[12-13]、多机器人任务分配^[14]等工作. 还有一些新的工作使用图卷积神经网络^[15]、图循环神经网络^[16]、图注意力网络^[17]等方法解决在通信延迟条件下，基于行为和原始视觉图像的编队控制问题. ...

... 为了验证本研究所得协同控制策略相对于其他分布式控制策略的优越性，选择基于延迟聚合图神经网络^[12]（delayed aggregation graph neural networks, DAGNNs）的分布式控制策略以及式(14)进行对比；集中式专家算法也同时参与对比，用以验证模仿学习的效果. ...

Multi-robot flocking control based on deep reinforcement learning

2020

Learning scheduling policies for multi-robot coordination with graph attention networks

2020

... 基于经典的人工势场法生成专家数据集. 为了充分发挥集中式专家算法的性能，选择在小规模群集执行专家策略生成专家数据集，并假设群集中的每个个体都能实现全局通信实时获取所有节点的数据，这就形成了稳定的全连接图. 由文献[15]可知，基于人工势场可以在实现速度一致的同时避免碰撞，保证群集中的每个个体相对于群集的势能最低. ...

Heterogeneous graph attention networks for scalable multi-robot scheduling with temporospatial constraints

2022

... 提高群集的鲁棒性须对群集的鲁棒性优劣进行客观评价. 在具有稀疏通信关系的机器人群集中，机器人依赖局部通信传递信息，通信中断意味着群集的分裂. 因此在某种程度上，通信网络的可靠性等价于群集的鲁棒性. 在通信领域中，为了评价通信网络的可靠性，研究者提出基于熵评价的通信网络可靠性量化评价方法^[18]. ...

... 人工势场法是解决群集问题的经典方法，通过定义群集内个体的吸引力、排斥力和对齐力的组合，实现群集协同控制. 文献[19]、[20]中基于全局信息的人工势场法可以为群集问题提供全局最优的解决方案. 但是对于机器人群集来说，获取全局信息不仅大大加重了通信负荷，也不适合局部通信结构. ...

〈

〉