基于图卷积模仿学习的分布式群集控制
Decentralized swarm control based on graph convolutional imitation learning
通讯作者:
收稿日期: 2022-02-27
基金资助: |
|
Received: 2022-02-27
Fund supported: | 国家自然科学基金资助项目(U1913202,U1813205) |
作者简介 About authors
郭策(1997—),男,博士生,从事智能机器人技术研究.orcid.org/0000-0002-4472-4604.E-mail:
针对受限通信条件下机器人群集协同控制问题,提出基于图卷积模仿学习的分布式群集控制策略. 该策略旨在实现群集内避障、速度一致性的基础上,提高群集鲁棒性,提升避免群集分裂的成功率. 提出基于熵评价的群集鲁棒性量化评价指标,建立节点和链路重要性的均衡分布与群集鲁棒性的联系. 提出重要度相关图卷积网络,用于实现受限通信条件下非欧氏数据的特征提取和加权聚合. 采用图卷积模仿学习方法,根据提升群集鲁棒性的要求设计集中式专家策略,通过对集中式专家策略的模仿,得到分布式群集协同控制策略. 设计仿真实验,证明所得的分布式策略基于受限通信条件实现了接近集中式的专家策略的控制效果.
关键词:
A distributed swarm control strategy based on graph convolutional imitation learning was proposed to deal with the cooperative control of robot swarms under restricted communication conditions. The strategy aimed to improve swarm robustness and enhance the success rate of avoiding swarm splitting based on achieving intra-swarm obstacle avoidance and velocity consistency. A quantitative evaluation index of swarm robustness based on entropy evaluation was proposed to establish the connection between the balanced distribution of node and link importance and cluster robustness. The importance-correlated graph convolutional networks were proposed to realize feature extraction and weighted aggregation of non-Euclidean data under restricted communication conditions. A centralized expert strategy was designed to improve swarm robustness, and the graph convolutional imitation learning method was adopted. Furthermore, a distributed swarm cooperative control strategy was obtained by imitating the centralized expert strategy. Simulation experiments demonstrate that the resulting distributed strategy achieves control effects close to those of the centralized expert strategy based on restricted communication conditions.
Keywords:
本文引用格式
郭策, 曾志文, 朱鹏铭, 周智千, 卢惠民.
GUO Ce, ZENG Zhi-wen, ZHU Peng-ming, ZHOU Zhi-qian, LU Hui-min.
群集问题一般只依赖局部的观测和信息交互,在没有外部宏观行为指导的条件下,形成的群集形态和速度很大程度上由群集初始状态决定. 不确定的随机初始状态加上局部的信息结构,使得群集只能形成局部最优的群集稳定形态,也就导致少数关键节点和链路的形成. 关键节点和链路的失效将对群集结构造成重大破坏,常会由于信息传递通路断裂导致群集分裂,使得群集整体表现出较差的鲁棒性. 这种情况在当群集规模较小、通信受限时更为突出.
多机器人协同控制方法按照控制形式可以分为2个大类:集中式控制和分布式控制. 针对这2类方法的不足,研究者提出基于模仿学习进行多机器人协同控制的方法,基于分布式架构和局部观测信息,对集中式专家算法进行行为克隆,得到规划控制效果与其相近的分布式控制策略. 同时,将模仿学习与图神经网络相结合,有效提取和利用局部观测信息,解决了系统中机器人数量变化导致的观测维度变化问题. 利用类似的方法,研究者实现了多机器人路径规划[11]、多机器人群集协同控制[12-13]、多机器人任务分配[14]等工作. 还有一些新的工作使用图卷积神经网络[15]、图循环神经网络[16]、图注意力网络[17]等方法解决在通信延迟条件下,基于行为和原始视觉图像的编队控制问题.
本研究旨在实现稀疏通信环境中的强鲁棒性分布式群集协同控制,通过在群集运动中维持节点和链路重要性的均衡分布,提升群集鲁棒性,有效减少群集分裂现象.
1. 问题描述
考虑二维平面上的
下文将
使用无向图描述机器人群集. 无向图可以表示为顶点和边的集合,记为
进一步定义
如果无向图中存在孤立的顶点,没有任何边与之相连,这样的图称为非连通图;如果不存在孤立顶点,则称为连通图. 如果机器人群集的通信拓扑图是非连通的,则表示群集出现分裂,分裂出去的机器人个体将无法获取来自其他个体的任何行为参考数据,它的行为也不会被其他机器人所参考. 如果图中的每个节点都与其他所有节点通过链路直接相连,则称为全连通图.
对于不考虑通信限制且规模较大的机器人群集来说,网络中节点和链路具有较高的冗余度,个别节点或者链路失效对整个群集影响较小. 本研究针对小规模群集协同控制进行,考虑群集只能依靠局部通信获取有效信息.
2. 群集鲁棒性量化评价
提高群集的鲁棒性须对群集的鲁棒性优劣进行客观评价. 在具有稀疏通信关系的机器人群集中,机器人依赖局部通信传递信息,通信中断意味着群集的分裂. 因此在某种程度上,通信网络的可靠性等价于群集的鲁棒性. 在通信领域中,为了评价通信网络的可靠性,研究者提出基于熵评价的通信网络可靠性量化评价方法[18].
在信息学中,香农信息熵用于评价信源的不确定性,其值表示消除信源不确定性需要的信息量. 对于随机变量
式中:
信息熵还应满足以下条件:1)当
机器人群集内节点和链路的重要程度也是信息. 从群集外部来看,重要度越高的节点和链路,越容易成为被攻击的目标;从群集内部来看,实现节点和链路重要度的均衡分布,有助于减小个别节点或者链路失效对群集造成重大影响的总体风险. 因此,群集鲁棒性的强弱取决于节点和链路重要度是否实现均衡分布,分布越均衡,单个节点或者链路失效对群集的影响就越小. 参考信息熵定义,定义链路和节点重要度熵作为评价群集鲁棒性的量化指标.
当节点失效的时候,会导致与其直接相连的通信链路失效,节点的度越大,失效对网络的影响越大. 定义节点
参照信息熵的定义,定义节点重要度熵为
当所有节点均有相同的重要度时,节点重要度取最大值
定义链路重要度要先明确链路收缩度的概念. 链路收缩度是将2个相连节点沿链路方向收缩成1个新节点后,与新节点直接相连的节点个数,用
链路的重要性不仅体现在链路收缩度上,还体现在链路长度上,链路长度一致有助于实现节点的均匀分布,进而有助于节点和链路重要性的均衡分布. 对于1条链路来说,长度越接近当前平均的链路长度,其重要度越高,越应该得到维持与保护. 定义链路重要度衰减系数
式中:
对于机器人群集来说,在确保个体间不发生相互碰撞的前提下,结构越紧凑,链路的数量越多,链路的重要度分布越均衡,链路重要度熵越高. 图重要度熵
图重要度熵通过量化评价群集节点和链路的重要度一致性来评价机器人群集的鲁棒性. 图重要度熵越大,表示节点和链路的重要度一致性越好,重要度分布越均衡,个别节点和链路的失效对群集的影响也就越小,群集的鲁棒性也就越强.
3. 基于重要度相关图卷积网络的模仿学习
为了解决受限通信环境下控制策略陷入局部最优的问题,本研究采用基于图神经网络的模仿学习方法,使用集中式专家算法生成学习模板,利用图神经网络实现群集观察量到群集控制量的映射,通过优化模型参数最小化专家数据与模型输出误差,使得学习策略基于分布式架构实现接近集中式专家算法的控制效果. 为了提高群集的鲁棒性,本研究提出重要度相关图卷积网络(importance-correlated graph convolution networks, IGCNs),从专家数据集的生成、图位移算子的设计方面对原始的图卷积网络进行优化. 如图1所示为本研究所提方法的框架. 图中,
图 1
图 1 重要度相关图卷积网络模仿学习框架
Fig.1 Framework for imitation learning based on importance-correlated graph convolutional networks
3.1. 专家数据集的生成
基于经典的人工势场法生成专家数据集. 为了充分发挥集中式专家算法的性能,选择在小规模群集执行专家策略生成专家数据集,并假设群集中的每个个体都能实现全局通信实时获取所有节点的数据,这就形成了稳定的全连接图. 由文献[15]可知,基于人工势场可以在实现速度一致的同时避免碰撞,保证群集中的每个个体相对于群集的势能最低.
将机器人
式中:
集中式专家控制律定义为
该控制律由2个部分组成:相对速度的矢量和用于控制实现速度一致性;相对势能的梯度定义机器人之间的作用力,用于维持群集聚集和避免碰撞.
将分布式专家控制律定义为
与式(13)不同,式(14)中节点的参考信息只来源于一阶邻居节点. 因此,式(14)是典型的分布式人工势场法,在本研究中将作为基准算法对比评估学习策略的性能.
专家数据集中,每个回合的群集初始状态随机生成,每个元素对应该回合的1个采样时间,由当前群集状态、专家控制量、下个时刻的群集状态、单步奖励组成. 群集状态的过渡由专家控制量决定,单步专家控制量用坐标形式的期望加速度矢量表示,专家控制量可以覆盖主要的策略空间,单步奖励包括速度标准差和图重要度熵.
3.2. 重要度相关图卷积网络
重要度相关图卷积网络由图卷积网络改进而来,并针对提升群集鲁棒性的要求进行优化设计. 重要度相关图卷积网络结构如图2所示. 图中,
图 2
图 2 重要度相关图卷积网络结构
Fig.2 Structure of importance-correlated graph convolution networks
机器人观测量
式(16)前2项分别代表机器人
邻接矩阵和拉普拉斯矩阵常用于形式化描述机器人节点之间的通信关系,这类矩阵也被称为图位移算子. 考虑时变局部通信,统一用
加权链路收缩度矩阵使机器人节点倾向于维持收缩度高、长度更接近最佳通信距离的链路的稳定性,提高节点对来自骨干网络和重要邻居节点的信息的关注度,减小非关键节点的异动对整个群集的影响.
图卷积层可以定义为不同阶子图位移操作的加权线性组合[8]:
式中:
第
通过模仿专家数据集,生成分布式协同控制策略,优化目标为
式中:
4. 仿真实验结果
为了验证本研究所得协同控制策略相对于其他分布式控制策略的优越性,选择基于延迟聚合图神经网络[12](delayed aggregation graph neural networks, DAGNNs)的分布式控制策略以及式(14)进行对比;集中式专家算法也同时参与对比,用以验证模仿学习的效果.
表 1 群集控制策略量化评价
Tab.1
群集控制策略 | | | Acc |
集中式专家策略 | −52.878 | 1.891 | 1.000 |
IGCNs | −126.183 | 1.876 | 0.910 |
DAGNNs | −225.831 | 1.669 | 0.755 |
分布式专家策略 | −1199.251 | 1.215 | 0.080 |
选取测试集中的某个回合, 4种策略控制下的群集稳定形态如图3所示. 图中,
图 3
图 3 不同策略控制下的机器人群集初始和稳定形态
Fig.3 Initial and stable formations of robot swarm under control of different strategies
图 4
图 4 选取的测试回合中单步量化评价指标变化情况
Fig.4 Variation of step quantitative evaluation value in selected episode
5. 结 语
本研究采用基于重要度相关图卷积网络的模仿学习算法,得到了分布式群集控制策略. 经过仿真实验验证,该策略能够实现接近于集中式专家策略的控制效果,且远好于分布式专家策略的控制效果. 与同类型方法相比,本研究得到的分布式群集控制策略在提升群集鲁棒性方面拥有显著的优势. 本研究没有验证算法的扩展性,无法保证算法能直接适用于更大规模的群集控制,未来计划对算法开展实物验证.
参考文献
Autonomous task sequencing in a robot swarm
[J].DOI:10.1126/scirobotics.aat0430 [本文引用: 1]
Optimized flocking of autonomous drones in confined environments
[J].DOI:10.1126/scirobotics.aat3536
Self organization in aggregating robot swarms: a DW-KNN topological approach
[J].DOI:10.1016/j.biosystems.2018.01.005
Decentralized ability-aware adaptive control for multi-robot collaborative manipulation
[J].
Multi-robot coordination and planning in uncertain and adversarial environments
[J].DOI:10.1007/s43154-021-00046-5
An adversarial approach to private flocking in mobile robot teams
[J].DOI:10.1109/LRA.2020.2967331 [本文引用: 1]
Multi-robot flocking control based on deep reinforcement learning
[J].DOI:10.1109/ACCESS.2020.3016951 [本文引用: 1]
Learning scheduling policies for multi-robot coordination with graph attention networks
[J].DOI:10.1109/LRA.2020.3002198 [本文引用: 1]
Heterogeneous graph attention networks for scalable multi-robot scheduling with temporospatial constraints
[J].DOI:10.1007/s10514-021-09997-2 [本文引用: 1]
/
〈 |
|
〉 |
