浙江大学学报(工学版), 2025, 59(7): 1492-1503 doi: 10.3785/j.issn.1008-973X.2025.07.017

机械与能源工程

基于改进深度强化学习算法的农业机器人路径规划

赵威,, 张万枝,, 侯加林, 侯瑞, 李玉华, 赵乐俊, 程进

1. 山东农业大学 机械与电子工程学院,山东 泰安 271018

2. 农业装备智能化山东省工程研究中心,山东 泰安 271018

3. 北京邮电大学 人工智能学院,北京 100876

4. 山东省设施园艺智慧生产技术装备重点实验室(筹),山东 泰安 271018

Path planning of agricultural robots based on improved deep reinforcement learning algorithm

ZHAO Wei,, ZHANG Wanzhi,, HOU Jialin, HOU Rui, LI Yuhua, ZHAO Lejun, Cheng Jin

1. College of Mechanical and Electronic Engineering, Shandong Agricultural University, Taian 271018, China

2. Shandong Engineering Research Center of Agricultural Equipment Intelligentization, Taian 271018, China

3. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China

4. Shandong Key Laboratory of Intelligent Production Technology and Equipment for Facility Horticulture, Taian 271018, China

通讯作者: 张万枝,男,副教授,硕导,博士. orcid.org/0000-0002-6196-8037. E-mail:zhangwanzhi@163.com

收稿日期: 2024-09-4  

基金资助: 山东省重点研发计划(重大科技创新工程)项目(2022CXGC020703);山东省薯类产业技术体系农业机械岗位专家项目(SDAIT-16-10);山东省重点研发计划(乡村振兴科技创新提振行动计划)项目(2022TZXD006).

Received: 2024-09-4  

Fund supported: 山东省重点研发计划(重大科技创新工程)项目(2022CXGC020703);山东省薯类产业技术体系农业机械岗位专家项目(SDAIT-16-10);山东省重点研发计划(乡村振兴科技创新提振行动计划)项目(2022TZXD006).

作者简介 About authors

赵威(1988—),男,硕士生,从事农机导航控制技术研究.orcid.org/0009-0005-2286-8569.E-mail:zhao868250709@163.com , E-mail:zhao868250709@163.com

摘要

农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法. 利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊. 利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程. 从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率. 实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%.

关键词: 深度强化学习 ; 农业机器人 ; 中间目标点 ; 多目标点导航融合改进深度Q网络算法(MPN-DQN) ; 路径规划

Abstract

In order to solve the problems of difficulty in finding target points, sparse rewards, and slow convergence when using deep reinforcement learning algorithms for path planning of agricultural robots, a path-planning method based on multi-target point navigation integrated improved deep Q-network algorithm (MPN-DQN) was proposed. The laser simultaneous localization and mapping (SLAM) was used to scan the global environment to construct a prior map and divide the walking row and crop row areas, and the map boundary was expanded and fitted to form a forward bow-shaped operation corridor. The middle target point was used to segment the global environment, and the complex environment was divided into a multi-stage short-range navigation environment to simplify the target point search process. The deep Q-network algorithm was improved from three aspects: action space, exploration strategy and reward function to improve the reward sparsity problem, accelerate the convergence speed of the algorithm, and improve the navigation success rate. Experimental results showed that the total number of collisions of agricultural robots equipped with the MPN-DQN algorithm was 1, the average navigation time was 104.27 s, the average navigation distance was 16.58 m, and the average navigation success rate was 95%.

Keywords: deep reinforcement learning ; agricultural robot ; intermediate target point ; multi-target point navigation integrated improved deep Q-network algorithm (MPN-DQN) ; path planning

PDF (2200KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

赵威, 张万枝, 侯加林, 侯瑞, 李玉华, 赵乐俊, 程进. 基于改进深度强化学习算法的农业机器人路径规划. 浙江大学学报(工学版)[J], 2025, 59(7): 1492-1503 doi:10.3785/j.issn.1008-973X.2025.07.017

ZHAO Wei, ZHANG Wanzhi, HOU Jialin, HOU Rui, LI Yuhua, ZHAO Lejun, Cheng Jin. Path planning of agricultural robots based on improved deep reinforcement learning algorithm. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(7): 1492-1503 doi:10.3785/j.issn.1008-973X.2025.07.017

随着人工智能技术的快速发展,自动导航作业机器人已应用到农业生产的各个方面[1-2]. 农业机器人在进行自动导航作业前,须根据先验环境进行路径规划[3]. 路径规划是农业自动导航的核心技术,机器人须在不碰撞障碍物的前提下规划出寻路代价较低的作业路径,以提高工作效率和作业稳定性[4-6].

农业机器人路径规划主要分为传统路径规划和基于深度强化学习的路径规划. 传统路径规划主要分为采样式搜索算法和启发式搜索算法,常见的有快速扩展随机树(rapidly-exploration random tree,RRT)算法、A*算法、蚁群算法等. 刘天湖等[7]提出应用于菠萝采收机器人领域的改进RRT算法;劳彩莲等[8]将A*算法和动态窗口法(dynamic window approach,DWA)进行融合,应用于温室机器人路径规划;景云鹏等[9]提出基于改进蚁群算法的农田机器人路径规划方法. 传统路径规划属于搜索式的非学习类算法,在农业机器人自主导航过程中对环境的自适应能力较弱,作业场景尺寸发生变化或切换作业场景后,须重新搜索路径;新路径因折线段偏多、折线角度偏大而不能直接使用,须融合其他改进算法进行二次平滑处理,降低了工作效率[10-12]. 基于深度强化学习的路径规划是将深度学习的感知能力和强化学习的决策能力相结合,通过控制智能体在大规模、复杂环境中进行学习和决策来获得最大奖励值[13-14],能够解决农业机器人在自动导航过程中对环境自适应调整能力不足的问题. 其中在路径规划上应用广泛的深度Q网络算法(deep Q-Network,DQN),它通过神经网络计算每个动作的Q值并选择最优动作与环境进行交互[15-16],存在难以找到目标点、奖励稀疏、收敛缓慢等问题[17-18]. 为此,有学者进行了算法改进. 李航等[19]针对茶叶采摘场景提出基于采摘点空间位置和中间难度点结合的方式改进奖励函数,改善了奖励稀疏问题,但存在奖励值振荡剧烈,探索效率偏低的问题. 林俊强等[20]提出针对果园场景的基于人工势场法思想的多维奖励函数,提高了移动采摘机器人的导航成功率,但机器人在复杂场景中的自适应能力较弱,增加了碰撞风险. 熊春源等[21]针对柑橘种植园场景提出以人工势场法结合长短时记忆(long short-term memory, LSTM)方式改进的深度强化学习算法,降低了柑橘采摘机械的路径规划时间和路径长度,但训练过程存在陷入局部最优、收敛速度缓慢的问题.

本研究以农业设施场景为基础,针对传统DQN难以找到目标点、奖励稀疏、收敛缓慢等问题,提出基于多目标点导航融合改进DQN的路径规划方法. 1)利用激光同步定位与建图(simulaneous localization and mapping, SLAM)方式构建全局环境地图,根据全局地图确定不可通行区域,利用多目标点导航方式分割全局环境,简化导航过程. 2)从动作空间、探索策略和奖励函数3个方面改进DQN. 3)在农业机器人前向弓字形作业环境中进行改进算法的仿真与实验验证.

1. 算法原理

1.1. 传统深度Q网络算法

传统DQN是针对强化学习算法Q-Learning的改进算法[22],Q-Learning算法的核心是将状态和动作构建成Q表来存储动作Q值,并根据Q值选取能够获得最大收益的动作[23]. 传统DQN通过神经网络代替Q-Learning算法中的Q表,根据当前状态s选出最优动作a,能够有效解决因状态空间过大引发的维度灾难问题[24]. 将神经网络近似函数表示为

$ Q(s,a;w) \approx q(s,a). $

式中:Q(s,a;w)为动作价值函数,w为模型参数,q(s,a)为的动作Q值. 利用经验回放机制将每个时间步智能体与环境交互得到的转移样本{statrtst+1}存到经验池中并随机挑选出一部分进行训练,有效解决样本相关性及非静态分布问题[25-27]. 采用评估网络和目标网络并行方式计算时间差分目标值,以此计算损失函数,通过梯度下降方法更新评估网络参数[28],再利用延时同步目标网络参数的方式防止过拟合[29-30]. 时间差分目标值计算式、损失函数和网络参数更新式分别为

$ {y}_{t}={r}_{t}+\gamma ·Q({s}_{t+1},{a}_{t};w),$

$ L = {(Q({s_t},{a_t};w) - {y_t})^2}, $

$ {w}_{t+1}\leftarrow {w}_{t}-{l}_{{\mathrm{r}}}·\frac{\partial L}{\partial w}|{}_{w={w}_{t}}. $

式中:yt为时间差分目标值,rt为当前时间步奖励值,γ为折扣因子,Q(statw)为当前时间步动作Q值,Q(st+1atw)为下一时间步动作Q值,L为损失函数,${l}_{{\mathrm{r}} } $为学习率.

1.2. 路径规划流程图

传统DQN在进行动态路径规划时仍存在奖励稀疏、收敛缓慢的问题[31],为了保证机器人的作业效率和稳定性,须进行算法改进. 以前向弓字形作业方式为基础,拟合路径边界,将整体环境分为多条可通行路径,在起点和终点之间设置多个中间目标点,以此将复杂的整体路径切分为多条简单路径,提高机器人到达终点的成功率,加快算法收敛速度. 本研究所提路径规划方法的整体流程如图1所示.

图 1

图 1   所提路径规划方法的整体流程图

Fig.1   Overall flow chart of proposed path planning method


2. 改进算法

2.1. 利用中间目标点分割环境

农业机器人多为前向弓字形作业方式,机器人在自主导航作业时应尽可能保证在行走行中间区域行驶,这样不仅能缩短导航时间,减少导航距离,还能降低与不可通行区域发生碰撞的风险,提升导航成功率. 传统DQN以整体作业环境中起点和终点间距离为基准,以机器人与终点实际距离为评价指标指导训练,由于实际距离变化不稳定(奇数作业行实际距离减小,偶数作业行实际距离增大),使机器人在训练过程中很难找到终点,且容易与不可通行区域发生碰撞导致导航失败.

本研究提出利用中间目标点分割全局环境的方式,在保证机器人与中间目标点实际距离变化稳定的同时使机器人在行间作业时尽可能沿直线行驶. 1)利用激光SLAM构建全局环境地图,根据作业环境分布特点,将全局环境分为行走行区域和作物行区域,其中行走行区域为机器人行走作业区域,作物行区域为不可通行区域. 对作物行区域进行膨胀拟合处理,左右膨胀宽度为机器人宽度的一半,使机器人尽可能远离不可通行区域行驶,同时将膨胀拟合后的作物行交错延伸至作业边界,以形成前向封闭式作业走廊. 2)根据作物行和行走行区域特点设置中间目标点:分别取行走行和作物行中线坐标为中间目标点横坐标,取作物行前端终点纵坐标上移λdc为中间目标点纵坐标(奇数作物行上移,偶数作物行下移),以此将复杂的整体路径分割为多条简单路径. 为了防止机器人错过中间目标点,规定若机器人进入目标点区域,则判定为找到目标点,目标点区域以目标点为圆心,以ra为半径,区域半径和中间目标点纵坐标yt计算式分别为

$ {r_{\mathrm{a}}} = 0.25{d_{\mathrm{t}}}, $

$ {y}_{{\mathrm{t}}}={y}_{{\mathrm{e}}}\pm \lambda {d}_{{\mathrm{c}}}. $

式中:dt为行走行行间距;ye为作物行前端终点纵坐标;λ为中间目标点纵坐标平移因子,当行走行中间目标点平移时λ=0.25,当作物行中间目标点平移时λ=0.5;dc为作物行与作业边界纵向距离. 规定只有经过所有中间目标点区域并顺利到达终点才算导航成功,否则判定为导航失败. 如图2所示为利用中间目标点分割全局环境原理图,其中Lws为作业场景长度,dws为行走行长度. 农作物所在行为作物行,利用目标点对目标区域进行编号,例如第1目标点所在区域为第1目标点区域,第3、4目标点所在区域为第4目标点区域.

图 2

图 2   中间目标点分割全局环境原理图

Fig.2   Middle target point splits global environment schematic


2.2. 动作空间设计与选择

2.2.1. 动作空间设计

DQN将Q-Learning与深度学习结合,用深度网络来近似动作价值函数,神经网络输入端为当前状态,输出端为可执行的所有动作对应的Q值. 动作空间的设计不仅要符合环境具体要求,还应尽可能减少神经网络参数,如果动作空间设计较为复杂,会使神经网络参数暴增,增加训练成本,延缓收敛时间,严重影响算法性能. 本研究以农业机器人前向弓字形作业模式为基础,结合A*算法探索模式,将传统8邻域搜索空间改为前向3邻域搜索,搜索规则如图3所示. 规定动作空间有3个维度,以当前位置为参考中心,0、1、2为动作方向,通过线速度、角速度控制机器人前行和转向,设置线速度恒定为0.2 m/s,通过动作空间计算角速度:

图 3

图 3   动作空间规则图(3邻域)

Fig.3   Action space rule diagram (three neighbourhoods)


$ \omega = \left(\frac{{{a_{\mathrm{c}}} - 1}}{2} - {a_{\mathrm{i}}}\right) \frac{{{\omega _{\mathrm{m}}}}}{2}.$

式中:ω为机器人角速度,ac为动作空间长度,ai为动作序号,ωm为最大角速度. 根据机器人当前位置的车头朝向,规定动作1为车头正前方,动作0和2分别为左右转弯方向,动作空间长度ac=3,最大角速度ωm=1.57 rad/s,通过式(7)得到角速度的变化区间为[−0.785,0.785] rad/s,ω与动作对应关系如表1所示.

表 1   角速度与动作方向对应关系

Tab.1  Angular velocity corresponds to direction of action

ai速度方向ω/(rad·s−1
0车头正前方左偏45°0.785
1车头正前方0
2车头正前方右偏45°−0.785

新窗口打开| 下载CSV


2.2.2. 改进环境探索策略

传统DQN在进行路径规划时,智能体通过不断和环境交互来改变动作选择策略. 如果侧重于探索环境,则会获得更大的奖励值,导致训练时间变长,收敛速度缓慢;如果过早选择奖励值最大的动作,则可能无法找到最优路径. 因此须平衡探索和利用的关系,尽可能减少无意义的探索动作,在缩短收敛过程的同时最大化获得的奖励值. 本研究针对传统DQN的动作选择问题,提出动态调整探索因子ε方案:在训练初期,ε=1,表示要快速探索未知环境积累经验,尽可能减小振荡,缩短收敛过程;随着训练次数的增加,智能体越来越了解环境,探索因子不断减小,选择动作的方式逐渐变为利用已知动作中能获得最大奖励的动作,这样不仅能使智能体快速了解未知环境,也更容易找到最优路径,动态调整探索因子:

$ \left. \begin{array}{l}\varepsilon =\mathrm{max}\;({\varepsilon }_{0},{\varepsilon }_{{\mathrm{min}}}), \\{\varepsilon }_{0}={\varepsilon }_{{\mathrm{min}}}{+(}{\varepsilon }_{{\mathrm{max}}}-{\varepsilon }_{{\mathrm{min}}}{)}\;\mathrm{exp}\left({-{u}_{\mathrm{i}}}/{{\varepsilon }_{{\mathrm{de}}}}\right). \end{array}\right\}$

式中:ε0为每回合探索因子,εmin为探索因子最小值,εmax为探索因子最大值,ui为网络更新频率,εde为衰减步数.

2.3. 改进奖励函数

奖励函数设置是深度强化学习算法中的核心问题,能够指导智能体学习,奖励函数设置不当,智能体会学习错误策略,影响算法的最终性能. 传统DQN奖励函数设置过于简单,只在成功找到终点和导航失败的时候给予高额奖励和惩罚,中间每一时间步的奖励设置为较小的固定值. 仅使用这种奖励机制会导致中间时间步的奖励过小(奖励稀疏),无法正确引导智能体进行学习,使智能体在训练过程中产生较多无效动作,增加碰撞风险,导致导航失败. 由于作业环境为前向弓字形作业场景,缺乏明确的目标点奖励函数指导智能体学习,训练早期将难以形成局部知识,导致盲目探索;在训练晚期只能给出片面指导,导致收集样本质量低下,学习困难甚至无法收敛,最终目标点难以找到,导航失败. 本研究以中间目标点导航方式为基础构建奖励函数,该奖励函数主要由中线区域奖励函数和目标点奖励函数构成. 中线区域奖励函数用以约束机器人作业区域,规范作业轨迹,减少碰撞风险;目标点奖励函数结合中间目标点引导机器人依次找到每一目标点,直至到达终点,提升导航成功率.

2.3.1. 中线区域奖励函数

机器人行间作业应尽可能保证在中线区域行驶,为此根据障碍物行分布规律构建中线区域奖励函数,确保机器人与两侧障碍物行保持一定间距. 利用行间中线间距构建中线区域奖励函数规则:当激光雷达扫描距离中的最小值dmin在中线区域[0.4dt,0.6dt]时,奖励函数为正,机器人离行走行中线越近,奖励值越高;反之,当机器人在中线区域外行驶时,奖励值为负,越靠近两侧障碍物行,惩罚值越大. 中线区域奖励函数计算式为

$ {r}_{{\mathrm{m}}}=\left\{ \begin{array}{l}\begin{array}{ll}\dfrac{a}{\left|0.5{d}_{{\mathrm{t}}}-{d}_{{\mathrm{min}}}\right|+0.1},& {d}_{{\mathrm{min}}}\in \left[0.4{d}_{{\mathrm{t}}},0.6{d}_{{\mathrm{t}}}\right].\\ \dfrac{-a}{\left|0.5{d}_{{\mathrm{t}}}-{d}_{{\mathrm{min}}}\right|+0.1},& 其他.\end{array} \end{array}\right. $

式中:a为中线奖励因子,dmin为扫描最小距离.

2.3.2. 目标点奖励函数

本研究的农业机器人采用弓字形作业方式,直接以机器人当前位置到终点的实际距离为衡量标准,会因为距离变化不稳定导致机器人无法在训练过程中找到准确的学习方向,严重影响收敛速度和训练效果. 为此,结合中间目标点构建目标点奖励函数,步骤如下. 1)根据中间目标点划分导航区域,每个区域均具有区域起点和终点,以区域起点命名该区域,如果区域起点是第1目标点,那么该区域即为第1目标区域,目标区域划分如图4所示. 2)规定区域起点和终点间距为区域距离dr,机器人当前位置到区域终点距离为当前距离dc,机器人只要经过区域终点即进入下一区域. 3)比较dcdr大小,如果drdc>0,则区域奖励因子b取正数,说明机器人在朝区域终点方向移动,且差值越大,机器人获得的正向奖励值越大,这样有助于机器人更快搜索到当前区域终点,进而找到终点;如果drdc<0,则b取负数,说明机器人在进行反方向运动,此时获得的奖励值为负,这样有助于机器人尽快调整运动方向. 目标点奖励函数计算式为

图 4

图 4   作业场景目标点区域划分图

Fig.4   Area division diagram of target point of scenario


$ {r}_{{\mathrm{d}}}=b{({d}_{{\mathrm{r}}}-{d}_{{\mathrm{c}}})}^{2}. $

综合以上奖励函数要求,根据机器人所处位置和车身姿态,规定到达目标点奖励rg=1 000,碰撞障碍物奖励ro=−500,未发生碰撞奖励函数r=rm+rdrm为中线区域奖励函数.

2.4. 优先经验回放机制

传统DQN采用经验回放机制,将每个时间步观测到的四元组转移样本{statrtst+1}存储到经验池中,每回合在经验池中随机抽取数据进行训练,有效解决经验浪费和样本相关性问题. 随机抽取样本会导致部分数量少而价值高的样本没有被高效利用. 本研究采用优先经验回放机制:给每条转移样本打上优先级标记δt,表示转移样本的重要性,再根据每一步当前Q值与yt的时间差分误差计算样本采样优先级pt,并根据pt计算转移样本的抽样概率P(t),定义α为权衡均匀抽样和贪婪抽样的权重因子. 如果某条转移样本刚刚被收集,表示该条数据还没有使用,则将δt设置为最大值,给予最高权重.

$ \left.{\begin{array}{*{20}{l}} \begin{gathered}{\delta _t} = Q({s_t},{a_t};w) - {y_t}; \\ \begin{array}{*{20}{l}} {P(t) = {{{p_t}^\alpha }}/{{\displaystyle\sum\limits_{j = 1}^N {{p_j}^\alpha } }},}&{0 < \alpha < 1;} \end{array} \\ \end{gathered} \\ {{p_t} = \left| {{\delta _t}} \right|+\tau .} \end{array}} \right\} $

式中:τ为抽样保证因子.使用优先经验回放机制可以优先抽取最有价值的样本,有效防止过拟合现象的发生,加快收敛速度,也会改变样本的状态分布,引入偏差. 为此,当在训练阶段计算损失时,根据样本的时间差分误差添加偏差权重θt以改进损失函数:

$ L=\frac{1}{m}{\displaystyle \sum _{t=1}^{m}{\theta }_{t}{({y}_{t}-Q({s}_{t},{a}_{t};w))}^{2}}. $

式中:m为抽样样本数量. θt可以表征智能体的学习效率,θt越大说明该时间步预测值和时间差分目标值的差距越大,智能体的更新量就越大,说明此处的学习效率越高. 使用重要性采样因子β 来表示优先经验回放权重,偏差权重计算式为

$ \begin{array}{cc}{\theta }_{t}={(N·P(t))}^{-\beta };\;\;\begin{array}{cc}\beta \in (0,1),\;t\in [0,N].\end{array}\end{array} $

式中:t为抽样样本,N为经验池中的样本数. β=0表示不使用重要性采样,β=1.0表示优先经验回放的作用抵消,此时优先经验退化为传统经验回放,β的分布范围为(0,1.0). 为了防止样本因差异过大而影响数据分析结果,对偏差权重进行归一化处理:

$ {\theta }_{t}={{(N\cdot P(t))}^{-\beta }}/{{\mathrm{max}}_{t}({\theta }_{t})}. $

2.5. 转弯曲率约束

以两轮差速机器人为研究对象,通过给出线速度vl和角速度ωa控制机器人运动,并基于逆运动学公式分别求出左右轮线速度,实现机器人的前进和转弯动作. 左、右轮线速度计算式分别为

$ \left.\begin{array}{c}{v}_{{\mathrm{l}}}={\omega }_{{\mathrm{a}}}\left(r+{{l}_{{\mathrm{w}}}}/{2}\right),\\\begin{array}{l}{v}_{{\mathrm{r}}}={\omega }_{{\mathrm{a}}}\left(r-{{l}_{{\mathrm{w}}}}/{2}\right),\\r={{v}_{{\mathrm{l}}}}/{{\omega }_{{\mathrm{a}}}}.\end{array}\end{array}\right\} $

式中:vl为左轮线速度,vr为右轮线速度,r为转弯半径,lw为左右轮的轴距. 假设两轮差速机器人为刚体结构,在行间执行作业任务和改变航向情况下运动速度较为缓慢,滑移率和滑转率可以忽略不计,因此机器人在低速行驶时不会发生侧滑现象,其运动学模型如图5所示. 机器人运动方式主要分为2种:直线和曲线. 当机器人进行直线运动时,左右轮线速度和车身中心线速度相同,当在作业过程中要改变航向时,须满足曲率约束条件

图 5

图 5   两轮差速机器人运动学模型

Fig.5   Kinematic model of two-wheeled differential robot


$ \left. {\begin{array}{*{20}{l}} {0 \leqslant \theta \leqslant {\mathrm{arctan}}\left({l_{\mathrm{w}}}/{r}\right),} \\ {K = {{{\mathrm{tan}}\theta }}/{l_{\mathrm{w}}}.} \end{array}} \right\}$

式中:θ为航向角,K为底盘中心圆弧运动曲率.

2.6. 算法的训练过程
2.6.1. 网络结构

图6所示,本研究提出的路径规划方法为4层网络结构,其中输入层为28个神经元,隐藏层为2层,每层包含128个神经元,输出层为3个神经元,激活函数为ReLU函数[32],在输出层之前利用Dropout函数随机使部分神经元失活,防止过拟合现象发生[33].

图 6

图 6   所提路径规划方法的网络结构

Fig.6   Network structure of proposed path planning method


2.6.2. 训练过程

传统DQN在训练前并未对输入状态进行归一化处理,每条状态转移(transition)中的数据量级之间相差较大,导致在训练过程中损失值振荡剧烈,严重影响收敛速度. 为此,在开始训练时,先对输入神经网络的状态值进行零-均值归一化,再按比例缩减奖励值,消除数据间的量级差异,零-均值归一化计算式为

$ {x_i}^* = \frac{{{x_i}{ - }\mu }}{\sigma }. $

式中:xi*为归一化结果,xi为原始输入数据,μ为经验池样本均值,σ为经验池样本方差. 所提方法的训练过程如下:1)通过DQN结构生成评估网络(eval net)和目标网络(target net),网络参数分别为wwt;2)基于当前状态s,利用贪婪策略选择动作a,与环境交互获得奖励r、下一状态s'、该回合是否结束标志位,组成转移样本{statrtst+1},利用式(11)计算样本优先级,存入优先经验回放树中;3)当经验池中数据大于等于每回合训练样本数bs时开始训练,每回合从经验池中抽取bs条样本,利用当前网络和目标网络计算预测值和时间差分目标值,利用式(12)计算均方误差损失函数,利用梯度下降算法更新当前网络参数w,同时每隔ui步更新目标网络参数wt. 所提方法的训练流程如图7所示.

图 7

图 7   所提路径规划方法的训练流程图

Fig.7   Training flowchart for proposed path planning method


3. 仿真实验与分析

3.1. 仿真实验环境

图8所示,模拟农业机器人前向弓字形作业环境构建实验场景:在已知全局环境的情况下,根据环境分布特点设置简单和复杂2种模拟地图;根据作物行宽度和长度进行膨胀拟合处理,将作物行交错延长至作业边界,形成前向弓字形作业走廊. 图中,四周墙壁表示作业边界,圆柱体所在行表示作物行;作物行将整体环境分为行走行区域和作物行区域,作物行区域和作业边界为不可通行区域,其余部分为可通行区域,非文字标记方框表示中间目标点. 简单环境包含2个作物行,3个行走行,6个中间目标点,作物行、行走行宽度分别为0.5和1.0 m. 复杂环境包含3个作物行、4个行走行,9个中间目标点,作物行、行走行宽度分别为0.3和0.6 m. 导航规则:以前向弓字形作业方式依次通过各中间目标点,直到抵达终点表示导航成功;如果中途和不可通行区域发生碰撞,则该轮导航失败,机器人回到起点重新开始导航.

图 8

图 8   仿真实验模拟环境图

Fig.8   Simulation experiment simulation environment diagram


仿真实验过程在Ubuntu 20.04 LTS操作系统下进行,仿真软件为Gazebo,处理器型号为12th Gen Intel(R) Core(TM) i7-12700F 2.10 GHz,显卡型号为Nvidia GeForce RTX 3060 6 GB显存,计算机运行内存为16 GB,训练过程主要超参数设置如表2所示.

表 2   仿真实验中的主要超参数

Tab.2  Main hyperparameters in simulation experiment

参数数值参数数值
中线奖励因子a1.25经验池容量Rn128 000
区域奖励因子b±1.2学习率lr0.001
贪婪权重α0.6训练回合数Ep2 000
优先经验回放权重β0.4每回合时间步数Es1 000
折扣率γ0.9网络更新频率ui10
抽样保证因子τ0.3每批次样本数bs128
衰减步数εd1 000

新窗口打开| 下载CSV


3.2. 训练实验

为了验证所提方法的有效性,将简单环境作为训练环境,起点和终点分别为(0.50,1.00)、(3.50,4.00),6个中间目标点依次为(0.50,3.50)、(1.25,4.00)、(2.00,3.50)、(2.00,1.00) 、(2.25,0.50) 、(4.50,1.00),目标点区域半径为0.25 m. 使用所提方法进行2 000轮训练,选择传统DQN、DDQN、Dueling DQN作为对比方法,开展不同路径规划方法的性能对比实验. 将一轮训练定义为一次完整的导航过程,按照导航结果的不同,可将每次导航分为3种情况:1)导航成功,即机器人在规定时间步内到达终点;2)导航失败,即机器人导航过程中与不可通行区域发生碰撞;3)导航超时,即机器人虽未发生碰撞,但在规定时间步内未到达终点. 导航失败和导航超时均累积,计算总碰撞次数,通过导航成功次数计算平均导航时间,实验结果如表3所示. 表中,Ctn为总碰撞次数,tna为平均导航时间,pns为平均导航成功率. 当$N \in $[1,900]时,4种算法处于学习阶段,总碰撞次数较多,平均导航时间较长,导航成功率偏低. 当$N \in $[901,1 600]时,传统DQN、DDQN、Dueling DQN由于动作空间和奖励函数设置不当,导致学习效果不佳,导航成功率提升较慢,仅有43.29%、56.00%、56.71%,所提方法总碰撞次数和平均导航时间显著减少,导航成功率为86.14%. 当$N \in $[1 601,2 000]时,传统DQN、DDQN、Dueling DQN的训练效果有所提升,导航成功率分别提升到65.50%、71.50%、74.25%,但碰撞次数较多,方法仍无法满足实际导航要求. 相比传统DQN、DDQN、Dueling DQN,所提方法可以在不碰撞障碍物的情况下找到目标点,平均导航时间分别缩短13.99%、8.16%、6.73%,说明所提方法的规划运动路径更加合理,能够快速到达目标位置. 在最后400轮训练中,所提方法碰撞次数为0,导航成功率达到100%,相比其他3种算法分别提升52.67%、39.86%、34.68%,说明所提方法的学习能力更强,更容易找到最终目标点.

表 3   不同路径规划方法在训练环境中的性能比较结果

Tab.3  Performance comparison results of different path planning methods in training environment

方法N∈[1, 900]N∈[901, 1600]N∈[1601, 2000]
Ctntna/spns/%Ctntna/spns/%Ctntna/spns/%
传统DQN66297.3526.4439791.5743.2913889.2665.50
DDQN61398.6431.8930889.3856.0011483.5971.50
Dueling DQN59699.3733.7830388.4556.7110382.3174.25
本研究40996.7254.569783.2586.14076.77100.00

新窗口打开| 下载CSV


图9所示为不同方法的平均奖励值随训练轮数的变化规律. 训练初期,4种方法均未能正确判断障碍物,与障碍物发生碰撞次数较多,获得的奖励为负值. 当训练次数超过500后,搭载4种方法的机器人在行驶过程中会尽可能避开障碍物,通过和环境不断地交互学习进一步调整动作选择策略. 当训练次数达到750时,传统DQN、DDQN、Dueling DQN由于奖励函数缺乏中间时间步奖励约束,出现奖励稀疏问题,所获奖励值波动幅度较大,未出现收敛迹象,所提方法获得的奖励值波动幅度明显减小并开始出现收敛迹象. 经过2 000轮训练后,传统DQN的奖励值波动剧烈,针对传统DQN改进的DDQN、Dueling DQN振荡幅度减弱. 由于缺少奖励函数和探索策略的规范引导,3种方法在训练过程中无法正确引导智能体进行学习,使智能体产生较多无效动作,碰撞率增加,导致奖励值起伏剧烈. 所提方法在经过1 600轮训练后奖励值趋于稳定,算法已经收敛. 由此可知,所提方法可以显著缩短训练时间,提高平均奖励值,改善奖励稀疏问题,使机器人规划出更加合理的路径.

图 9

图 9   不同路径规划方法在训练环境中的平均奖励值

Fig.9   Average rewards of different path planning methods in training environment


3.3. 测试实验

在复杂环境中对4种方法进行500次测试实验,测试环境起点和终点分别为(0.30,1.00)、(3.00,1.00),9个中间目标点分别为(0.30,3.60)、(0.75,4.00)、(1.20,3.60)、(1.20,0.60)、(1.65,0.40)、(2.10,0.60)、(2.10,3.60)、(2.55,4.00)、(3.00,3.60),目标点区域半径为0.15 m,结果如表4所示. 表中,dna为平均导航路程. 传统DQN、DDQN、Dueling DQN因训练效果不佳,导致在测试环境中总碰撞次数较多,导航成功率较低,所提方法总碰撞次数分别减少91.79%、89.32%、88.66%;平均导航时间分别缩短13.34%、11.41%、10.48%;平均导航路程分别减少13.51%、9.11%、7.93%;平均导航成功率分别提升33.61%、23.17%,21.34%. 该结果说明在导航过程中,所提方法驱动的机器人对避障距离的控制更为合理,在快速到达目标位置的同时,保证了导航的安全性. 由此可知,所提方法在减少碰撞次数、缩短导航所用时间、减少导航路程和提升导航成功率方面效果显著,在复杂环境下比其他方法更容易找到目标点.

表 4   不同路径规划方法在测试环境中的性能比较结果

Tab.4  Performance comparison results of different path planning methods in testing environment

方法Ctntna/sdna/mpns/%
传统DQN134106.5717.9973.2
DDQN103104.2517.1279.4
Dueling DQN97103.1616.9080.6
本研究1192.3515.5697.8

新窗口打开| 下载CSV


图10所示为中4种方法在测试实验中的运动轨迹. 可以看出,传统DQN、DDQN、Dueling DQN由于缺乏探索策略和奖励函数的有效引导,运动轨迹较为杂乱,频繁改变动作方向还增加了碰撞风险,极大影响了导航成功率. 搭载所提方法的机器人在复杂环境下能够快速找到最优路径,缩短了导航路径长度,机器人工作效率和作业稳定性得到提升.

图 10

图 10   不同路径规划方法在测试环境中的运动轨迹图

Fig.10   Trajectory diagram of different path planning methods in testing environment


4. 实验验证与分析

4.1. 实验平台

图11所示,将差速机器人作为实验平台. 差速机器人主要由差速底盘、工控机(处理器为Jetson Nano B01-4GB,装载Ubuntu 20.04 LTS操作系统)、激光雷达传感器(思岚C1)、STM32控制模块组成. 差速机器人底盘为直流有刷电机驱动,轴距为16.5 cm. 基于机器人操作系统(Robot operating system,ROS),使用Python和C++语言编写控制代码,生成控制机器人的运动指令,通过串口通信方式实现对差速机器人的行为控制.

图 11

图 11   差速机器人

Fig.11   Differential robot


4.2. 实验与结果分析

图12所示,根据所提方法模拟农业机器人前向弓字形作业环境构建的模拟实验环境,锥形桶模拟农作物,连接杆连接锥形桶模拟封闭作物行. 模拟场景中共有3个作物行和4个行走行,作物行宽度为0.3 m,行走行平均长度和平均间距分别为4.5、0.6 m. 如图12(b)所示,对整体环境进行封闭膨胀处理,添加边界约束形成前向弓字形作业走廊,由激光雷达扫描实际环境构建先验地图,设置起点为(0,0.4),终点为(2.5,0.4).4种方法的实际路径规划结果如图13所示,计算总碰撞次数、平均导航时间、平均导航路程、平均导航成功率结果如表5所示. 在40次场地实验中,传统DQN、DDQN、Dueling DQN的路径长度和导航时间有所减少,由于缺少奖励函数的规范和引导,机器人在行驶过程中不仅频繁改变方向,而且靠近障碍物,增加了碰撞风险,导航成功率降低. 相较而言,搭载所提方法的机器人规划路径更加合理,总碰撞次数分别减少92.86%、90.00%、88.89%,平均导航时间分别减少23.83%、15.84%、14.15%,平均导航路程分别减少17.39%、9.57%、4.34%,平均导航成功率分别提升50.00%、30.00%、25.81%.

图 12

图 12   模拟实验场景及先验地图

Fig.12   Simulated experimental scenarios and prior maps


图 13

图 13   不同路径规划方法在模拟场景中的轨迹图

Fig.13   Trajectory diagram of different path planning methods in simulated scenarios


表 5   不同路径规划方法在模拟场景中的性能比较结果

Tab.5  Performance comparison results of different path planning methods in simulated scenarios

对比算法Ctntna/sdna/mpns/%
传统DQN14127.2619.2165.0
DDQN10115.1717.5575.0
Dueling DQN9112.9116.5977.5
本研究196.9315.8797.5

新窗口打开| 下载CSV


图14所示,以某红薯苗培育温室为农业机器人前向弓字形实际作业环境,该场景有2个作物行,平均宽度为1.8 m,3个行走行,平均长度和平均宽度分别为5.0、0.3 m. 根据实际场景构建先验地图,设置起点为(0,0.5),终点为(4.5,4.5),所提方法的实际路径规划结果如图14(b)所示,20次实验总碰撞次数为1、平均导航时间为104.27 s、平均导航路程为16.58 m、平均导航成功率为95%.

图 14

图 14   实际作业环境及导航轨迹图

Fig.14   Actual working environment and navigation trajectory


通过2次场地对比实验可以看出,随着场地面积增大和复杂程度增加,机器人自主导航时间和导航路径长度相应增加(主要原因是机器人在行驶和转弯时与地面打滑),但机器人在自主行驶时会尽可能避开障碍物并导航至终点,符合实际作业要求.

5. 结 语

本研究提出基于多目标点导航融合改进深度Q网络算法的路径规划方法,经过1600轮训练,搭载所提方法的机器人可以在不碰撞障碍物的情况下找到目标点,导航成功率达到100%,相比传统DQN、DDQN和Dueling DQN,导航成功率大幅提升,说明所提方法学习能力更强,规划运动路径更加合理,导航成功率更高,更容易找到最终目标点. 利用训练好的模型进行测试实验,相比传统DQN、DDQN和Dueling DQN,搭载所提方法的机器人能显著减少总碰撞次数、平均导航时间、平均导航路程,平均导航成功率分别提升33.61%、23.17%,21.34%,符合农业机器人的作业要求. 分别选择模拟场景和实际场景进行场地实验,在模拟场景中,搭载所提方法的机器人路径规划更加合理,导航所需时间更少,相较传统DQN、DDQN和Dueling DQN,所提方法平均导航成功率分别提升50.00%、30.00%、25.81%. 在实际场景中,搭载所提方法的机器人总碰撞次数为1,平均导航时间为104.27 s、平均导航路程为16.58 m、平均导航成功率为95%,满足机器人作业精确度和稳定性的需求. 仿真和场地实验验证结果表明,所提方法能够为农业生产自主作业机器人导航控制提供技术支持. 所提方法在进行直线和转弯路径规划时尚不稳定,未来计划以四驱四转农业机器人为研究对象,围绕动作空间、奖励函数、损失函数3个方面对DQN进行改进,以进一步优化导航路径,提高导航成功率.

参考文献

HUANG Yansong, YAO Xifan, JING Xuan, et al

DQN-based AGV path planning for situations with multi-starts and multi-targets

[J]. Computer Integrated Manufacturing Systems, 2023, 29 (8): 2550- 2562

[本文引用: 1]

XING B, WANG X, LIU Z

The wide-area coverage path planning strategy for deep-sea mining vehicle cluster based on deep reinforcement learning

[J]. Journal of Marine Science and Engineering, 2024, 12 (2): 316

DOI:10.3390/jmse12020316      [本文引用: 1]

王童, 李骜, 宋海荦, 等

基于分层深度强化学习的移动机器人导航方法

[J]. 控制与决策, 2022, 37 (11): 2799- 2807

[本文引用: 1]

WANG Tong, LI Ao, SONG Hailuo, et al

Navigation method for mobile robot based on hierarchical deep reinforcement learning

[J]. Control and Decision, 2022, 37 (11): 2799- 2807

[本文引用: 1]

徐杨, 熊举举, 李论, 等

采用改进的YOLOv5s检测花椒簇

[J]. 农业工程学报, 2023, 39 (16): 283- 290

DOI:10.11975/j.issn.1002-6819.202306119      [本文引用: 1]

XU Yang, XIONG Juju, LI Lun, et al

Detecting pepper cluster using improved YOLOv5s

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39 (16): 283- 290

DOI:10.11975/j.issn.1002-6819.202306119      [本文引用: 1]

刘慧, 卢云志, 张雷

基于Dropout改进的SRGAN网络DrSRGAN

[J]. 科学技术与工程, 2023, 23 (23): 10015- 10022

DOI:10.12404/j.issn.1671-1815.2023.23.23.10015      [本文引用: 1]

LIU Hui, LU Yunzhi, ZHANG Lei

Improved SRGAN network based on Dropout called DrSRGAN

[J]. Science Technology and Engineering, 2023, 23 (23): 10015- 10022

DOI:10.12404/j.issn.1671-1815.2023.23.23.10015      [本文引用: 1]

刘宇庭, 郭世杰, 唐术锋, 等

改进A*与ROA-DWA融合的机器人路径规划

[J]. 浙江大学学报: 工学版, 2024, 58 (2): 360- 369

[本文引用: 1]

LIU Yuting, GUO Shijie, TANG Shufeng, et al

Path planning based on fusion of improved A* and ROA-DWA for robot

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (2): 360- 369

[本文引用: 1]

章一鸣, 姚文广, 陈海进

动态环境下自主机器人的双机制切向避障

[J]. 浙江大学学报: 工学版, 2024, 58 (4): 779- 789

[本文引用: 1]

ZHANG Yiming, YAO Wenguang, CHEN Haijin

Dual-mechanism tangential obstacle avoidance of autonomous robots in dynamic environment

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (4): 779- 789

[本文引用: 1]

侯文慧, 周传起, 程炎, 等

基于轻量化U-Net网络的果园垄间路径识别方法

[J]. 农业机械学报, 2024, 55 (2): 16- 27

DOI:10.6041/j.issn.1000-1298.2024.02.002      [本文引用: 1]

HOU Wenhui, ZHOU Chuanqi, CHENG Yan, et al

Path recognition method of orchard ridges based on lightweight U-Net

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2024, 55 (2): 16- 27

DOI:10.6041/j.issn.1000-1298.2024.02.002      [本文引用: 1]

张万枝, 赵威, 李玉华, 等

基于改进A*算法+LM-BZS算法的农业机器人路径规划

[J]. 农业机械学报, 2024, 55 (8): 81- 92

DOI:10.6041/j.issn.1000-1298.2024.08.007      [本文引用: 1]

ZHANG Wanzhi, ZHAO Wei, LI Yuhua, et al

Path planning of agricultural robot based on improved A* and LM-BZS algorithms

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2024, 55 (8): 81- 92

DOI:10.6041/j.issn.1000-1298.2024.08.007      [本文引用: 1]

张万枝, 白文静, 吕钊钦, 等

线性时变模型预测控制器提高农业车辆导航路径自动跟踪精度

[J]. 农业工程学报, 2017, 33 (13): 104- 111

DOI:10.11975/j.issn.1002-6819.2017.13.014     

ZHANG Wanzhi, BAI Wenjing, LÜ Zhaoqin, et al

Linear time-varying model predictive controller improving precision of navigation path automatic tracking for agricultural vehicle

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33 (13): 104- 111

DOI:10.11975/j.issn.1002-6819.2017.13.014     

刘正铎, 张万枝, 吕钊钦, 等

基于非线性模型的农用车路径跟踪控制器设计与试验

[J]. 农业机械学报, 2018, 49 (7): 23- 30

DOI:10.6041/j.issn.1000-1298.2018.07.003      [本文引用: 1]

LIU Zhengduo, ZHANG Wanzhi, LÜ Zhaoqin, et al

Design and test of path tracking controller based on nonlinear model prediction

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49 (7): 23- 30

DOI:10.6041/j.issn.1000-1298.2018.07.003      [本文引用: 1]

刘天湖, 张迪, 郑琰, 等

基于改进RRT*算法的菠萝采收机导航路径规划

[J]. 农业工程学报, 2022, 38 (23): 20- 28

DOI:10.11975/j.issn.1002-6819.2022.23.003      [本文引用: 1]

LIU Tianhu, ZHANG Di, ZHENG Yan, et al

Navigation path planning of the pineapple harvester based on improved RRT* algorithm

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38 (23): 20- 28

DOI:10.11975/j.issn.1002-6819.2022.23.003      [本文引用: 1]

劳彩莲, 李鹏, 冯宇

基于改进A*与DWA算法融合的温室机器人路径规划

[J]. 农业机械学报, 2021, 52 (1): 14- 22

DOI:10.6041/j.issn.1000-1298.2021.01.002      [本文引用: 1]

LAO Cailian, LI Peng, FENG Yu

Path planning of greenhouse robot based on fusion of improved A* algorithm and dynamic window approach

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52 (1): 14- 22

DOI:10.6041/j.issn.1000-1298.2021.01.002      [本文引用: 1]

景云鹏, 金志坤, 刘刚

基于改进蚁群算法的农田平地导航三维路径规划方法

[J]. 农业机械学报, 2020, 51 (Suppl.1): 333- 339

[本文引用: 1]

JING Yunpeng, JIN Zhikun, LIU Gang

Three dimensional path planning method for navigation of farmland leveling based on improved ant colony algorithm

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51 (Suppl.1): 333- 339

[本文引用: 1]

高兴旺, 任力生, 王芳

番茄温室内移动喷药机器人的路径规划研究

[J]. 计算机工程与应用, 2024, 60 (16): 325- 332

DOI:10.3778/j.issn.1002-8331.2306-0002      [本文引用: 1]

GAO Xingwang, REN Lisheng, WANG Fang

Path planning study of mobile spraying robot in tomato greenhouse

[J]. Computer Engineering and Applications, 2024, 60 (16): 325- 332

DOI:10.3778/j.issn.1002-8331.2306-0002      [本文引用: 1]

崔永杰, 王寅初, 何智, 等

基于改进RRT算法的猕猴桃采摘机器人全局路径规划

[J]. 农业机械学报, 2022, 53 (6): 151- 158

DOI:10.6041/j.issn.1000-1298.2022.06.015     

CUI Yongjie, WANG Yinchu, HE Zhi, et al

Global path planning of kiwifruit harvesting robot based on improved RRT algorithm

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53 (6): 151- 158

DOI:10.6041/j.issn.1000-1298.2022.06.015     

陈凯, 解印山, 李彦明, 等

多约束情形下的农机全覆盖路径规划方法

[J]. 农业机械学报, 2022, 53 (5): 17- 26

DOI:10.6041/j.issn.1000-1298.2022.05.002      [本文引用: 1]

CHEN Kai, XIE Yinshan, LI Yanming, et al

Full coverage path planning method of agricultural machinery under multiple constraints

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53 (5): 17- 26

DOI:10.6041/j.issn.1000-1298.2022.05.002      [本文引用: 1]

谢秋菊, 王圣超, MUSABIMANA J, 等

基于深度强化学习的猪舍环境控制策略优化与能耗分析

[J]. 农业机械学报, 2023, 54 (11): 376- 384

DOI:10.6041/j.issn.1000-1298.2023.11.036      [本文引用: 1]

XIE Qiuju, WANG Shengchao, MUSABIMANA J, et al

Pig building environment optimization control and energy consumption analysis based on deep reinforcement learning

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54 (11): 376- 384

DOI:10.6041/j.issn.1000-1298.2023.11.036      [本文引用: 1]

熊俊涛, 李中行, 陈淑绵, 等

基于深度强化学习的虚拟机器人采摘路径避障规划

[J]. 农业机械学报, 2020, 51 (Suppl.2): 1- 10

DOI:10.6041/j.issn.1000-1298.2020.S2.001      [本文引用: 1]

XIONG Juntao, LI Zhonghang, CHEN Shumian, et al

Obstacle avoidance planning of virtual robot picking path based on deep reinforcement learning

[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51 (Suppl.2): 1- 10

DOI:10.6041/j.issn.1000-1298.2020.S2.001      [本文引用: 1]

IYENGAR K, SPURGEON S, STOYANOV D

Deep reinforcement learning for concentric tube robot path following

[J]. IEEE Transactions on Medical Robotics and Bionics, 2024, 6 (1): 18- 29

DOI:10.1109/TMRB.2023.3310037      [本文引用: 1]

赵淼, 谢良, 林文静, 等

基于动态选择预测器的深度强化学习投资组合模型

[J]. 计算机科学, 2024, 51 (4): 344- 352

DOI:10.11896/jsjkx.230100048      [本文引用: 1]

ZHAO Miao, XIE Liang, LIN Wenjing, et al

Deep reinforcement learning portfolio model based on dynamic selectors

[J]. Computer Science, 2024, 51 (4): 344- 352

DOI:10.11896/jsjkx.230100048      [本文引用: 1]

GAO A, LU S, XU R, et al

Deep reinforcement learning based planning method in state space for lunar rovers

[J]. Engineering Applications of Artificial Intelligence, 2024, 127: 107287

DOI:10.1016/j.engappai.2023.107287      [本文引用: 1]

刘飞, 唐方慧, 刘琳婷, 等

基于Dueling DQN算法的列车运行图节能优化研究

[J]. 都市快轨交通, 2024, 37 (2): 39- 46

DOI:10.3969/j.issn.1672-6073.2024.02.006      [本文引用: 1]

LIU Fei, TANG Fanghui, LIU Linting, et al

Energy saving optimization of train operation timetable based on a Dueling DQN algorithm

[J]. Urban Rapid Rail Transit, 2024, 37 (2): 39- 46

DOI:10.3969/j.issn.1672-6073.2024.02.006      [本文引用: 1]

李航, 廖映华, 黄波

基于改进DQN算法的茶叶采摘机械手路径规划

[J]. 中国农机化学报, 2023, 44 (8): 198- 205

[本文引用: 1]

LI Hang, LIAO Yinghua, HUANG Bo

Research on path planning of tea picking manipulator based on improved DQN

[J]. Journal of Chinese Agricultural Mechanization, 2023, 44 (8): 198- 205

[本文引用: 1]

林俊强, 王红军, 邹湘军, 等

基于DPPO的移动采摘机器人避障路径规划及仿真

[J]. 系统仿真学报, 2023, 35 (8): 1692- 1704

[本文引用: 1]

LIN Junqiang, WANG Hongjun, ZOU Xiangjun, et al

Obstacle avoidance path planning and simulation of mobile picking robot based on DPPO

[J]. Journal of System Simulation, 2023, 35 (8): 1692- 1704

[本文引用: 1]

熊春源, 熊俊涛, 杨振刚, 等

基于深度强化学习的柑橘采摘机械臂路径规划方法

[J]. 华南农业大学学报, 2023, 44 (3): 473- 483

DOI:10.7671/j.issn.1001-411X.202206024      [本文引用: 1]

XIONG Chunyuan, XIONG Juntao, YANG Zhengang, et al

Path planning method for citrus picking manipulator based on deep reinforcement learning

[J]. Journal of South China Agricultural University, 2023, 44 (3): 473- 483

DOI:10.7671/j.issn.1001-411X.202206024      [本文引用: 1]

WANG Y, LU C, WU P, et al

Path planning for unmanned surface vehicle based on improved Q-Learning algorithm

[J]. Ocean Engineering, 2024, 292: 116510

DOI:10.1016/j.oceaneng.2023.116510      [本文引用: 1]

ZHOU Q, LIAN Y, WU J, et al

An optimized Q-Learning algorithm for mobile robot local path planning

[J]. Knowledge-Based Systems, 2024, 286: 111400

DOI:10.1016/j.knosys.2024.111400      [本文引用: 1]

史殿习, 彭滢璇, 杨焕焕, 等

基于DQN的多智能体深度强化学习运动规划方法

[J]. 计算机科学, 2024, 51 (2): 268- 277

DOI:10.11896/jsjkx.230500113      [本文引用: 1]

SHI Dianxi, PENG Yingxuan, YANG Huanhuan, et al

DQN-based multi-agent motion planning method with deep reinforcement learning

[J]. Computer Science, 2024, 51 (2): 268- 277

DOI:10.11896/jsjkx.230500113      [本文引用: 1]

MIRANDA V R F, NETO A A, FREITAS G M, et al

Generalization in deep reinforcement learning for robotic navigation by reward shaping

[J]. IEEE Transactions on Industrial Electronics, 2024, 71 (6): 6013- 6020

DOI:10.1109/TIE.2023.3290244      [本文引用: 1]

王鑫, 仲伟志, 王俊智, 等

基于深度强化学习的无人机路径规划与无线电测绘

[J]. 应用科学学报, 2024, 42 (2): 200- 210

DOI:10.3969/j.issn.0255-8297.2024.02.002     

WANG Xin, ZHONG Weizhi, WANG Junzhi, et al

UAV path planning and radio mapping based on deep reinforcement learning

[J]. Journal of Applied Sciences, 2024, 42 (2): 200- 210

DOI:10.3969/j.issn.0255-8297.2024.02.002     

SAGA R, KOZONO R, TSURUMI Y, et al

Deep-reinforcement learning-based route planning with obstacle avoidance for autonomous vessels

[J]. Artificial Life and Robotics, 2024, 29 (1): 136- 144

DOI:10.1007/s10015-023-00909-4      [本文引用: 1]

胡洁, 张亚莉, 王团, 等

基于深度强化学习的农田节点数据无人机采集方法

[J]. 农业工程学报, 2022, 38 (22): 41- 51

DOI:10.11975/j.issn.1002-6819.2022.22.005      [本文引用: 1]

HU Jie, ZHANG Yali, WANG Tuan, et al

UAV collection methods for the farmland nodes data based on deep reinforcement learning

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38 (22): 41- 51

DOI:10.11975/j.issn.1002-6819.2022.22.005      [本文引用: 1]

黄岩松, 姚锡凡, 景轩, 等

基于深度Q网络的多起点多终点AGV路径规划

[J]. 计算机集成制造系统, 2023, 29 (8): 2550- 2562

[本文引用: 1]

/