基于可达集和强化学习的智能汽车决策规划
高洪伟,尚秉旭,张鑫康,王洪峰,何维,裴晓飞

Decision-making and planning of intelligent vehicle based on reachable set and reinforcement learning
Hongwei GAO,Bingxu SHANG,Xinkang ZHANG,Hongfeng WANG,Wei HE,Xiaofei PEI
表 3 强化学习模型的主要超参数
Tab.3 Main hyperparameters of RL models
参数名称描述参数值
隐藏层参数各层神经元数(256,128)
折扣系数计算长期折扣奖励0.99
探索系数ε-贪心算法1.0$\geqslant $0.02
学习率衰减率系数学习率减小比例0.8
最小学习率学习率的最小值0.00001
学习率衰减步每隔一定训练步长减小学习率20000
激活函数增加神经网络的非线性Relu
损失函数计算拟合误差传播梯度Huber-Loss
批量大小单次训练抽取的样本数32
软更新速率目标网络更替系数0.01
经验池尺寸存储训练样本100000
梯度截断梯度传播最大值10
网络优化器梯度下降算法Adam