动态环境无人机导航的安全分层强化学习框架
商益铭,杜昌平,杨睿,方天睿,杜泽安,郑耀

Safe hierarchical reinforcement learning framework for dynamic UAV navigation
Yiming SHANG,Changping DU,Rui YANG,Tianrui FANG,Ze’an DU,Yao ZHENG
表 3 SAC算法的主要超参数
Tab.3 Main hyperparameter of SAC algorithm
超参数数值超参数数值
折扣因子0.99经验回放缓冲区大小100 000
学习率0.000 5批次大小256
软更新系数0.01总训练步数100 000