考虑劣化维护的单机调度深度强化学习模型和算法
陈勇,杜习之,姜一炜,易文超,裴植,纪祖臻

Deep reinforcement learning models and algorithms for single-machine scheduling considering deteriorated maintenance
Yong CHEN,Xizhi DU,Yiwei JIANG,Wenchao YI,Zhi PEI,Zuzhen JI
表 5 DRL算法超参数设置
Tab.5 Hyperparameter settings of DRL algorithms
超参数DQN算法PPO算法A2C算法
最大训练步长1.6×1071.6×1071.6×107
批量大小256256
环境交互时间步2048256
隐藏层节点数2×2562×2562×256
回放池大小1×107
网络同步频率1×104
学习率1×10−41×10−41×10−4
折扣因子 γ0.990.990.99
初始探索率0.010.01
λ(GAE)0.950.95
熵正则化系数0.050.05
初始探索率1
探索衰减率0.99
最小探索率0.001