考虑劣化维护的单机调度深度强化学习模型和算法

考虑劣化维护的单机调度深度强化学习模型和算法

陈勇,杜习之,姜一炜,易文超,裴植,纪祖臻

Deep reinforcement learning models and algorithms for single-machine scheduling considering deteriorated maintenance

Yong CHEN,Xizhi DU,Yiwei JIANG,Wenchao YI,Zhi PEI,Zuzhen JI

表 5 DRL算法超参数设置

Tab.5 Hyperparameter settings of DRL algorithms

超参数	DQN算法	PPO算法	A2C算法
最大训练步长	1.6×10⁷	1.6×10⁷	1.6×10⁷
批量大小	256	256	−
环境交互时间步	−	2048	256
隐藏层节点数	2×256	2×256	2×256
回放池大小	1×10⁷	−	−
网络同步频率	1×10⁴	−	−
学习率	1×10⁻⁴	1×10⁻⁴	1×10⁻⁴
折扣因子 γ	0.99	0.99	0.99
初始探索率	0.01	−	0.01
λ（GAE）	−	0.95	0.95
熵正则化系数	−	0.05	0.05
初始探索率	1	−	−
探索衰减率	0.99	−	−
最小探索率	0.001	−	−