考虑劣化维护的单机调度深度强化学习模型和算法

考虑劣化维护的单机调度深度强化学习模型和算法

陈勇,杜习之,姜一炜,易文超,裴植,纪祖臻

Deep reinforcement learning models and algorithms for single-machine scheduling considering deteriorated maintenance

Yong CHEN,Xizhi DU,Yiwei JIANG,Wenchao YI,Zhi PEI,Zuzhen JI

表 9 DRL方法的成本优化效果

Tab.9 Cost optimization effect of DRL methods

规模	A2C			DQN			PPO
规模	$\Delta {\mathrm{mean}} $/%	$\Delta \min $/%		$\Delta {\mathrm{mean}} $/%	$\Delta \min $/%		$\Delta {\mathrm{mean}} $/%	$\Delta \min $/%
10	−0.23	0.00		−12.31	0.00		−0.78	0.00
20	7.25	1.01		5.21	0.33		8.01	0.44
30	9.53	3.25		7.98	2.76		11.88	3.25
50	10.00	−0.27		−46.41	−9.44		12.73	0.98
80	9.57	−0.59		6.25	−0.76		12.38	1.03
100	8.33	−1.27		6.96	0.87		12.43	1.53
150	12.00	2.90		8.33	3.61		12.83	3.45