考虑劣化维护的单机调度深度强化学习模型和算法

考虑劣化维护的单机调度深度强化学习模型和算法

陈勇,杜习之,姜一炜,易文超,裴植,纪祖臻

Deep reinforcement learning models and algorithms for single-machine scheduling considering deteriorated maintenance

Yong CHEN,Xizhi DU,Yiwei JIANG,Wenchao YI,Zhi PEI,Zuzhen JI

表 4 环境参数设置

Tab.4 Environment parameter setting

环境参数	描述	值
n	工件数量规模	10, 20, 30, 50, 80, 100, 150
p_j	工件j的加工时间	Discrete U (1, 10)
d_j	工件j的交付时间	p_j +Discrete U (n, 3n)
α	延迟交付的成本系数	1
β	机器损耗的成本系数	5
M₀	机器初始状态值	100
t_CM, t_PM	CM 和 PM 的时间	20, 10
C_CM, C_PM	CM 和 PM 的成本	60, 40
C_broke	损坏的额外修复成本	100
N_Scale	奖励值归一化尺度	100
h₁, h₂	劣化和失效效应点	60, 0
σ	劣化效应因子	0.05
M₁, M₂	超出边界状态的惩罚基数	2, 2