考虑劣化维护的单机调度深度强化学习模型和算法
陈勇,杜习之,姜一炜,易文超,裴植,纪祖臻

Deep reinforcement learning models and algorithms for single-machine scheduling considering deteriorated maintenance
Yong CHEN,Xizhi DU,Yiwei JIANG,Wenchao YI,Zhi PEI,Zuzhen JI
表 4 环境参数设置
Tab.4 Environment parameter setting
环境参数描述
n工件数量规模10, 20, 30, 50, 80, 100, 150
pj工件j的加工时间Discrete U (1, 10)
dj工件j的交付时间pj +Discrete U (n, 3n)
α延迟交付的成本系数1
β机器损耗的成本系数5
M0机器初始状态值100
tCM, tPMCM 和 PM 的时间20, 10
CCM, CPMCM 和 PM 的成本60, 40
Cbroke损坏的额外修复成本100
NScale奖励值归一化尺度100
h1, h2劣化和失效效应点60, 0
σ劣化效应因子0.05
M1, M2超出边界状态的惩罚基数2, 2