浙江大学学报(工学版), 2026, 60(7): 1528-1538 doi: 10.3785/j.issn.1008-973X.2026.07.015

机械工程

考虑劣化维护的单机调度深度强化学习模型和算法

陈勇,, 杜习之, 姜一炜, 易文超,, 裴植, 纪祖臻

浙江工业大学 机械工程学院,浙江 杭州 310023

Deep reinforcement learning models and algorithms for single-machine scheduling considering deteriorated maintenance

CHEN Yong,, DU Xizhi, JIANG Yiwei, YI Wenchao,, PEI Zhi, JI Zuzhen

College of Mechanical Engineering, Zhejiang University of Technology, Hangzhou 310023, China

通讯作者: 易文超,女,讲师. orcid.org/0000-0002-8643-287X. E-mail:yiwenchao@zjut.edu.cn

收稿日期: 2025-02-19  

基金资助: 国家自然科学基金重点资助项目(W2411062);浙江省自然科学基金资助项目(LGG22G010002);国家自然科学基金资助项目(52005447, 71871203).

Received: 2025-02-19  

Fund supported: 国家自然科学基金重点资助项目(W2411062);浙江省自然科学基金资助项目(LGG22G010002);国家自然科学基金资助项目(52005447,71871203).

作者简介 About authors

陈勇(1973—),男,教授,从事复杂系统智能算法与优化研究.orcid.org/0000-0001-7778-2731.E-mail:cy@zjut.edu.cn , E-mail:cy@zjut.edu.cn

摘要

针对单台机器在考虑劣化效应与维护策略下的调度问题,提出多阶段机器状态模型. 以最小化生产总成本为目标,设计结合劣化演化和维护效果的状态转移机制,综合考虑作业延迟成本、机器运行成本和维护成本,旨在使整个生产过程更加经济和高效. 基于深度强化学习方法构建调度与维护一体化决策模型框架,通过训练Agent在与环境交互中学习优化策略,实现对复杂动态系统中作业调度与维护时机的联合决策. 设计多种规模的算例并验证框架和模型对结果优化的有效性. 实验对比结果表明,所提出的模型框架及算法在作业调度和维护总成本控制方面相较于多种综合优化策略方法具有更优表现,能够有效协调作业调度与设备维护的冲突关系,在动态不确定环境下实现更具优势的调度和维护一体化的优化策略学习和应用.

关键词: 单机调度 ; 设备维护 ; 深度强化学习 ; 劣化效应 ; 集成优化

Abstract

A multi-stage machine state model was proposed to address the single-machine scheduling problem under machine degradation and maintenance strategies, with the objective of minimizing total production cost. A state transition mechanism was designed to incorporate both degradation evolution and maintenance effects. Job tardiness cost, machine operating cost, and maintenance cost were jointly considered to improve economic efficiency in production of the entire production process. An integrated decision-making framework for scheduling and maintenance based on deep reinforcement learning was developed, in which the Agent was trained through interaction with the environment to learn optimized scheduling and maintenance strategies. Joint decisions on job sequencing and maintenance timing were realized in complex dynamic systems. Benchmark instances of various scales were designed, and the effectiveness of the proposed model and framework was validated through computational experiments. The results indicate that the proposed approach achieves better performance in minimizing total scheduling and maintenance costs compared with several integrated optimization strategies. The conflict between production scheduling and machine maintenance is effectively balanced, and a more advantageous integrated optimization strategy for scheduling and maintenance is realized in dynamic and uncertain environments.

Keywords: single-machine scheduling ; equipment maintenance ; deep reinforcement learning ; deterioration effect ; integration optimization

PDF (1712KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈勇, 杜习之, 姜一炜, 易文超, 裴植, 纪祖臻. 考虑劣化维护的单机调度深度强化学习模型和算法. 浙江大学学报(工学版)[J], 2026, 60(7): 1528-1538 doi:10.3785/j.issn.1008-973X.2026.07.015

CHEN Yong, DU Xizhi, JIANG Yiwei, YI Wenchao, PEI Zhi, JI Zuzhen. Deep reinforcement learning models and algorithms for single-machine scheduling considering deteriorated maintenance. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(7): 1528-1538 doi:10.3785/j.issn.1008-973X.2026.07.015

在生产调度问题中,大部分学者通常假设机器是持续可用的[1-2],或将生产调度和机器维护分为2个独立部分. 在实际生产中,由于机器连续运行中发热、振动、磨损等因素影响,机器状况会逐渐变差,当设备缺乏维护时会发生质量下降、设备损坏或延迟交付,过度维护会导致生产效率降低、延迟交付和增加维护成本.因此,即使机器仍然正常运行,也须在发生故障之前对其进行适当的维护以减少劣化效应对生产的影响. 合理安排生产调度和维护策略是目前的一项重大挑战,考虑劣化效应并集成调度维护的一体化的问题研究在制造系统转型升级过程中具有重要意义.

1. 相关工作

近年来,研究人员对生产调度和机器维护的问题进行了大量研究. 单机调度问题的研究在生产作业调度中较为基础,有助于揭示更深层次的问题. 在相关领域,Hajej等[3-4]根据生产计划制定定期预防性维护策略以应对机器的劣化效应影响. Zhang等[5]将机器维护分为事后维护、更换和预防性维护,其中预防性也是学者更多关注的方面. Sun等[6]研究了考虑恒定劣化速率和维护的单机调度问题并证明了问题是多项式时间可解的. 对调度与维护一体化的问题模型而言,使用以遗传算法为基础的启发式算法求解的应用研究比较广泛[7-8],也有学者侧重于这一集成模型本身[9-10]的分析. 在相关研究中,研究人员通过建立单机调度和基于劣化状态的多种维修决策模型[11],并应用基于遗传算法的智能优化方法求解这一联合决策. 局限性在于缺少对车间实时运行状态的模拟和仿真,且优化目标局限于最小化总完工时间,没有全面考虑生产过程中消耗的成本和其他约束. 对于此类NP难问题,当建模复杂度增加时,求解难度呈指数类型增长,深度强化学习方法(deep reinforcement learning, DRL)更加擅长处理高维复杂问题和求解精细控制的调度策略,但该方法对所提出的这类复杂问题的应用研究还比较少见.

近年来,车间生产调度和维护决策一体化的调度问题再次成为各学者研究讨论的焦点[12]. 杨宏兵等[13-14]将机器劣化视为一个离散多状态的过程,提出G-Learning和R-learning算法解决集成的调度和维护问题,是强化学习应用于该集成问题的初探. Lamprecht等[15]将深度强化学习方法用于流线系统的维护问题,证明强化学习方法也可适用于车间的维护调度. Salmasnia等[16]提出在批量生产系统下以瓶颈为中心的机会维护策略. 其他一些学者对预防或周期维护问题的最小化总成本[17]和最小化总延误[18]的模型进行了相关研究.

基于文献研究综述的背景和现状,本研究的主要创新点如下:1)针对具有劣化效应和维护决策的单机问题提出三阶段机器状态模型. 机器在正常状态运行一定时间后开始劣化,继而进入故障状态. 2)建立数学模型,设计DRL环境及算法框架,以最小化总成本为优化目标并考虑多种约束. 3)探索和对比几种不同DRL算法对该集成调度问题的适用性和优化效果. 4)与集成预测性维护的优先调度策略进行对比,验证所提出的DRL模型和框架的有效性和优越性.

2. 问题描述和建模

2.1. 条件和假设

目前,在生产调度和维护集成问题的模型中,通常用机器运行时间表示劣化程度或将机器的劣化过程视为离散多阶段的,状态的转换遵循一定的概率分布[19-20]. 随着数字化生产技术的发展,机器运行状态的监测成为可能,本研究提出的三阶段单机器状态模型可以描述为:n个独立的作业被安排在一台机器上处理,机器在初始状态M0具有初始健康状态值h0,劣化效应发生点h1和失效点h2,用于分隔机器运行状态所处的阶段. 在加工过程中,机器状态值会随加工时间的增加而降低,当状态低于h1时劣化效应开始发生,作业在机器上的加工时间逐渐延长. 当机器状态下降到h2时,除非进行维护操作恢复状态,否则机器将持续处于不可用状态. 机器劣化效应过程如图1所示.

图 1

图 1   劣化效应过程示意图

Fig.1   Deterioration effect process


机器的维护操作策略分为小修(partial maintenance, PM)和大修(complete maintenance, CM)2种. 小修可以恢复一定的状态值,成本更低且花费时间更短,大修可以一次性恢复更多的机器状态,但维护成本更高,维护时间也更长. 在问题中须考虑合理分配作业在机器上的排列顺序,同时安排适时的维护决策,防止机器进入失效状态,并尽可能降低完工时的总成本. 该问题的基本假设总结如下:

1)机器同时只能处理一个作业,每个作业只处理一次,加工过程不能中断.

2)机器和作业在0时刻开始时均已准备就绪.

3)机器的初始健康值h0、劣化点h1和故障点h2是基于机器状态检测和产品质量分析所得并已知的,在每次调度开始时初始化.

4)机器进入劣化状态时加工时间延长,但不会发生故障. 进入故障状态后无法继续运行.

5)忽略机器的启停时间和作业更换时间.

2.2. 模型建立

该综合优化问题总目标是最小化生产成本,包括因交付延迟而造成的收益损失成本、机器加工的运行成本和机器的维护成本. 所考虑的针对作业集合$ J=\{{J}_{1},{J}_{2},{J}_{3},\cdots ,{J}_{n}\} $进行调度和维护操作的关键决策变量表示如下:

$ \sum _{i=1}^{n}{x}_{ij}=1;\; \forall j\in J. $

$ \sum _{j=1}^{n}{x}_{ij}=1;\; \forall i\in J. $

$ {x}_{ij}\in \left\{\mathrm{0,1}\right\};\;\forall i,j\in J. $

$ {m}_{i}=\left\{\begin{array}{l}0,\quad 不维护;\\ 1,\quad 局部修复{\mathrm{PM}};\\ 2, \quad 完全修复{\mathrm{CM}}.\end{array}\right. $

式中:n为作业总数,j表示作业在集合J中的索引,i表示作业Jj在调度序列中的索引,式(1)~(3)表示每个工件Jj必须安排在调度序列中的某一个位置,且序列中每个位置i只能同时有一个作业;xij为表示序列i位置是否有作业Jj被安排的0-1变量;mi为执行第i项作业前的维护决策变量. 状态转移过程如图2所示.

图 2

图 2   状态的转换

Fig.2   Transition of state


生产过程中的总优化目标期望是使生产过程中的各项成本之和达到最优或近优值,目标函数为

$ \mathrm{M}\mathrm{i}\mathrm{n}\left[\alpha \sum _{i=1}^{n}{{\mathrm{DT}}}_{i}+\beta \sum _{i=1}^{n}{{\mathrm{PT}}}_{i}+{N}_{1}{C}_{\mathrm{P}\mathrm{M}}+{N}_{2}{C}_{\mathrm{C}\mathrm{M}}\right]. $

式中:DTi表示作业的延迟时间成本;PTi表示作业的加工时间成本;CPMCCM为2种维护的成本;α为交付延迟的成本系数,β为机器运行的成本系数,控制交付延迟和设备运行成本的权重;N1N2分别表示2种维护的操作总数.

目标函数的约束条件如下:

$ {{\mathrm{PT}}}_{i}=\left\{\begin{array}{ll}{p}_{i},&{h}_{1} \lt {M}_{i} \leqslant {h}_{0};\\{p}_{i}\left(1+\sigma \left({h}_{1}-{M}_{i}\right)\right),& {h}_{2} \leqslant {M}_{i} \leqslant {h}_{1}.\end{array}\right. $

$ {s}_{i}=\left\{\begin{array}{ll}{e}_{i-1},& {m}_{i}=0;\\{e}_{i-1}+{t}_{\mathrm{P}\mathrm{M}},& {m}_{i}=1;\\{e}_{i-1}+{t}_{\mathrm{C}\mathrm{M}},& {m}_{i}=2.\end{array}\right. $

$ {e}_{i}={s}_{i}+{{\mathrm{PT}}}_{i}. $

$ {{\mathrm{DT}}}_{i}={\mathrm{max}}\;(0,{e}_{i}-{d}_{i}). $

式中:Mi为机器当前健康状态,pi为当前作业预计加工时间,σ为劣化效应因子,sieidi分别为当前作业的开始、结束和交付时间,tPMtCM表示2种维修的时间,mi为维修状态指示. 式(6)表示,当机器的健康状态值高于h1时,作业的实际处理时间与预计时间相同,当机器的状态低于h1后,作业的实际处理时间线性增加. 式(7)、(8)表示队列中作业的开始和结束时间,若不进行维护,队列中作业Ji在上一个作业Ji−1结束后开始,否则等待维护完成后开始. 通过式(9)计算作业Ji的延迟时间.

$ {M}_{i}=\left\{\begin{array}{ll}{h}_{0},& i=1;\\{M}_{i-1}-{{\mathrm{MP}}}_{i-1}, & i\ge 2.\end{array}\right. $

$ {M}_{i}=\left\{\begin{array}{ll}{\mathrm{min}}\;\left({h}_{0},{M}_{i-1}+{R}_{\mathrm{P}\mathrm{M}}\right),& {m}_{i}=1;\\ {\mathrm{min}}\;\left({h}_{0},{M}_{i-1}+{R}_{\mathrm{C}\mathrm{M}}\right),& {m}_{i}=2.\end{array}\right. $

$ {M}_{i}\ge {h}_{2},\; \forall i. $

式中:MPi为机器完成作业消耗的健康值,RPMRCM为修复量. 式(10)、(11)为机器状态更新方法,表示机器状态值随作业Ji加工时间相应减少,如进行作业Ji之前决策变量mi≠0,即须进行维护,机器状态将得到相应恢复. 式(12)约束机器健康值不低于故障点h2.

$ {N}_{1}=\sum _{i=1}^{n}{\delta }_{\mathrm{P}\mathrm{M},i},\;{N}_{2}=\sum _{i=1}^{n}{\delta }_{\mathrm{C}\mathrm{M},i}. $

$ \left.\begin{split} {\delta }_{{\mathrm{PM}},i}=&\left\{\begin{array}{ll}1,&{m}_{i}=1;\\0,&{其他}.\end{array}\right. \\{\delta }_{{\mathrm{CM}},i}=& \left\{\begin{array}{ll}1,&{m}_{i}=2;\\0,&{其他}.\end{array}\right.\end{split}\right\} $

式中:N1N2分别为2种维护的计数,δPMδCM为作业Ji加工之前进行维护决策的0-1变量. 式(13)、(14)计算了维护计数. 根据以上约束,构建了考虑机器劣化效应的单机器任务调度和维护一体化决策求解的数学模型.

3. 算法设计描述

3.1. 方法选择

DeepMind团队开发的DRL算法自诞生起便引起了业界和学界的广泛关注[21]. 该技术将深度学习和强化学习相结合,为复杂系统问题的感知决策提供解决方案. 近年来,许多学者结合DRL方法对车间调度问题进行研究[2224],这些研究将作业调度视为顺序决策问题,并通过训练DRLAgent的学习任务调度策略实现优化目标.

将调度决策与环境的交互过程描述为马尔可夫决策过程(Markovian decision process, MDP):$ (S,A,P,\gamma ,R) $,其中S表示状态空间,A表示动作空间,P表示状态转移概率,$ \gamma \in [0, 1.0] $表示折扣因子,R表示奖励函数. Agent在每个时间步t观察$ {s}_{t}\in $S的当前状态,并根据特定策略$ {\text{π}} (S,A) $$ {a}_{t}\in A $处采取行动. 然后根据转移概率$ p({s}_{t+1}\Vert {s}_{t},{a}_{t})\in P(S\times A\to S) $进入新状态$ {s}_{t+1} $并获得$ {r}_{t}\in R $的奖励. 目标是制定一系列的策略,使预期的累积奖励$ {G}_{t} $最大化. 动作价值函数$ Q_{\text{π}}(s, a)$在每个策略$\text{π} $下的值可以表示为

$ Q_{\text{π}}(s, a)=E\left[r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdots \| s_t=s, a_t=a, {\text{π}}\right] .$

最优值${Q}^{*}\left(s,a\right) $满足Bellman最优方程:

$ Q^*(s, a)=E_{s^{\prime}}\left[r+\gamma \max _{a'}\; Q^*\left(s^{\prime}, a^{\prime}\right) \| s, a\right] . $

应用DRL方法的关键是训练智能体(Agent)与环境交互,使Agent以从环境中获得的观测值和奖励为指导做出最佳决策. Agent与环境的交互模式结构如图3所示.

图 3

图 3   调度决策模型

Fig.3   Scheduling decision model


3.2. 状态和动作空间设计

状态空间在DRL中指示当前模型的状态,是Agent感知环境的窗口,设计时须充分考虑车间的各种动态特征,准确表达每个时刻系统的状态. 在建立的模拟车间生产调度系统的仿真模型中,仿真时间基于事件推进,在每一时刻t返回环境状态,为Agent下一动作决策提供信息. 在状态空间中:用1维浮点数表示仿真钟当前时刻t;用6维列表表示作业加工状态,包括已完成的任务数nC、剩余任务数nB、剩余任务集合B的总剩余加工时间$ {\sum }_{j\in B}{p}_{j} $、最小加工时间$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}{p}_{j} $、平均加工时间$ {\sum }_{j\in B}{p}_{j}/{n}_{B} $、最早交付时间$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}{d}_{j} $;用4维列表表示当前机器的运行状态,包括机器健康度$ {M}_{i}\left(t\right) $、机器运行时间系数$ {t}_{\mathrm{c}\mathrm{o}\mathrm{e}}=\left(1+\sigma \left({h}_{1}-{M}_{i}\right)\right) $、剩余可运行时间、机器状态阶段$ {m}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{t}\mathrm{e}}\in \{\mathrm{0,1},\mathrm{2,3},4\} $. 状态空间的观察值涵盖了环境信息、作业进度、机器状态3个核心要素,能够采集充足信息充分表示目前调度所处的阶段.

对观测空间进行归一化处理,将不同尺度的特征统一在[0, 1.0]区间内,避免某些大尺度变量主导学习过程,优化收敛速度和稳定性. 对具有明确上下限的变量使用Min-Max方法归一化,对时间相关无法明确上限的变量使用对数缩放的方法归一化. 处理后的状态空间可以表示为

$ \begin{split} {{s}}_t= & {\left(\dfrac{\log\; (1+t)}{\log\; \left(1+10^4\right)}, \dfrac{n_{\mathrm{C}}}{n}, \dfrac{n_{B}}{n}, \dfrac{\log\; \left(1+\sum_{j \in B} p_j\right)}{\log\; \left(1+10^4\right)},\right.} \\& \dfrac{\log\; \left(1+\min _{j \in B} p_j\right)}{\log\; \left(1+10^4\right)}, \dfrac{\log\; \left(1+\sum_{j \in B} p_j / n_{B}\right)}{\log\; \left(1+10^4\right)}, \\& \dfrac{\log\; \left(1+\min _{j \in B} d_j\right)}{\log\; \left(1+10^4\right)}, \dfrac{M_i(t)}{M_0}, \dfrac{M_i(t) / t_{\mathrm{coe}}}{M_0}, \\& \left.\dfrac{t_{\text {coe }}}{10}, \dfrac{m_{\text {state }}(t)}{4}\right).\end{split} $

在动作空间中引入优先级调度规则(PDR)启发Agent的任务调度动作,使7种适用的PDR调度动作与2种维护动作共同构成动作空间$ A=\{{a}_{1},{a}_{2},\cdots ,{a}_{9}\} $. 每个调度动作$ {a}_{t}\in A $映射到一个调度规则,这些规则基本覆盖了任务调度问题中的常见调度规则,并适用于单机调度问题. ${a}_{8} $${a}_{9} $分别表示PM和CM维护动作策略. 该动作空间中的动作均为预先定义且离散的. 动作空间的详细解释如表1所示.

表 1   动作空间描述

Tab.1  Description of action space

符号动作描述数学形式
a1SPT最短加工时间优先$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;{p}_{j} $
a2LPT最长加工时间优先$ {\mathrm{m}\mathrm{a}\mathrm{x}}_{j\in B}\;{p}_{j} $
a3EDD最早交付期优先$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;{d}_{j} $
a4FCFS最早到达时间优先$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}}_{j} $
a5MST最小松弛时间$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;\left({d}_{j}-\left(t+{p}_{j}\right)\right) $
a6CR最小临界比率$ {\mathrm{min}}_{j\in B}\;\left({d}_{j}-t\right)/{p}_{j} $
a7MDD修正交付时间优先$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;\mathrm{m}\mathrm{a}\mathrm{x}\;({d}_{j},t+{p}_{j}) $
a8PM执行不完全维护$ {M}_{i-1}+{R}_{\mathrm{P}\mathrm{M}} $
a9CM执行完全维护$ {M}_{i-1}+{R}_{\mathrm{C}\mathrm{M}} $

新窗口打开| 下载CSV


3.3. 奖励函数设计

奖励函数设计须引导Agent评价动作的好坏,减少作业延迟和运行时间、避免过度维护或损坏、平衡长期与短期成本,实现成本最优化.

每次决策与环境交互产生的单步总成本为

$ {C}_{\mathrm{s}\mathrm{t}\mathrm{e}\mathrm{p}}={C}_{\mathrm{d}\mathrm{e}\mathrm{l}\mathrm{a}\mathrm{y}}+{C}_{\mathrm{r}\mathrm{u}\mathrm{n}}\;, $

$ {C}_{\mathrm{d}\mathrm{e}\mathrm{l}\mathrm{a}\mathrm{y}}=\alpha {{\mathrm{DT}}}_{i}, $

$ {C}_{\mathrm{r}\mathrm{u}\mathrm{n}}=\beta {{\mathrm{PT}}}_{i}+{C}_{\mathrm{PM}}+{C}_{\mathrm{CM}}. $

式中:C为单步各项成本,αβ分别为拖期和加工成本系数. 单步成本包括任务延迟成本和机器运行成本,运行成本分为加工成本和维护成本. 完成任务的基础奖励为固定值1,促进Agent优先完成调度任务. 为了防止数值波动使计算出现偏向性,对奖励函数进行归一化处理:

$ {r}_{t}=\left\{\begin{array}{ll}1-\dfrac{{C}_{\mathrm{s}\mathrm{t}\mathrm{e}\mathrm{p}}}{{{N}}_{\mathrm{Scale}}},&{\mathrm{action}}={a}_{1}\sim{a}_{7};\\-\dfrac{{C}_{\mathrm{P}\mathrm{M}}}{{{N}}_{\mathrm{Scale}}},&{\mathrm{action}}={a}_{8};\\-\dfrac{{C}_{\mathrm{C}\mathrm{M}}}{{{N}}_{\mathrm{Scale}}},&{\mathrm{action}}={a}_{9}.\end{array}\right. $

式中:rt为单步决策从环境中获得的奖励值,当执行调度动作时rt是固定奖励减去作业加工成本和延迟成本惩罚之和,执行维护动作时rt是产生维护成本的惩罚;NScale为奖励缩放尺度,合理设置该值可将单步奖励控制在[0, 1.0].

将机器健康状态大于h1时进行维护视为过度维护,机器状态低于阈值T而继续执行调度视为增加损坏风险,分别施加[0,−1.0]范围内的线性惩罚. 当过度维护超出边界条件时,给予较大的惩罚M1并随维修计数rc递增,当损坏没有及时进行修复时,给予较大的惩罚M2并随损坏计数bc递增. 以上边界惩罚可以表示为

$ r_{\text {bound }}=\left\{\begin{array}{ll}-\dfrac{T-M_i}{M_i^T}, & a_t=a_1\sim a_7,\; M_i<T; \\-\dfrac{M_i-h_1}{M_0-h_1}, & a_t=a_8,\; a_9 ,\; M_i>h_1 ;\\-\left(M_2+b_{\mathrm{c}}\right), & a_t=a_1\sim a_7,\; M_i<h_2; \\-\left(M_1+r_{\mathrm{c}}\right), & a_t=a_8,\; a_9,\; M_i \geqslant M_0; \\0, & {\text{其他}}.\end{array}\right. $

以上边界惩罚将引导Agent做出与机器状态相关的合理决策,并阻止陷入错误的动作循环.

在所有任务完成后计算全局总成本并获得全局收益rglobal,鼓励Agent探索更有利于整体效益的方案:

$ {r}_{\mathrm{g}\mathrm{l}\mathrm{o}\mathrm{b}\mathrm{a}\mathrm{l}}=100\times \left( {\frac{{n}^{2}}{\sum {C}_{\mathrm{d}\mathrm{e}\mathrm{l}\mathrm{a}\mathrm{y}}}+\frac{n}{\sum {C}_{\mathrm{r}\mathrm{u}\mathrm{n}}}} \right) .$

单步奖励用于引导局部高效决策,全局奖励引导Agent关注全局收益,避免短视. 在该DRL模型中,奖励函数可以表示为

$ R=\sum {r}_{t}+\sum {r}_{\mathrm{b}\mathrm{o}\mathrm{u}\mathrm{n}\mathrm{d}}+{r}_{\mathrm{g}\mathrm{l}\mathrm{o}\mathrm{b}\mathrm{a}\mathrm{l}} .$

图4所示展示了机器当前状态值Mv与执行不同策略所获得的奖励值Ra之间的变化关系. 如图5所示展示了持续进行单一调度动作获得的奖励值与机器状态值变化的关系.

图 4

图 4   机器健康状态-调度策略奖励曲线

Fig.4   Machine status and scheduling strategy reward curve


图 5

图 5   单一策略运行步数-奖励曲线

Fig.5   Single strategy running step and reward curve


3.4. 算法结构和流程

由于问题模型的强离散属性,在DRL方法中选取了DQN、A2C和PPO这3种解决离散型车间调度问题的经典算法,用于评估所建立的DRL模型框架的适用性和运行效果,并分别讨论几种算法对所述模型的求解质量.

为了保证算法性能的平衡,在3种算法中均使用全连接层架构的神经网络(MLP),输入层节点数为观测空间维度11,隐藏层数为2,每层节点数为256,输出层节点数为动作空间维度9,神经网络的优化器使用Adam方法,激活函数使用ReLu方法. 如图6所示为提出的DRL网络交互结构.

图 6

图 6   DRL算法网络结构

Fig.6   Network structure of DRL algorithm


Agent从环境中感知当前状态的特征并输入神经网络,通过计算动作的Q值或策略选择概率,输出作业调度或机器维护动作选择的预测值,并根据动作交互和改变调度环境.

问题模型仿真环境和DRL框架基于Python语言和Pytorch神经网络框架编码和实现,使用OpenAI gym包装,增强环境的兼容性和扩展性.

算法的训练过程如下:每个回合开始时重置环境,Agent获得观察状态S0,在调度期间安排作业和维护决策. 当队列中的所有任务完成后,重置环境并开始下一回合. 对持续超出边界的情况除边界惩罚外还设置了环境截断条件,防止策略陷入不良状态. 当步数达到最大时,训练过程结束,输出经过训练的模型,并使用该模型进行测试,输出总成本最小的调度方案. 提出的DRL算法框架和运行流程如图7所示.

图 7

图 7   DRL算法流程

Fig.7   Algorithm flow of DRL


在DQN算法中使用递减的$\varepsilon $-greedy策略,在前期更多地探索解决方案空间,在后期保持更稳定的策略,实现探索和利用的平衡:

$ a=\left\{\begin{array}{ll}\mathrm{arg}\mathrm{max}\;Q\left(a\right),&P\ge \varepsilon; \\{\mathrm{random}}, & P \lt \varepsilon.\end{array}\right. $

$ \varepsilon =\mathrm{m}\mathrm{a}\mathrm{x}\;({\varepsilon }_{\mathrm{m}\mathrm{i}\mathrm{n}},{\varepsilon }_{0}-{d}_{\mathrm{r}}{n}_{\mathrm{i}\mathrm{t}\mathrm{e}\mathrm{r}}) .$

式中:P为[0,1.0]内的随机数,$\varepsilon_{{\mathrm{min}}} $为设定的$\varepsilon $的最小值,dr为衰减率,niter为随机探索的次数.

在PPO和A2C算法中,由于网络结构和算法实现原理的差异,通过控制广义优势估计(GAE)权衡偏差与方差的折中系数、控制策略熵在损失函数中的权重系数、平衡策略损失和值函数损失的权重系数,分别控制探索中的策略梯度更新、探索的随机性和策略更新的稳定性.

4. 数值实验分析

4.1. 实验算例设计和基准

研究提出的考虑劣化效应和维护决策的单机一体化调度问题具有模型特殊性,未检索到标准数据集作为测试基准,因此通过控制作业的特定参数生成随机的数据实例.

实验规模分别设置为10、20、30、50、80、100和150. 这些规模涵盖了无需维护、可选维护、必须适时维护否则机器将损坏的多种情形. 待加工作业数据中,每个作业的处理时间pj按照$ U[1, 10] $的离散均匀分布随机生成,每个作业的交付时间设置为$ {d}_{j}={p}_{j}+U[n, 3n] $,其中n为作业数量.

为了验证算法的有效性,基于目前广泛使用的优先调度规则结合基于机器状态的预测性维护(PMMC)方法[25],提出使用调度规则与预防性维护相结合的调度-维护(R-M)集成优化方法,并将其优化结果作为比较基准. 令DRL算法动作空间中7种调度规则分别与维护策略组合,当机器状态值低于阈值T时随机执行维护动作. T分别设置为40、50、60、70.

将基准实验独立运行20次,记录7种优先调度规则和7种算例规模下的R-M优化策略在多种阈值T下维护优化后调度总成本的结果,作为评价基准,其中,Mean为最小值的均值,Std为标准差,如表2所示. 如表3所示为各种R-M策略在不同阈值T下获得的最优值Min.

表 2   R-M集成优化策略下的成本均值和标准差

Tab.2  Mean and standard deviation of cost with R-M integrated optimization strategies

规模SPT-MLPT-MFCFS-MEDD-M
MeanStdMeanStdMeanStdMeanStd
10200.00.0258.00.0192.00.0227.00.0
201005.610.21682.0108.81058.727.11334.282.1
302160.658.13725.4110.32678.0113.13075.8143.8
503610.0157.58074.8212.74679.4291.35065.8229.9
8011198.2450.422474.8752.114871.1597.915306.1665.6
10016709.3553.833877.21188.921372.8856.823350.4886.7
15032096.01198.471634.72146.842847.31791.347919.01474.0
规模MST-MCR-MMDD-M基准
MeanStdMeanStdMeanStdMeanStd
10197.00.0226.00.0191.00.0191.00.0
201163.020.61053.527.7973.822.5973.822.5
302879.373.22269.0109.52103.9102.92103.9102.9
504858.1307.33597.3191.63310.6172.13310.6172.1
8015181.1687.811678.6519.010642.0494.010642.0494.0
10021907.0937.216753.6800.715763.6766.815763.6766.8
15043670.21579.232857.91266.630546.11166.530546.11166.5

新窗口打开| 下载CSV


表 3   R-M集成优化策略下的成本最小值

Tab.3  Minimum of cost with R-M integrated strategies

规模Min
SPT-MLPT-MEDD-MFCFS-MMST-MCR-MMDD-M
10200258192227197226191
2095615651008.041255.67510861006904
302017344124632831263220701939
50324572734314.024565425132212940
801021820871134071371113779103229494
10015076310611924121190192491480614030

新窗口打开| 下载CSV


4.2. 算法和环境参数设定

仿真环境中必要的参数设置如表4中所示. 其中奖励归一化缩放参数NScale的取值根据各项成本系数、维护成本、单步平均成本等估计值测定,使奖励函数范围在[0, 1.0].

表 4   环境参数设置

Tab.4  Environment parameter setting

环境参数描述
n工件数量规模10, 20, 30, 50, 80, 100, 150
pj工件j的加工时间Discrete U (1, 10)
dj工件j的交付时间pj +Discrete U (n, 3n)
α延迟交付的成本系数1
β机器损耗的成本系数5
M0机器初始状态值100
tCM, tPMCM 和 PM 的时间20, 10
CCM, CPMCM 和 PM 的成本60, 40
Cbroke损坏的额外修复成本100
NScale奖励值归一化尺度100
h1, h2劣化和失效效应点60, 0
σ劣化效应因子0.05
M1, M2超出边界状态的惩罚基数2, 2

新窗口打开| 下载CSV


在DRL算法的调试过程中,对3种算法的超参数进行调优. 分析学习率、经验池、批量、网络更新频率、折扣因子γ和探索率ε等参数的影响. 综合考虑各种参数对模型训练的增益,确定对模型训练较稳定且对不同规模适应度较好的参数组合,并选择相近的超参数进行实验,以更好地衡量不同算法之间的性能差异和优化效果. 详细设置如表5所示,并针对不同算例规模适配相应的训练步长.

表 5   DRL算法超参数设置

Tab.5  Hyperparameter settings of DRL algorithms

超参数DQN算法PPO算法A2C算法
最大训练步长1.6×1071.6×1071.6×107
批量大小256256
环境交互时间步2048256
隐藏层节点数2×2562×2562×256
回放池大小1×107
网络同步频率1×104
学习率1×10−41×10−41×10−4
折扣因子 γ0.990.990.99
初始探索率0.010.01
λ(GAE)0.950.95
熵正则化系数0.050.05
初始探索率1
探索衰减率0.99
最小探索率0.001

新窗口打开| 下载CSV


4.3. 学习和优化效果评价

根据生成的数据集和设定的算法参数,使用3种DRL算法分别对不同规模的实例进行20次独立训练,训练中产生各种规模下的最优模型,使用训练好的模型进行数值测试和保存结果,每次运行完成后销毁调用的对象并释放内存,以确保每次实验的独立性.

以涵盖小规模和中规模的30和80规模算例为例,3种算法的奖励迭代曲线如图8所示,平均回合步长曲线如图9所示. 其中,ravg为回合平均奖励,savg为回合平均步长,strain为训练步长. 从奖励曲线变化可以看出,训练开始后3种算法获得的奖励较快收敛于一定范围,并在微观尺度继续收敛,说明DRL算法已经掌握适应环境的调度规律,并能通过微调探索更好的组合优化方案以获得更优的调度结果. 从回合平均步长的变化中可以看出,DRL算法在探索一定时间后,学习到适应环境的调度策略,并适时安排维护策略,使最终的交互步数略高于每个场景下的任务数,表明调度策略中没有发生过度或缺乏维护及其他导致环境截断的不良方案.

图 8

图 8   规模对回合平均奖励的影响曲线

Fig.8   Influence curves of scale on average reward of episode


图 9

图 9   规模对回合平均步长的影响曲线

Fig.9   Influence curves of scale on average step of episode


规模为80算例下的训练速度曲线如图10所示. 其中,FPS为每步交互所需时间. 可以看出,DQN算法在前期的探索和积累经验阶段具有较快的速度,随着经验学习的开始,环境渲染速度(每秒交互的步数)开始下降. 最终的计算速度为A2C较快,DQN和PPO较低. 其余规模下的计算速度趋势相同.

图 10

图 10   计算速度曲线(规模为80)

Fig.10   Calculation speed curves with scale of 80


所有规模下的训练奖励和时间如表6所示,从训练时间对比可以看出,A2C具有相对较高的计算效率,DQN和PPO算法计算速度相近,但DQN速度略慢.

表 6   DRL算法训练性能比较

Tab.6  Training performance comparison of DRL algorithms

规模算法时间步/106平均FPS训练时长/h
10A2C11498.40.18
DQN11660.80.27
PPO11141.60.24
20A2C21473.70.37
DQN21440.60.54
PPO21109.60.50
30A2C21447.30.38
DQN21393.90.54
PPO21093.30.51
50A2C41400.90.79
DQN41283.41.11
PPO41065.41.05
80A2C81360.61.63
DQN81154.32.27
PPO81038.62.15
100A2C81350.41.66
DQN81121.42.31
PPO81018.62.19
150A2C161276.13.51
DQN161051.94.68
PPO161007.24.33

新窗口打开| 下载CSV


优化数值结果分析表明,3种DRL算法在数值优化效果上均优于R-M集成策略给出的基准,尽管A2C在计算效率中表现出一定的优势,但其对数值的优化效果不如DQN和PPO. PPO算法在数值优化效果上对比其他算法具有明显优势,DQN算法在训练过程中则没有表现出特别优势,且在规模为50的训练中出现了学习不稳定和难收敛的状况. 经过分析可能原因是这一规模下奖励函数出现了部分奖励数值重叠,使基于值的DQN算法难以从数值变化中分辨和学习经验.

调度总成本优化效果差距随着作业数量的增加更加明显,证明了DRL算法在处理较大规模作业时可以借助其数值敏感性和神经网络在对高维和复杂问题的求解能力上获得更大优势. DRL算法优化后的调度总成本的平均值和标准差记录于表7.

表 7   DRL方法的成本优化均值和标准差

Tab.7  Optimized cost mean and standard deviation of DRL algorithms

规模基准A2CDQNPPO
MeanStdMeanStdMeanStdMeanStd
10191.00.0191.41.0217.861.7192.514.8
20973.822.5908.09.5925.647.6901.56.1
302103.9102.91920.820.11948.3109.01880.56.6
503310.6172.13009.641.16177.72280.42936.719.0
8010642.0494.09712.765.110015.8480.49469.740.3
10015763.6766.814551.0172.214737.7708.414020.2119.5
15030546.11166.527272.6270.028197.41209.327073.3275.1

新窗口打开| 下载CSV


DRL方法和R-M集成优化策略平均优化结果的优化效果对比如图11所示,数值越小越好. 其中,Cost表示优化成本.

图 11

图 11   不同算法的成本优化结果对比

Fig.11   Comparison of optimization cost results of different algorithms


表8所示记录了7种算例规模下3种DRL算法与R-M集成优化策略方法计算得到的最优结果比较.

表 8   DRL方法优化的最优值

Tab.8  Optimized minimum cost of DRLs

规模Min
R-MDQNA2CPPO
10191.0191.0191.0191.0
20904.0895.0901.0900.0
301939.01878.01887.01878.0
502940.02948.03246.42911.6
809494.09550.39566.69397.0
10014030.014210.013909.613818.0
15027519.026743.826560.926600.9

新窗口打开| 下载CSV


为了系统地评估DRL方法的性能,定义成本节约百分比(PCS)作为性能指标,表示与其他优化策略相比选定方法节约的成本百分比,用于比较DRL方法与R-M策略. PCS计算公式为

$ {\mathrm{PCS}}=\frac{{C}_{\mathrm{l}}-{C}_{\mathrm{D}\mathrm{R}\mathrm{L}}}{{C}_{\mathrm{l}}}. $

式中:Cl表示R-M集成策略优化后的最低成本,CDRL表示DRL方法的成本.

当作业调度规模较小时,所提出的DRL方法获得与R-M集成优化策略相近的结果. 随着作业数量的增加,所提出的DRL算法在实验中显示出更好的性能,当作业数量大于30时,PPO算法对比均值的PCS超过12%,对比最优值的PCS超过1%. 相比之下,DQN算法在规模为50的算例中的表现不够稳定,存在较大偏差,无法作为稳健的优化方法进行应用. A2C算法在均值优化效果上也达到约10%,但在对最优值的探索能力上优势不明显.

综上所述,在所提出的DRL框架下,PPO算法比其他策略具有更好的计算准确性和适应能力,可以作为效果较好的算法进行应用. 该评估指标下3种DRL算法的均值和最优值的成本节约性能对比如表9所示. 其中,$\Delta {\mathrm{mean}}$$\Delta \min $分别为对均值和最优值的优化效果.

表 9   DRL方法的成本优化效果

Tab.9  Cost optimization effect of DRL methods

规模A2CDQNPPO
$\Delta {\mathrm{mean}} $/%$\Delta \min $/%$\Delta {\mathrm{mean}} $/%$\Delta \min $/%$\Delta {\mathrm{mean}} $/%$\Delta \min $/%
10−0.230.00−12.310.00−0.780.00
207.251.015.210.338.010.44
309.533.257.982.7611.883.25
5010.00−0.27−46.41−9.4412.730.98
809.57−0.596.25−0.7612.381.03
1008.33−1.276.960.8712.431.53
15012.002.908.333.6112.833.45

新窗口打开| 下载CSV


为了进一步验证所提出的DRL方法的有效性以及与各集成优化方法之间存在的显著差异,采用Friedman检验来评估实验数据,分别以最优值和平均值作为响应,计算这些策略之间的秩和并进行排序,如表10所示. 2个指标下的p值均小于0.05,表明结果是可信的. 综合来看,在各种DRL方法中,PPO算法具有最好的优化效果和相对出色的稳健性.

表 10   不同方法的Friedman 检验排序结果

Tab.10  Sorting results of Friedman test by different methods

规模方法MinMean
中位数秩和中位数秩和
7PPO2931.8102957.310
7MDD-M2945.0153363.924
7A2C3027.4183058.814
7DQN3672.7363819.031
7SPT-M3263.9373633.036
7CR-M3258.3413644.542
7EDD-M4258.6454649.844
7MST-M4263.8524837.552
7FCFS-M4534.5615040.862
p1=0.00p2=0.00

新窗口打开| 下载CSV


在R-M集成优化策略中,修正交付时间优先调度规则与预防性维护的集成优化策略(MDD-M)的优化效果中排在最前. 总体来看,DRL框架下的算法与R-M策略相比均具有优势,特别是经过训练之后的模型调度结果波动更小,能够减少调度的不稳定性.

4.4. 学习特性分析

当作业规模较少时,DRL方法与R-M策略得到相近的调度结果,当任务数量增加时,DRL能够通过环境交互识别高维特征,得到更好的解决方案. 以PPO算法对规模为50算例的优化结果为例,最优方案下的机器状态变化曲线、每步交互的成本数值分析和作业调度甘特图如图12所示. 从机器健康状态变化曲线中可以看出,算法倾向于在机器即将或刚到达劣化效应点时即采取成本和时间更少的PM维护策略维持机器健康状态. 从单步交互的成本分析中可以看出,Agent倾向于优先安排更多不发生延期的作业以维持更低的总成本,因此调度前期成本以机器运行成本和维护成本为主,当后续作业开始发生延期,单步成本以延期成本为主. 成本变化规律符合Agent选择更加节约时间的PM维护动作以尽可能减少后续作业延期的策略. 从单机作业调度甘特图中可以看出,Agent在前期优先选择加工时间适中的高成本作业,当接近交付时间时密集选择加工时间最短的任务以尽可能减少更多的作业延期,这一规律符合最小化成本的要求和预期.

图 12

图 12   调度结果记录(规模为50)

Fig.12   Scheduling result and records with scale of 50


以上调度规律与调度环境的设计密切相关,在当前环境状态下,每次动作交互都会增加后续结果的不确定性. 如果在前期采取了错误的调度策略浪费了过多时间,则后续作业的交付时间会随之延迟而导致获得更高的成本惩罚.

DRL算法通过感知环境信息,在不断变化实际生产环境的环境中给出更优的调度解决方案. 算法给出的调度策略也揭示了在生产中须保持机器健康状态以应对交付期密集型的任务. 由此可见DRL在作业调度领域具有一定的意义.

此外,从调度规则的动作记录中可以看出,尽管MDD-M策略在R-M组合策略中具有绝对优势,但DRL算法的通用决策能力并未受到影响. 算法对多种调度规则进行了有效组合,从而获得综合效果更好的调度结果. 最优方案下的调度动作记录如下:a3 a3 a7 a3 a6 a3 a3 a7 PM a3 a3 a7 a3 a3 a7 a3 a7 a5 a5 a7 a7 PM a7 a7 a7 a1 a1 a7 a7 a7 a7 a1 a7 a1 a7 a7 a1 PM a1 a1 a7 a7 a7 a7 PM a4 a7 a1 a7 a1 PM a2 a6 a2 a6.

5. 结 语

研究考虑机器劣化效应和维护决策的集成的单机调度问题,设计以最低总成本为优化目标的数学模型,构建模型的DRL框架. 多种规模下的数值仿真实验证明了该框架能够充分表达不同调度策略对成本优化和Agent学习决策的影响,能够有效平衡生产调度与设备维护的一体化决策,证明了框架设计的合理性. 以R-M集成优化策略为基准的实验优化结果对比证明了该DRL模型的求解优势,特别是PPO算法在总成本的优化中取得了明显更优的结果.

本研究的局限性在于,DRL的训练效果在一定程度上依赖超参数的选择和奖励函数的设计. 实际的生产环境比构建的问题模型更加复杂,须在生产系统中进行更复杂的特征提取和精密建模,使DRL更好地应用于实际生产环境.

目前对问题模型的研究以单机生产和维护一体化调度为基础,可进一步改进DRL算法模型和奖励函数的结构设计以期取得更好的优化结果. 此外,也将继续探索更多复杂场景下的DRL一体化调度优化应用并进一步研究劣化效应模型对集成优化问题的影响.

参考文献

JIA J, LU C, YIN L

Energy saving in single-machine scheduling management: an improved multi-objective model based on discrete artificial bee colony algorithm

[J]. Symmetry, 2022, 14 (3): 561

DOI:10.3390/sym14030561      [本文引用: 1]

ZHANG G, HU Y, SUN J, et al

An improved genetic algorithm for the flexible job shop scheduling problem with multiple time constraints

[J]. Swarm and Evolutionary Computation, 2020, 54: 100664

DOI:10.1016/j.swevo.2020.100664      [本文引用: 1]

HAJEJ Z, REZG N, ASKRI T

Joint optimization of capacity, production and maintenance planning of leased machines

[J]. Journal of Intelligent Manufacturing, 2020, 31 (2): 351- 374

DOI:10.1007/s10845-018-1450-7      [本文引用: 1]

DURAN TOKSARı M

A branch and bound algorithm to minimize the single machine maximum tardiness problem under effects of learning and deterioration with setup times

[J]. RAIRO - Operations Research, 2016, 50 (1): 211- 219

DOI:10.1051/ro/2015026      [本文引用: 1]

ZHANG X, XIA T, PAN E, et al

Integrated optimization on production scheduling and imperfect preventive maintenance considering multi-degradation and learning-forgetting effects

[J]. Flexible Services and Manufacturing Journal, 2022, 34 (2): 451- 482

DOI:10.1007/s10696-021-09410-1      [本文引用: 1]

SUN X, GENG X N

Single-machine scheduling with deteriorating effects and machine maintenance

[J]. International Journal of Production Research, 2019, 57 (10): 3186- 3199

DOI:10.1080/00207543.2019.1566675      [本文引用: 1]

GHALEB M, TAGHIPOUR S, SHARIFI M, et al

Integrated production and maintenance scheduling for a single degrading machine with deterioration-based failures

[J]. Computers and Industrial Engineering, 2020, 143: 106432

DOI:10.1016/j.cie.2020.106432      [本文引用: 1]

PAPROCKA I, KRENCZYK D, BURDUK A

The method of production scheduling with uncertainties using the ants colony optimisation

[J]. Applied Sciences, 2021, 11 (1): 171

[本文引用: 1]

宋文家, 张超勇, 尹勇, 等

基于多目标混合殖民竞争算法的设备维护与车间调度集成优化

[J]. 中国机械工程, 2015, 26 (11): 1478- 1487

DOI:10.3969/j.issn.1004-132X.2015.11.010      [本文引用: 1]

SONG Wenjia, ZHANG Chaoyong, YIN Yong, et al

Integrated optimization of equipment maintenance and shop scheduling problem based on multi-objective hybrid imperialist competitive algorithm

[J]. China Mechanical Engineering, 2015, 26 (11): 1478- 1487

DOI:10.3969/j.issn.1004-132X.2015.11.010      [本文引用: 1]

甘婕, 侯青玉, 汪思宇, 等

流水车间调度与视情维修的联合决策

[J]. 工业工程与管理, 2023, 28 (1): 207- 214

[本文引用: 1]

GAN Jie, HOU Qingyu, WANG Siyu, et al

The joint decision and optimization of flow-shop scheduling and condition based maintenance

[J]. Industrial Engineering and Management, 2023, 28 (1): 207- 214

[本文引用: 1]

甘婕, 曾建潮

考虑劣化状态的单机调度与维修决策集成模型

[J]. 控制与决策, 2016, 31 (3): 513- 520

[本文引用: 1]

GAN Jie, ZENG Jianchao

Integrated model of single-machine scheduling and maintenance decision for degrading state systems

[J]. Control and Decision, 2016, 31 (3): 513- 520

[本文引用: 1]

张昕莹, 陈璐, 杨雯惠

考虑系统时变效应与预防性维护的平行机调度

[J]. 浙江大学学报: 工学版, 2022, 56 (2): 408- 418

[本文引用: 1]

ZHANG Xinying, CHEN Lu, YANG Wenhui

A parallel-machine scheduling problem with time-changing effect and preventive maintenance

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (2): 408- 418

[本文引用: 1]

杨宏兵, 沈露, 成明, 等

带退化效应多态生产系统调度与维护集成优化

[J]. 计算机集成制造系统, 2018, 24 (1): 80- 88

[本文引用: 1]

YANG Hongbing, SHEN Lu, CHENG Ming, et al

Integrated optimization of scheduling and maintenance in multi-state production systems with deterioration effects

[J]. Computer Integrated Manufacturing Systems, 2018, 24 (1): 80- 88

[本文引用: 1]

YANG H, LI W, WANG B

Joint optimization of preventive maintenance and production scheduling for multi-state production systems based on reinforcement learning

[J]. Reliability Engineering and System Safety, 2021, 214: 107713

DOI:10.1016/j.ress.2021.107713      [本文引用: 1]

LAMPRECHT R, WURST F, HUBER M F. Reinforcement learning based condition-oriented maintenance scheduling for flow line systems [EB/OL]. [2025-01-01]. https://ieeexplore.ieee.org/document/9557373/.

[本文引用: 1]

SALMASNIA A, SHABANI A

Opportunistic maintenance modeling for series production systems based on bottleneck by considering energy consumption and market demand

[J]. Journal of Industrial and Production Engineering, 2023, 40 (6): 506- 518

DOI:10.1080/21681015.2023.2234377      [本文引用: 1]

YU M, LI T, MA J. Joint optimization method of production scheduling for prefabricated components based on preventive maintenance [C]// 41st Chinese Control Conference. Hefei: IEEE, 2022: 1940–1944.

[本文引用: 1]

杨梦月, 董文杰, 刘思峰

基于2种周期维护类型和序列准备时间的单机调度

[J]. 控制与决策, 2024, 39 (10): 3488- 3496

[本文引用: 1]

YANG Mengyue, DONG Wenjie, LIU Sifeng

Single machine scheduling based on two types of periodic maintenance and sequence-dependent setup times

[J]. Control and Decision, 2024, 39 (10): 3488- 3496

[本文引用: 1]

KANG K, SUBRAMANIAM V

Integrated control policy of production and preventive maintenance for a deteriorating manufacturing system

[J]. Computers and Industrial Engineering, 2018, 118: 266- 277

DOI:10.1016/j.cie.2018.02.026      [本文引用: 1]

XANTHOPOULOS A S, KIATIPIS A, KOULOURIOTIS D E, et al

Reinforcement learning-based and parametric production-maintenance control policies for a deteriorating manufacturing system

[J]. IEEE Access, 2017, 6: 576- 588

[本文引用: 1]

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Human-level control through deep reinforcement learning

[J]. Nature, 2015, 518 (7540): 529- 533

DOI:10.1038/nature14236      [本文引用: 1]

LUO S

Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning

[J]. Applied Soft Computing, 2020, 91: 106208

DOI:10.1016/j.asoc.2020.106208      [本文引用: 1]

LIU R, PIPLANI R, TORO C

Deep reinforcement learning for dynamic scheduling of a flexible job shop

[J]. International Journal of Production Research, 2022, 60 (13): 4049- 4069

DOI:10.1080/00207543.2022.2058432     

HAN B A, YANG J J

Research on adaptive job shop scheduling problems based on dueling double DQN

[J]. IEEE Access, 2020, 8: 186474- 186495

DOI:10.1109/ACCESS.2020.3029868      [本文引用: 1]

AYVAZ S, ALPAY K

Predictive maintenance system for production lines in manufacturing: a machine learning approach using IoT data in real-time

[J]. Expert Systems with Applications, 2021, 173: 114598

DOI:10.1016/j.eswa.2021.114598      [本文引用: 1]

/