<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 劣化效应过程示意图

Fig.1 Deterioration effect process

机器的维护操作策略分为小修（partial maintenance, PM）和大修（complete maintenance, CM）2种. 小修可以恢复一定的状态值，成本更低且花费时间更短，大修可以一次性恢复更多的机器状态，但维护成本更高，维护时间也更长. 在问题中须考虑合理分配作业在机器上的排列顺序，同时安排适时的维护决策，防止机器进入失效状态，并尽可能降低完工时的总成本. 该问题的基本假设总结如下：

1）机器同时只能处理一个作业，每个作业只处理一次，加工过程不能中断.

2）机器和作业在0时刻开始时均已准备就绪.

3）机器的初始健康值h₀、劣化点h₁和故障点h₂是基于机器状态检测和产品质量分析所得并已知的，在每次调度开始时初始化.

4）机器进入劣化状态时加工时间延长，但不会发生故障. 进入故障状态后无法继续运行.

5）忽略机器的启停时间和作业更换时间.

2.2. 模型建立

该综合优化问题总目标是最小化生产成本，包括因交付延迟而造成的收益损失成本、机器加工的运行成本和机器的维护成本. 所考虑的针对作业集合$ J=\{{J}_{1},{J}_{2},{J}_{3},\cdots ,{J}_{n}\} $进行调度和维护操作的关键决策变量表示如下：

(1)$ \sum _{i=1}^{n}{x}_{ij}=1;\; \forall j\in J. $

(2)$ \sum _{j=1}^{n}{x}_{ij}=1;\; \forall i\in J. $

(3)$ {x}_{ij}\in \left\{\mathrm{0,1}\right\};\;\forall i,j\in J. $

(4)$ {m}_{i}=\left\{\begin{array}{l}0,\quad 不维护;\\ 1,\quad 局部修复{\mathrm{PM}};\\ 2, \quad 完全修复{\mathrm{CM}}.\end{array}\right. $

式中：n为作业总数，j表示作业在集合J中的索引，i表示作业J_j在调度序列中的索引，式(1)~(3)表示每个工件J_j必须安排在调度序列中的某一个位置，且序列中每个位置i只能同时有一个作业；x_ij为表示序列i位置是否有作业J_j被安排的0-1变量；m_i为执行第i项作业前的维护决策变量. 状态转移过程如图2所示.

图 2

图 2 状态的转换

Fig.2 Transition of state

生产过程中的总优化目标期望是使生产过程中的各项成本之和达到最优或近优值，目标函数为

(5)$ \mathrm{M}\mathrm{i}\mathrm{n}\left[\alpha \sum _{i=1}^{n}{{\mathrm{DT}}}_{i}+\beta \sum _{i=1}^{n}{{\mathrm{PT}}}_{i}+{N}_{1}{C}_{\mathrm{P}\mathrm{M}}+{N}_{2}{C}_{\mathrm{C}\mathrm{M}}\right]. $

式中：DT_i表示作业的延迟时间成本；PT_i表示作业的加工时间成本；C_PM、C_CM为2种维护的成本；α为交付延迟的成本系数，β为机器运行的成本系数，控制交付延迟和设备运行成本的权重；N₁和N₂分别表示2种维护的操作总数.

目标函数的约束条件如下：

(6)$ {{\mathrm{PT}}}_{i}=\left\{\begin{array}{ll}{p}_{i},&{h}_{1} \lt {M}_{i} \leqslant {h}_{0};\\{p}_{i}\left(1+\sigma \left({h}_{1}-{M}_{i}\right)\right),& {h}_{2} \leqslant {M}_{i} \leqslant {h}_{1}.\end{array}\right. $

(7)$ {s}_{i}=\left\{\begin{array}{ll}{e}_{i-1},& {m}_{i}=0;\\{e}_{i-1}+{t}_{\mathrm{P}\mathrm{M}},& {m}_{i}=1;\\{e}_{i-1}+{t}_{\mathrm{C}\mathrm{M}},& {m}_{i}=2.\end{array}\right. $

(8)$ {e}_{i}={s}_{i}+{{\mathrm{PT}}}_{i}. $

(9)$ {{\mathrm{DT}}}_{i}={\mathrm{max}}\;(0,{e}_{i}-{d}_{i}). $

式中：M_i为机器当前健康状态，p_i为当前作业预计加工时间，σ为劣化效应因子，s_i、e_i、d_i分别为当前作业的开始、结束和交付时间，t_PM、t_CM表示2种维修的时间，m_i为维修状态指示. 式（6）表示，当机器的健康状态值高于h₁时，作业的实际处理时间与预计时间相同，当机器的状态低于h₁后，作业的实际处理时间线性增加. 式(7)、(8)表示队列中作业的开始和结束时间，若不进行维护，队列中作业J_i在上一个作业J_i−1结束后开始，否则等待维护完成后开始. 通过式(9)计算作业J_i的延迟时间.

(10)$ {M}_{i}=\left\{\begin{array}{ll}{h}_{0},& i=1;\\{M}_{i-1}-{{\mathrm{MP}}}_{i-1}, & i\ge 2.\end{array}\right. $

(11)$ {M}_{i}=\left\{\begin{array}{ll}{\mathrm{min}}\;\left({h}_{0},{M}_{i-1}+{R}_{\mathrm{P}\mathrm{M}}\right),& {m}_{i}=1;\\ {\mathrm{min}}\;\left({h}_{0},{M}_{i-1}+{R}_{\mathrm{C}\mathrm{M}}\right),& {m}_{i}=2.\end{array}\right. $

(12)$ {M}_{i}\ge {h}_{2},\; \forall i. $

式中：MP_i为机器完成作业消耗的健康值，R_PM、R_CM为修复量. 式(10)、(11)为机器状态更新方法，表示机器状态值随作业J_i加工时间相应减少，如进行作业J_i之前决策变量m_i≠0，即须进行维护，机器状态将得到相应恢复. 式(12)约束机器健康值不低于故障点h₂.

(13)$ {N}_{1}=\sum _{i=1}^{n}{\delta }_{\mathrm{P}\mathrm{M},i},\;{N}_{2}=\sum _{i=1}^{n}{\delta }_{\mathrm{C}\mathrm{M},i}. $

(14)$ \left.\begin{split} {\delta }_{{\mathrm{PM}},i}=&\left\{\begin{array}{ll}1,&{m}_{i}=1;\\0,&{其他}.\end{array}\right. \\{\delta }_{{\mathrm{CM}},i}=& \left\{\begin{array}{ll}1,&{m}_{i}=2;\\0,&{其他}.\end{array}\right.\end{split}\right\} $

式中：N₁、N₂分别为2种维护的计数，δ_PM、δ_CM为作业J_i加工之前进行维护决策的0-1变量. 式(13)、(14)计算了维护计数. 根据以上约束，构建了考虑机器劣化效应的单机器任务调度和维护一体化决策求解的数学模型.

3. 算法设计描述

3.1. 方法选择

DeepMind团队开发的DRL算法自诞生起便引起了业界和学界的广泛关注^[21]. 该技术将深度学习和强化学习相结合，为复杂系统问题的感知决策提供解决方案. 近年来，许多学者结合DRL方法对车间调度问题进行研究^[22–24]，这些研究将作业调度视为顺序决策问题，并通过训练DRLAgent的学习任务调度策略实现优化目标.

将调度决策与环境的交互过程描述为马尔可夫决策过程（Markovian decision process, MDP）：$ (S,A,P,\gamma ,R) $，其中S表示状态空间，A表示动作空间，P表示状态转移概率，$ \gamma \in [0, 1.0] $表示折扣因子，R表示奖励函数. Agent在每个时间步t观察$ {s}_{t}\in $S的当前状态，并根据特定策略$ {\text{π}} (S,A) $在$ {a}_{t}\in A $处采取行动. 然后根据转移概率$ p({s}_{t+1}\Vert {s}_{t},{a}_{t})\in P(S\times A\to S) $进入新状态$ {s}_{t+1} $并获得$ {r}_{t}\in R $的奖励. 目标是制定一系列的策略，使预期的累积奖励$ {G}_{t} $最大化. 动作价值函数$ Q_{\text{π}}(s, a)$在每个策略$\text{π} $下的值可以表示为

(15)$ Q_{\text{π}}(s, a)=E\left[r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdots \| s_t=s, a_t=a, {\text{π}}\right] .$

最优值${Q}^{*}\left(s,a\right) $满足Bellman最优方程：

(16)$ Q^*(s, a)=E_{s^{\prime}}\left[r+\gamma \max _{a'}\; Q^*\left(s^{\prime}, a^{\prime}\right) \| s, a\right] . $

应用DRL方法的关键是训练智能体（Agent）与环境交互，使Agent以从环境中获得的观测值和奖励为指导做出最佳决策. Agent与环境的交互模式结构如图3所示.

图 3

图 3 调度决策模型

Fig.3 Scheduling decision model

3.2. 状态和动作空间设计

状态空间在DRL中指示当前模型的状态，是Agent感知环境的窗口，设计时须充分考虑车间的各种动态特征，准确表达每个时刻系统的状态. 在建立的模拟车间生产调度系统的仿真模型中，仿真时间基于事件推进，在每一时刻t返回环境状态，为Agent下一动作决策提供信息. 在状态空间中：用1维浮点数表示仿真钟当前时刻t；用6维列表表示作业加工状态，包括已完成的任务数n_C、剩余任务数n_B、剩余任务集合B的总剩余加工时间$ {\sum }_{j\in B}{p}_{j} $、最小加工时间$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}{p}_{j} $、平均加工时间$ {\sum }_{j\in B}{p}_{j}/{n}_{B} $、最早交付时间$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}{d}_{j} $；用4维列表表示当前机器的运行状态，包括机器健康度$ {M}_{i}\left(t\right) $、机器运行时间系数$ {t}_{\mathrm{c}\mathrm{o}\mathrm{e}}=\left(1+\sigma \left({h}_{1}-{M}_{i}\right)\right) $、剩余可运行时间、机器状态阶段$ {m}_{\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{t}\mathrm{e}}\in \{\mathrm{0,1},\mathrm{2,3},4\} $. 状态空间的观察值涵盖了环境信息、作业进度、机器状态3个核心要素，能够采集充足信息充分表示目前调度所处的阶段.

对观测空间进行归一化处理，将不同尺度的特征统一在[0, 1.0]区间内，避免某些大尺度变量主导学习过程，优化收敛速度和稳定性. 对具有明确上下限的变量使用Min-Max方法归一化，对时间相关无法明确上限的变量使用对数缩放的方法归一化. 处理后的状态空间可以表示为

(17)$ \begin{split} {{s}}_t= & {\left(\dfrac{\log\; (1+t)}{\log\; \left(1+10^4\right)}, \dfrac{n_{\mathrm{C}}}{n}, \dfrac{n_{B}}{n}, \dfrac{\log\; \left(1+\sum_{j \in B} p_j\right)}{\log\; \left(1+10^4\right)},\right.} \\& \dfrac{\log\; \left(1+\min _{j \in B} p_j\right)}{\log\; \left(1+10^4\right)}, \dfrac{\log\; \left(1+\sum_{j \in B} p_j / n_{B}\right)}{\log\; \left(1+10^4\right)}, \\& \dfrac{\log\; \left(1+\min _{j \in B} d_j\right)}{\log\; \left(1+10^4\right)}, \dfrac{M_i(t)}{M_0}, \dfrac{M_i(t) / t_{\mathrm{coe}}}{M_0}, \\& \left.\dfrac{t_{\text {coe }}}{10}, \dfrac{m_{\text {state }}(t)}{4}\right).\end{split} $

在动作空间中引入优先级调度规则（PDR）启发Agent的任务调度动作，使7种适用的PDR调度动作与2种维护动作共同构成动作空间$ A=\{{a}_{1},{a}_{2},\cdots ,{a}_{9}\} $. 每个调度动作$ {a}_{t}\in A $映射到一个调度规则，这些规则基本覆盖了任务调度问题中的常见调度规则，并适用于单机调度问题. ${a}_{8} $、${a}_{9} $分别表示PM和CM维护动作策略. 该动作空间中的动作均为预先定义且离散的. 动作空间的详细解释如表1所示.

表 1 动作空间描述

Tab.1 Description of action space

符号	动作	描述	数学形式
a₁	SPT	最短加工时间优先	$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;{p}_{j} $
a₂	LPT	最长加工时间优先	$ {\mathrm{m}\mathrm{a}\mathrm{x}}_{j\in B}\;{p}_{j} $
a₃	EDD	最早交付期优先	$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;{d}_{j} $
a₄	FCFS	最早到达时间优先	$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;{\mathrm{a}\mathrm{r}\mathrm{r}\mathrm{i}\mathrm{v}\mathrm{e}}_{j} $
a₅	MST	最小松弛时间	$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;\left({d}_{j}-\left(t+{p}_{j}\right)\right) $
a₆	CR	最小临界比率	$ {\mathrm{min}}_{j\in B}\;\left({d}_{j}-t\right)/{p}_{j} $
a₇	MDD	修正交付时间优先	$ {\mathrm{m}\mathrm{i}\mathrm{n}}_{j\in B}\;\mathrm{m}\mathrm{a}\mathrm{x}\;({d}_{j},t+{p}_{j}) $
a₈	PM	执行不完全维护	$ {M}_{i-1}+{R}_{\mathrm{P}\mathrm{M}} $
a₉	CM	执行完全维护	$ {M}_{i-1}+{R}_{\mathrm{C}\mathrm{M}} $

3.3. 奖励函数设计

奖励函数设计须引导Agent评价动作的好坏，减少作业延迟和运行时间、避免过度维护或损坏、平衡长期与短期成本，实现成本最优化.

每次决策与环境交互产生的单步总成本为

(18)$ {C}_{\mathrm{s}\mathrm{t}\mathrm{e}\mathrm{p}}={C}_{\mathrm{d}\mathrm{e}\mathrm{l}\mathrm{a}\mathrm{y}}+{C}_{\mathrm{r}\mathrm{u}\mathrm{n}}\;, $

(19)$ {C}_{\mathrm{d}\mathrm{e}\mathrm{l}\mathrm{a}\mathrm{y}}=\alpha {{\mathrm{DT}}}_{i}, $

(20)$ {C}_{\mathrm{r}\mathrm{u}\mathrm{n}}=\beta {{\mathrm{PT}}}_{i}+{C}_{\mathrm{PM}}+{C}_{\mathrm{CM}}. $

式中：C为单步各项成本，α、β分别为拖期和加工成本系数. 单步成本包括任务延迟成本和机器运行成本，运行成本分为加工成本和维护成本. 完成任务的基础奖励为固定值1，促进Agent优先完成调度任务. 为了防止数值波动使计算出现偏向性，对奖励函数进行归一化处理：

(21)$ {r}_{t}=\left\{\begin{array}{ll}1-\dfrac{{C}_{\mathrm{s}\mathrm{t}\mathrm{e}\mathrm{p}}}{{{N}}_{\mathrm{Scale}}},&{\mathrm{action}}={a}_{1}\sim{a}_{7};\\-\dfrac{{C}_{\mathrm{P}\mathrm{M}}}{{{N}}_{\mathrm{Scale}}},&{\mathrm{action}}={a}_{8};\\-\dfrac{{C}_{\mathrm{C}\mathrm{M}}}{{{N}}_{\mathrm{Scale}}},&{\mathrm{action}}={a}_{9}.\end{array}\right. $

式中：r_t为单步决策从环境中获得的奖励值，当执行调度动作时r_t是固定奖励减去作业加工成本和延迟成本惩罚之和，执行维护动作时r_t是产生维护成本的惩罚；N_Scale为奖励缩放尺度，合理设置该值可将单步奖励控制在[0, 1.0].

将机器健康状态大于h₁时进行维护视为过度维护，机器状态低于阈值T而继续执行调度视为增加损坏风险，分别施加[0,−1.0]范围内的线性惩罚. 当过度维护超出边界条件时，给予较大的惩罚M₁并随维修计数r_c递增，当损坏没有及时进行修复时，给予较大的惩罚M₂并随损坏计数b_c递增. 以上边界惩罚可以表示为

(22)$ r_{\text {bound }}=\left\{\begin{array}{ll}-\dfrac{T-M_i}{M_i^T}, & a_t=a_1\sim a_7,\; M_i<T; \\-\dfrac{M_i-h_1}{M_0-h_1}, & a_t=a_8,\; a_9 ,\; M_i>h_1 ;\\-\left(M_2+b_{\mathrm{c}}\right), & a_t=a_1\sim a_7,\; M_i<h_2; \\-\left(M_1+r_{\mathrm{c}}\right), & a_t=a_8,\; a_9,\; M_i \geqslant M_0; \\0, & {\text{其他}}.\end{array}\right. $

以上边界惩罚将引导Agent做出与机器状态相关的合理决策，并阻止陷入错误的动作循环.

在所有任务完成后计算全局总成本并获得全局收益r_global，鼓励Agent探索更有利于整体效益的方案：

(23)$ {r}_{\mathrm{g}\mathrm{l}\mathrm{o}\mathrm{b}\mathrm{a}\mathrm{l}}=100\times \left( {\frac{{n}^{2}}{\sum {C}_{\mathrm{d}\mathrm{e}\mathrm{l}\mathrm{a}\mathrm{y}}}+\frac{n}{\sum {C}_{\mathrm{r}\mathrm{u}\mathrm{n}}}} \right) .$

单步奖励用于引导局部高效决策，全局奖励引导Agent关注全局收益，避免短视. 在该DRL模型中，奖励函数可以表示为

(24)$ R=\sum {r}_{t}+\sum {r}_{\mathrm{b}\mathrm{o}\mathrm{u}\mathrm{n}\mathrm{d}}+{r}_{\mathrm{g}\mathrm{l}\mathrm{o}\mathrm{b}\mathrm{a}\mathrm{l}} .$

如图4所示展示了机器当前状态值M_v与执行不同策略所获得的奖励值R_a之间的变化关系. 如图5所示展示了持续进行单一调度动作获得的奖励值与机器状态值变化的关系.

图 4

图 4 机器健康状态-调度策略奖励曲线

Fig.4 Machine status and scheduling strategy reward curve

图 5

图 5 单一策略运行步数-奖励曲线

Fig.5 Single strategy running step and reward curve

3.4. 算法结构和流程

由于问题模型的强离散属性，在DRL方法中选取了DQN、A2C和PPO这3种解决离散型车间调度问题的经典算法，用于评估所建立的DRL模型框架的适用性和运行效果，并分别讨论几种算法对所述模型的求解质量.

为了保证算法性能的平衡，在3种算法中均使用全连接层架构的神经网络（MLP），输入层节点数为观测空间维度11，隐藏层数为2，每层节点数为256，输出层节点数为动作空间维度9，神经网络的优化器使用Adam方法，激活函数使用ReLu方法. 如图6所示为提出的DRL网络交互结构.

图 6

图 6 DRL算法网络结构

Fig.6 Network structure of DRL algorithm

Agent从环境中感知当前状态的特征并输入神经网络，通过计算动作的Q值或策略选择概率，输出作业调度或机器维护动作选择的预测值，并根据动作交互和改变调度环境.

问题模型仿真环境和DRL框架基于Python语言和Pytorch神经网络框架编码和实现，使用OpenAI gym包装，增强环境的兼容性和扩展性.

算法的训练过程如下：每个回合开始时重置环境，Agent获得观察状态S₀，在调度期间安排作业和维护决策. 当队列中的所有任务完成后，重置环境并开始下一回合. 对持续超出边界的情况除边界惩罚外还设置了环境截断条件，防止策略陷入不良状态. 当步数达到最大时，训练过程结束，输出经过训练的模型，并使用该模型进行测试，输出总成本最小的调度方案. 提出的DRL算法框架和运行流程如图7所示.

图 7

图 7 DRL算法流程

Fig.7 Algorithm flow of DRL

在DQN算法中使用递减的$\varepsilon $-greedy策略，在前期更多地探索解决方案空间，在后期保持更稳定的策略，实现探索和利用的平衡：

(25)$ a=\left\{\begin{array}{ll}\mathrm{arg}\mathrm{max}\;Q\left(a\right),&P\ge \varepsilon; \\{\mathrm{random}}, & P \lt \varepsilon.\end{array}\right. $

(26)$ \varepsilon =\mathrm{m}\mathrm{a}\mathrm{x}\;({\varepsilon }_{\mathrm{m}\mathrm{i}\mathrm{n}},{\varepsilon }_{0}-{d}_{\mathrm{r}}{n}_{\mathrm{i}\mathrm{t}\mathrm{e}\mathrm{r}}) .$

式中：P为[0,1.0]内的随机数，$\varepsilon_{{\mathrm{min}}} $为设定的$\varepsilon $的最小值，d_r为衰减率，n_iter为随机探索的次数.

在PPO和A2C算法中，由于网络结构和算法实现原理的差异，通过控制广义优势估计（GAE）权衡偏差与方差的折中系数、控制策略熵在损失函数中的权重系数、平衡策略损失和值函数损失的权重系数，分别控制探索中的策略梯度更新、探索的随机性和策略更新的稳定性.

4. 数值实验分析

4.1. 实验算例设计和基准

研究提出的考虑劣化效应和维护决策的单机一体化调度问题具有模型特殊性，未检索到标准数据集作为测试基准，因此通过控制作业的特定参数生成随机的数据实例.

实验规模分别设置为10、20、30、50、80、100和150. 这些规模涵盖了无需维护、可选维护、必须适时维护否则机器将损坏的多种情形. 待加工作业数据中，每个作业的处理时间p_j按照$ U[1, 10] $的离散均匀分布随机生成，每个作业的交付时间设置为$ {d}_{j}={p}_{j}+U[n, 3n] $，其中n为作业数量.

为了验证算法的有效性，基于目前广泛使用的优先调度规则结合基于机器状态的预测性维护（PMMC）方法^[25]，提出使用调度规则与预防性维护相结合的调度-维护（R-M）集成优化方法，并将其优化结果作为比较基准. 令DRL算法动作空间中7种调度规则分别与维护策略组合，当机器状态值低于阈值T时随机执行维护动作. T分别设置为40、50、60、70.

将基准实验独立运行20次，记录7种优先调度规则和7种算例规模下的R-M优化策略在多种阈值T下维护优化后调度总成本的结果，作为评价基准，其中，Mean为最小值的均值，Std为标准差，如表2所示. 如表3所示为各种R-M策略在不同阈值T下获得的最优值Min.

表 2 R-M集成优化策略下的成本均值和标准差

Tab.2 Mean and standard deviation of cost with R-M integrated optimization strategies

规模	SPT-M		LPT-M		FCFS-M		EDD-M
规模	Mean	Std	Mean	Std	Mean	Std	Mean	Std
10	200.0	0.0	258.0	0.0	192.0	0.0	227.0	0.0
20	1005.6	10.2	1682.0	108.8	1058.7	27.1	1334.2	82.1
30	2160.6	58.1	3725.4	110.3	2678.0	113.1	3075.8	143.8
50	3610.0	157.5	8074.8	212.7	4679.4	291.3	5065.8	229.9
80	11198.2	450.4	22474.8	752.1	14871.1	597.9	15306.1	665.6
100	16709.3	553.8	33877.2	1188.9	21372.8	856.8	23350.4	886.7
150	32096.0	1198.4	71634.7	2146.8	42847.3	1791.3	47919.0	1474.0

规模	MST-M		CR-M		MDD-M		基准
规模	Mean	Std	Mean	Std	Mean	Std	Mean	Std
10	197.0	0.0	226.0	0.0	191.0	0.0	191.0	0.0
20	1163.0	20.6	1053.5	27.7	973.8	22.5	973.8	22.5
30	2879.3	73.2	2269.0	109.5	2103.9	102.9	2103.9	102.9
50	4858.1	307.3	3597.3	191.6	3310.6	172.1	3310.6	172.1
80	15181.1	687.8	11678.6	519.0	10642.0	494.0	10642.0	494.0
100	21907.0	937.2	16753.6	800.7	15763.6	766.8	15763.6	766.8
150	43670.2	1579.2	32857.9	1266.6	30546.1	1166.5	30546.1	1166.5

表 3 R-M集成优化策略下的成本最小值

Tab.3 Minimum of cost with R-M integrated strategies

规模	Min
规模	SPT-M	LPT-M	EDD-M	FCFS-M	MST-M	CR-M	MDD-M
10	200	258	192	227	197	226	191
20	956	1565	1008.04	1255.675	1086	1006	904
30	2017	3441	2463	2831	2632	2070	1939
50	3245	7273	4314.02	4565	4251	3221	2940
80	10218	20871	13407	13711	13779	10322	9494
100	15076	31061	19241	21190	19249	14806	14030

4.2. 算法和环境参数设定

仿真环境中必要的参数设置如表4中所示. 其中奖励归一化缩放参数N_Scale的取值根据各项成本系数、维护成本、单步平均成本等估计值测定，使奖励函数范围在[0, 1.0].

表 4 环境参数设置

Tab.4 Environment parameter setting

环境参数	描述	值
n	工件数量规模	10, 20, 30, 50, 80, 100, 150
p_j	工件j的加工时间	Discrete U (1, 10)
d_j	工件j的交付时间	p_j +Discrete U (n, 3n)
α	延迟交付的成本系数	1
β	机器损耗的成本系数	5
M₀	机器初始状态值	100
t_CM, t_PM	CM 和 PM 的时间	20, 10
C_CM, C_PM	CM 和 PM 的成本	60, 40
C_broke	损坏的额外修复成本	100
N_Scale	奖励值归一化尺度	100
h₁, h₂	劣化和失效效应点	60, 0
σ	劣化效应因子	0.05
M₁, M₂	超出边界状态的惩罚基数	2, 2

在DRL算法的调试过程中，对3种算法的超参数进行调优. 分析学习率、经验池、批量、网络更新频率、折扣因子γ和探索率ε等参数的影响. 综合考虑各种参数对模型训练的增益，确定对模型训练较稳定且对不同规模适应度较好的参数组合，并选择相近的超参数进行实验，以更好地衡量不同算法之间的性能差异和优化效果. 详细设置如表5所示，并针对不同算例规模适配相应的训练步长.

表 5 DRL算法超参数设置

Tab.5 Hyperparameter settings of DRL algorithms

超参数	DQN算法	PPO算法	A2C算法
最大训练步长	1.6×10⁷	1.6×10⁷	1.6×10⁷
批量大小	256	256	−
环境交互时间步	−	2048	256
隐藏层节点数	2×256	2×256	2×256
回放池大小	1×10⁷	−	−
网络同步频率	1×10⁴	−	−
学习率	1×10⁻⁴	1×10⁻⁴	1×10⁻⁴
折扣因子 γ	0.99	0.99	0.99
初始探索率	0.01	−	0.01
λ（GAE）	−	0.95	0.95
熵正则化系数	−	0.05	0.05
初始探索率	1	−	−
探索衰减率	0.99	−	−
最小探索率	0.001	−	−

4.3. 学习和优化效果评价

根据生成的数据集和设定的算法参数，使用3种DRL算法分别对不同规模的实例进行20次独立训练，训练中产生各种规模下的最优模型，使用训练好的模型进行数值测试和保存结果，每次运行完成后销毁调用的对象并释放内存，以确保每次实验的独立性.

以涵盖小规模和中规模的30和80规模算例为例，3种算法的奖励迭代曲线如图8所示，平均回合步长曲线如图9所示. 其中，r_avg为回合平均奖励，s_avg为回合平均步长，s_train为训练步长. 从奖励曲线变化可以看出，训练开始后3种算法获得的奖励较快收敛于一定范围，并在微观尺度继续收敛，说明DRL算法已经掌握适应环境的调度规律，并能通过微调探索更好的组合优化方案以获得更优的调度结果. 从回合平均步长的变化中可以看出，DRL算法在探索一定时间后，学习到适应环境的调度策略，并适时安排维护策略，使最终的交互步数略高于每个场景下的任务数，表明调度策略中没有发生过度或缺乏维护及其他导致环境截断的不良方案.

图 8

图 8 规模对回合平均奖励的影响曲线

Fig.8 Influence curves of scale on average reward of episode

图 9

图 9 规模对回合平均步长的影响曲线

Fig.9 Influence curves of scale on average step of episode

规模为80算例下的训练速度曲线如图10所示. 其中，FPS为每步交互所需时间. 可以看出，DQN算法在前期的探索和积累经验阶段具有较快的速度，随着经验学习的开始，环境渲染速度（每秒交互的步数）开始下降. 最终的计算速度为A2C较快，DQN和PPO较低. 其余规模下的计算速度趋势相同.

图 10

图 10 计算速度曲线（规模为80）

Fig.10 Calculation speed curves with scale of 80

所有规模下的训练奖励和时间如表6所示，从训练时间对比可以看出，A2C具有相对较高的计算效率，DQN和PPO算法计算速度相近，但DQN速度略慢.

表 6 DRL算法训练性能比较

Tab.6 Training performance comparison of DRL algorithms

规模	算法	时间步/10⁶	平均FPS	训练时长/h
10	A2C	1	1498.4	0.18
	DQN	1	1660.8	0.27
	PPO	1	1141.6	0.24
20	A2C	2	1473.7	0.37
	DQN	2	1440.6	0.54
	PPO	2	1109.6	0.50
30	A2C	2	1447.3	0.38
	DQN	2	1393.9	0.54
	PPO	2	1093.3	0.51
50	A2C	4	1400.9	0.79
	DQN	4	1283.4	1.11
	PPO	4	1065.4	1.05
80	A2C	8	1360.6	1.63
	DQN	8	1154.3	2.27
	PPO	8	1038.6	2.15
100	A2C	8	1350.4	1.66
	DQN	8	1121.4	2.31
	PPO	8	1018.6	2.19
150	A2C	16	1276.1	3.51
	DQN	16	1051.9	4.68
	PPO	16	1007.2	4.33

优化数值结果分析表明，3种DRL算法在数值优化效果上均优于R-M集成策略给出的基准，尽管A2C在计算效率中表现出一定的优势，但其对数值的优化效果不如DQN和PPO. PPO算法在数值优化效果上对比其他算法具有明显优势，DQN算法在训练过程中则没有表现出特别优势，且在规模为50的训练中出现了学习不稳定和难收敛的状况. 经过分析可能原因是这一规模下奖励函数出现了部分奖励数值重叠，使基于值的DQN算法难以从数值变化中分辨和学习经验.

调度总成本优化效果差距随着作业数量的增加更加明显，证明了DRL算法在处理较大规模作业时可以借助其数值敏感性和神经网络在对高维和复杂问题的求解能力上获得更大优势. DRL算法优化后的调度总成本的平均值和标准差记录于表7.

表 7 DRL方法的成本优化均值和标准差

Tab.7 Optimized cost mean and standard deviation of DRL algorithms

规模	基准		A2C		DQN		PPO
规模	Mean	Std	Mean	Std	Mean	Std	Mean	Std
10	191.0	0.0	191.4	1.0	217.8	61.7	192.5	14.8
20	973.8	22.5	908.0	9.5	925.6	47.6	901.5	6.1
30	2103.9	102.9	1920.8	20.1	1948.3	109.0	1880.5	6.6
50	3310.6	172.1	3009.6	41.1	6177.7	2280.4	2936.7	19.0
80	10642.0	494.0	9712.7	65.1	10015.8	480.4	9469.7	40.3
100	15763.6	766.8	14551.0	172.2	14737.7	708.4	14020.2	119.5
150	30546.1	1166.5	27272.6	270.0	28197.4	1209.3	27073.3	275.1

DRL方法和R-M集成优化策略平均优化结果的优化效果对比如图11所示，数值越小越好. 其中，Cost表示优化成本.

图 11

图 11 不同算法的成本优化结果对比

Fig.11 Comparison of optimization cost results of different algorithms

如表8所示记录了7种算例规模下3种DRL算法与R-M集成优化策略方法计算得到的最优结果比较.

表 8 DRL方法优化的最优值

Tab.8 Optimized minimum cost of DRLs

规模	Min
规模	R-M	DQN	A2C	PPO
10	191.0	191.0	191.0	191.0
20	904.0	895.0	901.0	900.0
30	1939.0	1878.0	1887.0	1878.0
50	2940.0	2948.0	3246.4	2911.6
80	9494.0	9550.3	9566.6	9397.0
100	14030.0	14210.0	13909.6	13818.0
150	27519.0	26743.8	26560.9	26600.9

为了系统地评估DRL方法的性能，定义成本节约百分比（PCS）作为性能指标，表示与其他优化策略相比选定方法节约的成本百分比，用于比较DRL方法与R-M策略. PCS计算公式为

(27)$ {\mathrm{PCS}}=\frac{{C}_{\mathrm{l}}-{C}_{\mathrm{D}\mathrm{R}\mathrm{L}}}{{C}_{\mathrm{l}}}. $

式中：C_l表示R-M集成策略优化后的最低成本，C_DRL表示DRL方法的成本.

当作业调度规模较小时，所提出的DRL方法获得与R-M集成优化策略相近的结果. 随着作业数量的增加，所提出的DRL算法在实验中显示出更好的性能，当作业数量大于30时，PPO算法对比均值的PCS超过12%，对比最优值的PCS超过1%. 相比之下，DQN算法在规模为50的算例中的表现不够稳定，存在较大偏差，无法作为稳健的优化方法进行应用. A2C算法在均值优化效果上也达到约10%，但在对最优值的探索能力上优势不明显.

综上所述，在所提出的DRL框架下，PPO算法比其他策略具有更好的计算准确性和适应能力，可以作为效果较好的算法进行应用. 该评估指标下3种DRL算法的均值和最优值的成本节约性能对比如表9所示. 其中，$\Delta {\mathrm{mean}}$、$\Delta \min $分别为对均值和最优值的优化效果.

表 9 DRL方法的成本优化效果

Tab.9 Cost optimization effect of DRL methods

规模	A2C		DQN		PPO
规模	$\Delta {\mathrm{mean}} $/%	$\Delta \min $/%	$\Delta {\mathrm{mean}} $/%	$\Delta \min $/%	$\Delta {\mathrm{mean}} $/%	$\Delta \min $/%
10	−0.23	0.00	−12.31	0.00	−0.78	0.00
20	7.25	1.01	5.21	0.33	8.01	0.44
30	9.53	3.25	7.98	2.76	11.88	3.25
50	10.00	−0.27	−46.41	−9.44	12.73	0.98
80	9.57	−0.59	6.25	−0.76	12.38	1.03
100	8.33	−1.27	6.96	0.87	12.43	1.53
150	12.00	2.90	8.33	3.61	12.83	3.45

为了进一步验证所提出的DRL方法的有效性以及与各集成优化方法之间存在的显著差异，采用Friedman检验来评估实验数据，分别以最优值和平均值作为响应，计算这些策略之间的秩和并进行排序，如表10所示. 2个指标下的p值均小于0.05，表明结果是可信的. 综合来看，在各种DRL方法中，PPO算法具有最好的优化效果和相对出色的稳健性.

表 10 不同方法的Friedman 检验排序结果

Tab.10 Sorting results of Friedman test by different methods

规模	方法	Min		Mean
规模	方法	中位数	秩和	中位数	秩和
7	PPO	2931.8	10	2957.3	10
7	MDD-M	2945.0	15	3363.9	24
7	A2C	3027.4	18	3058.8	14
7	DQN	3672.7	36	3819.0	31
7	SPT-M	3263.9	37	3633.0	36
7	CR-M	3258.3	41	3644.5	42
7	EDD-M	4258.6	45	4649.8	44
7	MST-M	4263.8	52	4837.5	52
7	FCFS-M	4534.5	61	5040.8	62
		p₁=0.00		p₂=0.00

在R-M集成优化策略中，修正交付时间优先调度规则与预防性维护的集成优化策略（MDD-M）的优化效果中排在最前. 总体来看，DRL框架下的算法与R-M策略相比均具有优势，特别是经过训练之后的模型调度结果波动更小，能够减少调度的不稳定性.

4.4. 学习特性分析

当作业规模较少时，DRL方法与R-M策略得到相近的调度结果，当任务数量增加时，DRL能够通过环境交互识别高维特征，得到更好的解决方案. 以PPO算法对规模为50算例的优化结果为例，最优方案下的机器状态变化曲线、每步交互的成本数值分析和作业调度甘特图如图12所示. 从机器健康状态变化曲线中可以看出，算法倾向于在机器即将或刚到达劣化效应点时即采取成本和时间更少的PM维护策略维持机器健康状态. 从单步交互的成本分析中可以看出，Agent倾向于优先安排更多不发生延期的作业以维持更低的总成本，因此调度前期成本以机器运行成本和维护成本为主，当后续作业开始发生延期，单步成本以延期成本为主. 成本变化规律符合Agent选择更加节约时间的PM维护动作以尽可能减少后续作业延期的策略. 从单机作业调度甘特图中可以看出，Agent在前期优先选择加工时间适中的高成本作业，当接近交付时间时密集选择加工时间最短的任务以尽可能减少更多的作业延期，这一规律符合最小化成本的要求和预期.

图 12

DOI:10.1080/00207543.2019.1566675 [本文引用: 1]

图 12 调度结果记录（规模为50）

Fig.12 Scheduling result and records with scale of 50

以上调度规律与调度环境的设计密切相关，在当前环境状态下，每次动作交互都会增加后续结果的不确定性. 如果在前期采取了错误的调度策略浪费了过多时间，则后续作业的交付时间会随之延迟而导致获得更高的成本惩罚.

DRL算法通过感知环境信息，在不断变化实际生产环境的环境中给出更优的调度解决方案. 算法给出的调度策略也揭示了在生产中须保持机器健康状态以应对交付期密集型的任务. 由此可见DRL在作业调度领域具有一定的意义.

此外，从调度规则的动作记录中可以看出，尽管MDD-M策略在R-M组合策略中具有绝对优势，但DRL算法的通用决策能力并未受到影响. 算法对多种调度规则进行了有效组合，从而获得综合效果更好的调度结果. 最优方案下的调度动作记录如下：a3 a3 a7 a3 a6 a3 a3 a7 PM a3 a3 a7 a3 a3 a7 a3 a7 a5 a5 a7 a7 PM a7 a7 a7 a1 a1 a7 a7 a7 a7 a1 a7 a1 a7 a7 a1 PM a1 a1 a7 a7 a7 a7 PM a4 a7 a1 a7 a1 PM a2 a6 a2 a6.

5. 结　语

研究考虑机器劣化效应和维护决策的集成的单机调度问题，设计以最低总成本为优化目标的数学模型，构建模型的DRL框架. 多种规模下的数值仿真实验证明了该框架能够充分表达不同调度策略对成本优化和Agent学习决策的影响，能够有效平衡生产调度与设备维护的一体化决策，证明了框架设计的合理性. 以R-M集成优化策略为基准的实验优化结果对比证明了该DRL模型的求解优势，特别是PPO算法在总成本的优化中取得了明显更优的结果.

本研究的局限性在于，DRL的训练效果在一定程度上依赖超参数的选择和奖励函数的设计. 实际的生产环境比构建的问题模型更加复杂，须在生产系统中进行更复杂的特征提取和精密建模，使DRL更好地应用于实际生产环境.

目前对问题模型的研究以单机生产和维护一体化调度为基础，可进一步改进DRL算法模型和奖励函数的结构设计以期取得更好的优化结果. 此外，也将继续探索更多复杂场景下的DRL一体化调度优化应用并进一步研究劣化效应模型对集成优化问题的影响.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

JIA J, LU C, YIN L

Energy saving in single-machine scheduling management: an improved multi-objective model based on discrete artificial bee colony algorithm

[J]. Symmetry, 2022, 14 (3): 561

DOI:10.3390/sym14030561 [本文引用: 1]

[2]

ZHANG G, HU Y, SUN J, et al

An improved genetic algorithm for the flexible job shop scheduling problem with multiple time constraints

[J]. Swarm and Evolutionary Computation, 2020, 54: 100664

DOI:10.1016/j.swevo.2020.100664 [本文引用: 1]

[3]

HAJEJ Z, REZG N, ASKRI T

Joint optimization of capacity, production and maintenance planning of leased machines

[J]. Journal of Intelligent Manufacturing, 2020, 31 (2): 351- 374

DOI:10.1007/s10845-018-1450-7 [本文引用: 1]

[4]

DURAN TOKSARı M

A branch and bound algorithm to minimize the single machine maximum tardiness problem under effects of learning and deterioration with setup times

[J]. RAIRO - Operations Research, 2016, 50 (1): 211- 219

DOI:10.1051/ro/2015026 [本文引用: 1]

[5]

ZHANG X, XIA T, PAN E, et al

Integrated optimization on production scheduling and imperfect preventive maintenance considering multi-degradation and learning-forgetting effects

[J]. Flexible Services and Manufacturing Journal, 2022, 34 (2): 451- 482

DOI:10.1007/s10696-021-09410-1 [本文引用: 1]

[6]

SUN X, GENG X N

Single-machine scheduling with deteriorating effects and machine maintenance

[J]. International Journal of Production Research, 2019, 57 (10): 3186- 3199

[7]

GHALEB M, TAGHIPOUR S, SHARIFI M, et al

Integrated production and maintenance scheduling for a single degrading machine with deterioration-based failures

[J]. Computers and Industrial Engineering, 2020, 143: 106432

DOI:10.1016/j.cie.2020.106432 [本文引用: 1]

[8]

PAPROCKA I, KRENCZYK D, BURDUK A

The method of production scheduling with uncertainties using the ants colony optimisation

[J]. Applied Sciences, 2021, 11 (1): 171

DOI:10.3969/j.issn.1004-132X.2015.11.010 [本文引用: 1]

[9]

宋文家, 张超勇, 尹勇, 等

基于多目标混合殖民竞争算法的设备维护与车间调度集成优化

[J]. 中国机械工程, 2015, 26 (11): 1478- 1487

SONG Wenjia, ZHANG Chaoyong, YIN Yong, et al

Integrated optimization of equipment maintenance and shop scheduling problem based on multi-objective hybrid imperialist competitive algorithm

[J]. China Mechanical Engineering, 2015, 26 (11): 1478- 1487

DOI:10.3969/j.issn.1004-132X.2015.11.010 [本文引用: 1]

[10]

甘婕, 侯青玉, 汪思宇, 等

流水车间调度与视情维修的联合决策

[J]. 工业工程与管理, 2023, 28 (1): 207- 214

GAN Jie, HOU Qingyu, WANG Siyu, et al

The joint decision and optimization of flow-shop scheduling and condition based maintenance

[J]. Industrial Engineering and Management, 2023, 28 (1): 207- 214

[11]

甘婕, 曾建潮

考虑劣化状态的单机调度与维修决策集成模型

[J]. 控制与决策, 2016, 31 (3): 513- 520

GAN Jie, ZENG Jianchao

Integrated model of single-machine scheduling and maintenance decision for degrading state systems

[J]. Control and Decision, 2016, 31 (3): 513- 520

[12]

张昕莹, 陈璐, 杨雯惠

考虑系统时变效应与预防性维护的平行机调度

[J]. 浙江大学学报: 工学版, 2022, 56 (2): 408- 418

ZHANG Xinying, CHEN Lu, YANG Wenhui

A parallel-machine scheduling problem with time-changing effect and preventive maintenance

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (2): 408- 418

[13]

杨宏兵, 沈露, 成明, 等

带退化效应多态生产系统调度与维护集成优化

[J]. 计算机集成制造系统, 2018, 24 (1): 80- 88

YANG Hongbing, SHEN Lu, CHENG Ming, et al

Integrated optimization of scheduling and maintenance in multi-state production systems with deterioration effects

[J]. Computer Integrated Manufacturing Systems, 2018, 24 (1): 80- 88

[14]

YANG H, LI W, WANG B

Joint optimization of preventive maintenance and production scheduling for multi-state production systems based on reinforcement learning

[J]. Reliability Engineering and System Safety, 2021, 214: 107713

DOI:10.1016/j.ress.2021.107713 [本文引用: 1]

[15]

LAMPRECHT R, WURST F, HUBER M F. Reinforcement learning based condition-oriented maintenance scheduling for flow line systems [EB/OL]. [2025-01-01]. https://ieeexplore.ieee.org/document/9557373/.

DOI:10.1080/21681015.2023.2234377 [本文引用: 1]

[16]

SALMASNIA A, SHABANI A

Opportunistic maintenance modeling for series production systems based on bottleneck by considering energy consumption and market demand

[J]. Journal of Industrial and Production Engineering, 2023, 40 (6): 506- 518

[17]

YU M, LI T, MA J. Joint optimization method of production scheduling for prefabricated components based on preventive maintenance [C]// 41st Chinese Control Conference. Hefei: IEEE, 2022: 1940–1944.

[18]

杨梦月, 董文杰, 刘思峰

基于2种周期维护类型和序列准备时间的单机调度

[J]. 控制与决策, 2024, 39 (10): 3488- 3496

YANG Mengyue, DONG Wenjie, LIU Sifeng

Single machine scheduling based on two types of periodic maintenance and sequence-dependent setup times

[J]. Control and Decision, 2024, 39 (10): 3488- 3496

[19]

KANG K, SUBRAMANIAM V

Integrated control policy of production and preventive maintenance for a deteriorating manufacturing system

[J]. Computers and Industrial Engineering, 2018, 118: 266- 277

DOI:10.1016/j.cie.2018.02.026 [本文引用: 1]

[20]

XANTHOPOULOS A S, KIATIPIS A, KOULOURIOTIS D E, et al

Reinforcement learning-based and parametric production-maintenance control policies for a deteriorating manufacturing system

[J]. IEEE Access, 2017, 6: 576- 588