<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 工艺参数（主轴转速、进给量、切削宽度和深度）优化求解框架

Fig.1 Framework of machining parameters (spindle speed、feed rate、cutting width、cutting depth) optimization

1.2. GA-BPNN模型

神经网络是一种模仿生物结构和功能的计算模型，具有很强的非线性映射能力和学习速度. BPNN的网络架构由输入层、隐藏层和输出层组成. 在学习过程中，隐藏层和输出层的神经元将输入的信号与相应权重相乘，并通过传递函数处理相乘结果获得输出值，最终实现输入与输出之间的非线性映射. 神经元的数学模型如下式表示^[3]：

(3) $ a_j^{r - 1} = {{{f}}_x}\left( {\sum\limits_{j = 1}^m {\omega _{ij}^r{x_i}+{b_j}} } \right);\;i = 1,2,\cdots,n,\;j = 1,2,\cdots,m. $

式中： $ {x_i} $为BPNN输入值， $ a_j^{r - 1} $为隐藏层中的输出值， ${{{f}}_x}$为传递函数， $ \omega _{ij}^r $为输入层到隐藏层的权重值， $ {b_j} $为隐藏层的阈值. 输出层的输出值计算原理与隐藏层的相同，将隐藏层的输出作为输出层的输入，根据相应的权重值和阈值计算得到输出层的输出值.

BPNN的建模思想是将样本数据输入到神经网络中进行学习得到期望输出，接着根据实际输出与期望输出之间的误差 $ {l_{\rm{k}}} $来调整权重，经过不断迭代将误差降至合理值，最后完成神经网络模型的构建. BPNN的误差函数公式为

(4) $ {l_{\rm{k}}} = {\sum\limits_{v = 1}^M {\left( {{y_v} - {{\bar{y}_v}} } \right)} ^2}. $

式中： ${l_{\rm{k}}}$为误差函数值， ${{\bar{y}_v}}$与 $ {y_v} $相差越大， ${l_{\rm{k}}}$越大； $ M $为样本总数； $ {y_v} $为数据真实值； $ \overline {{y_v}} $为BPNN预测值；v为当前样本序号.

在BPNN的建模过程中，学习率和隐藏层的神经元个数 $ {O_{\rm{k}}} $的设置对模型精度有较大影响. 为选择合适的 $ {\alpha _{\rm{r}}} $和 $ {O_{\rm{k}}} $，提高模型精度，利用遗传算法(genetic algorithm，GA)优化BPNN，获得最优 $ {\alpha _{\rm{r}}} $和 $ {O_{\rm{k}}} $. 优化过程中选择决定系数R²作为适应度函数，具体优化过程见文献[26].

2. 优化方法

2.1. Dueling DQN优化原理及流程

Dueling DQN是基于值的深度强化学习算法，在算法中需要找出对学习环境具有重大影响的动作，并根据这些动作所对应的 $ Q $值，选择 $ Q $值最高的动作，从而找到未来期望奖励最大化的最优策略^[21]. Dueling DQN的动作选择及目标 $ Q $值的计算方式同DQN一样，过程是由当前估计网络计算出对环境有较大影响动作的 $ Q $值，选择最大 $ Q $值对应的动作 $ a $作为最佳动作，并得到目标网络在下一时刻的 $ Q $值为 $ \left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right) $， $ \theta ' $、 $ \alpha ' $和 $ \delta ' $均为目标网络中的参数. Dueling DQN的目标 $ Q $值可通过式(5)计算得

(5) $ Y_t^D = {R_{t+1}}+\gamma \mathop {\max }\limits_a Q\left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right). $

式中： $ Y_t^D $为目标 $ Q $值，该值可指导当前估计网络的参数更新； $ {R_{t+1}} $为下一时刻的奖励； $ \gamma \in \left[ {0,1.0} \right] $为折扣因子，其值决定未来奖励的重要性^[27]； $ \mathop {\max }\limits_a Q\left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right) $为目标网络输出值的最大值.

在Dueling DQN中，为降低学习样本间的相关性，提高学习效果，在每次训练时，将当前时刻t下的状态s_t、动作a_t、奖励R_t以及下一时刻状态s_t+1存储在经验回放池中，并在之后的学习中随机抽取经验回放池中的一些样本给当前网络进行训练. 另外为解决算法易出现训练不收敛的问题，引入当前估计网络结构一样的目标网络，每隔一段时间将当前估计网络的参数拷贝并赋予目标网络，得到目标网络的输出 $ Q\left( {{s_t},{a_t};\theta ',\alpha ',\delta '} \right) $. Dueling DQN中当前估计网络 $ Q $值主要通过 $ Q $价值函数（包括状态值函数 $ V\left( {{s_t},\theta ,\delta } \right) $和优势函数 $ A\left( {{s_t},{a_t}} \right) $）得到. 状态值函数根据如下优势函数计算所选动作的价值选择最佳动作：

(6) $ {A^{\text{π}} }\left( {{s_t},{a_t}} \right) = {Q^{\text{π}} }\left( {{s_t},{a_t}} \right) - {V^{\text{π}} }\left( {{s_t}} \right). $

式中： $ {\text{π}} $为状态-动作策略， $ {Q^{\text{π}} }\left( {{s_t},{a_t}} \right) $和 $ {V^{\text{π}} }\left( {{s_t}} \right) $分别为 $ t $时刻时的 $ Q $值和状态值.

根据最优策略 $ \arg {\max _{{a_{t+1}} \in A}}{Q_t}({s^{t+1}},{a^{t+1}}) $，可得优势函数 $ A\left( {{s_t},{a_t}} \right) = 0 $，则 $ {Q^\pi }\left( {{s_t},{a_t}} \right) = {V^\pi }\left( {{s_t}} \right) $，因此当前估计网络起初的输出可用式（7）表示.

(7) $ {Q^\chi }\left( {{s_t},{a_t};\theta ,\alpha ,\delta } \right) = V\left( {{s_t};\theta ,\delta } \right)+A\left( {{s_t},{a_t};\theta ,\alpha } \right). $

式中： $ \theta $为当前估计网络的权重参数， $ \alpha $为优势函数 $ A\left( {{s_t},{a_t}} \right) $的网络参数， $ \delta $为状态值函数 $ V\left( {{s_t},\theta ,\delta } \right) $的网络参数.

但在算法的学习过程中，若给定一个 $ Q $值，很难确定唯一的 $ V\left( {{s_t};\theta ,\delta } \right) $和 $ A\left( {{s_t},{a_t};\theta ,\alpha } \right) $. 为解决这个问题，在表达式（7）的基础上减去优势函数 $ A\left( {{s_t},{a_t};\theta ,\alpha } \right) $的平均值 $\dfrac{1}{{\left| A \right|}}\displaystyle\sum\nolimits_{{a_{t+1}}} {A\left( {{s_t},{a_{t+1}};\theta ,\alpha } \right)}$，得到最终的当前估计网络输出（式8）.

(8) $\begin{split} Q\left( {{s_t},{a_t};\theta ,\alpha ,\delta } \right) =\;& V\left( {{s_t};\theta ,\delta } \right)+A\left( {{s_t},{a_t};\theta ,\alpha } \right) -\\ &\frac{1}{{\left| A \right|}}\sum\nolimits_{{a_{t+1}}} {A\left( {{s_t},{a_{t+1}};\theta ,\alpha } \right)} . \end{split} $

基于Dueling DQN的优化原理，结合优化目标（最小的F_c和最大的R）及优化变量 $ \left( {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right) $，其优化过程如下.

输入：铣削工艺参数 $ \left( {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right) $.

1) 初始化经验回放容量上限 $ {M_{\rm{s}}} $，动作空间a，奖励r，学习率 $ \partial $和折扣因子 $ \gamma $.

2) 初始化当前估计网络的参数 $ \left( {\theta ,\alpha ,\delta } \right) $和目标网络的参数 $ \left( {\theta ',\alpha ',\delta '} \right) $.

3) 以4个工艺参数作为状态空间，确定状态空间s的搜索范围和动作空间a的搜索机制.

4) 在状态空间中随机选择状态s作为初始状态.

5) For $ t=0，T $do.

6) 将状态 $ s $输入工艺参数优化模型，由目标函数计算得到切削力合力和材料去除率预测值，并通过奖励公式获得奖励 $ r $.

7) 将状态 $ s $输入到 $ Q $网络中，得到那些对环境影响较大的动作所对应的 $ Q $值输出.

8) 根据 $ \varepsilon $−greedy策略的概率 $ \varepsilon $随机选择一个动作 $ a $，否则 $ a = \arg {\max _{{a_t}}}{Q_t}({s_t},{a_t};\theta ,\alpha ,\delta ) $并得到下一时刻状态 $ {s_{t+1}} $.

9) 将 $ \left( {{s_t},{a_t},{r_t},{s_{t+1}}} \right) $存储于经验回放池中，根据公式 $ Y_t^D = {R_{t+1}}+\gamma \mathop {\max }\limits_a Q\left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right) $计算每个样本的目标 $ Q $值，并令 $ {s_t} = {s_{t+1}} $.

10) 采用均方差损失函数 $\dfrac{1}{{{M_s}}}\displaystyle\sum\limits_{t = 1}^{{M_s}} \left( Y_t^D - Q\left( {{s_t},{a_t};\theta ,\alpha ,\delta } \right) \right)^2$通过神经网络的梯度反向传播更新当前估计网络的参数 $ \left( {\theta ,\alpha ,\delta } \right) $.

11) 经验回放池容量达到 $ {M_s} $后清零，并更新目标网络的参数 $ \left( {\theta ',\alpha ',\delta '} \right) = \left( {\theta ,\alpha ,\delta } \right) $.

12) End for

13) 记录算法学习过程中获得最高奖励R_t的工艺参数组合.

输出：Dueling DQN优化的铣削工艺参数组合.

2.2. 面向工艺参数优化的强化学习环境构建

在实现F_c和R基于工艺参数的优化过程中，需要对Dueling DQN算法的状态空间、动作空间和奖励函数进行设计.

2.2.1. 状态空间设计

在工艺参数多目标优化问题中，状态 $ {S_{{\rm{D}}} } $主要包括第1.1节优化模型（式（1））中决策变量的信息，即由主轴转速、进给量、切削宽度和切削深度组成的集合 $ \left[ {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right] $. 状态空间即为优化模型中决策变量的优化范围为

(9) $ \begin{gathered} {{S_D} = } \left[ {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right], \\ {\rm{s.t}}\left\{ {\begin{array}{*{20}{l}} {{n_{\min }} \leqslant n \leqslant {n_{\max }}} \\ {{f_{\min }} \leqslant f \leqslant {f_{\max }}} \\ {{a_{{\rm{e}}\min }} \leqslant {a_{\rm{e}}} \leqslant {a_{{\rm{e}}\max }}} \\ {{a_{{\rm{p}}\min }} \leqslant {a_{\rm{p}}} \leqslant {a_{{\rm{p}}\max }}} \end{array}} \right.. \\ \end{gathered} $

2.2.2. 动作空间设计

动作空间主要依据为优化变量的变化方式进行设计，工艺参数 $ n,f,{a_{\rm{e}}},{a_{\rm{p}}} $的变化方式有减小、不变和增大. 工艺参数的变化是一种离散动作，根据经验选择动作数 $ {a_s} = 12 $，并将动作空间归一化在 $ \left[ { - 3,3} \right] $. 在不同的动作值 $ {a^\varepsilon } $下， $ n,f,{a_e},{a_p} $从当前时刻变化到下一时刻的数值 $ {n^\& },{f^\& },a_{\rm{e}}^\& ,a_{\rm{p}}^\& $的策略见式(10)~(13).

(10) $ {n^\& } =\left\{ {\begin{array}{*{20}{l}} {n - \left( {{a^\varepsilon }+3} \right) \times 40,}&{- 3 \leqslant {a^\varepsilon } \leqslant - 2} ;\\ { n,}&{- 2 < {a^\varepsilon } \leqslant 0}; \\ { n+{a^\varepsilon } \times 40,}&{0 < {a^\varepsilon } \leqslant 1} ;\\ { n - \left( {{a^\varepsilon } - 1} \right) \times 40,}&{1 < {a^\varepsilon } \leqslant 2 }; \\ { n+\left( {{a^\varepsilon } - 2} \right) \times 40,}&{2 < {a^\varepsilon } \leqslant 3} . \end{array}} \right. $

(11) $ {f^\& } = \left\{ {\begin{array}{*{20}{l}} { f,}&{ - 3 \leqslant {a^\varepsilon } \leqslant - 2 } ;\\ {f+\left( {{a^\varepsilon }+2} \right) \times 0.004,}&{ - 2 < {a^\varepsilon } \leqslant - 1} ;\\ { f - \left( {{a^\varepsilon }+1} \right) \times 0.004,}&{ - 1 < {a^\varepsilon } \leqslant 0} ;\\ { f+{a^\varepsilon } \times 0.004,}&{0 < {a^\varepsilon } \leqslant 1} ;\\ { f - \left( {{a^\varepsilon } - 1} \right) \times 0.004,}&{1 < {a^\varepsilon } \leqslant 2 } ;\\ {f,}&{2 < {a^\varepsilon } \leqslant 3} . \end{array}} \right. $

(12) $ a_{\rm{e}}^\& = \left\{ {\begin{array}{*{20}{l}} { {a_{\rm{e}}}, }&{- 3 \leqslant {a^\varepsilon } \leqslant - 1}; \\ {{a_{\rm{e}}}+\left( {{a^\varepsilon }+1} \right) \times 0.4,}&{ - 1 < {a^\varepsilon } \leqslant 0}; \\ { {a_{\rm{e}}} - {a^\varepsilon } \times 0.4,}&{0 < {a^\varepsilon } \leqslant 1}; \\ { {a_{\rm{e}}}+\left( {{a^\varepsilon } - 1} \right) \times 0.4,}&{1 < {a^\varepsilon } \leqslant 2}; \\ { {a_{\rm{e}}} - \left( {{a^\varepsilon } - 2} \right) \times 0.4,}&{2 < {a^\varepsilon } \leqslant 3 }. \end{array}} \right. $

(13) $ a_{\rm{p}}^\& = \left\{ {\begin{array}{*{20}{l}} { {a_{\rm{p}}}+\left( {{a^\varepsilon }+3} \right) \times 0.04,}&{ - 3 \leqslant {a^\varepsilon } \leqslant - 2 }; \\ { {a_{\rm{p}}} - \left( {{a^\varepsilon }+2} \right) \times 0.04,}&{ - 2 < {a^\varepsilon } \leqslant - 1}; \\ { {a_{\rm{p}}}+\left( {{a^\varepsilon }+1} \right) \times 0.04,}&{ - 1 < {a^\varepsilon } \leqslant 0}; \\ { {a_{\rm{p}}} - {a^\varepsilon } \times 0.04,}&{0 < {a^\varepsilon } \leqslant 1}; \\ {{a_{\rm{p}}},}&{1 < {a^\varepsilon } \leqslant 3} . \end{array}} \right. $

2.2.3. 奖励函数构造

奖励函数主要通过依据优化目标性质和优化形式进行构建. 多目标优化模型是以1/R和F_c最小为目标，在奖励函数中应包含这两个目标. 另外，为了减小F_c和R之间数值差异过大带来的影响，在奖励函数中将2个目标进行归一化处理，其结果分别用 $ {H_F} $和 $ {H_{1/R}} $表示. 得到奖励函数 $ {r^\& } $的表达式（式（14）），此外当其中一个目标函数值出现负值时，奖励设置为0.

(14) $ {r^\& } = {\left( {\left( {1 - {H_F}} \right)+\left( {1 - {H_{1/R}}} \right)} \right)^2}. $

3. 试　验

为了验证铣削工艺参数优化模型和优化方法的有效性，采用VDL-600A立式加工中心进行铣削试验. 利用YDCB-III05压电式三向切削测力仪采集X、Y、Z 3个方向上切削力，基于采集的数据计算切削力合力，得到机床效能评价指标F_c的数据. 铣削试验的加工和测量设备图如图2所示. 铣削刀具为直径10.0 mm的硬质合金立铣刀，切削刃数为4，工件材料为45钢，尺寸为100 mm×80 mm×60 mm.

图 2

图 2 铣削试验平台

Fig.2 Milling test platform

根据切削用量手册和刀具制造商推荐的参数范围对每个铣削工艺参数设计3个水平（如表1所示）. 依据Taguchi试验设计方法，采用4因素3水平正交表获取27组工艺参数组合，参数组合及对应的加工结果展示在表2中.

表 1 试验因素及其水平

Tab.1 Experimental factors and their levels

水平	加工参数
水平	n /( ${\rm{r}} \cdot {\rm{mi} }{ {\rm{n} }^{ - 1} }$)	f /( ${{\rm{mm}}} \cdot {r^{ - 1} }$)	a_e /mm	a_p /mm
1	1 500	0.08	2.00	0.20
2	1 900	0.10	4.00	0.40
3	2 300	0.12	6.00	0.60

表 2 27组Taguchi试验数据的切削力合力和材料去除率

Tab.2 Combined cutting force and material removal rates for 27 sets of Taguchi test datas

序号	n/ ( ${\rm{r}} \cdot {\rm{mi}}{{\rm{n}}^{ - 1} }$)	f/ ( ${{\rm{mm}}} \cdot {{\rm{r}}^{ - 1} }$)	a_e/ mm	a_p/ mm	F_c/ N	R/ ( ${ {{\rm{mm}}} ^3} \cdot {\min ^{ - 1} }$)
1	1 500	0.08	2	0.2	17.241	48.0
2	1 500	0.08	4	0.4	33.117	192.0
3	1 500	0.08	6	0.6	44.120	432.0
4	1 500	0.10	2	0.6	44.246	180.0
5	1 500	0.10	4	0.2	23.873	120.0
6	1 500	0.10	6	0.4	33.256	360.0
7	1 500	0.12	2	0.4	35.638	144.0
8	1 500	0.12	4	0.6	53.547	432.0
9	1 500	0.12	6	0.2	25.398	216.0
10	1 900	0.08	2	0.6	38.787	182.4
11	1 900	0.08	4	0.2	21.276	121.6
12	1 900	0.08	6	0.4	27.223	364.8
13	1 900	0.10	2	0.4	29.856	152.0
14	1 900	0.10	4	0.6	49.820	456.0
15	1 900	0.10	6	0.2	19.837	228.0
16	1 900	0.12	2	0.2	22.726	91.2
17	1 900	0.12	4	0.4	37.849	364.8
18	1 900	0.12	6	0.6	45.732	820.8
19	2 300	0.08	2	0.4	42.285	147.2
20	2 300	0.08	4	0.6	65.958	441.6
21	2 300	0.08	6	0.2	32.286	220.8
22	2 300	0.10	2	0.2	26.537	92.00
23	2 300	0.10	4	0.4	52.899	368.0
24	2 300	0.10	6	0.6	70.342	828.0
25	2 300	0.12	2	0.6	62.847	331.2
26	2 300	0.12	4	0.2	44.824	220.8
27	2 300	0.12	6	0.4	50.243	662.4

4. 结果与讨论

4.1. 基于GA-BPNN的F_c预测模型精度评估

建模和优化程序均采用Python 3.6进行实现，计算机配置为i5-10400F CPU，RAM16GB，显卡型号GTX1650. 将试验得到的27组F_c和工艺参数数据作为GA-BPNN模型的训练样本，为了检验所构建的F_c预测模型的精度，在给定优化变量水平范围内与范围外，随机选取8组工艺参数数据作为测试样本（如表3所示）. 在建模过程中，根据文献[26]的参数设定，并结合所用样本总数较少的特点，设置GA算法中的种群数为 $ G = 50 $，迭代次数 $ I = 30 $，交叉概率 $ {P_{\rm{Z}}} = 0.8 $，变异概率 $ {P_{\rm{W}}} = 0.2 $. GA-BPNN模型的预测结果如图3所示，图中 $ F_{\rm{c}}^\& $为切削力合力测量值， $ F_{\rm{c}}^\# $为预测值. 从图3可以看出有较好的拟合趋势，其中3组参数的误差处于10%~20%，其余组参数的预测误差均不超过10%，因此，可以认为利用GA-BPNN模型预测切削力合力是具有可行性的^[28].

表 3 测试集样本数据

Tab.3 Test set sample data

组数	n/( ${\rm{r}} \cdot {\rm{mi}}{{\rm{n}}^{ - 1} }$)	f/( ${{\rm{mm}}} \cdot {{\rm{r}}^{ - 1} }$)	a_e/ ${{\rm{mm}}}$	a_p / ${{\rm{mm}}}$	$ F_{\rm{c}}^\& $/N
1	1 500	0.12	5	0.60	56.809
2	1 800	0.10	3	0.60	61.264
3	2 000	0.08	3	0.20	27.541
4	1 600	0.10	5	0.20	22.172
5	2 000	0.09	4	0.20	31.305
6	1 600	0.08	3	0.21	15.546
7	1 400	0.10	4	0.21	14.013
8	1 800	0.08	3	0.21	18.663

图 3

图 3 切削力合力预测值与测量值比较

Fig.3 Comparison of predicted and measured values of combined cutting force

为进一步评价GA-BPNN模型的预测精度，与支持向量回归（SVR）模型和渐进梯度回归树（gradient boosting regression tree，GBRT）对F_c的预测结果进行对比. 采用均方误差MSE、平均绝对百分比误差MAPE和决定系数R²作为预测精度评价指标. MSE和MAPE的值越小，说明预测值越接近真实值，R²越接近1.0，说明模型的输入变量能较好解释输出变量的能力越强，3个指标的表达式为

(15) $ {\rm{MSE}} = \frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {P\left( i \right) - y\left( i \right)} \right)}^2}} , $

(16) $ {\rm{MAPE}} = \frac{1}{m}\sum\limits_{i = 1}^m {\left| {\frac{{P\left( i \right) - y\left( i \right)}}{{y\left( i \right)}}} \right|} , $

(17) $ {R^2} = {{\displaystyle\sum\limits_{i = 1}^m {{{\left( {P\left( i \right) - y\left( i \right)} \right)}^2}} }}\left/{{{\displaystyle\sum\limits_{i = 1}^m {{{\left( {\overline y - y\left( i \right)} \right)}^2}} }}}\right.. $

式中： $ P\left( i \right) $和 $ y\left( i \right) $分别为第 $ i $个测试样本的预测值和测量值， $ \overline y $为测量值的平均值，m为测试样本数量. 3个模型的预测指标结果如表4所示，GA-BPNN具有最小的MSE、MAPE 和最接近1.0的R²值，表明GA-BPNN模型具有最高的预测精度，验证了GA-BPNN建立的F_c模型的有效性.

表 4 三个模型的预测指标

Tab.4 Predictors of three models

模型	MSE	MAPE/%	R²
GA-BPNN	12.417	8.854	0.932
SVR	33.903	16.129	0.884
GBRT	44.887	21.249	0.847

4.2. 工艺参数优化结果及验证

4.2.1. Pareto前沿和决策解选取

参考文献[6]中关于强化学习参数的选择，并通过网格搜索确定Dueling DQN算法的内部参数为学习率 $ \partial = 0.005 $，隐藏层神经元个数 $ {Q_{\rm{k}}} = 60 $，经验回放容量 $ {M_{\rm{s}}} = $4 000，折扣因子 $ \gamma = 0.99 $， $ \varepsilon - greedy $策略的概率 $ \varepsilon = 0.05 $，迭代次数I = 60 000. 通过对Dueling DQN算法的参数和策略的设计，得到的满足优化模型（式（1））的Pareto前沿如图4(a)所示，图中M^-1为材料去除率倒数. 从图4(a)可得，当 $ {F_c} $减小时，对应的材料去除率减小，符合优化目的和实际加工情况. 为进一步分析Dueling DQN的优化过程，当前网络的 $ Q $值的变化曲线和寻优过程中的奖励曲线分别展示在图4(b)和4(c)中. 在图4(b)中，由于算法初期需要存储学习数据，Dueling DQN采取随机策略选择动作， $ Q $值曲线在迭代次数12 000次之前主要为增大趋势，之后获得了学习数据， $ Q $值持续减小至收敛. 在图4(c)中，在37 000次迭代前，奖励值R_t的波动范围主要在1.1~2.0，且波动幅度较大；当出现目标函数取值为负数时，奖励设置为0；在迭代37 000次后，奖励逐渐增大且主要在1.96~1.98变动，波动幅度较小. 上述表明学习效果随着迭代次数的增加逐渐变好且稳定^[29].

图 4

图 4 Dueling DQN优化4个工艺参数的过程

Fig.4 Dueling DQN process for optimizing four machining parameters

为从优化解集中选择出满足要求的决策解，采用优劣解距离法(technique for order preference by similarity to ideal solution，TOPSIS)结合熵值法（entropy weight method，EWM）从Pareto前沿解的中心区域 $ {f_{\rm{F}}} \in \left[ {25,39} \right] $中选出折衷考虑2个目标函数的解的工艺参数组合进行验证试验. 1）输入所有待评价解的决策指标数据，并通过式(18)对数据进行归一化处理，得到决策矩阵 $ {{\boldsymbol{z}}_{ij}} $.

(18) $ {{\boldsymbol{z}}_{ij}} = \frac{{{c_{ij}}}}{{\displaystyle\sum\nolimits_{i = 1}^m {{{\boldsymbol{z}}_{ij}}} }},\; {i = 1,2,\cdots ,m;j = 1,2,\cdots ,n} . $

2）采用熵值法计算每个决策指标的客观权重 $ {w_i} $，具体过程见文献[30]. 3）在获得每个决策指标的权重后，接着计算加权归一化决策矩阵 $ {{\boldsymbol{v}}_{ij}} $、正理想解 $ {A^+} $和负理想解 $ {A^ - } $，具体公式见文献[31]. 4）根据式(19)和(20)计算 $ {{\boldsymbol{v}}_{ij}} $到 $ {A^+} $和 $ {A^ - } $之间的欧几里得距离 $ K_i^+$和 $ K_i^ - $.

(19) $ K_i^+ = \left[ {{{\sum\limits_{j = 1}^n {\left( {{{\boldsymbol{v}}_{ij}} - {\boldsymbol{v}}_j^+} \right)^2} }}}\right]^{1/2} , $

(20) $ K_i^ - = \left[ {{{\sum\limits_{j = 1}^n {\left( {{{\boldsymbol{v}}_{ij}} - {\boldsymbol{v}}_j^ - } \right)^2} }}}\right]^{1/2} . $

采用式(21)计算各个理想解的贴近系数C_i，并选择最大C_i值对应的铣削工艺参数组合作为决策解.

(21) $ {C_i} = \frac{{K_i^ - }}{{K_i^++K_i^ - }},\;0 \leqslant {C_i} \leqslant 1. $

基于决策解选择流程，对折衷区域中的58组解进行筛选，由熵值法计算得到F_c和R的权重分别为 $ {w}_{i}=0.479\;7、0.520\;3 $，C_i值较高的前5组工艺参数组合及决策指标展示在表5中. 从表5中可知，决策解为最高 $ {C_i} = 0.591 $，对应的工艺参数组合，即n = 1 700， $ f = 0.103 $， $ {a_{\rm{e}}} = 6 $， $ {a_{\rm{p}}} = 0.411 $，对应的决策指标是 $ {F_c} = 30.120 $， $ R = 431.797 $.

表 5 工艺参数组合决策结果

Tab.5 Process parameter combination decision results

组数	n/ (r·min⁻¹)	f/ (mm·r⁻¹)	a_e/ mm	a_p/ mm	F_c/ N	R/ (mm³·min⁻¹)	C_i
1	1 700.000	0.103	6.000	0.411	30.120	431.797	0.591
2	1 725.455	0.100	6.000	0.411	29.975	427.337	0.585
3	1 830.909	0.098	6.000	0.404	30.568	434.142	0.581
4	1 801.818	0.101	5.964	0.415	31.512	449.089	0.580
5	1 674.545	0.107	6.000	0.367	27.372	394.839	0.576

4.2.2. 优化结果验证

将Dueling DQN和决策解选择方法得到的最优铣削工艺参数组合输入机床中进行验证试验. 为避免试验数据的偶然性及减少测量误差的影响，对这组工艺参数重复5次加工试验，结果如表6所示. F_c的测量值F_c^&与优化值F_c^*的最大相对误差 $ {l_{\rm{n}}} $仅为6.929%，平均误差 $ l_{{\rm{n}}} ^\& $为4.802%，验证了所提优化方法的有效性.

表 6 切削力合力优化值与测量值的比较结果

Tab.6 Comparison of optimized value of combined cutting force with measured value

序号	F_c^&/N	F_c*/N	$ l_{{\rm{n}}} ^{} $/%	$ l_{{\rm{n}}} ^\& $/%
1	28.033	—	6.929	—
2	29.194	—	3.074	—
3	28.667	30.120	4.824	4.802
4	28.753	—	4.538	—
5	28.721	—	4.645	—

4.3. Dueling DQN优化性能对比及评估

为分析深度强化学习算法和元启发式算法在铣削工艺参数多目标优化问题上的优化性能，针对F_c和R的优化模型，对比了Dueling DQN、DQN、深度确定性策略梯度（DDPG）和非支配排序遗传算法(NSGA-II)的优化结果. DQN的内部结构设置与Dueling DQN相同，DDPG的策略网络学习率为0.001，评价网络的学习率为0.002，其他参数设置均与Dueling DQN一致. NSGA-II的种群数设为150，交叉概率为0.8，变异概率为0.2，最大迭代次数为200.

选择算法运行时间U、平均理想距离（MID）和完成目标比率（RAS）作为评价指标^[32]，其中MID的值越小，Pareto前沿到理想点的平均距离越小，解集的效果越好；RAS越小，Pareto前沿离2个目标的最小值越近，解集的效果越好，见式(22)和(23).

(22) $ {\rm{MID}} = \frac{1}{N}\sum\limits_{i = 1}^N {\sqrt {f_{Fi}^2+f_{1/R,i}^2} } \;, $

(23) $ {\rm{RAS}} = \frac{1}{N}\sum\limits_{i = 1}^N {\left( {\frac{{{f_{Fi}} - {f_{{\rm{F}},\min }}}}{{{f_{{\rm{F}},\min }}}}+\frac{{{f_{1/R,i}} - {f_{1/R,\min }}}}{{{f_{1/R, \min }}}}} \right)} . $

式中： $ f_{Fi}^{} $和 $ f_{1/Ri}^{} $分别为第i个Pareto解中的切削力合力和材料去除率倒数， $ \sqrt {f_{Fi}^2+f_{1/Ri}^2} $为Pareto前沿上一点到理想点 $ \left( {0,0} \right) $的平均距离， $ {f_{{\rm{F}},\min }} $和 $ {f_{1/R, \min }} $分别为F_c和1/R的最小值， $ N $为Pareto解的总个数.

图5为4个优化算法的Pareto前沿解及最大C_i值对应的解. 4个算法的Pareto前沿曲线趋势是一致的，在折中选取最优解的区间 $ {f_F} \in \left[ {25,39} \right] $上，Dueling DQN优化得到的F_c和1/R的最优值均小于另外3种算法. 另外对比4个算法的优化性能指标结果（表7）可知，Dueling DQN除运行效率低于DDPG和NSGA-II外，其他的指标均优于另外3个算法. 综合来看Dueling DQN的优化效果优于DQN、DDPG和NSGA-II. 基于各算法优化机制分析优化工艺参数时产生相应的优化性能的原因. Dueling DQN能够泛化环境中所有可能动作的学习过程，还能够学习到对智能体具有重大影响的状态，而无需学习每个动作对每个状态的影响，进而快速确定最佳动作^[33]. 在DQN中，需要计算在特定状态下的每个动作的值，但有些动作对学习环境没有影响，从而导致确定最佳动作的速度变慢，最终影响优化效果. DDPG采取的学习策略为确定性策略，而动作的探索采用随机策略，虽然算法运行效率在深度强化学习算法里较高，但优化效果不如Dueling DQN优. 在智能体与环境的交互过程中，可能出现正激励也可能出现负激励，寻优过程相对曲折，故3种深度强化学习算法的运行时间均较长. NSGA-II采用非支配排序策略，引入拥挤距离来衡量Pareto解的分布性，并基于此选出合适的个体，由于迭代次数较少且不含神经网络模型，运行速度比深度强化学习算法快很多，但在Pareto前沿中心区域部分的解的质量比Dueling DQN差.

图 5

图 5 各算法的帕累托前沿解结果

Fig.5 Pareto front solution results for each algorithm

表 7 不同算法在铣削工艺参数多目标优化问题上的优化性能比较

Tab.7 Comparison of the optimization performance of different algorithms for multi-objective optimization problems with milling machining parameters

方法	N	MID	RAS	U/s
Dueling DQN	173	26.014	0.013	1 063
DDPG	92	39.161	0.025	1 052
DQN	123	29.589	0.018	1 065
NSGA-II	140	28.713	0.018	501

采用TOPSIS-EWM决策法选出DQN、DDPG和NSGA-II的最优工艺参数组合进行验证试验，并与Dueling DQN的实际加工效果进行对比，得到表8的结果，F_c^*为优化得到的切削力合力. 4个优化算法获得的F_c^*与测量值F_c^&都较接近，表明了优化算法的有效性，其中，Dueling DQN优化获得的F_c^*最小，R仅略低于DQN，而DQN得到的F_c^*值最大. 因此，基于Dueling DQN获得的优化解优化效果最好，验证了Dueling DQN优的优化性能.

表 8 各方法优化下的切削力合力和材料去除率结果对比

Tab.8 Comparison of combined cutting forces and material removal rate results for each method optimization

方法	n/(r·min⁻¹)	f/(mm·r⁻¹)	a_e/mm	a_p/mm
Dueling DQN	1 700.000	0.103	6.000	0.411
DDPG	1 808.154	0.116	5.972	0.349
DQN	1 809.091	0.098	6.000	0.404
NSGA-II	1 720.582	0.119	5.984	0.357

方法	F_c^&/N	F_c^*/N	R/(mm³·min⁻¹)
Dueling DQN	29.194	30.120	431.797
DDPG	32.847	33.463	437.158
DQN	33.211	34.327	429.753
NSGA-II	33.117	33.728	437.403

将根据加工手册^[34]选择的铣削参数用于实际加工的结果与Dueling DQN优化结果进行对比，并通过式(24)计算2个目标的提升率，结果如表9所示，其中 $ G_{\rm{c}}^{} $和 $ G_{\rm{R}}^{} $分别为效能提升率和工效提升率. 通过表9的对比结果可知，相比于经验加工，优化获得的工艺参数使F_c降低8.29%，R提高4.95%，从而验证了基于Dueling DQN算法获得优化工艺参数的科学性和优异性.

表 9 Dueling DQN优化结果与经验结果对比

Tab.9 Comparison of Dueling DQN optimization results with empirical results

方法	n/(r·min⁻¹)	f/(mm·r⁻¹)	a_e/mm	a_p/mm
Dueling DQN	1 700	0.103	6	0.411
经验铣削参数	1 900	0.080	6	0.450

方法	F_c^&/N	R/(mm³·min⁻¹)	$ G_{\rm{c}}^{} $/%	$ G_{\rm{R}}^{} $/%
Dueling DQN	29.194	431.797	8.29	4.95
经验铣削参数	31.614	410.400	8.29	4.95

(24) $\small {{{提升率}}=\frac{\left|优化值-经验值\right|}{优化值}}\times 100\text{%}. $

5. 结　论

为提高机床效能和加工效率，提出了一种基于Dueling DQN的加工参数多目标优化方法. 基于45钢的铣削试验，验证了该方法应用于加工参数优化领域的有效性和优异性，为加工过程优化方法的选择提供了有利的选择依据，主要结论如下：

（1）采用GA优化的BPNN模型构建切削力合力F_c与工艺参数的优化模型，模型的R²为 93.2%，与SVR和GBRT模型进行对比，发现GA-BPNN的建模精度更高.

（2）利用Dueling DQN获得最小F_c和最大R的多目标优化问题进的Pareto前沿，并采用TOPSIS-EWM得到决策解. 基于得到的决策解进行加工，优化得到F_c与测量值的误差均值仅为4.802%，并与经验选择的工艺参数对比，发现通过Dueling DQN得到的加工方案使F_c降低了8.29%，加工效率提高了4.95%.

（3）对比了3种深度强化学习方法（Dueling DQN、DQN、DDPG）和启发式优化方法（NSGA-II）解决机床效能和加工效率多目标优化问题的优化性能发现，Dueling DQN求解得到的Pareto前沿在解集数、平均理想距离和完成目标比率上均优于DQN、DDPG和NSGA-II，获得的优化解实际优化效果最好. 考虑更多影响因素和优化目标来构建多目标模型，设计更高效的Dueling DQN探索策略，实现复杂加工的工艺参数选择，提高模型优化效率将是下一步研究的方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

SAHU N K, ANDHARE A B

Multi-objective optimization for improving machinability of Ti-6Al-4V using RSM and advanced algorithms

[J]. Journal of Computational Design and Engineering, 2019, 6 (1): 1- 12

DOI:10.1016/j.jcde.2018.04.004 [本文引用: 1]

[2]

SHIHAB S K, GATTMAH J, KADHIM H M

Experimental investigation of surface integrity and multi-objective optimization of end milling for hybrid Al7075 matrix composites

[J]. Silicon, 2020, 13 (5): 1403- 1419

[3]

XIE H B, WANG Z J

Study of cutting forces using FE, ANOVA, and BPNN in elliptical vibration cutting of titanium alloy Ti-6Al-4V

[J]. The International Journal of Advanced Manufacturing Technology, 2019, 105 (12): 5105- 5120

DOI:10.1007/s00170-019-04537-w [本文引用: 2]

[4]

TIEN D H, DUC Q T, VAN T N, et al

Online monitoring and multi-objective optimization of technological parameters in high-speed milling process

[J]. The International Journal of Advanced Manufacturing Technology, 2021, 112 (9-10): 2461- 2483

DOI:10.1007/s00170-020-06444-x [本文引用: 1]

[5]

李建斌, 武颖莹, 李鹏宇, 等

基于局部线性嵌入和支持向量机回归的TBM施工参数预测

[J]. 浙江大学学报: 工学版, 2021, 55 (8): 1426- 1435

LI Jian-bin, WU Ying-ying, LI Peng-yu, et al

TBM tunneling parameters prediction based on locally linear embedding and support vector regression

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (8): 1426- 1435

DOI:10.3969/j.issn.1004-132X.2021.07.002 [本文引用: 1]

[6]

陈超逸, 鲁娟, 陈楷, 等

车削表面粗糙度解析模型与DDQN-SVR预测模型研究

[J]. 机械工程学报, 2021, 57 (13): 262- 272

DOI:10.3901/JME.2021.13.262 [本文引用: 2]

CHEN Chao-yi, LU Juan, CHEN Kai, et al

Research on analytical model and DDQN-SVR prediction model of turning surface roughness

[J]. Journal of Mechanical Engineering, 2021, 57 (13): 262- 272

DOI:10.3901/JME.2021.13.262 [本文引用: 2]

[7]

巩超光, 胡天亮, 叶瑛歆

基于数字孪生的铣削参数动态多目标优化策略

[J]. 计算机集成制造系统, 2021, 27 (2): 478- 486

DOI:10.13196/j.cims.2021.02.015 [本文引用: 1]

GONG Chao-guang, HU Tian-liang, YE Ying-xin

Dynamic multi-objective optimization strategy of milling parameters based on digital twin

[J]. Computer Integrated Manufacturing Systems, 2021, 27 (2): 478- 486

DOI:10.13196/j.cims.2021.02.015 [本文引用: 1]

[8]

CHENG Y N, YANG J L, QIN C, et al

Tool design and cutting parameter optimization for side milling blisk

[J]. The International Journal of Advanced Manufacturing Technology, 2019, 100 (9-12): 2495- 2508

DOI:10.1007/s00170-018-2846-4 [本文引用: 1]

[9]

GHOSH T, WANG Y, MARTINSEN K, et al

A surrogate-assisted optimization approach for multi-response end milling of aluminum alloy AA3105

[J]. The International Journal of Advanced Manufacturing Technology, 2020, 111 (9-10): 2419- 2439

DOI:10.1007/s00170-020-06209-6 [本文引用: 1]

[10]

HE K, TANG R, JIN M

Pareto fronts of machining parameters for trade-off among energy consumption, cutting force and processing time

[J]. International Journal of Production Economics, 2017, 185: 113- 127

DOI:10.1016/j.ijpe.2016.12.012 [本文引用: 1]

[11]

OSORIOPINZON J C, ABOLGHASEM S, MARANON A, et al

Cutting parameter optimization of Al-6063-O using numerical simulations and particle swarm optimization

[J]. The International Journal of Advanced Manufacturing Technology, 2020, 111 (9-10): 2507- 2532

DOI:10.1007/s00170-020-06200-1 [本文引用: 1]

[12]

Van H P

Application of singularity vibration for minimum energy consumption in high-speed milling

[J]. International Journal of Modern Physics B, 2021, 35: 2140008

DOI:10.1142/S0217979221400087 [本文引用: 1]

[13]

LI B, TIAN X T, ZHANG M

Modeling and multi-objective optimization of cutting parameters in the high-speed milling using RSM and improved TLBO algorithm

[J]. The International Journal of Advanced Manufacturing Technology, 2020, 111 (7-8): 2323- 2335

DOI:10.1007/s00170-020-06284-9 [本文引用: 1]

[14]

翁剑, 庄可佳, 浦栋麟, 等

基于机器学习和多目标算法的钛合金插铣优化

[J]. 中国机械工程, 2021, 32 (7): 771- 777

WENG Jian, ZHUANG Ke-jia, PU Dong-lin, et al

Plunge milling of tianium alloys based on machine learning and multi-objective optimization

[J]. China Mechanical Engineering, 2021, 32 (7): 771- 777

DOI:10.3969/j.issn.1004-132X.2021.07.002 [本文引用: 1]

[15]

RUST J

Structural estimation of markov decision processes

[J]. Handbook of Econometrics, 1994, 3081- 3143

[16]

LI K W, ZHANG T, WANG R

Deep reinforcement learning for multi-objective optimization

[J]. IEEE Transactions on Cybernetics, 2021, 51 (6): 3103- 3114

DOI:10.1109/TCYB.2020.2977661 [本文引用: 1]

[17]

施群, 吕雷, 谢家骏

可变环境下仿人机器人智能姿态控制

[J]. 机械工程学报, 2020, 56 (3): 64- 72

DOI:10.3901/JME.2020.03.064

SHI Qun, LV Lei, XIE Jia-jun

Intelligent posture control of humanoid robot in variable environment

[J]. Journal of Mechanical Engineering, 2020, 56 (3): 64- 72

DOI:10.3901/JME.2020.03.064

[18]

LAN S, PANDA R, ZHU Q, et al. FFNet: video fast-forwarding via reinforcement learning [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: Salt Lake City, 2018: 6771-6780.

[19]

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Human level control through deep reinforcement learning

[J]. Nature, 2015, 518 (7540): 529- 533

DOI:10.1038/nature14236 [本文引用: 1]

[20]

WANG Z Y, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning [C]// Proceedings of the 33rd International Conference on Machine Learning. USA: New York, 2016, 46: 1995-2003.

[21]

SUN G L, AYEPAHMENSAH D, XU R, et al

End-to-end CNN-based dueling deep Q-Network for autonomous cell activation in Cloud-RANs

[J]. Journal of Network and Computer Applications, 2020, 169: 102757

DOI:10.1016/j.jnca.2020.102757 [本文引用: 2]

[22]

BAN T W

An autonomous transmission scheme using dueling DQN for D2D communication networks

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (45): 16348- 16352

[23]

ZHANG X W, EHMANN K F, YU T B, et al

Cutting forces in micro-end-milling processes

[J]. International Journal of Machine Tools and Manufacture, 2016, 107: 21- 40

DOI:10.1016/j.jclepro.2020.121388 [本文引用: 1]

[24]

HAN F J, LI L, CAI W, et al

Parameters optimization considering the trade-off between cutting power and R based on linear decreasing particle swarm algorithm in milling

[J]. Journal of Cleaner Production, 2020, 262: 121388

[25]

MOREIRA L C, LI W D, LU X, et al

Energy-efficient machining process analysis and optimization based on BS EN24T alloy steel as case studies

[J]. Robotics and Computer-Integrated Manufacturing, 2019, 58: 1- 12

DOI:10.1016/j.rcim.2019.01.011 [本文引用: 1]

[26]

SOEPANGKAT B, NORCAHYO R, PRAMUJATI B, et al

Multi-objective optimization in face milling process with cryogenic cooling using grey fuzzy analysis and BPNN-GA methods

[J]. Engineering Computations, 2020, 36 (5): 1542- 1565

[本文引用: 2]

[27]

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Playing atari with deep reinforcement learning

[J]. Computer Science, 2013, 1- 9

[28]

XU L H, HUANG C Z, LI C W, et al

Estimation of tool wear and optimization of cutting parameters based on novel ANFIS-PSO method toward intelligent machining

[J]. Journal of Intelligent Manufacturing, 2020, 32 (1): 77- 90

[29]

SUN G L, AYEPAH M D, BUDKEVICH A, et al

Autonomous cell activation for energy saving in cloud-RANs based on dueling deep q-network

[J]. Knowledge-Based Systems, 2020, 192: 105347

DOI:10.1016/j.jclepro.2017.06.077 [本文引用: 1]

[30]

KUMAR R, BILGA P S, SINGH S

Multi-objective optimization using different methods of assigning weights to energy consumption responses, surface roughness and material removal rate during rough turning operation

[J]. Journal of Cleaner Production, 2017, 164: 45- 57

[31]

SEN B, MIA M, MANDAL U K, et al

Multi-objective optimization for MQL-assisted end milling operation: an intelligent hybrid strategy combining GEP and NTOPSIS

[J]. Neural Computing and Applications, 2019, 31 (12): 8693- 8717

DOI:10.1007/s00521-019-04450-z [本文引用: 1]

[32]

BEHNAMIAN J, ZANDIEH M, GHOMI S

A multi-phase covering pareto-optimal front method to multi-objective parallel machine scheduling

[J]. International Journal of Production Research, 2010, 48 (17-18): 4949- 4976

[33]

SUN G L, XIONG K, BOATENG G O, et al

Resource slicing and customization in RAN with dueling deep Q-network

[J]. Journal of Network and Computer Applications, 2020, 157 (3): 102573

[34]

艾兴, 肖诗纲. 切削用量简明手册[M]. 北京: 机械工业出版社, 1994: 84-110.