浙江大学学报(工学版), 2022, 56(11): 2145-2155 doi: 10.3785/j.issn.1008-973X.2022.11.005

机械与能源工程

基于深度强化学习的数控铣削加工参数优化方法

邓齐林,, 鲁娟, 陈勇辉, 冯健, 廖小平, 马俊燕,

1. 广西大学 机械工程学院,广西 南宁 530004

2. 北部湾大学 机械与船舶海洋工程学院,广西 钦州 535011

3. 广西大学 制造系统与先进制造技术重点实验室,广西 南宁 530004

Optimization method of CNC milling parameters based on deep reinforcement learning

DENG Qi-lin,, LU Juan, CHEN Yong-hui, FENG Jian, LIAO Xiao-ping, MA Jun-yan,

1. College of Mechanical Engineering, Guangxi University, Nanning 530004, China

2. Department of Mechanical and Marine Engineering, Beibu Gulf University, Qinzhou 535011, China

3. Guangxi Key Laboratory of Manufacturing Systems and Advanced Manufacturing Technology, Guangxi University, Nanning 530004, China

通讯作者: 马俊燕,女,副教授,从事制造工艺与控制和智能制造研究. orcid.org/0000-0002-1286-6632. E-mail: 191159191@qq.com

收稿日期: 2021-12-4  

基金资助: 国家自然科学基金资助项目(51665005,52165062);广西自然科学基金资助项目(2020JJD160004,2019JJB160048,2018GXNSFAA138158);广西高校中青年教师基础能力提升资助项目(2020KY10014)

Received: 2021-12-4  

Fund supported: 国家自然科学基金资助项目(51665005,52165062);广西自然科学基金资助项目(2020JJD160004,2019JJB160048,2018GXNSFAA138158);广西高校中青年教师基础能力提升资助项目(2020KY10014)

作者简介 About authors

邓齐林(1996—),男,硕士生,从事智能制造研究.orcid.org/0000-0003-4255-4418.E-mail:602096993@qq.com , E-mail:602096993@qq.com

摘要

为了提高数控加工中的机床效能和加工效率,探究深度强化学习在加工参数优化问题中的适用性,提出一种基于深度强化学习的数控铣削加工参数优化方法. 选取切削力合力和材料除去率作为效能和效率的优化目标,利用遗传算法优化反向传播神经网络(GA-BPNN)构建切削力合力和铣削参数的优化函数,并采用经验公式建立材料除去率的优化函数. 应用竞争网络架构(Dueling DQN)算法获得切削力合力和材料除去率多目标优化的Pareto前沿,并结合优劣解距离法和熵值法从Pareto前沿中选择决策解. 基于45钢的铣削试验,验证了Dueling DQN算法用于加工参数优化的有效性,相比经验选取加工参数,通过Dueling DQN优化得到的加工方案使切削力合力降低了8.29%,加工效率提高了4.95%,为加工参数的多目标优化方法和加工参数的选择提供了指导.

关键词: 铣削加工 ; 加工参数 ; 反向传播神经网络 ; 深度强化学习 ; 多目标优化

Abstract

A deep reinforcement learning-based optimization method for CNC milling machining parameters was proposed to improve the machine tool effectiveness and the machining efficiency in CNC machining, and the applicability of deep reinforcement learning to machining parameters optimization problems was explored. The combined cutting force and material removal rate were selected as the optimization objectives of effectiveness and efficiency. The optimization function of combined cutting force and milling parameters were constructed using genetic algorithm optimization back propagation neural network (GA-BPNN) and the optimization function of material removal rate was established using empirical formulas. The competing network architecture (Dueling DQN) algorithm was applied to obtain Pareto frontier for combined cutting force and material removal rate multi-objective optimization and the decision solution was selected from Pareto frontier by combining the superior-inferior solution distance method and the entropy value method. The effectiveness of the Dueling DQN algorithm for machining parameter optimization was verified based on milling tests on 45 steel. Compared with the empirically selected machining parameters, the machining solution obtained by Dueling DQN optimization resulted in 8.29% reduction of combined cutting force and 4.95% improvement of machining efficiency, which provided guidance for the multi-objective optimization method of machining parameters and the selection of machining parameters.

Keywords: milling ; processing parameter ; back propagation neural network ; deep reinforcement learning ; multi-objective optimization

PDF (1928KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

邓齐林, 鲁娟, 陈勇辉, 冯健, 廖小平, 马俊燕. 基于深度强化学习的数控铣削加工参数优化方法. 浙江大学学报(工学版)[J], 2022, 56(11): 2145-2155 doi:10.3785/j.issn.1008-973X.2022.11.005

DENG Qi-lin, LU Juan, CHEN Yong-hui, FENG Jian, LIAO Xiao-ping, MA Jun-yan. Optimization method of CNC milling parameters based on deep reinforcement learning. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(11): 2145-2155 doi:10.3785/j.issn.1008-973X.2022.11.005

随着制造自动化水平的提高和智能制造技术的发展,数控加工企业对加工效益的要求也更高,提高机床效能和加工效率是企业利用数控加工技术的有效途径. 加工参数的多目标优化是实现最佳加工效益的有效方法之一. 目前,针对机床效能和加工效率的优化方法已经产生了许多成果,成果展示的优化过程总结是通过理论模型或者数据驱动方法构建目标变量与决策变量的优化函数,再利用优化方法来获得优化解. 在复杂的加工过程中,影响因素较多导致不容易建立理论模型,比较容易获得依赖试验数据的数据驱动模型,并且该模型不需要分析目标函数的构建机理. 常用的数据建模方法主要有响应面法[1-2]、反向传播神经网络(back propagation neural network,BPNN)[3-4]、支持向量回归[5-6]和渐进梯度回归树[7]. 在4种方法中,响应面法通常使用二次多项式模型构建决策变量与目标变量之间的关联关系模型,若在模型中存在对响应影响不显著的项,需要通过人为剔除以提高模型的预测精度,这样的方式需要耗费些许时间且难以获得最优精度. 相比响应面建模法,其他3种方法均通过调整自身少量内部参数来提高模型精度,且对非线性数据具有较高的拟合效果. 相较于支持向量回归(惩罚系数、不敏感损失区域半径和核函数系数)和渐进梯度回归树(弱学习器个数、学习率和子采样系数),反向传播神经网络(神经元数量和学习率)仅需调整2种参数便能快速完成建模.

优化方法的选择是实现加工参数优化的重要环节,主要是以启发式优化算法为主. CHENG等[8]以侧铣加工效率、切削力和表面粗糙度为优化目标,通过非线性回归建立了优化目标与工艺参数的优化函数,并且提出一种基于非支配排序遗传算法的模型求解方法. GHOSH等[9]通过贝叶斯正则化神经网络建立铣削加工中材料去除率、切削力及表面粗糙度的预测模型,采用天牛须搜索算法求解多目标优化模型得到最优的刀具直径、主轴转速、进给速度和切削深度. HE等[10]同时考虑碳钢铣削过程中的切削力、加工时间和能耗,通过理论分析和经验公式建立了各个目标与加工参数的关联关系模型,并采用基于分解的多目标进化算法进行寻优求解得到了该问题的Pareto前沿. Osorio-Pinzon等[11]针对铝6063加工过程中切削力、微观结构细化度及材料去除率的多目标优化问题,利用响应面法和人工神经网络构建目标与加工参数的优化函数,并采用粒子群算法进行优化求解. VAN[12]采用BPNN构建加工参数与切削力、振动及能耗的优化模型,利用多目标粒子群算法执行多目标优化,为高速铣削的参数优化提供了有效的解. LI等[13]通过响应面法建立数控铣削加工切削力与铣削参数之间的关系模型,在此基础上,构建了考虑切削力、R和表面粗糙度的多目标优化模型,并提出了一种基于改进教学优化算法的模型求解方法. 翁剑等[14]研究插铣过程中加工参数对切削力和材料去除率的影响,在此基础上以最小切削力和最大材料去除率为目标建立加工参数优化模型,并通过多目标遗传算法得到最优的加工参数组合.

上述提出的方法虽然在相应问题中表现出良好的优化效果,但是启发式算法只擅长搜索而不擅长学习,并且只是根据当前样本来求解,得到的结果不一定是期望的最优解. 此外,由于实际加工过程的复杂性,加工条件稍有变化都有可能会对此类算法的性能产生影响,因此探求优化算法的改进、算法组合以及其他的智能算法应用于加工参数的多目标优化问题是必要的. 强化学习(RL)是一种基于马尔可夫决策过程[15]的机器学习方法,通过利用历史样本更新网络参数来获得最优策略. 该学习方法眼光长远,考虑长期回报,对很多问题找到最优解非常关键. 深度强化学习(DRL)是深度学习(DL)与强化学习(RL)相结合而产生的,近年来已成为人工智能领域的研究热点. 它可以解决现实中经典RL无法处理的具有大型甚至连续状态空间和动作空间的复杂任务,还可以将训练好的模型直接扩展到新的问题上,而无需重新进行训练. 因此它已被广泛应用于组合优化问题、机器人运动控制和计算机视觉等领域[16-18]. 深度Q网络(deep q network,DQN)[19]是DRL中的经典代表,它将状态输入神经网络,选择动作价值最大的作为输出,通过不断迭代获得最优策略. 但是由于DQN需要计算每个动作的价值函数,包括一些对学习环境没有任何影响的动作,导致学习效率降低,影响学习效果. 为提高学习效率,Wang等[20]提出竞争网络架构算法(dueling DQN),将每个动作的Q值函数分解为状态价值函数和优势函数的和,大幅提高了学习效果. Dueling DQN凭借较强的寻优能力和感知能力,在蜂窝网络能耗优化[21]和通信网络传输[22]等领域已有突出表现,但在如何利用深度强化学习,研究合适的动作搜索策略来解决加工领域的工艺参数多目标优化问题方面还鲜有研究.

为充分发挥机床效能和提高加工效率,以及探究深度强化学习在加工参数多目标优化中的适用性及优化效果,本研究采用反向传播神经网络进行建模,并提出了一种基于深度强化学习的加工参数优化方法. 为了提高BPNN构建目标变量与决策变量优化函数的准确性,利用GA优化的BPNN 构建优化模型,采用Dueling DQN执行多目标优化. 为从优化解集中获得决策解,利用优劣解距离法结合熵值法从解集中得到决策解,并通过加工试验验证提出的方法的有效性.

1. 优化模型和建模方法

1.1. 优化模型

以铣削加工为例,研究Dueling DQN在解决加工参数多目标优化问题中的应用. 选取主轴转速 $ n $、进给量 $ f $、铣削宽度 $ {a_{\rm{e}}} $、铣削深度 $ {a_{\rm{p}}} $作为优化变量. 在加工过程中,加工效率常用材料去除率来表征,提高单位时间内的材料去除率可有效提高加工效率,而切削力是衡量机床效能的一个重要指标,切削力数值过大容易造成加工误差,还会导致刀具使用寿命下降甚至机床损坏[23]. 本研究选取切削力合力Fc和材料去除率R作为机床效能和加工效率的性能指标.

在实际加工过程中,为提高加工效率,材料去除率越大越好,而考虑到切削刀具损耗和加工系统稳定性,切削力合力越小越好,故多目标优化模型可表示:

$ \begin{gathered} \begin{array}{*{20}{c}} {}&{X = \left( {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right)} \end{array}. \\ {\rm{s.t}}\left\{ {\begin{array}{*{20}{l}} {{n_{\min }} \leqslant n \leqslant {n_{\max }}}, \\ {{f_{\min }} \leqslant f \leqslant {f_{\max }}} ,\\ {{a_{{\rm{e}}\min }} \leqslant {a_{\rm{e}}} \leqslant {a_{{\rm{e}}\max }}} ,\\ {{a_{{\rm{p}}\min }} \leqslant {a_{\rm{p}}} \leqslant {a_{{\rm{p}}\max }}}, \\ {8{r_{\rm{k}} }{f_{\rm{z}}}^2 \leqslant {R_{{\rm{a}}\max }}} . \end{array}} \right. \\ \end{gathered} $

式中: $({n}_{\mathrm{min}},{n}_{\text{max}})$$({f}_{\mathrm{min}},{f}_{\text{max}})$$({a}_{{\rm{e}}}^{\mathrm{min}},{a}_{{\rm{e}}}^{\text{max}})$$({a}_{{\rm{p}}}^{\mathrm{min}}, {a}_{{\rm{p}}}^{\text{max}})$分别为主轴转速、进给量、切削宽度和深度的约束范围区间, $ {f_{\rm{z}}} $为每齿进给量; $ {r_{\rm{k}} } $为铣刀刀尖半径; $ {R_{a}^{\max }} $为零件所要求的表面粗糙度最大值[24]. 模型 $ {F_{\mathbf{c}}}(X) $通过GA-BPNN构建, 材料去除率由下式[25]计算得

$ R = n \times f \times {a_{\rm{e}}} \times {a_{\rm{p}}}. $

为了获得多目标优化模型(式(1))的决策解,给出求解流程,如图1所示. 通过铣削试验获取切削力合力数据,材料去除率可通过式(2)计算获取. 利用遗传算法优化反向传播神经网络构建切削力合力与切削参数的关联关系模型,以切削力合力最小和材料去除率最大为目标,确定切削参数多目标优化模型,并采用Dueling DQN进行优化求解. 最后,利用优劣解距离法结合熵值法从Pareto前沿中获取决策解.

图 1

图 1   工艺参数(主轴转速、进给量、切削宽度和深度)优化求解框架

Fig.1   Framework of machining parameters (spindle speed、feed rate、cutting width、cutting depth) optimization


1.2. GA-BPNN模型

神经网络是一种模仿生物结构和功能的计算模型,具有很强的非线性映射能力和学习速度. BPNN的网络架构由输入层、隐藏层和输出层组成. 在学习过程中,隐藏层和输出层的神经元将输入的信号与相应权重相乘,并通过传递函数处理相乘结果获得输出值,最终实现输入与输出之间的非线性映射. 神经元的数学模型如下式表示[3]

$ a_j^{r - 1} = {{{f}}_x}\left( {\sum\limits_{j = 1}^m {\omega _{ij}^r{x_i}+{b_j}} } \right);\;i = 1,2,\cdots,n,\;j = 1,2,\cdots,m. $

式中: $ {x_i} $为BPNN输入值, $ a_j^{r - 1} $为隐藏层中的输出值, ${{{f}}_x}$为传递函数, $ \omega _{ij}^r $为输入层到隐藏层的权重值, $ {b_j} $为隐藏层的阈值. 输出层的输出值计算原理与隐藏层的相同,将隐藏层的输出作为输出层的输入,根据相应的权重值和阈值计算得到输出层的输出值.

BPNN的建模思想是将样本数据输入到神经网络中进行学习得到期望输出,接着根据实际输出与期望输出之间的误差 $ {l_{\rm{k}}} $来调整权重,经过不断迭代将误差降至合理值,最后完成神经网络模型的构建. BPNN的误差函数公式为

$ {l_{\rm{k}}} = {\sum\limits_{v = 1}^M {\left( {{y_v} - {{\bar{y}_v}} } \right)} ^2}. $

式中: ${l_{\rm{k}}}$为误差函数值, ${{\bar{y}_v}}$$ {y_v} $相差越大, ${l_{\rm{k}}}$越大; $ M $为样本总数; $ {y_v} $为数据真实值; $ \overline {{y_v}} $为BPNN预测值;v为当前样本序号.

在BPNN的建模过程中,学习率和隐藏层的神经元个数 $ {O_{\rm{k}}} $的设置对模型精度有较大影响. 为选择合适的 $ {\alpha _{\rm{r}}} $$ {O_{\rm{k}}} $,提高模型精度,利用遗传算法(genetic algorithm,GA)优化BPNN,获得最优 $ {\alpha _{\rm{r}}} $$ {O_{\rm{k}}} $. 优化过程中选择决定系数R2作为适应度函数,具体优化过程见文献[26].

2. 优化方法

2.1. Dueling DQN优化原理及流程

Dueling DQN是基于值的深度强化学习算法,在算法中需要找出对学习环境具有重大影响的动作,并根据这些动作所对应的 $ Q $值,选择 $ Q $值最高的动作,从而找到未来期望奖励最大化的最优策略[21]. Dueling DQN的动作选择及目标 $ Q $值的计算方式同DQN一样,过程是由当前估计网络计算出对环境有较大影响动作的 $ Q $值,选择最大 $ Q $值对应的动作 $ a $作为最佳动作,并得到目标网络在下一时刻的 $ Q $值为 $ \left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right) $$ \theta ' $$ \alpha ' $$ \delta ' $均为目标网络中的参数. Dueling DQN的目标 $ Q $值可通过式(5)计算得

$ Y_t^D = {R_{t+1}}+\gamma \mathop {\max }\limits_a Q\left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right). $

式中: $ Y_t^D $为目标 $ Q $值,该值可指导当前估计网络的参数更新; $ {R_{t+1}} $为下一时刻的奖励; $ \gamma \in \left[ {0,1.0} \right] $为折扣因子,其值决定未来奖励的重要性[27]$ \mathop {\max }\limits_a Q\left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right) $为目标网络输出值的最大值.

在Dueling DQN中,为降低学习样本间的相关性,提高学习效果,在每次训练时,将当前时刻t下的状态st、动作at、奖励Rt以及下一时刻状态st+1存储在经验回放池中,并在之后的学习中随机抽取经验回放池中的一些样本给当前网络进行训练. 另外为解决算法易出现训练不收敛的问题,引入当前估计网络结构一样的目标网络,每隔一段时间将当前估计网络的参数拷贝并赋予目标网络,得到目标网络的输出 $ Q\left( {{s_t},{a_t};\theta ',\alpha ',\delta '} \right) $. Dueling DQN中当前估计网络 $ Q $值主要通过 $ Q $价值函数(包括状态值函数 $ V\left( {{s_t},\theta ,\delta } \right) $和优势函数 $ A\left( {{s_t},{a_t}} \right) $)得到. 状态值函数根据如下优势函数计算所选动作的价值选择最佳动作:

$ {A^{\text{π}} }\left( {{s_t},{a_t}} \right) = {Q^{\text{π}} }\left( {{s_t},{a_t}} \right) - {V^{\text{π}} }\left( {{s_t}} \right). $

式中: $ {\text{π}} $为状态-动作策略, $ {Q^{\text{π}} }\left( {{s_t},{a_t}} \right) $$ {V^{\text{π}} }\left( {{s_t}} \right) $分别为 $ t $时刻时的 $ Q $值和状态值.

根据最优策略 $ \arg {\max _{{a_{t+1}} \in A}}{Q_t}({s^{t+1}},{a^{t+1}}) $,可得优势函数 $ A\left( {{s_t},{a_t}} \right) = 0 $,则 $ {Q^\pi }\left( {{s_t},{a_t}} \right) = {V^\pi }\left( {{s_t}} \right) $,因此当前估计网络起初的输出可用式(7)表示.

$ {Q^\chi }\left( {{s_t},{a_t};\theta ,\alpha ,\delta } \right) = V\left( {{s_t};\theta ,\delta } \right)+A\left( {{s_t},{a_t};\theta ,\alpha } \right). $

式中: $ \theta $为当前估计网络的权重参数, $ \alpha $为优势函数 $ A\left( {{s_t},{a_t}} \right) $的网络参数, $ \delta $为状态值函数 $ V\left( {{s_t},\theta ,\delta } \right) $的网络参数.

但在算法的学习过程中,若给定一个 $ Q $值,很难确定唯一的 $ V\left( {{s_t};\theta ,\delta } \right) $$ A\left( {{s_t},{a_t};\theta ,\alpha } \right) $. 为解决这个问题,在表达式(7)的基础上减去优势函数 $ A\left( {{s_t},{a_t};\theta ,\alpha } \right) $的平均值 $\dfrac{1}{{\left| A \right|}}\displaystyle\sum\nolimits_{{a_{t+1}}} {A\left( {{s_t},{a_{t+1}};\theta ,\alpha } \right)}$,得到最终的当前估计网络输出(式8).

$\begin{split} Q\left( {{s_t},{a_t};\theta ,\alpha ,\delta } \right) =\;& V\left( {{s_t};\theta ,\delta } \right)+A\left( {{s_t},{a_t};\theta ,\alpha } \right) -\\ &\frac{1}{{\left| A \right|}}\sum\nolimits_{{a_{t+1}}} {A\left( {{s_t},{a_{t+1}};\theta ,\alpha } \right)} . \end{split} $

基于Dueling DQN的优化原理,结合优化目标(最小的Fc和最大的R)及优化变量 $ \left( {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right) $,其优化过程如下.

输入:铣削工艺参数 $ \left( {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right) $.

1) 初始化经验回放容量上限 $ {M_{\rm{s}}} $,动作空间a,奖励r,学习率 $ \partial $和折扣因子 $ \gamma $.

2) 初始化当前估计网络的参数 $ \left( {\theta ,\alpha ,\delta } \right) $和目标网络的参数 $ \left( {\theta ',\alpha ',\delta '} \right) $.

3) 以4个工艺参数作为状态空间,确定状态空间s的搜索范围和动作空间a的搜索机制.

4) 在状态空间中随机选择状态s作为初始状态.

5) For $ t=0,T $do.

6) 将状态 $ s $输入工艺参数优化模型,由目标函数计算得到切削力合力和材料去除率预测值,并通过奖励公式获得奖励 $ r $.

7) 将状态 $ s $输入到 $ Q $网络中,得到那些对环境影响较大的动作所对应的 $ Q $值输出.

8) 根据 $ \varepsilon $−greedy策略的概率 $ \varepsilon $随机选择一个动作 $ a $,否则 $ a = \arg {\max _{{a_t}}}{Q_t}({s_t},{a_t};\theta ,\alpha ,\delta ) $并得到下一时刻状态 $ {s_{t+1}} $.

9) 将 $ \left( {{s_t},{a_t},{r_t},{s_{t+1}}} \right) $存储于经验回放池中,根据公式 $ Y_t^D = {R_{t+1}}+\gamma \mathop {\max }\limits_a Q\left( {{s_{t+1}},a;\theta ',\alpha ',\delta '} \right) $计算每个样本的目标 $ Q $值,并令 $ {s_t} = {s_{t+1}} $.

10) 采用均方差损失函数 $\dfrac{1}{{{M_s}}}\displaystyle\sum\limits_{t = 1}^{{M_s}} \left( Y_t^D - Q\left( {{s_t},{a_t};\theta ,\alpha ,\delta } \right) \right)^2$通过神经网络的梯度反向传播更新当前估计网络的参数 $ \left( {\theta ,\alpha ,\delta } \right) $.

11) 经验回放池容量达到 $ {M_s} $后清零,并更新目标网络的参数 $ \left( {\theta ',\alpha ',\delta '} \right) = \left( {\theta ,\alpha ,\delta } \right) $.

12) End for

13) 记录算法学习过程中获得最高奖励Rt的工艺参数组合.

输出:Dueling DQN优化的铣削工艺参数组合.

2.2. 面向工艺参数优化的强化学习环境构建

在实现FcR基于工艺参数的优化过程中,需要对Dueling DQN算法的状态空间、动作空间和奖励函数进行设计.

2.2.1. 状态空间设计

在工艺参数多目标优化问题中,状态 $ {S_{{\rm{D}}} } $主要包括第1.1节优化模型(式(1))中决策变量的信息,即由主轴转速、进给量、切削宽度和切削深度组成的集合 $ \left[ {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right] $. 状态空间即为优化模型中决策变量的优化范围为

$ \begin{gathered} {{S_D} = } \left[ {n,f,{a_{\rm{e}}},{a_{\rm{p}}}} \right], \\ {\rm{s.t}}\left\{ {\begin{array}{*{20}{l}} {{n_{\min }} \leqslant n \leqslant {n_{\max }}} \\ {{f_{\min }} \leqslant f \leqslant {f_{\max }}} \\ {{a_{{\rm{e}}\min }} \leqslant {a_{\rm{e}}} \leqslant {a_{{\rm{e}}\max }}} \\ {{a_{{\rm{p}}\min }} \leqslant {a_{\rm{p}}} \leqslant {a_{{\rm{p}}\max }}} \end{array}} \right.. \\ \end{gathered} $

2.2.2. 动作空间设计

动作空间主要依据为优化变量的变化方式进行设计,工艺参数 $ n,f,{a_{\rm{e}}},{a_{\rm{p}}} $的变化方式有减小、不变和增大. 工艺参数的变化是一种离散动作,根据经验选择动作数 $ {a_s} = 12 $,并将动作空间归一化在 $ \left[ { - 3,3} \right] $. 在不同的动作值 $ {a^\varepsilon } $下, $ n,f,{a_e},{a_p} $从当前时刻变化到下一时刻的数值 $ {n^\& },{f^\& },a_{\rm{e}}^\& ,a_{\rm{p}}^\& $的策略见式(10)~(13).

$ {n^\& } =\left\{ {\begin{array}{*{20}{l}} {n - \left( {{a^\varepsilon }+3} \right) \times 40,}&{- 3 \leqslant {a^\varepsilon } \leqslant - 2} ;\\ { n,}&{- 2 < {a^\varepsilon } \leqslant 0}; \\ { n+{a^\varepsilon } \times 40,}&{0 < {a^\varepsilon } \leqslant 1} ;\\ { n - \left( {{a^\varepsilon } - 1} \right) \times 40,}&{1 < {a^\varepsilon } \leqslant 2 }; \\ { n+\left( {{a^\varepsilon } - 2} \right) \times 40,}&{2 < {a^\varepsilon } \leqslant 3} . \end{array}} \right. $

$ {f^\& } = \left\{ {\begin{array}{*{20}{l}} { f,}&{ - 3 \leqslant {a^\varepsilon } \leqslant - 2 } ;\\ {f+\left( {{a^\varepsilon }+2} \right) \times 0.004,}&{ - 2 < {a^\varepsilon } \leqslant - 1} ;\\ { f - \left( {{a^\varepsilon }+1} \right) \times 0.004,}&{ - 1 < {a^\varepsilon } \leqslant 0} ;\\ { f+{a^\varepsilon } \times 0.004,}&{0 < {a^\varepsilon } \leqslant 1} ;\\ { f - \left( {{a^\varepsilon } - 1} \right) \times 0.004,}&{1 < {a^\varepsilon } \leqslant 2 } ;\\ {f,}&{2 < {a^\varepsilon } \leqslant 3} . \end{array}} \right. $

$ a_{\rm{e}}^\& = \left\{ {\begin{array}{*{20}{l}} { {a_{\rm{e}}}, }&{- 3 \leqslant {a^\varepsilon } \leqslant - 1}; \\ {{a_{\rm{e}}}+\left( {{a^\varepsilon }+1} \right) \times 0.4,}&{ - 1 < {a^\varepsilon } \leqslant 0}; \\ { {a_{\rm{e}}} - {a^\varepsilon } \times 0.4,}&{0 < {a^\varepsilon } \leqslant 1}; \\ { {a_{\rm{e}}}+\left( {{a^\varepsilon } - 1} \right) \times 0.4,}&{1 < {a^\varepsilon } \leqslant 2}; \\ { {a_{\rm{e}}} - \left( {{a^\varepsilon } - 2} \right) \times 0.4,}&{2 < {a^\varepsilon } \leqslant 3 }. \end{array}} \right. $

$ a_{\rm{p}}^\& = \left\{ {\begin{array}{*{20}{l}} { {a_{\rm{p}}}+\left( {{a^\varepsilon }+3} \right) \times 0.04,}&{ - 3 \leqslant {a^\varepsilon } \leqslant - 2 }; \\ { {a_{\rm{p}}} - \left( {{a^\varepsilon }+2} \right) \times 0.04,}&{ - 2 < {a^\varepsilon } \leqslant - 1}; \\ { {a_{\rm{p}}}+\left( {{a^\varepsilon }+1} \right) \times 0.04,}&{ - 1 < {a^\varepsilon } \leqslant 0}; \\ { {a_{\rm{p}}} - {a^\varepsilon } \times 0.04,}&{0 < {a^\varepsilon } \leqslant 1}; \\ {{a_{\rm{p}}},}&{1 < {a^\varepsilon } \leqslant 3} . \end{array}} \right. $

2.2.3. 奖励函数构造

奖励函数主要通过依据优化目标性质和优化形式进行构建. 多目标优化模型是以1/RFc最小为目标,在奖励函数中应包含这两个目标. 另外,为了减小FcR之间数值差异过大带来的影响,在奖励函数中将2个目标进行归一化处理,其结果分别用 $ {H_F} $$ {H_{1/R}} $表示. 得到奖励函数 $ {r^\& } $的表达式(式(14)),此外当其中一个目标函数值出现负值时,奖励设置为0.

$ {r^\& } = {\left( {\left( {1 - {H_F}} \right)+\left( {1 - {H_{1/R}}} \right)} \right)^2}. $

3. 试 验

为了验证铣削工艺参数优化模型和优化方法的有效性,采用VDL-600A立式加工中心进行铣削试验. 利用YDCB-III05压电式三向切削测力仪采集XYZ 3个方向上切削力,基于采集的数据计算切削力合力,得到机床效能评价指标Fc的数据. 铣削试验的加工和测量设备图如图2所示. 铣削刀具为直径10.0 mm的硬质合金立铣刀,切削刃数为4,工件材料为45钢,尺寸为100 mm×80 mm×60 mm.

图 2

图 2   铣削试验平台

Fig.2   Milling test platform


根据切削用量手册和刀具制造商推荐的参数范围对每个铣削工艺参数设计3个水平(如表1所示). 依据Taguchi试验设计方法,采用4因素3水平正交表获取27组工艺参数组合,参数组合及对应的加工结果展示在表2中.

表 1   试验因素及其水平

Tab.1  Experimental factors and their levels

水平 加工参数
n /( ${\rm{r}} \cdot {\rm{mi} }{ {\rm{n} }^{ - 1} }$) f /( ${{\rm{mm}}} \cdot {r^{ - 1} }$) ae /mm ap /mm
1 1 500 0.08 2.00 0.20
2 1 900 0.10 4.00 0.40
3 2 300 0.12 6.00 0.60

新窗口打开| 下载CSV


表 2   27组Taguchi试验数据的切削力合力和材料去除率

Tab.2  Combined cutting force and material  removal  rates for 27 sets of Taguchi test datas

序号 n/
( ${\rm{r}} \cdot {\rm{mi}}{{\rm{n}}^{ - 1} }$)
f/
( ${{\rm{mm}}} \cdot {{\rm{r}}^{ - 1} }$)
ae/
mm
ap/
mm
Fc/
N
R/
( ${ {{\rm{mm}}} ^3} \cdot {\min ^{ - 1} }$)
1 1 500 0.08 2 0.2 17.241 48.0
2 1 500 0.08 4 0.4 33.117 192.0
3 1 500 0.08 6 0.6 44.120 432.0
4 1 500 0.10 2 0.6 44.246 180.0
5 1 500 0.10 4 0.2 23.873 120.0
6 1 500 0.10 6 0.4 33.256 360.0
7 1 500 0.12 2 0.4 35.638 144.0
8 1 500 0.12 4 0.6 53.547 432.0
9 1 500 0.12 6 0.2 25.398 216.0
10 1 900 0.08 2 0.6 38.787 182.4
11 1 900 0.08 4 0.2 21.276 121.6
12 1 900 0.08 6 0.4 27.223 364.8
13 1 900 0.10 2 0.4 29.856 152.0
14 1 900 0.10 4 0.6 49.820 456.0
15 1 900 0.10 6 0.2 19.837 228.0
16 1 900 0.12 2 0.2 22.726 91.2
17 1 900 0.12 4 0.4 37.849 364.8
18 1 900 0.12 6 0.6 45.732 820.8
19 2 300 0.08 2 0.4 42.285 147.2
20 2 300 0.08 4 0.6 65.958 441.6
21 2 300 0.08 6 0.2 32.286 220.8
22 2 300 0.10 2 0.2 26.537 92.00
23 2 300 0.10 4 0.4 52.899 368.0
24 2 300 0.10 6 0.6 70.342 828.0
25 2 300 0.12 2 0.6 62.847 331.2
26 2 300 0.12 4 0.2 44.824 220.8
27 2 300 0.12 6 0.4 50.243 662.4

新窗口打开| 下载CSV


4. 结果与讨论

4.1. 基于GA-BPNN的Fc预测模型精度评估

建模和优化程序均采用Python 3.6进行实现,计算机配置为i5-10400F CPU,RAM16GB,显卡型号GTX1650. 将试验得到的27组Fc和工艺参数数据作为GA-BPNN模型的训练样本,为了检验所构建的Fc预测模型的精度,在给定优化变量水平范围内与范围外,随机选取8组工艺参数数据作为测试样本(如表3所示). 在建模过程中,根据文献[26]的参数设定,并结合所用样本总数较少的特点,设置GA算法中的种群数为 $ G = 50 $,迭代次数 $ I = 30 $,交叉概率 $ {P_{\rm{Z}}} = 0.8 $,变异概率 $ {P_{\rm{W}}} = 0.2 $. GA-BPNN模型的预测结果如图3所示,图中 $ F_{\rm{c}}^\& $为切削力合力测量值, $ F_{\rm{c}}^\# $为预测值. 从图3可以看出有较好的拟合趋势,其中3组参数的误差处于10%~20%,其余组参数的预测误差均不超过10%,因此,可以认为利用GA-BPNN模型预测切削力合力是具有可行性的[28].

表 3   测试集样本数据

Tab.3  Test set sample data

组数 n/( ${\rm{r}} \cdot {\rm{mi}}{{\rm{n}}^{ - 1} }$) f/( ${{\rm{mm}}} \cdot {{\rm{r}}^{ - 1} }$) ae/ ${{\rm{mm}}}$ ap / ${{\rm{mm}}}$ $ F_{\rm{c}}^\& $/N
1 1 500 0.12 5 0.60 56.809
2 1 800 0.10 3 0.60 61.264
3 2 000 0.08 3 0.20 27.541
4 1 600 0.10 5 0.20 22.172
5 2 000 0.09 4 0.20 31.305
6 1 600 0.08 3 0.21 15.546
7 1 400 0.10 4 0.21 14.013
8 1 800 0.08 3 0.21 18.663

新窗口打开| 下载CSV


图 3

图 3   切削力合力预测值与测量值比较

Fig.3   Comparison of predicted and measured values of combined cutting force


为进一步评价GA-BPNN模型的预测精度,与支持向量回归(SVR)模型和渐进梯度回归树(gradient boosting regression tree,GBRT)对Fc的预测结果进行对比. 采用均方误差MSE、平均绝对百分比误差MAPE和决定系数R2作为预测精度评价指标. MSE和MAPE的值越小,说明预测值越接近真实值,R2越接近1.0,说明模型的输入变量能较好解释输出变量的能力越强,3个指标的表达式为

$ {\rm{MSE}} = \frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {P\left( i \right) - y\left( i \right)} \right)}^2}} , $

$ {\rm{MAPE}} = \frac{1}{m}\sum\limits_{i = 1}^m {\left| {\frac{{P\left( i \right) - y\left( i \right)}}{{y\left( i \right)}}} \right|} , $

$ {R^2} = {{\displaystyle\sum\limits_{i = 1}^m {{{\left( {P\left( i \right) - y\left( i \right)} \right)}^2}} }}\left/{{{\displaystyle\sum\limits_{i = 1}^m {{{\left( {\overline y - y\left( i \right)} \right)}^2}} }}}\right.. $

式中: $ P\left( i \right) $$ y\left( i \right) $分别为第 $ i $个测试样本的预测值和测量值, $ \overline y $为测量值的平均值,m为测试样本数量. 3个模型的预测指标结果如表4所示,GA-BPNN具有最小的MSE、MAPE 和最接近1.0的R2值,表明GA-BPNN模型具有最高的预测精度,验证了GA-BPNN建立的Fc模型的有效性.

表 4   三个模型的预测指标

Tab.4  Predictors of three models

模型 MSE MAPE/% R2
GA-BPNN 12.417 8.854 0.932
SVR 33.903 16.129 0.884
GBRT 44.887 21.249 0.847

新窗口打开| 下载CSV


4.2. 工艺参数优化结果及验证

4.2.1. Pareto前沿和决策解选取

参考文献[6]中关于强化学习参数的选择,并通过网格搜索确定Dueling DQN算法的内部参数为学习率 $ \partial = 0.005 $,隐藏层神经元个数 $ {Q_{\rm{k}}} = 60 $,经验回放容量 $ {M_{\rm{s}}} = $4 000,折扣因子 $ \gamma = 0.99 $$ \varepsilon - greedy $策略的概率 $ \varepsilon = 0.05 $,迭代次数I = 60 000. 通过对Dueling DQN算法的参数和策略的设计,得到的满足优化模型(式(1))的Pareto前沿如图4(a)所示,图中M-1为材料去除率倒数. 从图4(a)可得,当 $ {F_c} $减小时,对应的材料去除率减小,符合优化目的和实际加工情况. 为进一步分析Dueling DQN的优化过程,当前网络的 $ Q $值的变化曲线和寻优过程中的奖励曲线分别展示在图4(b)和4(c)中. 在图4(b)中,由于算法初期需要存储学习数据,Dueling DQN采取随机策略选择动作, $ Q $值曲线在迭代次数12 000次之前主要为增大趋势,之后获得了学习数据, $ Q $值持续减小至收敛. 在图4(c)中,在37 000次迭代前,奖励值Rt的波动范围主要在1.1~2.0,且波动幅度较大;当出现目标函数取值为负数时,奖励设置为0;在迭代37 000次后,奖励逐渐增大且主要在1.96~1.98变动,波动幅度较小. 上述表明学习效果随着迭代次数的增加逐渐变好且稳定[29].

图 4

图 4   Dueling DQN优化4个工艺参数的过程

Fig.4   Dueling DQN process for optimizing four machining parameters


为从优化解集中选择出满足要求的决策解,采用优劣解距离法(technique for order preference by similarity to ideal solution,TOPSIS)结合熵值法(entropy weight method,EWM)从Pareto前沿解的中心区域 $ {f_{\rm{F}}} \in \left[ {25,39} \right] $中选出折衷考虑2个目标函数的解的工艺参数组合进行验证试验. 1)输入所有待评价解的决策指标数据,并通过式(18)对数据进行归一化处理,得到决策矩阵 $ {{\boldsymbol{z}}_{ij}} $.

$ {{\boldsymbol{z}}_{ij}} = \frac{{{c_{ij}}}}{{\displaystyle\sum\nolimits_{i = 1}^m {{{\boldsymbol{z}}_{ij}}} }},\; {i = 1,2,\cdots ,m;j = 1,2,\cdots ,n} . $

2)采用熵值法计算每个决策指标的客观权重 $ {w_i} $,具体过程见文献[30]. 3)在获得每个决策指标的权重后,接着计算加权归一化决策矩阵 $ {{\boldsymbol{v}}_{ij}} $、正理想解 $ {A^+} $和负理想解 $ {A^ - } $,具体公式见文献[31]. 4)根据式(19)和(20)计算 $ {{\boldsymbol{v}}_{ij}} $$ {A^+} $$ {A^ - } $之间的欧几里得距离 $ K_i^+$$ K_i^ - $.

$ K_i^+ = \left[ {{{\sum\limits_{j = 1}^n {\left( {{{\boldsymbol{v}}_{ij}} - {\boldsymbol{v}}_j^+} \right)^2} }}}\right]^{1/2} , $

$ K_i^ - = \left[ {{{\sum\limits_{j = 1}^n {\left( {{{\boldsymbol{v}}_{ij}} - {\boldsymbol{v}}_j^ - } \right)^2} }}}\right]^{1/2} . $

采用式(21)计算各个理想解的贴近系数Ci,并选择最大Ci值对应的铣削工艺参数组合作为决策解.

$ {C_i} = \frac{{K_i^ - }}{{K_i^++K_i^ - }},\;0 \leqslant {C_i} \leqslant 1. $

基于决策解选择流程,对折衷区域中的58组解进行筛选,由熵值法计算得到FcR的权重分别为 $ {w}_{i}=0.479\;7、0.520\;3 $Ci值较高的前5组工艺参数组合及决策指标展示在表5中. 从表5中可知,决策解为最高 $ {C_i} = 0.591 $,对应的工艺参数组合,即n = 1 700, $ f = 0.103 $$ {a_{\rm{e}}} = 6 $$ {a_{\rm{p}}} = 0.411 $,对应的决策指标是 $ {F_c} = 30.120 $$ R = 431.797 $.

表 5   工艺参数组合决策结果

Tab.5  Process parameter combination decision results

组数 n/
(r·min−1)
f/
(mm·r−1)
ae/
mm
ap/
mm
Fc/
N
R/
(mm3·min−1)
Ci
1 1 700.000 0.103 6.000 0.411 30.120 431.797 0.591
2 1 725.455 0.100 6.000 0.411 29.975 427.337 0.585
3 1 830.909 0.098 6.000 0.404 30.568 434.142 0.581
4 1 801.818 0.101 5.964 0.415 31.512 449.089 0.580
5 1 674.545 0.107 6.000 0.367 27.372 394.839 0.576

新窗口打开| 下载CSV


4.2.2. 优化结果验证

将Dueling DQN和决策解选择方法得到的最优铣削工艺参数组合输入机床中进行验证试验. 为避免试验数据的偶然性及减少测量误差的影响,对这组工艺参数重复5次加工试验,结果如表6所示. Fc的测量值Fc&与优化值Fc*的最大相对误差 $ {l_{\rm{n}}} $仅为6.929%,平均误差 $ l_{{\rm{n}}} ^\& $为4.802%,验证了所提优化方法的有效性.

表 6   切削力合力优化值与测量值的比较结果

Tab.6  Comparison of optimized value of combined cutting force with measured value

序号 Fc&/N Fc*/N $ l_{{\rm{n}}} ^{} $/% $ l_{{\rm{n}}} ^\& $/%
1 28.033 6.929
2 29.194 3.074
3 28.667 30.120 4.824 4.802
4 28.753 4.538
5 28.721 4.645

新窗口打开| 下载CSV


4.3. Dueling DQN优化性能对比及评估

为分析深度强化学习算法和元启发式算法在铣削工艺参数多目标优化问题上的优化性能,针对FcR的优化模型,对比了Dueling DQN、DQN、深度确定性策略梯度(DDPG)和非支配排序遗传算法(NSGA-II)的优化结果. DQN的内部结构设置与Dueling DQN相同,DDPG的策略网络学习率为0.001,评价网络的学习率为0.002,其他参数设置均与Dueling DQN一致. NSGA-II的种群数设为150,交叉概率为0.8,变异概率为0.2,最大迭代次数为200.

选择算法运行时间U、平均理想距离(MID)和完成目标比率(RAS)作为评价指标[32],其中MID的值越小,Pareto前沿到理想点的平均距离越小,解集的效果越好;RAS越小,Pareto前沿离2个目标的最小值越近,解集的效果越好,见式(22)和(23).

$ {\rm{MID}} = \frac{1}{N}\sum\limits_{i = 1}^N {\sqrt {f_{Fi}^2+f_{1/R,i}^2} } \;, $

$ {\rm{RAS}} = \frac{1}{N}\sum\limits_{i = 1}^N {\left( {\frac{{{f_{Fi}} - {f_{{\rm{F}},\min }}}}{{{f_{{\rm{F}},\min }}}}+\frac{{{f_{1/R,i}} - {f_{1/R,\min }}}}{{{f_{1/R, \min }}}}} \right)} . $

式中: $ f_{Fi}^{} $$ f_{1/Ri}^{} $分别为第i个Pareto解中的切削力合力和材料去除率倒数, $ \sqrt {f_{Fi}^2+f_{1/Ri}^2} $为Pareto前沿上一点到理想点 $ \left( {0,0} \right) $的平均距离, $ {f_{{\rm{F}},\min }} $$ {f_{1/R, \min }} $分别为Fc和1/R的最小值, $ N $为Pareto解的总个数.

图5为4个优化算法的Pareto前沿解及最大Ci值对应的解. 4个算法的Pareto前沿曲线趋势是一致的,在折中选取最优解的区间 $ {f_F} \in \left[ {25,39} \right] $上,Dueling DQN优化得到的Fc和1/R的最优值均小于另外3种算法. 另外对比4个算法的优化性能指标结果(表7)可知,Dueling DQN除运行效率低于DDPG和NSGA-II外,其他的指标均优于另外3个算法. 综合来看Dueling DQN的优化效果优于DQN、DDPG和NSGA-II. 基于各算法优化机制分析优化工艺参数时产生相应的优化性能的原因. Dueling DQN能够泛化环境中所有可能动作的学习过程,还能够学习到对智能体具有重大影响的状态,而无需学习每个动作对每个状态的影响,进而快速确定最佳动作[33]. 在DQN中,需要计算在特定状态下的每个动作的值,但有些动作对学习环境没有影响,从而导致确定最佳动作的速度变慢,最终影响优化效果. DDPG采取的学习策略为确定性策略,而动作的探索采用随机策略,虽然算法运行效率在深度强化学习算法里较高,但优化效果不如Dueling DQN优. 在智能体与环境的交互过程中,可能出现正激励也可能出现负激励,寻优过程相对曲折,故3种深度强化学习算法的运行时间均较长. NSGA-II采用非支配排序策略,引入拥挤距离来衡量Pareto解的分布性,并基于此选出合适的个体,由于迭代次数较少且不含神经网络模型,运行速度比深度强化学习算法快很多,但在Pareto前沿中心区域部分的解的质量比Dueling DQN差.

图 5

图 5   各算法的帕累托前沿解结果

Fig.5   Pareto front solution results for each algorithm


表 7   不同算法在铣削工艺参数多目标优化问题上的优化性能比较

Tab.7  Comparison of the optimization performance of different algorithms for multi-objective optimization problems with milling machining parameters

方法 N MID RAS U/s
Dueling DQN 173 26.014 0.013 1 063
DDPG 92 39.161 0.025 1 052
DQN 123 29.589 0.018 1 065
NSGA-II 140 28.713 0.018 501

新窗口打开| 下载CSV


采用TOPSIS-EWM决策法选出DQN、DDPG和NSGA-II的最优工艺参数组合进行验证试验,并与Dueling DQN的实际加工效果进行对比,得到表8的结果,Fc*为优化得到的切削力合力. 4个优化算法获得的Fc*与测量值Fc&都较接近,表明了优化算法的有效性,其中,Dueling DQN优化获得的Fc*最小,R仅略低于DQN,而DQN得到的Fc*值最大. 因此,基于Dueling DQN获得的优化解优化效果最好,验证了Dueling DQN优的优化性能.

表 8   各方法优化下的切削力合力和材料去除率结果对比

Tab.8  Comparison of combined cutting forces and material removal rate results for each method optimization

方法 n/(r·min−1) f/(mm·r−1) ae/mm ap/mm
Dueling DQN 1 700.000 0.103 6.000 0.411
DDPG 1 808.154 0.116 5.972 0.349
DQN 1 809.091 0.098 6.000 0.404
NSGA-II 1 720.582 0.119 5.984 0.357
方法 Fc&/N Fc*/N R/(mm3·min−1)
Dueling DQN 29.194 30.120 431.797
DDPG 32.847 33.463 437.158
DQN 33.211 34.327 429.753
NSGA-II 33.117 33.728 437.403

新窗口打开| 下载CSV


将根据加工手册[34]选择的铣削参数用于实际加工的结果与Dueling DQN优化结果进行对比,并通过式(24)计算2个目标的提升率,结果如表9所示,其中 $ G_{\rm{c}}^{} $$ G_{\rm{R}}^{} $分别为效能提升率和工效提升率. 通过表9的对比结果可知,相比于经验加工,优化获得的工艺参数使Fc降低8.29%,R提高4.95%,从而验证了基于Dueling DQN算法获得优化工艺参数的科学性和优异性.

表 9   Dueling DQN优化结果与经验结果对比

Tab.9  Comparison of Dueling DQN optimization results with empirical results

方法 n/(r·min−1) f/(mm·r−1) ae/mm ap/mm
Dueling DQN 1 700 0.103 6 0.411
经验铣削参数 1 900 0.080 6 0.450
方法 Fc&/N R/(mm3·min−1) $ G_{\rm{c}}^{} $/% $ G_{\rm{R}}^{} $/%
Dueling DQN 29.194 431.797 8.29 4.95
经验铣削参数 31.614 410.400

新窗口打开| 下载CSV


$\small {{{提升率}}=\frac{\left|优化值-经验值\right|}{优化值}}\times 100\text{%}. $

5. 结 论

为提高机床效能和加工效率,提出了一种基于Dueling DQN的加工参数多目标优化方法. 基于45钢的铣削试验,验证了该方法应用于加工参数优化领域的有效性和优异性,为加工过程优化方法的选择提供了有利的选择依据,主要结论如下:

(1)采用GA优化的BPNN模型构建切削力合力Fc与工艺参数的优化模型,模型的R2为 93.2%,与SVR和GBRT模型进行对比,发现GA-BPNN的建模精度更高.

(2)利用Dueling DQN获得最小Fc和最大R的多目标优化问题进的Pareto前沿,并采用TOPSIS-EWM得到决策解. 基于得到的决策解进行加工,优化得到Fc与测量值的误差均值仅为4.802%,并与经验选择的工艺参数对比,发现通过Dueling DQN得到的加工方案使Fc降低了8.29%,加工效率提高了4.95%.

(3)对比了3种深度强化学习方法(Dueling DQN、DQN、DDPG)和启发式优化方法(NSGA-II)解决机床效能和加工效率多目标优化问题的优化性能发现,Dueling DQN求解得到的Pareto前沿在解集数、平均理想距离和完成目标比率上均优于DQN、DDPG和NSGA-II,获得的优化解实际优化效果最好. 考虑更多影响因素和优化目标来构建多目标模型,设计更高效的Dueling DQN探索策略,实现复杂加工的工艺参数选择,提高模型优化效率将是下一步研究的方向.

参考文献

SAHU N K, ANDHARE A B

Multi-objective optimization for improving machinability of Ti-6Al-4V using RSM and advanced algorithms

[J]. Journal of Computational Design and Engineering, 2019, 6 (1): 1- 12

DOI:10.1016/j.jcde.2018.04.004      [本文引用: 1]

SHIHAB S K, GATTMAH J, KADHIM H M

Experimental investigation of surface integrity and multi-objective optimization of end milling for hybrid Al7075 matrix composites

[J]. Silicon, 2020, 13 (5): 1403- 1419

[本文引用: 1]

XIE H B, WANG Z J

Study of cutting forces using FE, ANOVA, and BPNN in elliptical vibration cutting of titanium alloy Ti-6Al-4V

[J]. The International Journal of Advanced Manufacturing Technology, 2019, 105 (12): 5105- 5120

DOI:10.1007/s00170-019-04537-w      [本文引用: 2]

TIEN D H, DUC Q T, VAN T N, et al

Online monitoring and multi-objective optimization of technological parameters in high-speed milling process

[J]. The International Journal of Advanced Manufacturing Technology, 2021, 112 (9-10): 2461- 2483

DOI:10.1007/s00170-020-06444-x      [本文引用: 1]

李建斌, 武颖莹, 李鹏宇, 等

基于局部线性嵌入和支持向量机回归的TBM施工参数预测

[J]. 浙江大学学报: 工学版, 2021, 55 (8): 1426- 1435

[本文引用: 1]

LI Jian-bin, WU Ying-ying, LI Peng-yu, et al

TBM tunneling parameters prediction based on locally linear embedding and support vector regression

[J]. Journal of Zhejiang University: Engineering Science, 2021, 55 (8): 1426- 1435

[本文引用: 1]

陈超逸, 鲁娟, 陈楷, 等

车削表面粗糙度解析模型与DDQN-SVR预测模型研究

[J]. 机械工程学报, 2021, 57 (13): 262- 272

DOI:10.3901/JME.2021.13.262      [本文引用: 2]

CHEN Chao-yi, LU Juan, CHEN Kai, et al

Research on analytical model and DDQN-SVR prediction model of turning surface roughness

[J]. Journal of Mechanical Engineering, 2021, 57 (13): 262- 272

DOI:10.3901/JME.2021.13.262      [本文引用: 2]

巩超光, 胡天亮, 叶瑛歆

基于数字孪生的铣削参数动态多目标优化策略

[J]. 计算机集成制造系统, 2021, 27 (2): 478- 486

DOI:10.13196/j.cims.2021.02.015      [本文引用: 1]

GONG Chao-guang, HU Tian-liang, YE Ying-xin

Dynamic multi-objective optimization strategy of milling parameters based on digital twin

[J]. Computer Integrated Manufacturing Systems, 2021, 27 (2): 478- 486

DOI:10.13196/j.cims.2021.02.015      [本文引用: 1]

CHENG Y N, YANG J L, QIN C, et al

Tool design and cutting parameter optimization for side milling blisk

[J]. The International Journal of Advanced Manufacturing Technology, 2019, 100 (9-12): 2495- 2508

DOI:10.1007/s00170-018-2846-4      [本文引用: 1]

GHOSH T, WANG Y, MARTINSEN K, et al

A surrogate-assisted optimization approach for multi-response end milling of aluminum alloy AA3105

[J]. The International Journal of Advanced Manufacturing Technology, 2020, 111 (9-10): 2419- 2439

DOI:10.1007/s00170-020-06209-6      [本文引用: 1]

HE K, TANG R, JIN M

Pareto fronts of machining parameters for trade-off among energy consumption, cutting force and processing time

[J]. International Journal of Production Economics, 2017, 185: 113- 127

DOI:10.1016/j.ijpe.2016.12.012      [本文引用: 1]

OSORIOPINZON J C, ABOLGHASEM S, MARANON A, et al

Cutting parameter optimization of Al-6063-O using numerical simulations and particle swarm optimization

[J]. The International Journal of Advanced Manufacturing Technology, 2020, 111 (9-10): 2507- 2532

DOI:10.1007/s00170-020-06200-1      [本文引用: 1]

Van H P

Application of singularity vibration for minimum energy consumption in high-speed milling

[J]. International Journal of Modern Physics B, 2021, 35: 2140008

DOI:10.1142/S0217979221400087      [本文引用: 1]

LI B, TIAN X T, ZHANG M

Modeling and multi-objective optimization of cutting parameters in the high-speed milling using RSM and improved TLBO algorithm

[J]. The International Journal of Advanced Manufacturing Technology, 2020, 111 (7-8): 2323- 2335

DOI:10.1007/s00170-020-06284-9      [本文引用: 1]

翁剑, 庄可佳, 浦栋麟, 等

基于机器学习和多目标算法的钛合金插铣优化

[J]. 中国机械工程, 2021, 32 (7): 771- 777

DOI:10.3969/j.issn.1004-132X.2021.07.002      [本文引用: 1]

WENG Jian, ZHUANG Ke-jia, PU Dong-lin, et al

Plunge milling of tianium alloys based on machine learning and multi-objective optimization

[J]. China Mechanical Engineering, 2021, 32 (7): 771- 777

DOI:10.3969/j.issn.1004-132X.2021.07.002      [本文引用: 1]

RUST J

Structural estimation of markov decision processes

[J]. Handbook of Econometrics, 1994, 3081- 3143

[本文引用: 1]

LI K W, ZHANG T, WANG R

Deep reinforcement learning for multi-objective optimization

[J]. IEEE Transactions on Cybernetics, 2021, 51 (6): 3103- 3114

DOI:10.1109/TCYB.2020.2977661      [本文引用: 1]

施群, 吕雷, 谢家骏

可变环境下仿人机器人智能姿态控制

[J]. 机械工程学报, 2020, 56 (3): 64- 72

DOI:10.3901/JME.2020.03.064     

SHI Qun, LV Lei, XIE Jia-jun

Intelligent posture control of humanoid robot in variable environment

[J]. Journal of Mechanical Engineering, 2020, 56 (3): 64- 72

DOI:10.3901/JME.2020.03.064     

LAN S, PANDA R, ZHU Q, et al. FFNet: video fast-forwarding via reinforcement learning [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: Salt Lake City, 2018: 6771-6780.

[本文引用: 1]

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Human level control through deep reinforcement learning

[J]. Nature, 2015, 518 (7540): 529- 533

DOI:10.1038/nature14236      [本文引用: 1]

WANG Z Y, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning [C]// Proceedings of the 33rd International Conference on Machine Learning. USA: New York, 2016, 46: 1995-2003.

[本文引用: 1]

SUN G L, AYEPAHMENSAH D, XU R, et al

End-to-end CNN-based dueling deep Q-Network for autonomous cell activation in Cloud-RANs

[J]. Journal of Network and Computer Applications, 2020, 169: 102757

DOI:10.1016/j.jnca.2020.102757      [本文引用: 2]

BAN T W

An autonomous transmission scheme using dueling DQN for D2D communication networks

[J]. IEEE Transactions on Vehicular Technology, 2020, 69 (45): 16348- 16352

[本文引用: 1]

ZHANG X W, EHMANN K F, YU T B, et al

Cutting forces in micro-end-milling processes

[J]. International Journal of Machine Tools and Manufacture, 2016, 107: 21- 40

[本文引用: 1]

HAN F J, LI L, CAI W, et al

Parameters optimization considering the trade-off between cutting power and R based on linear decreasing particle swarm algorithm in milling

[J]. Journal of Cleaner Production, 2020, 262: 121388

DOI:10.1016/j.jclepro.2020.121388      [本文引用: 1]

MOREIRA L C, LI W D, LU X, et al

Energy-efficient machining process analysis and optimization based on BS EN24T alloy steel as case studies

[J]. Robotics and Computer-Integrated Manufacturing, 2019, 58: 1- 12

DOI:10.1016/j.rcim.2019.01.011      [本文引用: 1]

SOEPANGKAT B, NORCAHYO R, PRAMUJATI B, et al

Multi-objective optimization in face milling process with cryogenic cooling using grey fuzzy analysis and BPNN-GA methods

[J]. Engineering Computations, 2020, 36 (5): 1542- 1565

[本文引用: 2]

MNIH V, KAVUKCUOGLU K, SILVER D, et al

Playing atari with deep reinforcement learning

[J]. Computer Science, 2013, 1- 9

[本文引用: 1]

XU L H, HUANG C Z, LI C W, et al

Estimation of tool wear and optimization of cutting parameters based on novel ANFIS-PSO method toward intelligent machining

[J]. Journal of Intelligent Manufacturing, 2020, 32 (1): 77- 90

[本文引用: 1]

SUN G L, AYEPAH M D, BUDKEVICH A, et al

Autonomous cell activation for energy saving in cloud-RANs based on dueling deep q-network

[J]. Knowledge-Based Systems, 2020, 192: 105347

[本文引用: 1]

KUMAR R, BILGA P S, SINGH S

Multi-objective optimization using different methods of assigning weights to energy consumption responses, surface roughness and material removal rate during rough turning operation

[J]. Journal of Cleaner Production, 2017, 164: 45- 57

DOI:10.1016/j.jclepro.2017.06.077      [本文引用: 1]

SEN B, MIA M, MANDAL U K, et al

Multi-objective optimization for MQL-assisted end milling operation: an intelligent hybrid strategy combining GEP and NTOPSIS

[J]. Neural Computing and Applications, 2019, 31 (12): 8693- 8717

DOI:10.1007/s00521-019-04450-z      [本文引用: 1]

BEHNAMIAN J, ZANDIEH M, GHOMI S

A multi-phase covering pareto-optimal front method to multi-objective parallel machine scheduling

[J]. International Journal of Production Research, 2010, 48 (17-18): 4949- 4976

[本文引用: 1]

SUN G L, XIONG K, BOATENG G O, et al

Resource slicing and customization in RAN with dueling deep Q-network

[J]. Journal of Network and Computer Applications, 2020, 157 (3): 102573

[本文引用: 1]

艾兴, 肖诗纲. 切削用量简明手册[M]. 北京: 机械工业出版社, 1994: 84-110.

[本文引用: 1]

/