<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 不同更新规则的探索轨迹

Fig.1 Exploration trajectories for different update rules

第2种基于梯度的方法为交替梯度上升下降（alternating gradient ascent-descent）, 参数$ {{\theta}} 、{\phi}$的更新是按顺序进行的, 即${{{\theta}} _{k+1}} = {{{\theta}} _k}+\eta {{{\phi}} _k}$, ${{{\phi}} _{k+1}} = {{{\phi}} _k} - \eta {{{\theta}} _{k+1}}$, 其中第2个更新式的参数${{{\phi}} _{k+1}}$在计算梯度时使用了其他参数(${{{\theta}} _{k+1}}$)的更新. 该更新过程呈平稳性, 不收敛于$\left( {0,0} \right)$并陷入极限环^[18], 如图1(b)所示.

第3种改进的方法为近端点法（proximal point method）, 更新形式为${{{\theta}} _{k+1}} = {{{\theta}} _k}+\eta {{{\phi}} _{k+1}}$, ${{{\phi}} _{k+1}} = {{{\phi}} _k} - \eta {{{\theta}} _{k+1}}$. 该方法可收敛于该问题最优解, 如图1(c)所示. 下面给出简单证明.

$令{{{\theta}} _{k+1}} = {{{\theta}} _k} + \eta \left( {{{{\phi}} _k} - \eta {{{\theta}} _{k+1}}} \right),{{{\phi}} _{k+1}} = {{{\phi}} _k} - \eta \left( {{{{\theta}} _k}+}\right. \left.{\eta {{{\phi}} _{k+1}}} \right),$则有 $\left( {1+{\eta ^2}} \right){{{\theta}} _{k+1}} = {{{\theta}} _k} + \eta {{{\phi}} _k},\;\left( {1+{\eta ^2}} \right){{{\phi}} _{k+1}} = {{{\phi}} _k} - \eta {{{\theta}} _k}$, 因此

(30)$\begin{split} & {\left\| {\left[ {{{{\theta}} _{k+1}};{{{\phi}} _{k+1}}} \right]} \right\|^2} = {{\theta}} _{k+1}^2+{{\phi}} _{k+1}^2 =\\ & {\left( {\frac{{{{{\theta}} _k} + \eta {{{\phi}} _k}}}{{1 + {\eta ^2}}}} \right)^2} + {\left( {\frac{{{{{\phi}} _k} - \eta {{{\theta}} _k}}}{{1 + {\eta ^2}}}} \right)^2} = \frac{{{{\left\| {\left[ {{{{\theta}} _k};{{{\phi}} _k}} \right]} \right\|}^2}}}{{\left( {1 + {\eta ^2}} \right)}} = \frac{{{{\left\| {\left[ {{{{\theta}} _0};{{{\phi}} _0}} \right]} \right\|}^2}}}{{{{\left( {1 + {\eta ^2}} \right)}^{k+1}}}}.\;\;\;\;\end{split} $

显然式中${1 \mathord{\left/ {\vphantom {1 {{{\left( {1+{\eta ^2}} \right)}^{k+1}}}}} \right. } {{{\left( {1+{\eta ^2}} \right)}^{k+1}}}} < 1$恒成立, 因此随着迭代过程的不断进行, 范数不断减小, 最终趋于最优解$\left( {0,0} \right)$. 但是在实际应用中, ${{{\theta}} _{k+1}} = {{{\theta}} _k}+\eta {{{\phi}} _{k+1}}$中的${{{\phi}} _{k+1}}$是无法计算的, 因此考虑基于该方法改进的额外梯度法（extragradient）.

使用额外梯度法解决该优化问题, 相较于同时梯度上升下降、交替梯度上升下降具备良好的收敛性, 相较于近端点法具有良好的收敛速度, 如图1(d)所示. 额外梯度法的核心思想在于通过一个简单的梯度更新步骤逼近$ \left[ {{{\boldsymbol{\theta}} _{k+1}};{{\boldsymbol{\phi}} _{k+1}}} \right] $, 即

(31)$ \left.\begin{split} &\left[ {\begin{array}{*{20}{c}} {{{\bar {\boldsymbol{\theta}} }_k}} \\ {{{\bar {\boldsymbol{\phi}} }_k}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{\theta}} _k}} \\ {{{\boldsymbol{\phi}} _k}} \end{array}} \right]+\eta \left[ {\begin{array}{*{20}{c}} {{\nabla _{\boldsymbol{\theta}} }J({{\boldsymbol{\theta}} _k},{{\boldsymbol{\phi}} _k})} \\ { - {\nabla _{\boldsymbol{\phi}} }J({{\boldsymbol{\theta}} _k},{{\boldsymbol{\phi}} _k})} \end{array}} \right], \\ &\left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{\theta}} _{k+1}}} \\ {{{\boldsymbol{\phi}} _{k+1}}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{\theta}} _k}} \\ {{{\boldsymbol{\phi}} _k}} \end{array}} \right]+\eta \left[ {\begin{array}{*{20}{c}} {{\nabla _{\boldsymbol{\theta}} }J({{\bar {\boldsymbol{\theta}} }_k},{{\bar {\boldsymbol{\phi}} }_k})} \\ { - {\nabla _{\boldsymbol{\phi}} }J({{\bar {\boldsymbol{\theta}} }_k},{{\bar {\boldsymbol{\phi}} }_k})} \end{array}} \right]. \end{split}\right\} $

相比梯度上升下降法, 每次迭代, 额外梯度法增加一步外推（extrapolation）点的计算, 使用外推点的梯度完成当前点的更新. 额外梯度法通过外推点的计算加大探索, 使得更新迭代时更容易找到逼近最优解的正确方向, 具备良好的收敛性.

3.2. 马尔科夫博弈策略梯度算法

基于额外梯度法提出适用于马尔科夫博弈的策略梯度算法. 该算法使用的策略梯度$ \left[ {{\nabla _{{{\boldsymbol{\theta}}}} }J({{{\boldsymbol{\theta}}}} ,{{{\boldsymbol{\phi}}}} ); - {\nabla _{{{\boldsymbol{\phi}}}} }J({{{\boldsymbol{\theta}}}} ,{{{\boldsymbol{\phi}}}} )} \right] $由式(26)获得, 但式中的期望在无模型设定下是无法计算的, 只能获得其采样值. 因此，在该设定下通过随机策略梯度近似真实策略梯度, 即

(32)$ \left.\begin{split} &{\nabla _{{{\boldsymbol{\theta}}}} }J({{{\boldsymbol{\theta}}}} ,{{{\boldsymbol{\phi}}}} ) \approx {{\hat g}_{{{\boldsymbol{\theta}}}} }({{{\boldsymbol{\theta}}}} ,{{{\boldsymbol{\phi}}}} ) = \frac{{{\nabla _{{{\boldsymbol{\theta}}}} }{\pi _{{{\boldsymbol{\theta}}}} }({A_t}|{S_t})}}{{{\pi _{{{\boldsymbol{\theta}}}} }({A_t}|{S_t})}}{R _t}, \\ &{\nabla _{{{\boldsymbol{\phi}}}} }J({{{\boldsymbol{\theta}}}} ,{{{\boldsymbol{\phi}}}} ) \approx {{\hat g}_{{{\boldsymbol{\phi}}}} }({{\boldsymbol{\theta}}} ,{{\boldsymbol{\phi}}} ) = \frac{{{\nabla _{{{\boldsymbol{\phi}}}} }{\mu _{{{\boldsymbol{\phi}}}} }({B_t}|{S_t})}}{{{\mu _{{{\boldsymbol{\phi}}}} }({B_t}|{S_t})}}{R _t}. \end{split}\right\} $

基于此, 提出马尔科夫博弈策略梯度（Markov game policy gradient, MG-PG）算法, 如算法1所示.

算法1　MG-PG算法

输入可导的参数化联合策略$ ({\pi _{\boldsymbol{\theta}} },{\mu _{\boldsymbol{\phi}} }) $, 并初始化策略参数${\boldsymbol{\theta}} $和${\boldsymbol{\phi}} $;

同时更新策略参数${\boldsymbol{\theta}} $和${\boldsymbol{\phi}} $.

1. for $ k=0,1,\cdots, $ do:

2.根据联合策略$({\pi _{{{\boldsymbol{\theta}} ^k}}},{\mu _{{{\boldsymbol{\phi}} ^k}}})$, 收集博弈轨迹序列${\left( {{s_t},{a_t},{b_t},{r_{t+1}}} \right)_{0 \leqslant t \leqslant T}}$;

3. for $ t=0,1,\cdots ,T-1 $ do:

(33)$4.计算\left[ {\begin{array}{*{20}{c}} {{{\bar {\boldsymbol{\theta}} }^k}} \\ {{{\bar {\boldsymbol{\phi}} }^k}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{\theta}} ^k}} \\ {{{\boldsymbol{\phi}} ^k}} \end{array}} \right]+\lambda \left[ {\begin{array}{*{20}{c}} {{{\hat g}_{\boldsymbol{\theta}} }({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \\ { - {{\hat g}_{\boldsymbol{\phi}} }({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \end{array}} \right];$

5.end for

6.根据联合策略$({\pi _{{{\bar {\boldsymbol{\theta}} }_k}}},{\mu _{{{\bar {\boldsymbol{\phi}} }_k}}})$, 收集博弈轨迹序列${\left( {{s_t},{a_t},{b_t},{r_{t+1}}} \right)_{0 \leqslant t \leqslant T}}$;

7. for $ t=0,1,\cdots ,T-1 $, do:

(34)$8.计算\left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{\theta}} _{k+1}}} \\ {{{\boldsymbol{\phi}} _{k+1}}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{\theta}} _k}} \\ {{{\boldsymbol{\phi}} _k}} \end{array}} \right]+{\alpha _k}\left[ {\begin{array}{*{20}{c}} {{{\hat g}_{\boldsymbol{\theta}} }(\bar {\boldsymbol{\theta}} ,\bar {\boldsymbol{\phi}} )} \\ { - {{\hat g}_{\boldsymbol{\phi}} }(\bar {\boldsymbol{\theta}} ,\bar {\boldsymbol{\phi}} )} \end{array}} \right];$

9.end for

首先, 将输入的可导参数化联合策略$ \left(x_{{\boldsymbol{\theta}}}, \mu_{{\boldsymbol{\phi}}}\right) $的参数$ {\boldsymbol{\theta}} $和$ {\boldsymbol{\phi}} $进行初始化（如全部初始化为0）. 然后, 算法通过以下步骤进行迭代直到收敛: 1)数据采集阶段. 根据当前的联合策略$ \left(x_{{\boldsymbol{\theta}}^{k}}, \mu_{{\boldsymbol{\phi}}^{k}}\right) $, 收集博弈轨迹序列$ \left(s_{t}, a_{t}, b_{t}, r_{t+1}\right)_{0\leqslant t\leqslant T} $. 这一步通过执行当前策略来与环境交互并生成博弈轨迹, 用于后续的参数更新. 2）参数更新阶段: 基于当前的联合策略$ \left(x_{{\boldsymbol{\theta}}^{k}}, \mu_{{\boldsymbol{\phi}}^{k}}\right) $计算并更新式(33), 其中$ \left[\hat{g}_{{\boldsymbol{\phi}}}\left({\boldsymbol{\theta}}_{,}\; {\boldsymbol{\phi}}\right) ; - \hat{g}_{{\boldsymbol{\phi}}}\left({\boldsymbol{\theta}}_{l}, \;{\boldsymbol{\phi}}\right)\right] $ 由式(32)获得. 与上述2个阶段相类似地, 通过进一步梯度更新完成一次完整的参数更新. 通过反复迭代以上步骤, 直到算法达到收敛条件, 即性能指标达到最优. 算法使用的超参数$ \lambda $和$ \alpha_{k} $的取值范围直接影响迭代更新的步长大小, 对MG-PG收敛性的影响较大.

3.3. 马尔科夫博弈策略梯度算法的收敛性

当目标函数$ J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ) $满足凸凹性时, $ \left[ {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ); - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \right] $是单调的. 使用额外梯度算法求解式(15)的收敛性在长达几十年的研究中已经被解决. 但在马尔科夫博弈问题中, 目标函数$ J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ) $是非凸非凹的, 即$ \left[ {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ); - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \right] $不满足单调性. 基于此, 首先提出以下假设.

假设1　两方零和马尔科夫博弈（式(1)）和参数化的联合策略$({\pi _{\boldsymbol{\theta}} },{\mu _{\boldsymbol{\phi}} })$满足以下假设：

1) 策略梯度$ \left( {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ); - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \right) $关于策略参数是L-Lipschitz连续的, 即对任意$\left[ {{\boldsymbol{\theta}} ;{\boldsymbol{\phi}} } \right] \in {{\bf{R}}^d}$和$\left[ {{\boldsymbol{\theta}} ' ;{\boldsymbol{\phi}} ' } \right] \in {{\bf{R}}^d}$, 存在常数$L > 0$使得

(35)$ \begin{split} &\left\| {\left[{\begin{array}{*{20}{c}} {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \\ { - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \end{array}} \right] - \left[ {\begin{array}{*{20}{c}} {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ' ,{\boldsymbol{\phi}} ' )} \\ { - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ' ,{\boldsymbol{\phi}} ' )} \end{array}} \right]} \right\| \leqslant \\&\quad L\left\| {\left[ {\begin{array}{*{20}{c}} {\boldsymbol{\theta}} \\ {\boldsymbol{\phi}} \end{array}} \right] - \left[ {\begin{array}{*{20}{c}} {{\boldsymbol{\theta}} ' } \\ {{\boldsymbol{\phi}} ' } \end{array}} \right]} \right\|.\end{split} $

2) 存在$\left[ {{{\boldsymbol{\theta}} ^*};{{\boldsymbol{\phi}} ^ * }} \right]$$ \in {{\bf{R}}^d} $使得

(36)$ \left[ {{\nabla _{\boldsymbol{\theta}} }J({{\boldsymbol{\theta}} ^ * },{{\boldsymbol{\phi}} ^ * }); - {\nabla _{\boldsymbol{\phi}} }J({{\boldsymbol{\theta}} ^ * },{{\boldsymbol{\phi}} ^ * })} \right] = {\bf{0}}. $

并且, 对任意$\left[ {{\boldsymbol{\theta}} ;{\boldsymbol{\phi}} } \right]$$ \in {{\bf{R}}^d} $, 满足

(37)$ \begin{split} E&\left[ {{Q_{{\pi _{\boldsymbol{\theta}} },{\mu _{\boldsymbol{\phi}} }}}(S,A,B)\left( {{{\left( {{\nabla _{\boldsymbol{\theta}} } \ln \;{\pi _{\boldsymbol{\theta}} }(A|S)} \right)}^{\mathrm{T}}}({\boldsymbol{\theta}} - {{\boldsymbol{\theta}} ^ * })} \right.} \right. - \\&\left. {{{\left( {{\nabla _{\boldsymbol{\phi}} }\ln \;{\mu _{\boldsymbol{\phi}} }(B|S)} \right)}^{\mathrm{T}}}({\boldsymbol{\phi}} - {{\boldsymbol{\phi}} ^ * })} \right) - \\&\zeta {\left( {{Q_{{\pi _{\boldsymbol{\theta}} },{\mu _{\boldsymbol{\phi}} }}}(S,A,B)} \right)^2}\left( {{{\left\| {{\nabla _{\boldsymbol{\theta}} } \ln \;{\pi _{\boldsymbol{\theta}} }(A|S)} \right\|}^2}} \right.{\text+} \\& \left. {\left. {{\text{ }}{{\left\| {{\nabla _{\boldsymbol{\phi}} }\ln \;{\mu _{\boldsymbol{\phi}} }(B|S)} \right\|}^2}} \right)} \right] \geqslant 0. \end{split} $

其中, 常数$\zeta \in \left( { - \dfrac{1}{{2L}},+\infty } \right)$.

3) 随机向量

$ \left[ {{\nabla _{\boldsymbol{\theta}} }\ln \;{\pi _{\boldsymbol{\theta}} }({A_t}|{S_t}){G_t}; - {\nabla _{\boldsymbol{\phi}} }\ln \; {\mu _{\boldsymbol{\phi}} }({B_t}|{S_t}){G_t}} \right] $

的方差是有界的, 即

(38)$ E\left[ {{{\left\| {\left[ {\begin{array}{*{20}{c}} {{\nabla _{\boldsymbol{\theta}} }\ln \; {\pi _{\boldsymbol{\theta}} }({A_t}|{S_t}){G_t}} \\ { - {\nabla _{\boldsymbol{\phi}} }\ln \; {\mu _{\boldsymbol{\phi}} }({B_t}|{S_t}){G_t}} \end{array}} \right] - \left[ {\begin{array}{*{20}{c}} {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \\ { - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \end{array}} \right]} \right\|}^2}} \right] \leqslant {\sigma ^2}. $

Pethick等 ^[18]给出了一类满足弱Minty变分不等式（weak Minty variational inequality, MVI）的非凸非凹minimax问题的额外梯度型算法. 本研究的问题设定中无约束项, 因此文献[18]的Assumption I(i)中的正则算子 $A = 0$. 本研究假设1的条件1)是比一致连续更强的光滑性条件, 其限制了策略梯度$ \left[ {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ); - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \right] $的局部变动幅度不能超过常量L, 满足文献[18]的Assumption I(ii). 本研究假设1的条件2) 可以确保$ [{{\boldsymbol{\theta}} ^{\text{*}}};{{\boldsymbol{\phi}} ^{\text{*}}}] $是有限的, 其中式(37)是MVI在两方零和马尔科夫博弈下的具体表述. 根据推论1可知, 随机策略梯度

$ [{\nabla _{\boldsymbol{\theta}} }\ln\; {\pi _{\boldsymbol{\theta}} }({A_t}|{S_t}){G_t}; - {\nabla _{\boldsymbol{\phi}} }\ln\; {\mu _{\boldsymbol{\phi}} }({B_t}|{S_t}){G_t}] $

是真实策略梯度$ \left[ {{\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ); - {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} )} \right] $的无偏估计. 本研究假设1的条件3)限制了随机策略梯度的方差是有界的, 满足文献[18]的Assumption II(ii). 基于以上假设, 得出以下定理.

定理2　在假设1下, 令$\lambda \in \left(\max\; \{ 0, - 2\zeta \} ,\dfrac{1}{L}\right)$, ${\alpha _k} \in \left(0,\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right]$并且$ \sum\nolimits_{k = 1}^\infty {{\alpha _k} = +\infty } $, $ \sum\nolimits_{k = 1}^\infty {\alpha _k^2 < +\infty } $时, MG-PG在经过最多$K$次迭代更新后, 序列${[{\bar {\boldsymbol{\theta}} ^k};{\bar {\boldsymbol{\phi}} ^k}]_{k = 0,1, \cdots }}$收敛到如下误差界内：

(39)$ E\left[\big\| \left[{\nabla }_{{\boldsymbol{\theta}} }J({\overline{{\boldsymbol{\theta}} }}^{k},{\bar {\boldsymbol{\phi}} ^k});-{\nabla }_{{\bf\textit{φ}}}J({\overline{{\boldsymbol{\theta}} }}^{k},{\bar {\boldsymbol{\phi}} ^k})\right]\big\| \right]\leqslant \varepsilon,\; \varepsilon > 0. $

即参数化联合策略$({\pi _{\boldsymbol{\theta}} },{\mu _{\boldsymbol{\phi}} })$达到近似纳什均衡. 其中, $ K=\left\lceil \left(\dfrac{8}{{{\lambda ^2}{ \varepsilon ^4}}}\right) {\sigma }^{2}{\left({\scriptstyle \dfrac{1}{2}}+{\scriptstyle \dfrac{\zeta }{\lambda }}\right)}^{2}\big\|\left[{{\boldsymbol{\theta}} }^{0};{\boldsymbol{\phi}}^{0}\right]-\left[{{\boldsymbol{\theta}} }^{*};{\boldsymbol{\phi}}^{*}\right]\big\|^{2}\right\rceil $.

证明：　基于假设1, 根据文献[18]定理3.5可知, 当$\lambda $和$ {\alpha _k} $满足定理2中的取值范围时, 由MG-PG算法迭代生成的策略参数序列${[{{\boldsymbol{\theta}} ^k};{{\boldsymbol{\phi}} ^k}]_{k = 0,1, \cdots }}$和${[{\bar {\boldsymbol{\theta}} ^k};{\bar {\boldsymbol{\phi}} ^k}]_{k = 0,1,\cdots }}$满足

(40)$ \begin{split} &E\left[ {{{\left\| {\left[ {{{\boldsymbol{\theta}} ^{k+1}};{{\boldsymbol{\phi}} ^{k+1}}} \right] - \left[ {{{\boldsymbol{\theta}} ^*};{{\boldsymbol{\phi}} ^*}} \right]} \right\|}^2}} \right] \leqslant \\ &\qquad E\left[ {{{\left\| {\left[ {{{\boldsymbol{\theta}} ^k};{{\boldsymbol{\phi}} ^k}} \right] - \left[ {{{\boldsymbol{\theta}} ^*};{{\boldsymbol{\phi}} ^*}} \right]} \right\|}^2}} \right]+8{\lambda ^2}\alpha _k^2{\sigma ^2} - \\&\qquad 2{\alpha _k}{\lambda ^2} \left( \dfrac{1}{2} + \dfrac{\zeta }{\lambda } - {\alpha _k} \right) E \left[ {\left\| {\left[ {{\nabla _{\boldsymbol{\theta}} }J({{\bar {\boldsymbol{\theta}} }^k},{{\bar {\boldsymbol{\phi}} }^k}); - {\nabla _{\boldsymbol{\phi}} }J({{\bar {\boldsymbol{\theta}} }^k},{{\bar {\boldsymbol{\phi}} }^k})} \right]} \right\|} \right].\\ \end{split} $

接着令$ {\alpha _k} = {\beta _k}\left(\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right) $, 其中$ {\beta _k} \in (0,1.0) $, 则${\eta _k} = 2{\beta _k} \left( {1 - {\beta _k}} \right){\left(\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right)^2} \geqslant 2{\beta _k}{\left(\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right)^2}$, 将式(40)对$k \in \{ 0,1, \cdots ,K\} $求和得到

(41)$ \begin{split} &2{\left(\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right)^2}\sum\limits_{k = 0}^K {\beta _k^{}} {\lambda ^2}E \left[ {{{\left\| {\left[ {{\nabla _{\boldsymbol{\theta}} }J({{\bar {\boldsymbol{\theta}} }^k},{{\bar {\boldsymbol{\phi}} }^k}); - {\nabla _{\boldsymbol{\phi}} }J({{\bar {\boldsymbol{\theta}} }^k},{{\bar {\boldsymbol{\phi}} }^k})} \right]} \right\|}^2}} \right] \leqslant \\ &\qquad E\left[ {{{\left\| {\left[ {{{\boldsymbol{\theta}} ^0};{{\boldsymbol{\phi}} ^0}} \right] - \left[ {{{\boldsymbol{\theta}} ^*};{{\boldsymbol{\phi}} ^*}} \right]} \right\|}^2}} \right]+\\ &\qquad4{\sigma ^2}\lambda (1+\lambda ){\left(\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right)^2}\displaystyle\sum_{k = 0}^K {\beta _k^2} . \\[-5pt]\end{split} $

在式(41)不等式两边同时除以$ 2{\left(\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right)^2} \times \displaystyle\sum\nolimits_{k = 0}^K {{\beta _k}} $，得到

(42)$ \begin{split} & \frac{1}{\displaystyle{\sum}_{k=0}^K \beta_k} \displaystyle\sum_{k=0}^K \beta_k \lambda^2 E \left[ \left\| \left[\nabla_{\boldsymbol{\theta}} J\left(\overline{\boldsymbol{\theta}}^k, \overline{\boldsymbol{\phi}}^k\right) ;- \nabla_{\boldsymbol{\phi}} J\left(\overline{\boldsymbol{\theta}}^k, \overline{\boldsymbol{\phi}}^k\right)\right] \right\|^2\right] \leqslant \\&\qquad {\left[\frac{1}{2}\left(\frac{1}{2}+\frac{\zeta}{\lambda}\right)^{-2}\left\|\left[\boldsymbol{\theta}^0 ; \boldsymbol{\phi}^0\right]-\left[\boldsymbol{\theta}^* ; \boldsymbol{\phi}^*\right]\right\|^2+\right.} \\&\qquad \left.2 \lambda(1+\lambda) \sigma^2 {\sum}_{k=0}^K \beta_k^2 \right]\big/ {\sum}_{k=0}^K \beta_k.\\[-5pt]\end{split} $

由式(42)可得, 若按照概率${\mathrm{Pr}}[\tilde k = k] = {{{\beta _k}} \mathord{\left/ {\vphantom {{{\beta _k}} {\sum\nolimits_{i = 0}^K {{\beta _i}} }}} \right. } {\sum\nolimits_{i = 0}^K {{\beta _i}} }}$从$\{ 0,1, \cdots ,K\} $中随机选择$\tilde k$, 则

(43)$ \begin{split} \lambda^2 E & {\left[\left\|\left[\nabla_{\boldsymbol{\theta}} J\left(\overline{\boldsymbol{\theta}}^{\tilde{k}}, \overline{\boldsymbol{\phi}}^{\tilde{k}}\right) ;-\nabla_{\boldsymbol{\phi}} J\left(\overline{\boldsymbol{\theta}}^{\tilde{k}}, \overline{\boldsymbol{\phi}}^{\tilde{k}}\right)\right]\right\|^2\right] \leqslant } \\& {\left[\frac{1}{2}\left(\frac{1}{2}+\frac{\zeta}{\lambda}\right)^{-2}\left\|\left[\boldsymbol{\theta}^0 ; \boldsymbol{\phi}^0\right]-\left[\boldsymbol{\theta}^* ; \boldsymbol{\phi}^*\right]\right\|^2+\right.} \\& \left.4 \lambda^2 \sigma^2 {\sum}_{k=0}^K \beta_k^2 \right]\big/ {\sum}_{k=0}^K \beta_k .\end{split} $

令${\beta _k} = {\upsilon \mathord{\left/ {\vphantom {\upsilon {\sqrt {K+1} }}} \right. } {\sqrt {K+1} }}$, 其中$\upsilon $为常数. 假设K足够大, 则${\beta _k} < 1$. 通过对式(43)的右边取最小值, 可得$\upsilon = \left[{1 \mathord{\left/ {\vphantom {1 {(2\sqrt 2 \sigma \lambda ) \cdot }}} \right. } {(2\sqrt 2 \sigma \lambda ) }}\right]{\left(\dfrac{1}{2}+\dfrac{\zeta }{\lambda }\right)^{ - 1}}\big\|\left[ {{{\boldsymbol{\theta}} ^0};{{\boldsymbol{\phi}} ^0}} \right] - \left[ {{{\boldsymbol{\theta}} ^*};{{\boldsymbol{\phi}} ^*}} \right]\big\|$. 因此, 在经过最多如下次数迭代更新后：

(44)$ K=\left\lceil \left(8/{\lambda }^{2}{ \varepsilon }^{4}\right) {\sigma }^{2}{\left({ \frac{1}{2}}+{ \frac{\zeta }{\lambda }}\right)}^{-2}\left\|\left[{{\boldsymbol{\theta}} }^{0};{{\bf\textit{φ}}}^{0}\right]-\left[{{\boldsymbol{\theta}} }^{*};{{\bf\textit{φ}}}^{*}\right]\right\|^{2}\right\rceil. $

存在$k \in \{ 0,1, \cdots ,K\} $, 式(39)成立.

4. 仿真实验

4.1. 实验对象和评估指标

采用棋盘游戏Oshi-Zumo^[23]来验证算法MG-PG的收敛性. 该游戏中有2个玩家, 是一种同时移动的零和博弈, 其难点在于每次决策时的不确定性和信息不对称性, 即每个玩家无法知道对手的决策, 需要更加复杂的策略来应对可能的动作. 一轮博弈往往须经过多步博弈才能分出胜负, 其游戏规则如下: 棋盘上有2N+1个格子一维排列, 编号1,···,2N+1, 在棋盘中心（第N+1个格子）有一面旗帜, 旗帜的移动方向取决于每一轮博弈中玩家1、2的每步博弈结果（移动格数始终为1）. 如图2所示, 玩家1、2初始时各有X枚硬币, 每一步, 玩家1、2同时出硬币, 记为M₁和M₂, 然后比较M₁和M₂的大小, 旗帜始终往出币数少的一方移动, 即若M₁>M₂,旗帜向右移动一个格子; 若M₁<M₂,旗帜向左移动一个格子; 若M₁=M₂,旗帜不移动. 每一步博弈后2个玩家的总数减去出币数M₁和M₂,并开始下一步博弈. 比赛一直进行到双方的硬币都用完, 或者旗帜被推出棋盘外. 获胜者根据旗帜的位置确定−距离旗帜所在的位置近的玩家输掉比赛. 如果旗帜的最后位置是棋盘中心, 则比赛结果为平局.

图 2

图 2 Oshi-Zumo在不同设定下的状态变化示意图

Fig.2 Schematic diagrams of state of Oshi-Zumo in different settings

Oshi-Zumo的状态由3部分组成: 玩家1的剩余硬币数、玩家2的剩余硬币数和旗帜的位置. 旗帜位置由格子编号表示, 当旗帜从左移出第1个格子后, 旗帜位置为0; 当从右移出第2N+1个格子后, 旗帜位置为2N+2. 当游戏参数确定后, 初始状态也是确定的. 玩家的动作就是出币数, 仅当博弈结束后才获得奖励. 玩家1作为max玩家（期望收益为正）, 获胜则奖励为1; 玩家2获胜则奖励为−1, 平局则奖励为0.

采用纳什收敛指标^{[17, 24-25]}作为联合策略的评价指标. 给定联合策略$(\pi ,\mu )$, 纳什收敛指标定义为

(45)${\mathrm{ NashConv}}(\pi ,\mu ) = {V_{{\rho _0}}}({\pi ^b},\mu ) - {V_{{\rho _0}}}(\pi ,{\mu ^b}). $

式中的最佳响应策略由单智能体强化学习算法训练获得. 由定义1、2可知, 当$ {\mathrm{NashConv}}(\pi ,\mu ) = 0 $时, 联合策略$(\pi ,\mu )$达到纳什均衡; 当$ {\mathrm{NashConv}}(\pi ,\mu ) < \varepsilon $, $ \forall {\kern 1pt} \varepsilon > 0 $, 联合策略$(\pi ,\mu )$为$ \varepsilon $近似纳什均衡. 在下面的实验中, 采用单智能体强化学习reinforce算法求解最佳响应策略, 即固定一方玩家的策略, 对另一方玩家的策略进行训练, 直到胜率达到90%或策略参数的更新次数达到5万次.

4.2. 表格式softmax参数化策略

在第k迭代轮次, 将玩家在状态s下的策略参数$ {\boldsymbol{\theta}} _s^k \in {{\bf{R}}^{\left| {{U_s}} \right|}} $和${\boldsymbol{\phi}} _s^k \in {{\bf{R}}^{\left| {{W_s}} \right|}}$拼接为一个参数向量$ [{\boldsymbol{\theta}} _s^k;{\boldsymbol{\phi}} _s^k] $, 其中, $ \left| {{U_s}} \right| $和$ \left| {{W_s}} \right| $分别表示玩家1、2在状态s下合法动作个数. 2个玩家的策略服从指数柔性最大化（softmax）分布^[26], 即

(46)$\left. \begin{split} {\pi _{{{\boldsymbol{\theta}} ^k}}}( \cdot |s) =&{\text{softmax}}\left( {{\boldsymbol{\theta}} _s^k} \right) =\\ & {\left[ {{{\exp\; ({{\theta}} _{s,a}^k)} \mathord{\left/ {\vphantom {{\exp ({{\theta}} _{s,a}^k)} {\sum\nolimits_{a' } {\exp\; ({{\theta}} _{s,a'}^k)} }}} \right. } {\sum\nolimits_{a' } {\exp \;({{\theta}} _{s,a'}^k)} }}} \right]_a}, \\{\mu _{{{\boldsymbol{\phi}} ^k}}}( \cdot |s) = &{\text{softmax}}\left( {{\boldsymbol{\phi}} _s^k} \right) =\\ & {\left[ {{{\exp\; ({{\phi}} _{s,b}^k)} \mathord{\left/ {\vphantom {{\exp \;({{\phi}} _{s,b}^k)} {\sum\nolimits_{b' } {\exp\;({{\phi}} _{s,b'}^k)} }}} \right. } {\sum\nolimits_{b' } {\exp\; ({{\phi}} _{s,b'}^k)} }}} \right]_b}.\end{split}\right\}$

式中：$ {[ \cdot ]_a} $表示第k轮次在状态s下对所有不同的合法动作的选择概率依次按照方括号内的规则进行计算. 参数的初始值$ [{\boldsymbol{\theta}} _s^0;{\boldsymbol{\phi}} _s^0] $全为0, 即初始策略服从均匀分布.

Oshi-Zumo规模设置如图2(a)所示, 2个玩家的币数都为6, 棋盘的格子数为5. 实验中MG-PG算法的梯度步长$ \lambda $=0.3, $ {\alpha _k} $=0.5, 折扣因子$\gamma $=1.0, 最大更新次数$ {k_{\max }} $=10⁶, 每次更新采样的局数（轨迹数）n=1, 如表1所示.

表 1 不同参数化策略设定下的算法超参数

Tab.1 Algorithm hyperparameters under different parameterized policy settings

参数	$ \lambda $	$ {\alpha _k} $	$\gamma $	$ {k_{\max }} $	$n$
表格式Softmax	0.3	0.5	1.0	10⁶	1
神经网络	0.1	0.3	1.0	8×10⁶	1

新窗口打开| 下载CSV

设置10组实验, 实验的评估数据如图3所示.图中， k表示策略参数更新的次数, Na表示纳什收敛指标的值, 圆点曲线表示10组实验纳什收敛指标的均值及变化趋势, 竖线表示10组实验纳什收敛指标的离散程度, 竖线的上下界分别由均值加减标准差得到.可以看出，实验中随着更新次数的增加, 纳什收敛指标虽然存在一定的方差, 但其均值整体呈减缓下降趋势, 当更新次数达到约60万次时, 纳什收敛指标的均值接近零, 此时联合策略达到近似纳什均衡.

图 3

图 3 策略参数化下MG-PG算法的纳什收敛指标

Fig.3 Nash convergence of MG-PG algorithm with policy parameterized

4.3. 神经网络参数化策略

在如图2(b)所示的游戏规模下, 状态动作空间大小急剧增长, 使用表格式softmax参数化策略容易导致实验过程中出现内存溢出的问题. 因此, 将神经网络作为参数化策略, 并通过MG-PG算法训练优化神经网络的参数, 最终达到近似纳什均衡.

在神经网络作为参数化策略的实验中, 2个玩家的初始币数都是50, 棋盘中共有${{2 \times 7+1 = 15}}$个格子, 每个玩家最多有51个候选动作（包含出币数为0的动作）. 因此首先定义维数为(51+51+15)=117的one-hot向量（状态信息）作为神经网络的输入, 神经网络输出维数为51. 将神经网络的输出进行softmax运算, 即得到输入状态下的策略. 在该设定下由于其大规模的状态空间和动作集, 应该使用更多的隐藏层和更大的层大小. 因此采用含2个隐藏层的非线性网络, 从输入侧到输出侧, 隐藏层分别有256、128个节点, 并使用ReLU激活函数、Adam优化器. 关于算法的超参数设置，如表1所示. 相较于使用表格式softmax参数化策略的算法表现，使用神经网络作为参数化策略由于激活函数的存在，可能出现数值不稳定性的问题，如梯度爆炸或梯度消失. 通过使用较小的梯度步长，可以减缓参数的更新，有助于缓解这些数值稳定性问题. 同时由于游戏规模较大，其最大更新次数也较大.

策略网络优化流程如下. 采用在线学习方式, 在第k轮次下, 将环境状态${s_t}$作为输入分别输送到2个玩家的策略网络${\pi _{\boldsymbol{\theta}} }$和${\mu _{\boldsymbol{\phi}} }$. 依照策略网络输出的概率分布, 随机得到动作${a_t}$和${b_t}$, 在与环境交互后, 得到新的环境状态${s_{t+1}}$. 重复以上步骤, 得到一条博弈轨迹${\left( {{s_t},{a_t},{b_t},{r_{t+1}}} \right)_{0 \leqslant t \leqslant T}}$. 将该轨迹中的状态${\left( {{s_t}} \right)_{0 \leqslant t \leqslant T}}$作为输入依次输送到策略网络${\pi _{\boldsymbol{\theta}} }$和${\mu _{\boldsymbol{\phi}} }$. 以策略网络${\pi _{\boldsymbol{\theta}} }$为例, 输出概率分布${\left( {{\pi _{\boldsymbol{\theta}} }({a_t}|{s_t})} \right)_{0 \leqslant t \leqslant T}}$后计算梯度$ {\left( {{\nabla _{\boldsymbol{\theta}} }\ln \;{\pi _{\boldsymbol{\theta}} }({a_t}|{s_t}){G_t}} \right)_{0 \leqslant t \leqslant T}} $, 梯度项求和后以步长$ \lambda $更新赋值给临时策略网络${\pi _{\bar {\boldsymbol{\theta}} }}$, 临时策略梯度的计算同理可得. 最后通过临时策略梯度以步长$ {\alpha _k} $更新网络参数$ \left[{\boldsymbol{\theta}} ;{\boldsymbol{\phi}} \right] $. 至此通过算法迭代完成一次策略网络更新.

在神经网络设定下同样设置了10组实验，实验的评估数据如图4所示. 与策略参数化设定相类似，尽管纳什收敛指标存在一定的方差，但其均值整体呈减缓下降趋势. 当更新次数达到约500万次时，纳什收敛指标的均值接近零, 此时联合策略达到近似纳什均衡. 实验结果表明，MG-PG算法对于大规模博弈问题仍然适用.

图 4

图 4 神经网络下MG-PG算法的纳什收敛指标

Fig.4 Nash convergence of MG-PG algorithm with neural network setting

4.4. 对比实验

在基于Oshi-Zumo的实验中, MG-PG在2种参数设定下都展示出较好的性能. 为了能够更全面地评估和验证本研究所提出的算法MG-PG, 将现有的两方零和马尔科夫博弈策略梯度方法−独立策略梯度方法^[23]、嵌套梯度下降方法^[24]、双时间尺度算法^[25]和演员-评论家虚拟博弈算法^[8]在Oshi-Zumo中的表现与MG-PG进行对比分析. 实验的游戏规模与神经网络下MG-PG的实验规模相同, 即2个玩家的初始币数都为50, 棋盘中共有15个格子.

独立策略梯度方法本质上为单智能体强化学习,若2个玩家都使用常用的reinforce算法进行参数更新, 则更新式为

(47)$ \left.\begin{split} &{{\boldsymbol{\theta}} _{k+1}} = {{\boldsymbol{\theta}} _k}+{\eta _d}{\nabla _{\boldsymbol{\theta}} }J({{\boldsymbol{\theta}} _k},{{\boldsymbol{\phi}} _k}), \\ &{{\boldsymbol{\phi}} _{k+1}} = {{\boldsymbol{\phi}} _k} - {\eta _d}{\nabla _{\boldsymbol{\phi}} }J({{\boldsymbol{\theta}} _k},{{\boldsymbol{\phi}} _k}). \\ \end{split}\right\} $

其中,

(48)$ \left.\begin{split} {\nabla _{\boldsymbol{\theta}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ) = \sum\limits_{t = 0}^T {\left[ {\frac{{{\nabla _{\boldsymbol{\theta}} }{\pi _{\boldsymbol{\theta}} }({A_t}|{S_t})}}{{{\pi _{\boldsymbol{\theta}} }({A_t}|{S_t})}}{R_t}} \right]} , \\ {\nabla _{\boldsymbol{\phi}} }J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ) = \sum\limits_{t = 0}^T {\left[ {\frac{{{\nabla _{\boldsymbol{\phi}} }{\pi _{\boldsymbol{\phi}} }({B_t}|{S_t})}}{{{\pi _{\boldsymbol{\phi}} }({B_t}|{S_t})}}{R_t}} \right]} . \end{split}\right\} $

式中：η_d为学习率.

实验中玩家策略采用神经网络的形式, 参数${\eta _d}$与MG-PG的步长${\alpha _k}$保持一致, 均为0.3.

嵌套梯度下降方法则将最大最小优化问题（式(15)）转化为如下最小优化问题：

(49)$ \mathop {\min }\limits_{\boldsymbol{\phi}} \;g({\boldsymbol{\phi}} ). $

其中,

(50)$ g({\boldsymbol{\phi}} ) = \mathop {\max }\limits_{\boldsymbol{\theta}} \;J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ). $

进而有

(51)$ {\nabla _{\boldsymbol{\phi}} }g({\boldsymbol{\phi}} ) = {\nabla _{\boldsymbol{\phi}} }J({{\boldsymbol{\theta}} ^*},{\boldsymbol{\phi}} )\text{；}{{\boldsymbol{\theta}} ^*} \in \arg \mathop {\max }\limits_{\boldsymbol{\theta}} \;J({\boldsymbol{\theta}} ,{\boldsymbol{\phi}} ). $

因此, 嵌套梯度下降方法在每一轮迭代时, 先进行一次“嵌套内循环”, 近似计算出${{\boldsymbol{\theta}} ^*}$后, 随后在${\nabla _{\boldsymbol{\phi}} }J({{\boldsymbol{\theta}} ^*},{\boldsymbol{\phi}} )$的方向上更新参数${\boldsymbol{\phi}} $. 实验中玩家策略采用神经网络的形式, 超参数同为0.3.

将策略参数为${\boldsymbol{\phi}} $的玩家视为领导者, 策略参数为${\boldsymbol{\theta}} $的玩家视为追随者. 根据双时间尺度算法的思想, 对领导者和追随者之间进行时间尺度分离. 在实验中基于嵌套梯度下降方法, 令领导者策略参数更新的超参数为0.1, 小于追随者的策略参数更新超参数, 并使领导者策略参数更新间隔为10个迭代轮次, 以达到领导者的学习速度比追随者慢的效果.

演员-评论家虚拟博弈算法通过Actor-Critic框架对虚拟博弈过程进行随机近似, 使得算法能够收敛到纳什均衡. 策略与价值函数的更新式如下.

Actor step:

(52)$ \pi _{k+1}^i\left( {{s_k}, \cdot } \right) = \left( {1 - {\eta _k}} \right)\pi _k^i\left( {{s_k}, \cdot } \right)+{\eta _k}{B_\varpi }\left( {Q_k^i\left( {{s_k}, \cdot } \right)} \right)； $

Critic step:

(53)$\begin{split} &Q_{k+1}^i\left( {{s_k},a_k^i} \right) =\\ &\left( {1 - {\psi _k}} \right)Q_k^i\left( {{s_k},a_k^i} \right)+{\psi _k}\left( {r_k^i+{C_\varpi }\left( {Q_k^i\left( {{s_{k+1}}, \cdot } \right)} \right)} \right).\end{split} $

式中：上标i表示玩家标号，${\psi _k} $为算法的超参数，$ {B_\varpi }\left( Q \right) $为最佳响应策略（选择概率函数）,

$ {B_\varpi }\left( Q \right) = \mathop {\arg \max }\nolimits_{\tilde \pi \in \varDelta (A)} \;\left[ {\mathop E\nolimits_{\tilde a \sim \tilde \pi } \left( {Q\left( {\tilde a} \right)} \right) - \varpi \left( {\tilde \pi } \right)} \right], $

$ \varpi \left( \cdot \right) $为确定性扰动, $ {C_\varpi }\left( Q \right) 为 {B_\varpi }\left( Q \right) $的平均值, 即

$ {C_\varpi }\left( Q \right) = \sum\nolimits_{\tilde a \sim A} {Q\left( {\tilde a} \right){B_\varpi }\left( Q \right)\left( {\tilde a} \right)} . $

在实验中步长选择为$ {\eta _k} = 0.01 $, ${\psi _k} = 0.1$.

每种算法同样进行10组实验, 实验结果如图5所示. 每种算法都迭代更新了800万次. 可以看出, 独立策略梯度方法、嵌套梯度下降方法和双时间尺度算法3种方法在800万的更新次数内不收敛, 并且纳什收敛指标也没有明显下降的趋势. 3种方法都使用了reinforce算法, 因此在10组实验中都呈现出较大的方差. 演员-评论家虚拟博弈算法则在实验中表现良好, 纳什收敛指标呈现出较为平滑的下降趋势. 但该算法在800万次的更新中并未收敛到近似纳什均衡, 纳什收敛指标的均值在更新后约为0.50, 相较于MG-PG算法在500万次达到约0.15还存在一定的性能差距. 同时该算法在训练过程中由于要计算最佳响应策略,对于时间的消耗也是巨大的. 不过，得益于Actor-Critic框架值函数提供了对策略的评估, 策略改进更加稳定, 大大减小了不同实验组策略优化过程中的方差.

图 5

图 5 4种对比算法的纳什收敛指标图

Fig.5 Nash convergence index diagram of four comparison algorithms

综上，单智能体强化学习的思想及其方法在Oshi-Zumo这种同时移动博弈游戏中的表现欠佳. 演员-评论家虚拟博弈算法相较于本研究所提出的MG-PG算法收敛速度较慢, 但其Actor-Critic框架带来的小方差为本研究今后的工作提供了指导和启示.

5. 结　语

提出两方零和马尔科夫博弈的策略定理及其相关证明, 并基于随机策略梯度和额外梯度法提出适用于马尔科夫博弈的策略梯度算法. 该算法在外推点梯度计算阶段, 利用已知的博弈轨迹计算外推点的梯度, 改善探索方向, 使得算法更容易朝正确方向更新; 在策略参数更新阶段, 利用外推点的梯度更新策略参数. 最终在假设1的条件下分析得到该算法的收敛性.

在Oshi-Zumo上的大量实验表明, 本研究算法经过一定的迭代轮次可以有效地收敛到近似纳什均衡解. 应用神经网络拟合博弈策略, 解决了大规模博弈问题. 通过对比实验验证了MG-PG算法的优越性和有效性.

如何通过应用Actor-Critic Network减小MG-PG算法方差以及如何解决环境部分可观的马尔科夫博弈问题, 是未来可以继续研究的方向.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

SILVER D, HUANG A, MADDISON C J, et al

Mastering the game of Go with deep neural networks and tree search

[J]. Nature, 2016, 529 (7587): 484- 489

DOI:10.1038/nature16961 [本文引用: 1]

[2]

BROWN N, SANDHOLM T

Superhuman AI for multiplayer poker

[J]. Science, 2019, 365 (6456): 885- 890

DOI:10.1126/science.aay2400 [本文引用: 1]

[3]

OWEN G. Game theory [M]. Bradford: Emerald Group Publishing, 2013.

[4]

吴哲, 李凯, 徐航, 等

一种用于两人零和博弈对手适应的元策略演化学习算法

[J]. 自动化学报, 2022, 48 (10): 2462- 2473

WU Zhe, LI Kai, XU Hang, et al

A meta-evolutionary learning algorithm for opponent adaptation in two-player zero-sum games

[J]. Acta Automatica Sinica, 2022, 48 (10): 2462- 2473

[5]

LITTMAN M L. Markov games as a framework for multi-agent reinforcement learning [C]// Proceedings of the 11th International Conference on Machine Learning . New Brunswick: Morgan Kaufmann Publishers Inc, 1994: 157−163.

[6]

WATKINS C J, DAYAN P

Q-learning

[J]. Machine Learning, 1992, 8 (1): 279- 292

[7]

FAN J, WANG Z, XIE Y, et al. A theoretical analysis of deep Q-learning [C]// Proceedings of the 2nd Learning for Dynamics and Control . Zürich: PMLR, 2020: 486−489.

[8]

JIA Z, YANG L F, WANG M. Feature-based q-learning for two-player stochastic games [EB/OL]. (2019−01−02) [2023−12−20]. https://arxiv.org/abs/1906.00423.pdf.

[9]

SIDFORD A, WANG M, YANG L, et al. Solving discounted stochastic two-player games with near-optimal time and sample complexity [C]// Proceedings of the 23rd International Conference on Artificial Intelligence and Statistics . [s.l.]: PMLR, 2020: 2992−3002.

[10]

SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms [EB/OL]. (2017-08-28) [2023-12-20]. https://arxiv.org/pdf/1707.06347.pdf.

[11]

HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]// Proceedings of the 35th International Conference on Machine Learning . Stockholmsmässan: PMLR, 2018: 1861-1870.

[12]

MAZUMDAR E V, JORDAN M I, SASTRY S S. On finding local nash equilibria (and only local nash equilibria) in zero-sum games [EB/OL]. (2019-01-25) [2023-12-21]. https://arxiv.org/pdf/1901.00838.pdf.

[13]

BU J, RATLIFF L J, MESBAHI M. Global convergence of policy gradient for sequential zero-sum linear quadratic dynamic games [EB/OL]. (2019-09-12) [2023-12-21]. https://arxiv.org/pdf/1911.04672.pdf.

[14]

DASKALAKIS C, FOSTER D J, GOLOWICH N. Independent policy gradient methods for competitive reinforcement learning [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems . Vancouver: Curran Associates Inc, 2020: 5527−5540.

[15]

NOUIEHED M, SANJABI M, HUANG T, et al. Solving a class of non-convex min-max games using iterative first order methods [C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems . Vancouver: Curran Associates Inc, 2019: 14905−14916.

[16]

FIEZ T, CHASNOV B, RATLIFF L J. Convergence of learning dynamics in stackelberg games [EB/OL]. (2019-09-06) [2023-12-23]. https://arxiv.org/pdf/1906.01217.pdf.

[17]

PEROLAT J, PIOT B, PIETQUIN O. Actor-critic fictitious play in simultaneous move multistage games [C]// Proceedings of the 21st International Conference on Artificial Intelligence and Statistics . Playa Blanca: PMLR, 2018: 919−928.

[18]

PETHICK T, PATRINOS P, FERCOQ O, et al. Escaping limit cycles: global convergence for constrained nonconvex-nonconcave minimax problems [C]// The 10th International Conference on Learning Representations . France: Online, 2022: 03602455.

[本文引用: 7]

[19]

LAGOUDAKIS M, PARR R. Value function approximation in zero-sum markov games [EB/OL]. (2012-12-12) [2023-12-23]. https://arxiv.org/pdf/1301.0580.pdf.

[20]

FUDENBERG D, DREW F, LEVINE D K, et al. The theory of learning in games [M]. Massachusetts: MIT Press, 1998.

[21]

NASH JR J F

Equilibrium points in n-person games

[J]. National Academy of Sciences, 1950, 36 (1): 48- 49

DOI:10.1073/pnas.36.1.48 [本文引用: 1]

[22]

VAMVOUDAKIS K G, WAN Y, LEWIS F L, et al. Handbook of reinforcement learning and control [M]. Berlin: Springer, 2021.

[23]

PEROLAT J, SCHERRER B, PIOT B, et al. Approximate dynamic programming for two-player zero-sum Markov games [C]// Proceedings of the 32nd International Conference on Machine Learning . Lille: PMLR, 2015: 1321-1329.

[24]

LANCTOT M, LOCKHART E, LESPIAU J-B, et al. OpenSpiel: a framework for reinforcement learning in games [EB/OL]. (2020-09-26) [2023-12-24]. https://arxiv.org/pdf/1908.09453.pdf.

[25]

PéROLAT J, PIOT B, GEIST M, et al. Softened approximate policy iteration for Markov games [C]// Proceedings of the the 33rd International Conference on Machine Learning . New York: PMLR, 2016: 1860−1868.

[26]

SUTTON R S, BARTO A G. Reinforcement learning: an introduction [M]. Massachusetts: MIT press, 2018.