基于简化概率选择框架的双足机器人模仿学习

doi:10.3785/j.issn.1008-973X.2026.05.016

基于简化概率选择框架的双足机器人模仿学习

薛雯^,, 赵硕, 李永强^,

浙江工业大学信息工程学院，浙江杭州 310023

Imitation learning for bipedal robots based on simplified probabilistic framework for options

XUE Wen^,, ZHAO Shuo, LI Yongqiang^,

College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China

通讯作者: 李永强, 男, 副教授. orcid.org/0000-0002-9345-943X. E-mail：yqli@zjut.edu.cn

收稿日期: 2025-08-16

基金资助:

国家自然科学基金资助项目（U2341216）.

Received: 2025-08-16

Fund supported:

国家自然科学基金资助项目（U2341216）.

作者简介 About authors

薛雯（2001—），女，硕士生，从事双足机器人研究.orcid.org/0009-0004-7940-1612.E-mail：xuewen_xw@163.com , E-mail：xuewen_xw@163.com

摘要

专家数据未显式满足马尔可夫性质会限制模仿学习方法的有效性,为此提出基于简化概率选择框架的分层模仿学习方法. 通过保留选项变量并去除终止变量, 构建紧凑的策略建模框架. 在优化过程中, 结合期望最大化算法进行隐变量建模, 引入拉格朗日乘子法进行约束条件处理（如策略归一性）. 在多个典型连续动作控制任务中开展仿真实验, 对比不同模仿学习方法的训练性能. 结果表明, 所提方法在非马尔可夫条件下训练过程更稳定、策略收敛性更佳. 将该模仿学习模型应用于双足机器人仿真, 实现了机器人稳定的前向行走, 验证了简化概率选择框架的可行性与有效性.

关键词： 双足机器人 ; 模仿学习 ; 隐变量建模 ; 期望最大化算法 ; 拉格朗日优化

Abstract

To address the limitation of imitation learning methods caused by expert data that does not explicitly satisfy Markov properties, a hierarchical imitation learning method based on a simplified probabilistic framework for options was proposed. By retaining option variables and removing termination variables, a compact strategy modeling framework was constructed. In the optimization process, the expectation maximization algorithm was combined to model latent variables, and the Lagrange multiplier method was introduced to handle constraints such as policy normalization. Simulation experiments on multiple typical continuous action control tasks were conducted, and the training performance was compared with various imitation learning methods. Results indicate that the proposed method has a more stable training process and better policy convergence under non-Markov conditions. Furthermore, the imitation learning model was applied to the simulation of bipedal robots, achieving stable forward walking and verifying the feasibility and effectiveness of the simplified probabilistic framework for options.

Keywords： bipedal robot ; imitation learning ; latent variable modeling ; expectation maximization algorithm ; Lagrangian optimization

PDF (1878KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

薛雯, 赵硕, 李永强. 基于简化概率选择框架的双足机器人模仿学习. 浙江大学学报(工学版)[J], 2026, 60(5): 1071-1081 doi:10.3785/j.issn.1008-973X.2026.05.016

XUE Wen, ZHAO Shuo, LI Yongqiang. Imitation learning for bipedal robots based on simplified probabilistic framework for options. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 1071-1081 doi:10.3785/j.issn.1008-973X.2026.05.016

强化学习（reinforcement learning，RL）是双足机器人控制领域的研究热点^[1-3]. 双足机器人具备高度非线性、强耦合性及动态不稳定性等复杂动力学特征，使强化学习算法在实际训练过程中面临巨大的挑战，特别是在缺乏先验知识的初始阶段，算法容易出现策略发散、失稳的问题^[4-5]. 模仿学习 (imitation learning，IL) 是高效引导策略优化过程的学习范式，能够在强化学习的早期阶段提供良好的初始化能力，被广泛应用于包括机器人运动控制、医疗机器人精细操作、多智能体对抗博弈等多个高复杂度任务中^[6-9]. 在大多数实际场景中，IL的专家策略通常来自经典控制方法生成的数据轨迹，例如 PID 控制器或模型预测控制 (model predictive control，MPC)^[10-11]，这些方法设计成熟且易于实现，是IL中专家数据的可靠来源^[12-13].

RL具备在复杂状态空间中自动学习最优策略的能力，能够摆脱传统控制器对动力学模型的依赖，被广泛应用于双足机器人控制领域^[14]. 将 RL直接应用于真实机器人系统仍面临显著挑战: 1) 双足机器人系统高度不稳定，动作维度多，导致学习空间维度极高，常常使得策略训练过程处于易发散、难收敛的状态^[15-16]. 2) RL往往需要海量交互数据才能进行有效优化，但在真实机器人环境中，这类大规模训练不仅成本高昂，而且训练过程极易受到如硬件磨损、控制异常的现实因素干扰^[17-18]. 3) RL初始策略通常完全随机，在早期阶段难以探索到合理的步态模式，导致学习陷入瓶颈，训练效率低下，策略质量难以保障^[19]. IL被视为有效提升 RL 训练效率与稳定性的辅助方法，基本思想是利用已有专家行为数据，提前对策略进行监督训练，从而快速引导策略向有效区域收敛^[20].

传统 IL往往默认专家数据完全满足马尔可夫假设，即当前动作和奖励仅依赖当前状态. 机器人控制任务中很多控制策略 (尤其是传统控制器) 会显式或隐式地依赖历史状态、频率设定或外部调节器等非显性信息^[21-22]，导致生成的数据序列难以满足RL或IL中通常假设的马尔可夫决策过程 (Markov decision process，MDP) 结构. 例如，部分双足机器人控制器依赖周期性调节信号以生成稳定步态^[23]，这类信息在数据中未被直接体现，加剧了模仿学习中的建模偏差. 如何从非马尔可夫特性较强的专家演示中提取稳定、可泛化的策略^[24]，成为IL研究中的关键问题之一. 针对上述难点，本研究提出普适性双足机器人稳定行走模仿学习方法，不再以专家策略满足马尔可夫性质为前提假设，能够直接处理包含历史依赖或隐含控制变量的专家示范数据，提升IL在复杂控制场景下的适应性与鲁棒性. 本研究将双足机器人的模仿学习过程抽象为包含隐变量的策略学习问题，引入概率选择框架 (probabilistic framework for options，PFFO）^[25]对传统模仿学习范式进行扩展. PFFO 是专门为处理隐变量问题设计的结构建模方法，能够在策略建模过程中显式地考虑不可观测的决策因子，更好地恢复原始控制意图. 基于该框架，本研究提出结构更简洁、推理更高效的简化 PFFO 策略模型. 为了验证这种方法的有效性，在基准任务上，将该模型与PFFO、平滑PFFO^[26] (smoothing PFFO，S-PFFO)、GAIL-Option^[27]、双V值学习^[28] (dual-V learning，DVL)、重要性采样加权行为克隆^[29] (importance sampling weighted behavioral cloning，ISWBC)及基于子目标的层级模仿规划^[30] (hierarchical imitation planning with subgoals，HIPS) 进行比较；将结合非线性模型预测控制 (nonlinear model predictive control，NMPC) 与全身控制器 (whole-body controller，WBC) 框架生成专家演示数据^[31-33]，通过对所提模型的训练，在Mujoco仿真环境中部署验证，实现EC-Hunter80-v01双足机器人的稳定行走.

1. 预备知识

1.1. 马尔可夫决策过程

将有限时间马尔可夫决策过程记为$ M=(S,A,r, {P}_{SA}) $，其中$ S $和$ A $分别为离散的状态空间和动作空间. 状态转移概率分布$ {P}_{SA}\colon S\times A\rightarrow \Delta (S) $，其中$ \times $表示笛卡尔积. 策略$ \pi $为给定状态下的动作分布，定义$ \pi \colon S\rightarrow \Delta (A) $. 将所有策略的集合记作$ \mathit{\Pi } $. 相应地，状态转移概率函数$ P_{S}^{\pi }\colon S\rightarrow \Delta (S) $描述给定状态和策略$ \pi $转移到另一个状态的概率. 例如，$ P_{S}^{\pi }({s}_{t+1}|{s}_{t}) $表示当前状态$ {s}_{t} $转移到下一状态$ {s}_{t+1} $的概率分布. 奖励函数 $ r\colon S\times A\rightarrow \left[0,{r}_{\mathrm{max}}\right] $的取值有界($ {r}_{\mathrm{max}} $为大于0的实数). 智能体在与环境交互的过程中会生成轨迹，简便起见，轨迹序列$ {x}_{0},{x}_{1},\cdots ,{x}_{t} $记作$ \{{x}_{0\colon T}\} $. 设定大写字母(例如$ {S}_{t} $)表示随机变量，小写字母 (例如$ {s}_{t} $) 表示随机变量$ {S}_{t} $的取值，$ |S| $为状态的数量.

1.2. 概率选择框架介绍

在解决需要长序列决策或复杂策略建模的RL任务时，传统方法面临样本效率低下与策略泛化能力弱的问题. Daniel 等^[25]提出基于概率推断的选项发现方法——PFFO框架. 该框架在选项框架的基础上，利用期望最大化(expectation maximization，EM)算法从行为轨迹中联合学习选项的低层策略、高层策略与终止策略，实现高效的分层策略建模与学习^[34].

选项框架早期被引入RL领域是用于建模长时序任务中的策略切换机制^[35-36]，基本结构为四元组 $ (S,A,O,B) $，其中$ O $为选项集合，$ B=\{0,1\} $ 为终止信号的取值集合. 与标准 MDP 模型不同，在选项框架中，个体行为的决策不仅依赖当前状态，还受当前选项的影响. 在此背景下，策略的结构为三元组 $ ({\pi }_{\mathrm{hi}},{\pi }_{\mathrm{lo}},{\pi }_{\mathrm{b}}) $: 其中高层策略 $ {\pi }_{\mathrm{hi}}\colon S\rightarrow \Delta (O) $ 决定在状态 $ s $ 下应选择哪一项; 低层策略(或称选项内策略) $ {\pi }_{\mathrm{lo}}\colon S\times O\rightarrow \Delta (A) $ 在特定选项指导下生成具体动作; 终止策略 $ {\pi }_{\mathrm{b}}\colon S\rightarrow \Delta (B) $ 决定在当前状态下是否中止当前选项并重新选择. PFFO 框架通过图模型刻画选项执行过程，该过程构成层次策略表达:

(1)$ \begin{split} \pi ({a}_{t}\mid {s}_{t},{o}_{t-1})= & \displaystyle\sum\limits_{{o}_{t}}\displaystyle\sum\limits_{{b}_{t}}\pi ({b}_{t}\mid {s}_{t},{o}_{t-1})\times \\& \pi ({o}_{t}\mid {s}_{t},{b}_{t},{o}_{t-1})\pi ({a}_{t}\mid {s}_{t},{o}_{t}).\end{split} $

选项转移模型满足:

(2)$ p({o}_{t}\mid {s}_{t},{b}_{t},{o}_{t-1})=\begin{cases} \pi ({o}_{t}\mid {s}_{t}), & \;{b}_{t}=1;\\{\delta }_{{{o}_{t}}={{o}_{t-1}}}, & \;{b}_{t}=0.\end{cases} $

为了方便表示，引入辅助函数:

(3)$ {\tilde{\pi }}_{\mathrm{hi}}({o}_{t}\mid {o}_{t-1},{s}_{t},{b}_{t})=\begin{cases} {\pi }_{\mathrm{hi}}({o}_{t}\mid {s}_{t}), & \;{b}_{t}=1;\\1, & \;{b}_{t}=0 , \; {o}_{t}={o}_{t-1};\\0, & \text{其他.}\end{cases} $

PFFO为满足马尔可夫性质的生成模型，联合概率展开为

(4)$ \begin{split} P({o_{0:T}},{b_{0:T}},\tau |\theta ) = & {\pi _{{\mathrm{hi}}}}({o_0}|{s_0};{\theta _{hi}}){\pi _{{\mathrm{lo}}}}({a_0}|{s_0},{o_0};{\theta _{{\mathrm{lo}}}}) \times \\& \prod\limits_{t = 0}^{T - 1} [ {\pi _{\mathrm{b}}}({b_{t+1}}|{s_{t+1}},{o_t};{\theta _{\mathrm{b}}}){\mkern 1mu} \times \\& {{\tilde \pi }_{{\mathrm{hi}}}}({o_{t+1}}|{o_t},{s_{t+1}},{b_{t+1}};{\theta _{{\mathrm{hi}}}}) \times \\& {\pi _{{\mathrm{lo}}}}({a_{t+1}}|{s_{t+1}},{o_{t+1}};{\theta _{{\mathrm{lo}}}}) \times \\& {P_{SA}}({s_{t+1}}|{s_t},{a_t})].\end{split} $

式中：$ \theta ={\theta }_{\mathrm{hi}},{\theta }_{\mathrm{lo}},{\theta }_{\mathrm{b}} $ 为所有策略网络的联合参数集合.

1.3. 基于概率选择框架的隐变量策略学习

在分层IL框架中，高层策略$ {\pi }_{\mathrm{hi}} $与终止策略$ {\pi }_{\mathrm{b}} $决定的选项序列$ {o}_{0\colon T} $与终止信号$ {b}_{0\colon T} $通常在专家数据中不可观测，因而难以直接利用监督信号进行策略训练. 为了实现对策略参数的有效估计，引入隐变量建模机制，将不可观测的中间变量纳入优化框架中. EM算法是经典的含隐变量模型参数估计方法. 令观测变量$ x=\tau $，模型参数为$ \theta $，隐变量$ z=\{{o}_{0\colon T},{b}_{0\colon T}\} $，则观测数据的对数似然表示为

(5)$ \log P(x|\theta )=\log \displaystyle\sum\limits_{z}P(x,z|\theta ). $

由于对数函数与求和操作无法交换，直接优化上述目标函数在计算上不可行. EM算法通过引入后验分布 $ Q(z)=P(z|x,{\theta }_{\mathrm{old}}) $，其中$ {\theta }_{\text{old}} $为前一轮 EM 迭代中已估计的模型参数，最大化期望下界函数:

(6)$ \begin{split} \theta =&\arg \underset{\theta }{\max }\displaystyle\sum\limits_{z}Q(z)\log P(x,z|\theta )\equiv \\& \arg \underset{\theta }{\max }{{E}}_{z\sim P(z|x,{{\theta }_{\mathrm{old}}})}[\log P(x,z|\theta )].\end{split} $

每一轮EM迭代由2个步骤构成. 期望（E）步骤中，使用当前模型参数 $ {\theta }_{\text{old}} $ 计算后验分布$ P(z|x,{\theta }_{\mathrm{old}}) $; 最大化（M）步骤中，在该后验分布下最大化完整数据对数似然，更新模型参数:

(7)$ Q(\theta ,{\theta }_{{\mathrm{old}}})=\displaystyle\sum\limits_{z}P(z|x,{\theta }_{{\mathrm{old}}})\log P(x,z|\theta ). $

结合分层模仿学习的结构特点，式（7）展开为

(8)$ \begin{split} Q(\theta ,{\theta }_{\mathrm{old}})= & \displaystyle\sum\limits_{{o}_{0\colon T},{b}_{0\colon T}}P({o}_{0\colon T},{b}_{0\colon T}|\tau ,{\theta }_{\mathrm{old}})\times \\& \log P({o}_{0\colon T},{b}_{0\colon T},\tau |\theta ).\end{split} $

联合概率项 $ P({o}_{0\colon T},{b}_{0\colon T},\tau |\theta ) $ 根据具体的策略网络结构进行因子分解. 式(8)定义的优化目标自然划分为针对$ {\theta }_{\mathrm{hi}} $、$ {\theta }_{\mathrm{lo}} $、$ {\theta }_{\mathrm{b}} $的子优化问题，分别对应高层策略、低层策略和终止策略的独立更新. EM 结构与分层策略的结构高度匹配，便于高效实现参数更新与策略迭代优化. EM 算法具备单调性，能够在每次迭代中保证观测数据似然函数不下降，提升训练过程的稳定性.

2. 简化概率选择框架构建与拉格朗日约束优化机制

本研究围绕双足机器人稳定性控制问题，提出基于简化PFFO结构的足式机器人模仿学习方法. 简单来说，简化PFFO在保留选项变量作为隐变量的基础上，进一步去除终止变量，形成紧凑的控制结构. 为了更有效地解决该结构下的优化问题，结合拉格朗日乘子法对参数估计进行扩展. 如图1所示为所提模型的结构图.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 简化概率选择框架策略模型结构图

Fig.1 Strategy model structure of simplified probabilistic framework for options

2.1. 简化概率选择框架的隐变量策略学习

在传统PFFO 中，$ {\pi }_{\text{hi}} $、$ {\pi }_{\text{lo}} $和$ {\pi }_{\text{b}} $共同建模分层结构中的控制行为. 在双足机器人行走控制任务中，终止变量$ b $可以被考虑为永远为1的情况. 本研究将原始结构中的终止变量去除，并将选择转移机制由 “终止后激活”的两阶段过程转变为直接建模为 “选项到选项” 的马尔可夫转移. 控制轨迹$ \tau =({s}_{0},{a}_{0},{s}_{1},\cdots ,{s}_{T}) $与隐变量$ z=({o}_{0\colon T}) $的联合概率分布定义为

(9)$ \begin{split} P({o}_{0\colon T},\tau |\theta )= & \xi ({o}_{0}|{s}_{0}){\pi }_{\mathrm{lo}}({a}_{0}|{s}_{0},{o}_{0};{\theta }_{\mathrm{lo}})\times \\& \Bigg[\prod\limits_{t=0}^{T-1}{\pi }_{{\mathrm{lo}}}({a}_{t+1}|{s}_{t+1},{o}_{t+1};{\theta }_{\mathrm{lo}})\times \\& {\tilde{\pi }}_{\mathrm{hi}}({o}_{t+1}|{o}_{t},{s}_{t+1};{\theta }_{\mathrm{hi}}){P}_{SA}({s}_{t+1}|{s}_{t},{a}_{t})\Bigg].\end{split} $

该联合概率模型考虑非马尔可夫性引入的建模误差，使状态—选项—动作之间的依赖关系直接可学. 在简化PFFO 下，最大化观测轨迹对数似然$ \log P(\tau |\theta ) $的优化目标转化为最大化

(10)$ Q(\theta ,{\theta }_{\text{old}})={E}_{{{o}_{0\colon T}}\sim P({{\mathrm{o}}_{0\colon T}}|\tau ,{{\theta }_{\text{old}}})}\times [\log P({\mathrm{o}}_{0\colon T},\tau |\theta )]. $

将联合概率代入后，目标函数分解为3个部分:

(11)$ \begin{split} Q(\theta ,{\theta }_{\text{old}})= & \displaystyle\sum\limits_{{o}_{t}}P({o}_{0}|\tau ;{\theta }_{\text{old}})\log \xi ({{o}}_{0}|{s}_{0})+\\& \displaystyle\sum\limits_{t=0}^{T}\displaystyle\sum\limits_{{o}_{t}}P({o}_{t}|\tau ;{\theta }_{\text{old}})\log {\pi }_{\text{lo}}({a}_{t}|{s}_{t},{o}_{t};{\theta }_{\text{lo}})+\\& \displaystyle\sum\limits_{t=0}^{T-1}\displaystyle\sum\limits_{{o}_{t},{o}_{t+1}}P({o}_{t},{o}_{t+1}|\tau ;{\theta }_{\text{old}})\times \\& \log {\tilde{\pi }}_{\text{hi}}({o}_{t+1}|{o}_{t},{s}_{t+1};{\theta }_{\text{hi}})+\text{const}.\end{split} $

式中：const为与待优化参数$\theta $无关的常数项，在参数求解过程中不影响最优结果，故省略不计. 在简化PFFO 中，各组成部分的解析系统性地划分为3个关键项: $ \xi ({o}_{0}{s}_{0}) $专注于初始状态的选项概率建模，权重由后验概率$ P({o}_{0}\tau ;{\theta }_{\text{old}}) $决定; $ {\pi }_{\text{lo}}({a}_{t}{s}_{t},{o}_{t}) $通过时间步级的选项——动作映射实现精确控制，每个动作选择的权重为$ P({o}_{t}\tau ;{\theta }_{\text{old}}) $; $ {\tilde{\pi }}_{\text{hi}}({o}_{t+1}{o}_{t},{s}_{t+1}) $采用马尔可夫转移机制动态调整选项序列，转移概率的权重由联合后验$ P({o}_{t}, {o}_{t+1}\tau ;{\theta }_{\text{old}}) $量化.

2.2. 受约束策略优化的拉格朗日方法

在简化PFFO下，策略输出须满足动作归一性与非负性约束. 为此，在M步骤优化过程中引入拉格朗日乘子法，将结构性约束整合至目标函数中，形成受约束的最优化问题.

2.2.1. 期望步骤: 后验推理

E步骤的具体算法包括边际后验$ P({o}_{t}|\tau ;{\theta }_{\text{old}}) $和联合后验$ P({o}_{t},{o}_{t+1}|\tau ;{\theta }_{\text{old}}) $. 使用前向—后向算法计算结果: 前向消息

(12)$ \begin{split} {\alpha }_{t}({o}_{t})= & P({a}_{0\colon t},{o}_{t}|{s}_{0\colon t};{\theta }_{\text{old}})=\\& \displaystyle\sum\limits_{{o}_{t-1}}{\alpha }_{t-1}({o}_{t-1}){\tilde{\pi }}_{\text{hi}}({o}_{t}|{o}_{t-1},{s}_{t};\theta _{\text{hi}}^{})\times \\& {\pi }_{\text{lo}}({a}_{t}|{s}_{t},{o}_{t};\theta _{\text{hi}}^{}).\end{split} $

后向消息

(13)$ \begin{split} {\beta }_{t}({o}_{t})= & P({a}_{t+1\colon T}|{o}_{t},{s}_{t+1\colon T};{\theta }_{\text{old}})=\\& \displaystyle\sum\limits_{{o}_{t+1}}{\beta }_{t+1}({o}_{t+1}){\tilde{\pi }}_{\text{hi}}({o}_{t+1}|{o}_{t},{s}_{t+1};\theta _{\text{hi}}^{})\times \\& {\pi }_{\text{lo}}({a}_{t+1}|{s}_{t+1},{o}_{t+1};\theta _{\text{lo}}^{}).\end{split} $

后验计算

(14)$ \begin{split} &P({o}_{t}|\tau ;{\theta }_{\text{old}})\propto {\alpha }_{t}({o}_{t}){\beta }_{t}({o}_{t}),\\&P({o}_{t},{o}_{t+1}|\tau ;{\theta }_{\text{old}})\propto {\alpha }_{t}({o}_{t}){\tilde{\pi }}_{\text{hi}}({o}_{t+1}|{o}_{t},{s}_{t+1};\theta _{\text{hi}}^{})\times \\& \qquad\qquad {\pi }_{\text{lo}}({a}_{t+1}|{s}_{t+1},{o}_{t+1};\theta _{\text{lo}}^{}){\beta }_{t+1}({o}_{t+1}).\end{split} $

2.2.2. 最大化步骤: 策略更新中的拉格朗日优化

对于每个策略分布$ \pi $，在概率约束条件下最大化式(11)中的目标函数，以一般形式表达为

(15)$ \begin{split} \max _\pi & \displaystyle\sum_i w_i \log \pi\left(y_i \mid x_i\right) .\\\text { s.t. } & \displaystyle\sum_y \pi(y \mid x)=1, \\& \pi(y \mid x) \geqslant 0 .\end{split} $

式中：$ \pi ({y}_{i}\mid {x}_{i}) $为策略网络在输入$ {x}_{i} $下输出目标 $ {y}_{i} $的概率；$ {w}_{i} $为由上一轮模型参数$ {\theta }_{\text{old}} $计算得到的后验概率，衡量当前样本在整体优化中的重要性. 为了处理式（15）的约束，构造对应的拉格朗日函数:

(16)$ \begin{split} {L}(\pi ,\lambda )= & \displaystyle\sum\limits_{i}{w}_{i}\log \pi ({y}_{i}\mid {x}_{i})+\\& \displaystyle\sum\limits_{x}{\lambda }_{x}(1-\displaystyle\sum\limits_{y}\pi (y\mid x)).\end{split} $

式中：$ {\lambda }_{x} $为针对每个条件$ x $的拉格朗日乘子，保证输出策略在该条件下满足归一性. 通过对$ L $关于$ \pi $取极值，推导出解析解. $ {\pi }_{\text{hi}} $、$ {\pi }_{\text{lo}} $和初始分布$ \xi $的目标函数分别为

(17)$ \begin{split} {L}_{\text{hi}}= & \displaystyle\sum\limits_{t=0}^{T-1}\displaystyle\sum\limits_{{o}_{t},{o}_{t+1}}P({o}_{t},{o}_{t+1}|\tau ;{\theta }_{\text{old}})\times \\& \log {\tilde{\pi }}_{\text{hi}}({o}_{t+1}|{o}_{t},{s}_{t+1};{\theta }_{\text{hi}})+\displaystyle\sum\limits_{o,s}{\mu }_{o,s}(1-\displaystyle\sum\limits_{{o}^{\prime}}{\tilde{\pi }}_{\text{hi}}({o}^{\prime}|o,s)),\end{split} $

(18)$ \begin{split} {L}_{\text{lo}}= & \displaystyle\sum\limits_{t=0}^{T}\displaystyle\sum\limits_{{o}_{t}}P({o}_{t}|\tau ;{\theta }_{\text{old}})\log {\pi }_{\text{lo}}({a}_{t}|{s}_{t},{o}_{t};{\theta }_{\text{lo}})+ \\& \displaystyle\sum\limits_{s,o}{\lambda }_{s,o}(1-\displaystyle\sum\limits_{a}{\pi }_{\text{lo}}(a|s,{o})),\end{split} $

(19)$ \begin{split} {L}_{\xi }= & \displaystyle\sum\limits_{{o}_{0}}P({o}_{0}|\tau ;{\theta }_{\text{old}})\log \xi ({o}_{0}|{s}_{0})+ \\& \nu (1-\displaystyle\sum\limits_{{o}_{0}}\xi ({o}_{0}|{s}_{0})).\end{split} $

式中：$ {\mu }_{o,s},{\lambda }_{s,o},\nu $分别为对应策略分布的拉格朗日乘子. 通过对每一项取偏导并令其为零，得到各策略的解析解分别为

(20)$ \tilde{\pi }_{\text{hi}}^{*}({o}^{\prime}|o,s)=\dfrac{\displaystyle\sum\limits_{t\colon {s}_{t+1}=s}\dfrac{{\alpha }_{t}(o){\tilde{\pi }}_{\text{hi}}({o}^{\prime}|o,s){\pi }_{\text{lo}}({a}_{t+1}|s,{o}^{\prime}){\beta }_{t+1}({o}^{\prime})}{Z}}{\displaystyle\sum\limits_{t\colon {s}_{t+1}=s}\dfrac{{\alpha }_{t}(o){\beta }_{t}(o)}{Z}}, $

(21)$ \begin{aligned}\pi _{\text{lo}}^{*}(a|s,o)&=\dfrac{\displaystyle\sum\limits_{t\colon {s}_{t}=s,{a}_{t}=a}\dfrac{{\alpha }_{t}(o){\beta }_{t}(o)}{Z}}{\displaystyle\sum\limits_{t\colon {s}_{t}=s}\dfrac{{\alpha }_{t}(o){\beta }_{t}(o)}{Z}}\text{，}\\& \end{aligned} $

(22)$ {\xi }^{*}(o|{s}_{0})=\dfrac{{\alpha }_{0}(o){\beta }_{0}(o)}{Z}. $

$ \tilde{\pi }_{\text{hi}}^{*},\pi _{\text{lo}}^{*},{\xi }^{*} $分别表示更新后的高层策略、底层策略及初始选择分布参数. 上述优化解不仅确保了策略分布的归一性与非负性，还保留了模型在解析意义上的可导特性. 通过去除$ b $，模型在理论上避免了因无信息变量带来的随机性干扰，使主要策略参数的最优解不再受额外隐变量波动的影响，从而有效消除了冗余估计项，显著降低了后验方差与梯度波动.

时间复杂度分析^[37]: 在含终止变量的标准 PFFO 中，由式(3)可知，EM算法的 E步骤须计算后验分布$ P({o}_{t},{b}_{t}|\tau ) $与$ P({o}_{t},{b}_{t},{o}_{t+1},{b}_{t+1}|\tau ) $，前向–后向递推须在增广状态$ ({o}_{t},{b}_{t}) $上进行，计算复杂度为$ O(T|O{|}^{2}|B{|}^{2}) $，其中$ |O| $为选项数量，$ |B|=2 $为终止信号的取值空间. 在去除终止变量后，根据式(12)，E 步骤仅需在选项变量$ {o}_{t} $上进行前向–后向推断，复杂度降低为$ O(T|O{|}^{2}) $，理论上，相比原始 PFFO 的$ O(T|O{|}^{2}|B{|}^{2}) $，该结构减少了1个$ |B{|}^{2} $量级的计算开销. 当$ |B|=2 $，意味着每次迭代的隐状态遍历量约减半. 此外，原始模型参数集合为$ \theta ={\theta }_{\text{hi}}、{\theta }_{\text{lo}}、{\theta }_{\text{b}} $，简化后为$ {\theta }^{\prime}={\theta }_{\text{hi}}、{\theta }_{\text{lo}} $. 设各模块参数维度分别为$ {d}_{\text{hi}}、{d}_{\text{lo}}、{d}_{\text{b}} $，参数减少比例表示为

$ \eta =1-\dfrac{|{\theta }^{\prime}|}{|\theta |}=\dfrac{{d}_{\text{b}}}{{d}_{\text{hi}}+{d}_{\text{lo}}+{d}_{\text{b}}}. $

若假设3层网络结构相似(每层包含两层全连接隐藏层)，则$ {\pi }_{\text{b}} $的输出仅为二分类分布，参数量理论上约占整体网络的10%~20%，该结构简化不仅减少了隐变量推断复杂度，还缩减了可训练参数空间，提升了 EM 优化过程的收敛稳定性与单调性.

本研究提出的简化PFFO 结合拉格朗日约束方法是结构紧凑的隐变量学习方法. 尽管本研究的理论分析过程建立在离散空间当中，但文献[25]~[27]表明，该类结构可以自然扩展至连续状态空间，并在高维连续任务（如机器人控制）中保持稳定的优化性能. 尤其是在双足机器人策略学习中，去除终止变量使模型在动态平衡与步态切换过程中避免了冗余状态估计，显著降低了训练噪声与梯度震荡，提升了策略的收敛稳定性与泛化能力.

3. 双足机器人建模与任务设定

EC-Hunter80-v01是面向研究应用的高性能双足机器人平台，具备对称结构、模块化组件、实时通信能力与灵活的低层控制接口，广泛应用于RL和IL任务. 机器人整体具有10个自由度 (每条腿5个自由度) ，配备惯性测量单元 (inertial measurement unit，IMU) ，能够实现连续动态感知与精确动作控制.

3.1. 状态空间设计

在分层模仿学习框架下，策略网络需要机器人在与环境交互过程中的观测信息进行感知与决策. 状态空间$ {S} $包含本体动力学、姿态感知以及任务相关信息. 在 EC-Hunter80-v01平台上，将状态 $ {s}_{t} $表示为

(23)$ {\boldsymbol{s}}_{t}=[{{\boldsymbol{p}}}_{t},{{\boldsymbol{v}}}_{t},{\boldsymbol{\phi }}_{t},{{\boldsymbol{q}}}_{t},{\ddot{{\boldsymbol{q}}}}_{t},{c}_{l,i},{c}_{r,i},{\phi }_{g}]\in {\boldsymbol{S}}. $

式中：$ t $为某时刻，$ {\boldsymbol{p}}_{t}=({p}_{x},{p}_{y},{p}_{z}) $ 为机器人质心在世界坐标系下的位置，$ {\boldsymbol{v}}_{t}=({v}_{x},{v}_{y},{v}_{z}) $为线速度，$ {\boldsymbol{\phi }}_{t}= (\phi ,\theta ,\psi ) $ 为欧拉角形式的姿态角. 关节角度与关节角速度分别记为$ {{\boldsymbol{q}}}_{t}=({q}_{1},\cdots ,{q}_{10}) $与$ {\ddot{{\boldsymbol{q}}}}_{t}=({\dot{q}}_{1},\cdots ,{\dot{q}}_{10}) $，反映各关节的驱动状态. 为了增强策略对当前步态阶段的感知能力，在状态空间中引入足端接触信号$ {c}_{{\mathrm{l}},i}、{c}_{{\mathrm{r}},i}\in \{0,1\} $，分别表示左足与右足是否接触地面，其中$ i=1 $为足前端，$ i=2 $为足后端. 任务引导信息通过引入目标方向角$ {\phi }_{g}\in [0,2{\text{π}} ) $实现，定义为目标方向与世界坐标系$ x $轴的夹角，表示目标点相对于当前朝向的方向偏移，有助于高层策略调整前进方向. 状态空间:

(24)$ \begin{split} {\boldsymbol{S}}= & {\mathbf{R}}^{9}\times [-{\text{π}} ,{\text{π}} ]^{3}\times [-{\text{π}} /2,{\text{π}} /2]^{10}\times \\& [-10,10]^{10}\times \{0,1\}^{4}\times [0,2{\text{π}} ).\end{split} $

状态空间是连续的. 初始状态分布$ {\zeta }_{0} $假设机器人位于平坦地面，关节角度为中立位置($ {q}_{j}=0 $，其中$ j $为第$ j $个关节)，质心速度为零. 该状态建模包含本体姿态与动力学特征，以及步态与任务目标信息，能够确保策略具备充分的决策依据. 足端接触状态的离散性能够灵活运用在分层策略中，也参与后续奖励函数的设计改进.

3.2. 动作空间定义

EC-Hunter80-v01双足机器人采用基于力矩控制的低层执行架构，策略输出的核心为 10 维离散化控制向量$ {\boldsymbol{\tau }}_{t} $，表示各关节在当前时刻的目标力矩. 为了提升策略在动态控制过程中的物理一致性与行为引导能力，动作空间进一步包含足端反作用力与目标足端位置作为辅助输出，用于建模学习或联合优化目标. 整体动作向量定义为

(25)$ {\boldsymbol{a}}_{{t}}=[{\boldsymbol{\tau }}_{t},\widehat{\boldsymbol{f}}_{t,i}^{{\mathrm{foot}}},\widehat{\boldsymbol{p}}_{t}^{{\mathrm{foot}}}]\in {\mathbf{R}}^{28}. $

式中：$ {\boldsymbol{\tau }}_{t}=[{\tau }_{1},{\tau }_{2},\cdots ,{\tau }_{10}] $为$ t $时刻各关节力矩; $ \widehat{\boldsymbol{f}}_{t,i}^{{\mathrm{foot}}}\in {\mathbf{R}}^{12} $为策略预测的左右足端接触力估计量(每足6维)，$ \widehat{\boldsymbol{p}}_{t}^{{\mathrm{foot}}}\in {\mathbf{R}}^{6} $为策略引导的足端空间期望位置.在物理可行性约束下，各控制参数的取值范围如表1所示. 力矩信号$ {{\tau }}_{t} $经过实时 PD 控制器调制后作用于电机，控制律定义为

表 1 控制参数的取值范围

Tab.1 Value ranges of control parameters

参数	取值范围
关节力矩限制$ {\tau }_{t} $	[−60，60]
足端法向接触力$ \hat{f}_{z}^{{\mathrm{foot}}} $	[0，400]
足端切向接触力 $ \hat{f}_{x,y}^{{\mathrm{foot}}} $	[−100，100]
足端位置限制$ x $方向$ \hat{p}_{x}^{{\mathrm{foot}}} $	[−0.3，0.3]
足端位置限制$ y $方向$ \hat{p}_{y}^{{\mathrm{foot}}} $	[−0.15，0.15]
足端位置限制$ z $方向$ \hat{p}_{z}^{{\mathrm{foot}}} $	[−0.67，−0.59]

新窗口打开| 下载CSV

(26)$ {\tau }_{t}={K}_{{\mathrm{p}}}({q}^{{\mathrm{des}}}-q)+{K}_{{\mathrm{d}}}({\dot{q}}^{{\mathrm{des}}}-\dot{q}). $

式中：$ {q}^{{\mathrm{des}}} $和$ {\dot{q}}^{{\mathrm{des}}} $为期望的关节角度与角速度，$ q $与$ \dot{q} $为当前传感器测得值，$ {K}_{{\mathrm{p}}} $与$ {K}_{{\mathrm{d}}} $为比例与微分增益. 为了适配分层强化学习框架，动作空间以条件形式表示为 $ {a}_{t}={\pi }_{\text{lo}}({s}_{t},{z}_{t}) $，其中$ {z}_{t} $为高层策略输出的潜在变量，用于引导底层控制器的子任务表达.

3.3. 奖励函数设计

实现 EC-Hunter80-v01 在平坦地面上稳定、节能、目标导向的行走行为须设计合理的奖励. 通常来讲，设计机器人控制任务的奖励函数会考虑被控对象的前进方向^[38]、能量效率^[39-40]、动作平滑及目标位置^[38]等，本研究考虑包含前进、能量效率、动作平滑性、足端接触力误差和目标位置共5项子目标的加权奖励结构，总奖励函数为

(27)$ {R}_{t}={w}_{{\mathrm{p}}}{r}_{{\mathrm{p}}}+{w}_{{\mathrm{e}}}{r}_{{\mathrm{e}}}+{w}_{{\mathrm{m}}}{r}_{{\mathrm{m}}}+{w}_{{\mathrm{f}}}{r}_{{\mathrm{f}}}+{w}_{{\mathrm{trk}}}{r}_{{\mathrm{trk}}}; $

(28)$ \begin{split} {r}_{{\mathrm{p}}}= & -\| \boldsymbol{v}_{t}^{xy}-{\boldsymbol{v}}_{\text{ta}}\| _{2}^{2}=-\left({({{v}_{x}}-{{v}_{\text{ta}}}\cos {{\phi }_{g}})}^{2}+\right.\\&\left.{({{v}_{y}}-{{v}_{\text{ta}}}\sin {{\phi }_{g}})}^{2}\right),\end{split} $

(29)$ {r}_{{\mathrm{e}}}=-\displaystyle\sum\limits_{j=1}^{10}\left|\left|{\boldsymbol{\tau }}_{j}{\dot{\boldsymbol{q}}}_{j}\right|\right|, $

(30)$ {r}_{{\mathrm{m}}}=-\| {\boldsymbol{a}}_{t}-{\boldsymbol{a}}_{t-1}\| _{2}^{2}, $

(31)$ {r}_{{\mathrm{f}}}=-\| \boldsymbol{f}_{t,i}^{{\mathrm{foot}}}-\widehat{\boldsymbol{f}}_{t,i}^{{\mathrm{foot}}}\| _{2}^{2}, $

(32)$ {r}_{{\mathrm{trk}}}=-\| \boldsymbol{p}_{t}^{{\mathrm{foot}}}-\widehat{\boldsymbol{p}}_{t}^{{\mathrm{foot}}}\| _{2}^{2}. $

式中：$ {r}_{{\mathrm{p}}} $ 为前进奖励，用于鼓励机器人沿目标方向行走；$ {r}_{{\mathrm{e}}} $ 为能量效率奖励，用于抑制电机能耗；$ {r}_{{\mathrm{m}}} $ 为动作平滑性奖励，用于避免控制输出的剧烈变化；$ {r}_{{\mathrm{f}}} $ 为足端接触力误差项，用于控制地面反作用力的物理一致性；$ {r}_{{\mathrm{trk}}} $ 为目标位置奖励，用于引导步态轨迹精确控制；$ \boldsymbol{v}_{t}^{xy}=({v}_{x},{v}_{y}) $为质心速度在水平面的分量; $ {\boldsymbol{v}}_{\text{ta}}={\boldsymbol{v}}_{\text{ta}}(\cos {\phi }_{g},\sin {\phi }_{g}) $为目标速度方向，$ {v}_{\text{ta}} $为期望速度模长; $ {\boldsymbol{a}}_{t} $与$ {\boldsymbol{a}}_{t-1} $为相邻时间步的动作; $ \boldsymbol{f}_{t,i}^{{\mathrm{foot}}} $为实际足端反作用力; $ \boldsymbol{p}_{t}^{{\mathrm{foot}}} $为实际足端位置; $ w $为各子奖励的权重.

4. 实验验证

通过基准对比实验与双足机器人仿真实验，全面评估简化 PFFO 在复杂控制任务中的性能表现. 实验设计涵盖非马尔可夫特性的连续控制环境，从策略收敛性、训练稳定性及泛化能力3个维度进行验证. 通过在 Mujoco 平台下的EC-Hunter80-v01 双足机器人仿真，进一步展示所提方法在实际动力学条件下的可行性与鲁棒性.

4.1. 基准实验设计

对比现有方法，评估简化PFFO在标准控制任务中的表现，重点验证所提方法在低层动作输出不满足马尔可夫性质的控制环境下的鲁棒性与策略泛化能力. 实验选取OpenAI Gym平台提供的多个典型连续动作控制任务作为评测环境，这些任务在机器人控制中广泛应用，具有较高的动态稳定性与控制挑战性. 6类代表性方法为PFFO^[25]、S-PFFO^[26]、GAIL-Option^[27]、DVL^[28]、ISWBC^[29]以及HIPS^[30]. 其中PFFO与S-PFFO均采用与本研究方法一致的分层选项结构，便于从同一结构层面分析模型性能差异. GAIL-Option是在复杂隐变量场景中具有较强建模能力的IL，常作为有竞争力的基线算法使用. DVL、ISWBC 和 HIPS 属于先进的IL，具有代表性与前沿性. 考虑到任务之间的异质性，实验共选取9个具有代表性的控制任务进行对比分析，采集训练过程中的平均表现并进行对比分析. 在基准实验中，为了破坏马尔可夫性质 (模拟双足机器人传统控制器特性)，随机屏蔽10%的维度. 实验结果如图2所示，实线表示平均值，阴影区域表示最大值和最小值的范围. 考虑到随机性的影响，每种方法针对每个任务训练5次，所有实验的种子点固定. 图2中，N_T为训练回合数，$ \overline{R} $为当前训练模型的平均回报.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 不同模仿学习方法在典型连续动作控制任务中的训练性能对比

Fig.2 Training performance comparison of different imitation learning methods in typical continuous action control tasks

为了量化不同方法在9个连续控制任务中的性能差异，对各方法在训练最后10%的平均回报及方差进行统计分析，结果如表2所示. 从整体结果来看，简化 PFFO 在9个任务中有7个任务取得最高或次高回报值，并且在所有任务中均表现出较低的方差波动，体现出更优的收敛稳定性与泛化能力. 例如，在二维行走机器人与四足蚂蚁机器人任务中，简化PFFO 的$\overline{R} $分别达到2296.74±250.19与2407.19±106.10，较标准PFFO提升幅度分别为588%与6.9%. 在双足行走机器人任务中，简化 PFFO 的标准差为16.82，显著低于HIPS的29.73与ISWBC的 31.92，表明策略输出更加平稳. 结合图表分析，S-PFFO 在训练过程中策略回报曲线的波动性较大，性能曲线在多个回合中呈现明显的不稳定趋势，难以实现持续收敛，说明S-PFFO对环境中非马尔可夫性质的适应能力有限；DVL在游动机器人与机械臂推物这样的低维平稳任务中表现突出，但在高维时序关联较强的任务中性能下降；ISWBC在数据分布偏移较小时策略性能的早期收敛速度较快，但长期训练后趋于饱和，且缺乏对时序依赖的表达能力；HIPS对高维连续控制任务的适应性不足. 相比较而言，PFFO引入显式的隐变量建模机制，能够较好地缓解由状态观测不完整带来的建模偏差，在整体上获得更为平稳且连贯的训练表现，展现出良好的策略收敛能力. 本研究所提方法在多数任务中实现与 PFFO持平甚至更优的表现，并且在训练早期阶段具有更快的收敛速度. 在类人机器人起身、四足蚂蚁机器人、机械臂推物以及类人机器人行走这些具有高维状态空间与复杂动力学的任务中，简化 PFFO 均实现逼近专家演示的回报水平，并在稳定性与波动控制方面优于其他方法. 该结果充分验证了所提建模方式在不引入额外复杂性的前提下，能够保持良好的表达能力和策略学习性能.

表 2 在典型连续动作控制任务中不同模仿学习方法的平均回报与标准差

Tab.2 Mean return and standard deviation of different imitation learning methods in typical continuous action control tasks

方法	$ \overline{R}\pm \sigma $
方法	类人机器人行走	机械臂推物	二维行走机器人	游动机器人	双足行走机器人	类人机器人起身	四足蚂蚁机器人	单腿跳跃机器人	双足猎豹模型
GAIL-Option	−1701.46± 1109.85	−636.24 ± 239.12	509.71 ± 132.52	12.38 ± 41.99	257.79 ± 10.60	360.16 ± 198.64	1958.55 ± 226.74	489.35 ± 74.15	1924.50 ± 217.21
SPFFO	−158.63 ± 48.26	−576.64 ± 33.26	1217.23 ± 756.50	−3.97 ± 7.60	−1.74 ± 7.84	275.29 ± 40.56	1027.70 ± 256.64	553.32 ± 279.83	2390.93 ± 358.77
PFFO	498.22 ± 28.01	−391.40 ± 14.19	333.87 ± 132.80	41.52 ± 6.75	203.25 ± 86.42	885.02 ± 25.37	2251.33 ± 214.70	329.40 ± 194.13	1898.57 ± 574.98
本研究	517.44 ± 46.11	−384.08 ± 24.51	2296.74 ± 250.19	45.94 ± 1.95	264.40 ± 16.82	915.27 ± 48.67	2407.19 ± 106.10	704.11 ± 61.90	2871.36 ± 155.93
DVL	153.56 ± 63.20	−44.11 ± 0.12	192.49 ± 175.22	31.01 ± 3.05	−95.51 ± 18.47	812.97 ± 298.35	2010.40 ± 684.32	76.29 ± 43.06	340.72 ± 326.62
ISWBC	−536.76 ± 594.76	−387.42 ± 13.04	1593.60 ± 446.14	42.98 ± 5.65	256.99 ± 31.92	−173.89 ± 146.13	2412.23 ± 72.90	488.13 ± 79.01	2738.28 ± 103.02
HIPS	531.89 ± 34.90	−384.13 ± 17.24	1292.01 ± 189.64	25.08 ± 16.21	244.24 ± 29.73	865.51 ± 18.63	2338.80 ± 88.94	431.03 ± 69.39	1699.79 ± 187.79

新窗口打开| 下载CSV

实验结果表明，本研究所提方法在多个不满足马尔可夫性质任务环境下具有比对比方法更强的稳定性与泛化能力，在多数任务中实现了更优的最终策略表现，在相同训练轮次下实现快速收敛更容易. 这些结果验证了简化PFFO 在处理复杂低层控制问题中的适应能力与建模优势.

4.2. 双足机器人仿真实验

为了验证简化 PFFO 在实际机器人系统中的适应性与控制性能，通过 NMPC 与全身控制器 WBC 构建模仿数据集并利用简化PFFO进行模仿学习，以EC-Hunter80-v01 双足机器人作为实验平台，采用 Mujoco 构建仿真环境. 为了生成高质量的步态轨迹作为模仿学习训练的专家策略，利用NMPC和WBC设计机器人的稳定行走控制器. 具体而言，NMPC 模块基于机器人当前状态信息构建有限时域内的最优控制问题，通过滚动优化预测未来状态轨迹，实时计算目标关节加速度与期望接触力. NMPC模块在每个控制周期内求解非线性优化问题:

(33)$ \begin{split} & \underset{\{{\boldsymbol{u}}_{t}\}_{t=0}^{T-1}}{\min }\displaystyle\sum\limits_{t=0}^{T-1}\Bigg[\dfrac{1}{2}({{\boldsymbol{x}}_{t}}-{{\boldsymbol{x}}_{\text{ref},t}})^{{\mathrm{T}} }\boldsymbol{Q}({\boldsymbol{x}}_{t}-{\boldsymbol{x}}_{\text{ref},t})+\\& \qquad\qquad \dfrac{1}{2}({{\boldsymbol{u}}_{t}}-{{\boldsymbol{u}}_{\text{ref},t}})^{{\mathrm{T}} }\boldsymbol{R}({\boldsymbol{u}}_{t}-{\boldsymbol{u}}_{\text{ref},t})\Bigg].\\& \text { s.t. } \boldsymbol{x}_{t+1}=f\left(\boldsymbol{x}_t, \boldsymbol{u}_t\right); \\&\qquad \boldsymbol{u}_t \in \boldsymbol{U}, \quad \boldsymbol{x}_t \in \boldsymbol{X}, \quad t=0, \cdots, T-1.\end{split} $

式中：$ {\boldsymbol{x}}_{t} $为系统状态向量，$ {\boldsymbol{x}}_{\text{ref},t} $为期望状态向量，$ {\boldsymbol{u}}_{t} $为控制输入向量，$ {\boldsymbol{u}}_{\text{ref},t} $为期望控制输入，$ \boldsymbol{Q} $为状态权重矩阵，$ \boldsymbol{R} $为输入权重矩阵，$ \boldsymbol{U} $为控制输入的可行域，$ \boldsymbol{X} $为状态的可行域，$ T $为预测时域长度，$ f({\boldsymbol{x}}_{t}, {\boldsymbol{u}}_{t}) $表示系统动力学函数，描述状态转移. 本研究采用 OCS2 库(optimal control software 2，https://leggedrobotics.github.io/ocs2) 对机器人系统动力学进行建模与数值计算，OCS2通过自动微分机制生成解析雅可比矩阵与状态转移模型，保证控制器性能与收敛速度. NMPC的超参数包括：状态权重，控制权重，MPC预测时域长度为0.8 s，MPC主循环频率$ {f}_{\text{mpc}} $=100 Hz，状态权重缩放因子$ {Q}_{\text{scale}} $=1.0，控制权重缩放因子$ {R}_{\text{scale}} $=1×10⁻³，时间步长为0.015 s. 其中状态权重的第1~6维对应质心运动状态，第7~12维为基座的位置与姿态信息，第13~22维为双腿各关节的角度位置:

(34)$ \boldsymbol{Q}=\left[\begin{matrix}13 & 0 & \cdots & 0 & \cdots & 0\\0 & 13 & \cdots & 0 & \cdots & 0\\\vdots & \vdots & \ddots & \vdots && \vdots \\0 & 0 & \cdots & 500 & \cdots & 0\\\vdots & \vdots & & \vdots & \ddots & \vdots \\0 & 0 & \cdots & 0 & \cdots & 10\end{matrix}\right]. $

控制权重的前12个维度对应四肢的接触力控制输入，第13~24维为左右足端相对于机体的速度控制项:

(35)$ \boldsymbol{R}={10}^{-3}\cdot \left[\begin{matrix}5 & 0 & \cdots & 0 & \cdots & 0\\0 & 5 & \cdots & 0 & \cdots & 0\\\vdots & \vdots & \ddots & \vdots & & \vdots \\0 & 0 & \cdots & 2\;000 & \cdots & 0\\\vdots & \vdots & & \vdots & \ddots & \vdots \\0 & 0 & \cdots & 0 & \cdots & 2\;000\end{matrix}\right]. $

WBC 模块负责将上层 NMPC的输出映射为各关节的控制命令. WBC依据文献[41]采用任务优先级投影法，确保硬约束任务(浮动基座动力学、扭矩限制、摩擦锥约束)在多个冗余自由度中严格满足，软约束任务(基座轨迹跟踪、摆动腿轨迹规划、接触力控制)在硬约束的零空间中协同执行. WBC模块运行频率为100 Hz. WBC在每个控制周期内构建约束优化问题:

(36)$ \begin{split}\min _{{\boldsymbol{\tau}}, \ddot{{\boldsymbol{q}}}, {\boldsymbol{f}}_{t, i}^{\text {foot}}} &\quad \left\|w_1\left(\dot{\boldsymbol{q}}-\ddot{\boldsymbol{q}}_{\mathrm{ref}}\right)\right\|^2+\left\|w_2\left(\boldsymbol{f}_{t, i}^{\text {foot }}-\widehat{\boldsymbol{f}}_{t, i}^{\text {foot }}\right)\right\|^2. \\\text { s.t. } &\quad \boldsymbol{M}(\boldsymbol{q}) \ddot{\boldsymbol{q}}+\boldsymbol{h}(\boldsymbol{q}, \dot{\boldsymbol{q}})=\boldsymbol{S}^{{\mathrm{T}}} \boldsymbol{\tau}+\boldsymbol{J}_{\mathrm{c}}^{{\mathrm{T}}} \boldsymbol{f}_{t, i}^{\text {foot }}, \\& \quad \boldsymbol{J}_{\mathrm{c}} \ddot{\boldsymbol{q}}+\dot{\boldsymbol{J}}_{\mathrm{c}} \dot{\boldsymbol{q}}=0,\;\; -\boldsymbol{\tau}_{\max } \leqslant \boldsymbol{\tau} \leqslant \boldsymbol{\tau}_{\max }, \\& \quad \boldsymbol{f}_{t, i}^{\text {foot }} \in {C}_{\mathrm{f}}.\end{split} $

式中：$ \ddot{\boldsymbol{q}} $ 为关节角加速度；$ \boldsymbol{M} $与$ \boldsymbol{h} $分别为系统质量矩阵与科氏/重力项；$ {\boldsymbol{J}}_{{\mathrm{c}}} $为接触点雅可比矩阵，均由OCS2库计算得出；$ \boldsymbol{S} $为选择矩阵，根据机器人关节配置预定义；$ {\mathcal{C}}_{\text{f}} $为摩擦锥限制，$ \boldsymbol{f}_{t,i}^{{\mathrm{foot}}} $在$ x $，$ y $，$ z $轴上的分量为

(37)$ \sqrt{f_{i,x}^{2}+f_{i,y}^{2}}\leqslant \mu \text{，}\quad {f}_{i,z}{f}_{i,z}\geqslant 0. $

优化目标包括跟踪NMPC 输出的期望关节加速度$ {\dot{\boldsymbol{q}}}_{\text{ref}} $与$ \widehat{\boldsymbol{f}}_{t,i}^{{\mathrm{foot}}} $，满足机器人动力学与接触力约束条件. 涉及的超参数包括摩擦系数$ \mu $=0.7，摆动腿任务权重$ {w}_{1} $=100，基座加速度任务权重$ {w}_{2} $=1，各关节最大输出力矩分别为20、60、60、60、28.

在专家数据采集阶段，系统记录控制器执行过程中的关键状态变量与控制信号. 该控制器可在不同初始姿态与外部扰动条件下实现多周期、稳定的行走行为，为后续模仿学习提供高质量轨迹样本. 在完成专家数据采集与预处理之后，基于构建的模仿学习结构开展参数训练工作. 训练过程旨在使模型能够最大化重构专家行为策略，通过最小化负对数似然损失函数以拟合高维状态-动作映射关系. 在简化 PFFO 下，训练目标是通过最大化专家示范轨迹在模型下的对数似然函数，实现高层策略与低层策略的联合学习. 将专家数据集按比例划分为训练集(80%)与验证集(20%)，在训练集中迭代优化高层策略与低层策略的参数. 在训练中采用基于EM算法的分层推理机制，将隐含的选项变量$ {o}_{0\colon T} $作为后验推理对象，在每轮迭代中交替执行 E 步骤与 M 步骤: E 步骤基于当前策略参数估计隐变量的后验概率分布，使用前向—后向算法计算边际与联合后验$ P({o}_{t}|\tau ) $与 $ P({o}_{t},{o}_{t+1}|\tau ) $; M 步骤在这些后验估计的基础上，最大化联合对数似然函数$ Q(\theta ,{\theta }^{\text{old}}) $，结合拉格朗日乘子法确保各策略的概率分布满足归一性与非负性等约束. 在训练过程中，整体优化目标表述为期望对数似然:

(38)$ {\theta }^{*}=\arg \underset{\theta }{\max }{{E}}_{P({{o}_{0\colon T}}|\tau ;{{\theta }_{\text{old}}})}[\ln P({o}_{0\colon T},\tau |\theta )]. $

该目标函数进一步拆解为初始选项分布项 $ {{L}}_{{\mathrm{init}}} $、低层控制策略项$ {{L}}_{{\mathrm{lo}}} $与高层转移策略项$ {{L}}_{{\mathrm{hi}}} $的加权和:

(39)$ J(\theta )={L}_{\text{init}}+{L}_{\text{lo}}+{L}_{\text{hi}}+{\lambda }_{\text{phys}} {L}_{\text{phys}}.$

式中：$ {{L}}_{{\mathrm{phys}}} $为基于物理约束(如动作幅度范围、速度限制)的惩罚项，$ {\lambda }_{{\mathrm{phys}}} $为对应权重超参数，用于防止策略输出出现非物理行为. 为了提高训练稳定性，引入梯度裁剪与批量归一化技巧，有效缓解训练初期的梯度爆炸与后期的震荡问题^[42-43]. 为了确保泛化性能，每训练一定轮数便在验证集上评估当前模型的负对数似然损失与每步动作误差，若连续若干次评估未提升性能，则启动早停机制防止过拟合. 训练过程中使用的主要超参数配置如表3所示. 在EC-Hunter80-v01上对比分析不同模仿学习方法的训练性能，对比方法在相同的专家数据集、训练参数及随机种子条件下独立重复训练5次，所有实验均采用固定种子点，结果如图3所示. 可以看出，简化 PFFO 的训练曲线与标准 PFFO 的高度一致，甚至表现更好，在多个任务中的曲线几乎重合，未见明显性能下降. 其他方法在 EC-Hunter80-v01控制任务中均未能成功复现专家演示行为，表现出较低的策略可迁移性与稳定性. 这表明，尽管简化 PFFO 去除了终止变量并将低层动作视为隐变量进行联合建模，依然能够保持原模型的表达能力与稳定性，验证了该策略在复杂控制任务中的可行性与稳定性；进一步说明，在应对 PD 控制引发的非马尔可夫问题时，该方法能够有效融合高层隐变量结构，实现稳定控制策略的学习.

表 3 模仿学习训练过程中的超参数配置

Tab.3 Hyperparameter settings for imitation learning training

参数名称	数值
优化器	Adam
$ {\lambda }_{{\mathrm{phys}}} $	0.01
批量大小	64
梯度裁剪阈值	1.0
训练轮数(最大)	3000
初始学习率$ \alpha $	3×10⁻⁴
力矩PD控制$ {K}_{{\mathrm{p}}},{K}_{{\mathrm{d}}} $	160,18
早停机制	28，60，60，60，28
$ {w}_{{\mathrm{p}}},{w}_{{\mathrm{e}}},{w}_{{\mathrm{m}}},{w}_{{\mathrm{f}}},{w}_{{\mathrm{trk}}} $	1.0，0.1，0.5，0.3，0.8

新窗口打开| 下载CSV

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 不同模仿学习方法在双足机器人控制任务中的训练性能对比

Fig.3 Training performance comparison of different imitation learning methods in bipedal robot control task

选用在训练过程中保存的验证集性能最优的简化 PFFO 模型参数，加载至 Mujoco 环境进行仿真测试，图像以每0.01 s的间隔自动截取，仿真结果如图4所示. 可以看到，双足机器人实现前向稳定行走，未出现明显的动作崩溃或姿态漂移，进一步证明所提简化 PFFO 能够在复杂、非马尔可夫控制条件下有效重现专家策略，实现平稳的步态生成. 实验结果验证了所提框架的实用性与稳定性，进一步支持了隐变量策略建模在处理不完全观测控制问题中的有效性，为后续在实际机器人系统中的进一步部署奠定了方法基础.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 双足机器人在所提模型控制下的前向稳定行走过程

Fig.4 Forward stable walking of bipedal robot using proposed model

5. 结　语

本研究针对双足机器人在强化学习训练过程中常见的非马尔可夫性结构问题与样本效率低下的挑战，提出基于简化 PFFO 的分层模仿学习方法. 该方法通过简化策略结构，降低了建模与推理复杂度. 本研究将隐变量建模过程与期望最大化算法相结合，引入拉格朗日乘子法以显式建模约束条件，在仿真实验当中证明了方法的能力，且将最终训练所得模型成功部署在双足机器人仿真环境中，实现了机器人稳定行走. 本研究为面向复杂机器人系统的模仿学习提供了可行路径，也为未来在实际机器人平台上部署高效模仿学习策略奠定了理论与实践基础. 后续研究1）探索与传感器融合、迁移学习结合的扩展方法，以实现从仿真到现实的平滑策略迁移. 2）基于 EC-Hunter80-V01 实机平台开展扩展实验（包括扰动鲁棒性、地形变化适应性与 sim-to-real 迁移性能等内容），进一步验证所提方法在真实环境中的适用性与稳定性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LI Z, PENG X B, ABBEEL P, et al

Reinforcement learning for versatile, dynamic, and robust bipedal locomotion control

[J]. The International Journal of Robotics Research, 2025, 44 (5): 840- 888

DOI:10.1177/02783649241285161 [本文引用: 1]

[2]

RAIBERT M H, BROWN H B Jr, CHEPPONIS M

Experiments in balance with a 3D one-legged hopping machine

[J]. The International Journal of Robotics Research, 1984, 3 (2): 75- 92

DOI:10.1177/027836498400300207

[3]

CASTILLO G A, WENG B, ZHANG W, et al

Reinforcement learning-based cascade motion policy design for robust 3D bipedal locomotion

[J]. IEEE Access, 2022, 10: 20135- 20148

DOI:10.1109/ACCESS.2022.3151771 [本文引用: 1]

[4]

GULIYEV Z, PARSAYAN A. Reinforcement learning based robot control [C]// Proceedings of the IEEE 16th International Conference on Application of Information and Communication Technologies. Washington DC: IEEE, 2023: 1–6.