<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 ETDTBN的整体结构

Fig.1 Overall framework of ETDTBN

1.1. 加强二维化方法

在机器学习中，对于某个对象的属性特征通常会以特征向量的形式来表示^[13]. 目前现有的提取原始肌电信号方法只能得到一维离散特征，若对一维离散特征不作处理，则容易遗漏不同离散特征之间的相关性，导致较难区分相似手势情况下的sEMG. Chen等^[14]提出离散特征二维化的方法，构建包含离散特征与合成特征的二维特征关系图，但该方法存在处理后特征信息稀疏、参数重复冗余的问题，由此本文提出加强二维化方法.

该方法通过数学公式从原始信号的每个通道提取$ n $个特征，特征向量$ {{\boldsymbol{v}}} $可以表示成

(1)$ {\boldsymbol{v}}{\text{ = }}\left[ {{{{v}}_1}{\text{,}}\;{{{v}}_2}{\text{,}}\;\cdots{\text{,}}\;{{{v}}_i}{\text{,}}\;\cdots{\text{,}}\;{{{{v}}}_{n}}} \right]{\text{.}} $

式中：$ {{{{v}}}_{i}} $为第$ {i} $个离散特征.

为了保留单个离散特征自身的信息，在特征向量$ {{\boldsymbol{v}}} $上增加$ {1} $，组成n+1维特征向量$ {{\boldsymbol{f}}} $，表示为

(2)$ {{\boldsymbol{f}}} = [{1}{\text{,}}\;{{{{v}}}_{1}}{\text{,}}\;{{{{v}}}_{2}}{\text{,}}\;\cdots{\text{,}}\;{{{{v}}}_{i}}{\text{,}}\;\cdots{\text{,}}\;{{{{v}}}_{n}}]. $

如果直接对向量$ {{\boldsymbol{f}}} $进行笛卡尔积操作，将向量中的相同特征两两组合，那么二维特征图中有一半信息是重复的，导致二维矩阵的特征数据重复输入. 考虑将特征向量$ {{\boldsymbol{f}}} $中的离散特征信息进行平方处理，放大其中的细节特征：

(3)$ {{\boldsymbol{s}}}{\text{ = }}{{{\boldsymbol{f}}}^{2}}{\text{ = }}\left[ {{1}{\text{,}}\;{{{v}}}_{1}^{2}{\text{,}}\;{{{v}}}_{2}^{2}{\text{,}}\;\cdots{\text{,}}\;{{{v}}}_{i}^{2}{\text{,}}\;\cdots{\text{,}}\;{{{v}}}_{n}^{2}} \right]{\text{.}} $

在得到特征向量$ {{\boldsymbol{s}}} $与特征向量$ {{\boldsymbol{f}}} $后，二维特征矩阵$ {{\boldsymbol{F}}} $可以利用下式计算：

(4)$ {{\boldsymbol{F}}} = \sigma \left( {\alpha {{\left( {{{{\boldsymbol{f}}}^{{\mathrm{T}}}} \times {{\boldsymbol{s}}}} \right)}^\beta }} \right). $

(5)$ {{\boldsymbol{f}}} \times {{\boldsymbol{s}}}{\text{ = }}\left\{ {\left( {{{{\boldsymbol{f}}}_{i}} \cdot {{{\boldsymbol{s}}}_{j}}} \right)\left| {{{{\boldsymbol{f}}}_{i}} \in {{\boldsymbol{f}}} 且 } \right.{{{\boldsymbol{s}}}_{j}} \in {{\boldsymbol{s}}}} \right\}. $

式中：$ \alpha $和$ \beta $分别为转换参数；$ \times $表示笛卡尔乘积；$ \sigma $为$ {\mathrm{sigmoid}} $激活函数，将变量映射到$ \left[ {0,1.0} \right] $区间，引入非线性；$ {{\boldsymbol{F}}} $为$ {{\boldsymbol{f}}} $和$ {{\boldsymbol{s}}} $通过笛卡尔积运算得到的二维特征矩阵.

1.2. 双分支网络结构

肌电原始信号经加强二维化后得到二维特征矩阵，需要放入深度学习模型中进一步训练. CNN模型是目前应用最广泛的深度学习算法之一，在基于sEMG的手势识别问题上有着良好的表现^[15]. 肌电信号是时序信号，CNN不能有效地分析时序信号的历史信息. 门控循环神经网络与CNN最大的不同是它有记忆功能，当前的输出不仅依赖于当前的输入，而且依赖于前一次的输出，这使得它具有较强的处理时间序列的能力. CNN和RNN各自提取的特征信息侧重点不同，结合2种网络，有利于发挥各自的特点与优势. 本文提出双分支网络模型，具体结构如图2所示.

图 2

图 2 双分支网络的实现细节

Fig.2 Detail of two-branch structure

1.2.1. 多层卷积神经网络

CNN是包含卷积计算且具备深度结构的前馈神经网络，从低层到高层逐步训练得到深层特征信息. 对输入数据进行分类，CNN具备局部连接与共享权重的特点，主要包括卷积层、池化层和全连接层^[16-17].

对处理后的二维特征矩阵进行空间特征的提取，利用不同尺度的卷积核多尺度、多层次地提取输入数据中的信息，从低级特征中迭代提取更复杂的特征. 该模型由6层组成，第1层是卷积层，包含16个5×5卷积核，步长为1，填充为2. 经过最大池化层，得到维度较小的特征，在保留有价值信息的同时，减少网络的参数量和计算量. 经过包含64个3×3卷积核、步长为1、填充为1的卷积层和最大池化层，在较小的感受野下捕捉更细节的局部信息. 为了得到最有效的空间特征，依次使用2层分别包含512个单位和128个单位的全连接层，经归一化操作和非线性激活函数后，得到的空间特征大小为128×16.

1.2.2. 双向门控循环单元

RNN在处理时序性较强的信号时有着较好的效果^[18]. RNN在训练过程中容易出现梯度消失或梯度爆炸的情况，存在长期依赖的问题^[19]. 门限循环单元(GRU)是RNN的重要变体，能够较好地克服这些问题. GRU以原始信号作为输入，保留sEMG原始时间序列的相关性与时间依赖性，相较于长短期记忆网络(LSTM)，GRU结构更简单，训练参数量更少，可以有效地减少训练时间，提高计算速率^[20].

GRU是由Cho等^[21]提出的. GRU由更新门和重置门组成. 其中更新门代替了LSTM中的输入门和遗忘门，控制当前状态要从历史状态中保留多少有用信息以及要从候选状态中接受多少新信息.

(6)$ {{{\boldsymbol{z}}}_{t}} = \sigma\; ({{{\boldsymbol{x}}}_{t}}{{{\boldsymbol{W}}}_{{xz}}}+{{{\boldsymbol{h}}}_{{t - 1}}}{{{\boldsymbol{W}}}_{{hz}}}+{{{\boldsymbol{b}}}_{z}}). $

重置门用来控制候选状态$ \tilde{\boldsymbol{ h}} $依赖于上一时刻的状态$ {{\boldsymbol{h}}_{t - 1}} $的程度，即控制要遗忘多少过去的信息.

(7)$ {{{\boldsymbol{r}}}_{t}} = \sigma \;({{{\boldsymbol{x}}}_{t}}{{{\boldsymbol{W}}}_{{xr}}}+{{{\boldsymbol{h}}}_{{t - 1}}}{{{\boldsymbol{W}}}_{{hr}}}+{{{\boldsymbol{b}}}_{r}}). $

当收到门控信号时，对候选隐藏层单元状态值进行更新，具体操作如下：

(8)$ {\tilde {\boldsymbol{h}}} = \tanh \;({{{\boldsymbol{x}}}_{t}}{{{\boldsymbol{W}}}_{{xh}}}+{{{\boldsymbol{r}}}_{t}} \otimes {{{\boldsymbol{h}}}_{{t - 1}}}+{{{\boldsymbol{b}}}_{h}}). $

网络节点的最终状态更新方式为

(9)$ {{{\boldsymbol{h}}}_{t}} = ({{\boldsymbol{1}} - }{{{\boldsymbol{z}}}_{t}}) \otimes {{{\boldsymbol{h}}}_{{t - 1}}}+{{{\boldsymbol{z}}}_{t}} \otimes {{\tilde {\boldsymbol{h}}}_{t}}. $

式中：$ \sigma $为$ {\mathrm{sigmoid}} $函数，将数据变换为$ 0 \sim 1.0 $范围内的数值，充当门控信号；$ {{{\boldsymbol{h}}}_{{t - 1}}} $为$ t - 1 $时刻的信息；$ {{{\boldsymbol{r}}}_{t}} $ 为重置门；$ \tanh $ 为激活函数；$ {{{\boldsymbol{b}}}_{z}} $、$ {{{\boldsymbol{b}}}_{r}} $、$ {{{\boldsymbol{b}}}_{h}} $、$ {{{\boldsymbol{W}}}_{{hz}}} $、$ {{{\boldsymbol{W}}}_{{xz}}} $、$ {{{\boldsymbol{W}}}_{{hr}}} $、$ {{{\boldsymbol{W}}}_{{xr}}} $、$ {{{\boldsymbol{W}}}_{{xh}}} $均为门神经元参数，在训练中学习得到；$ \otimes $为按元素相乘.

通常，完成一个连续手部动作所产生的电信号前后存在着某种依赖关系. 为了利用过去和未来的信息，采用Bi-GRU来分析连续动作中动作电位的变化关系^[22]. Bi-GRU模型的结构如图3所示.

图 3

图 3 Bi-GRU的展开结构

Fig.3 Unfolded structure of Bi-GRU

1.2.3. 自适应特征融合

在多源信息问题上，现有的线性聚合方法难以根据输入内容调整不同分支的大小^[23]. 本文提出自适应特征融合机制，该机制允许每个神经元根据输入信息的不同特征自适应地调整其在网络中的占比，采用非线性的方法融合两部分网络，实现对时间空间特征的学习. 该方法容易扩展到包含多个分支的网络中. 具体结构如图4所示.

图 4

图 4 自适应特征融合结构

Fig.4 Structure of self-adaptive feature fusion

为了实现不同模块神经元能够根据刺激自适应地调整其在网络中的占比，利用门来控制来自2个分支的信息流，通过元素合并的方式来整合2个分支的结果.

(10)$ {{\boldsymbol{U}}} = {\mathrm{Concatenate}}\;({{{\boldsymbol{F}}}_{{\mathrm{S}}}},{{{\boldsymbol{F}}}_{{\mathrm{T}}}}). $

通过元素求和的方式对$ {\boldsymbol{U}} $进行初步融合，生成融合特征$ {{\boldsymbol{Z}}} \in {{{\bf{R}}^{{d} \times 1}}} $：

(11)$ {{{Z}}_{{p}}} = \sum\limits_{i = 1}^c {{U_p}\left( i \right)}; \;p=1,2, \cdots ,d. $

通过全连接层${W_{{\mathrm{fc}}}} $得到压缩特征$ {{\boldsymbol{S}}} \in {{\bf{R}}^{k \times 1}} $，以实现自适应选择的引导，减少维度，加快计算效率.

(12)$ {{\boldsymbol{S}}} = {W_{{\mathrm{fc}}}}\left( {l \left( {\partial \left( {{\boldsymbol{Z}}} \right)} \right)} \right). $

式中：$ k $为压缩特征数，k = 8；$ \partial $表示卷积操作；$ l $表示$ {\mathrm{RuLU}} $函数.

为了实现自适应调节，通过注意机制设计控制门，选择网络最重要的区域. 这是由$ {\text{softmax}} $函数来获得各路径特征的选择权重：

(13)$ \left.\begin{aligned} &{m_d} = \frac{{{{\rm{exp}}\;({{{\boldsymbol{M}}_d}}}{\boldsymbol{S}})}}{{{{\rm{exp}}\;({{{\boldsymbol{M}}_d}}}{\boldsymbol{S}})+{{\rm{exp}}\;({{{\boldsymbol{N}}_d}}}{\boldsymbol{S}})}}, \\&{n_d} = \frac{{{{\rm{exp}}\;({{{\boldsymbol{N}}_d}}}{\boldsymbol{S}})}}{{{{\rm{exp}}\;({{{\boldsymbol{M}}_d}}}{\boldsymbol{S}})+{{\rm{exp}}\;({{{\boldsymbol{N}}_d}}}{\boldsymbol{S}})}},\\&{{{m}}_d}+{{{{{n}}}}_d} = 1. \end{aligned}\right\}$

式中：$ {{\boldsymbol{M}}}、{{\boldsymbol{N}}} \in {{\bf {R}}^{d \times k}} $，$ {{{\boldsymbol{M}}}_{d}}、{{{\boldsymbol{N}}}_{d}} \in {{\bf {R}}^{1 \times k}} $分别对应$ {{\boldsymbol{M}}} $和$ {{\boldsymbol{N}}} $的第$ {{d}} $个分量；$ {{\boldsymbol{m}}} $和$ {{\boldsymbol{n}}} $分别对应$ {{{\boldsymbol{F}}}_{{\mathrm{S}}}} $和$ {{{\boldsymbol{F}}}_{{\mathrm{T}}}} $的软注意力向量. 根据软注意力向量的选择权重聚合对应分支的信息，得到最终的特征映射$ {\hat {\boldsymbol{F}}} $.

(14)$ {\hat {\boldsymbol{F}}} = {{\tilde {\boldsymbol{F}}}_{{\mathrm{S}}}}+{{\tilde {\boldsymbol{F}}}_{{\mathrm{T}}}} = {{\boldsymbol{m}}} {{{\boldsymbol{F}}}_{{\mathrm{S}}}}+{{\boldsymbol{n}}} {{{\boldsymbol{F}}}_{{\mathrm{T}}}}. $

2. 实验采集与处理

2.1. 实验数据采集

研究数据的采集所用的设备是英国朴次茅斯大学团队所研发的ELONXI肌电仪. 选用16个通道采样，系统采样频率为1 kHz，采样分辨率为24 bit，在50 Hz下进行滤波操作.

实验共邀请8名健康受试者(7名男性、1名女性，年龄为(25±5)岁，身高为(175±10) cm，体重为(65±10) kg)，参与3 d(每天上午9时与下午15时，共6个时间段)的数据采集工作. 受试者在实验前均被告知本次采集的完整过程. 在采集前，使用酒精棉对受试者右前臂进行清洁，每位受试者将肌电采集袖套佩戴在右前臂，调节袖套使其紧贴肌肉，无法产生滑动，前臂与桌面呈45°角放置在桌面，根据指示完成相应动作. 每个人每个时间段分别演示5个手势动作，重复做3组，尽量保持每次手势的动作力度相当. 每个手势动作持续12 s，取中间10 s的稳定信号进行记录，每2个动作之间休息10 s. 这5种手势分别是握拳(hand closed, HC)、伸掌(hand open, HO)、手腕弯曲(radial flexion, RF)、手掌向下(wrist flexion, WF)、手腕展开(wrist extension, WE)^[24]. 具体手势如图5所示.

图 5

图 5 手势动作的示意图

Fig.5 Diagram of hand gesture movement

2.2. 数据预处理

原始的sEMG可以看作是一连串连续的一维时间序列信号，而要实现通过sEMG对假肢的实时控制，输入延时是重点需要考虑的因素，因此采用窗口分析法对数据进行预处理. 该方法最重要的参数有2个，分别是滑动窗口长度和增量区间^[25]. 滑动窗口的大小影响识别精度，增量区间对应影响系统的响应时间. 如图6所示为窗口分析法的具体处理过程. 图中，$ w $为滑动窗口长度，$ t $为增量区间，$U $为电压幅值.

图 6

图 6 窗口分析法

Fig.6 Window analysis method

Hudgins等^[26]提出最大允许时延是300 ms，因此本文设定$ w $为300，$ t $为50，提取离散特征的数目$ n $为14，加强特征二维化方法的转换参数$ \alpha $和$ \beta $均取0.5. 实验所选取sEMG的离散特征分别为均方根(root mean square, RMS)、平均绝对值(mean absolute value, MAV)、波形长度(waveform length, WL)、过零点数(zero crossing, ZC)、差分绝对标准差值(difference absolute standard deviation value, DASDV)、对数积分肌电值(log detector, LOG)、平方积分(simple square integral, SSI)、第三时间矩(the third moment of sEMG, TM3)、第四时间矩(the fourth moment of sEMG, TM4)、第五时间矩(the fifth moment of sEMG, TM5)、频率比(frequency ratio, FR)、积分肌电值(integrated EMG, IEMG)、平均频率(mean frequency, MNF)、中值频率(median frequency, MDF)^[27-28].

3. 实验结果与分析

目前采集sEMG大多在理想条件下进行，而在现实生活中的采集存在诸多不可控因素，电极偏移和受试者个体差异是影响识别效果的2个重要因素^[29]. 电极偏移指的是在采集过程中，由于电极袖套的穿戴与脱下，无法保证同一个电极对应之前皮肤的同一个位置，采集的数据会因检测点的变化在分布上有所差异. 不同受试者之间的浅层肌肉、运动神经元位置分布不同，在做出相同动作时产生的电位分布有所不同.

针对上述情况，设计2种实验. 1)对于同一个受试者，分上、下午2个不同时间段，采集训练数据与测试数据(穿戴电极袖套的相对位置有所不同)，模拟电极偏移的情况. 2)对多名受试者采集相同的手势，以探究模型在不同受试者之间的识别效果. 网络运行的具体过程如图7所示.

图 7

图 7 ETDTBN网络的结构

Fig.7 Structure of ETDTBN network

本文的网络模型参数如表1所示. 表中，SAFF为本文提出的自适应特征融合方法.

表 1 ETDTBN网络的结构参数

Tab.1 Structural parameters of ETDTBN

网络层	操作	卷积核/步长	输出/通道	零补
Input	—	—/—	300/16	—
ML-CNN	Conv2d	55/11	15*15/64	是
	MaxPool	22/22	8*8/64	是
	Conv2d	33/11	4*4/128	是
	MaxPool	22/22	4*4/128	是
	FC	—/—	512/—	—
	FC	—/—	128/—	—
Bi-GRU	Bi-GRU	—/—	256/16	—
	Conv1d	3/2	128/32	是
	Conv1d	1/1	128/32	否
	Conv1d	3/2	64/64	是
	Conv1d	1/1	64/64	否
	FC	—/—	512/—	—
	FC	—/—	128/—	—
Class	SAFF	—/—	128/—	—
	FC	—/—	64/—	—
	FC	—/—	5/—	—

3.1. 电极偏移情况下的识别效果

为了验证ETDTBN模型在电极偏移情况下的有效性，实验选取一名受试者在上午的一个连续时间段重复采集3次规定动作的sEMG数据作为训练集，其中每组之间休息10 min，避免肌肉疲劳且保证电极袖套不脱下. 在下午重新佩戴电极袖套后，将测得的一组sEMG作为测试集. 实验设置批大小为16，训练总轮次为40，采用Adam算法优化模型参数，初始学习率为0.000 5，采用余弦退火策略衰减学习率，得到的实验结果如表2所示. 表中，P_c为手势动作准确率，P_o为总体准确率，FE为特征提取，ETD为本文的加强二维化方法.

表 2 电极偏移情况下各方法的识别效果

Tab.2 Recognition effect of each method under electrode displacement

方法	P_c/%					P_o/%
方法	HC	HO	RF	WE	WF	P_o/%
KNN+FE^[30]	28.21±0.00	9.23±0.00	94.90±0.00	100±0.00	100±0.00	66.67±0.00
SVM+FE^[31]	42.64±0.00	18.97±0.00	87.82±0.00	100±0.00	100±0.00	70.49±0.00
CNN^[8]	90.72±6.97	13.42±7.82	23.21±10.15	96.79±2.58	96.75±5.29	64.18±2.73
CNN+FE	29.89±4.24	33.91±16.26	95.01±3.60	98.90±1.31	91.58±10.66	70.87±2.74
CNN+FE+ETD	85.56±4.44	40.33±13.50	75.20±8.05	98.85±1.18	86.18±5.24	78.24±2.26
RESNET+FE^[32]	31.09±3.94	35.17±10.96	90.78±4.88	98.92±1.29	92.22±3.26	70.78±2.66
Bi-GRU^[33]	84.10±8.19	5.41±5.09	72.67±10.26	100±0.00	99.34±1.09	72.04±2.35
LSTM^[34]	73.64±11.84	4.33±1.99	71.13±18.33	100±0.00	99.40±1.02	70.88±3.55
TRANSFORMER^[35]	80.64±5.84	20.15±3.53	66.17±8.62	98.55±1.38	89.14±2.19	66.14±3.25
LCNN^[36]	93.13±2.98	12.51±3.53	81.03±6.54	98.26±0.52	91.08±4.90	76.38±0.94
TDACAPS^[14]	97.59±2.62	74.87±15.71	95.18±4.42	98.56±1.82	55.39±16.87	84.77±0.82
ETDTBN	99.80±0.41	66.36±6.90	69.85±7.44	100±0.00	99.85±0.36	86.95±1.64

以KNN和SVM为代表的传统机器学习模型在动作WE和WF上的识别效果最好，均达到了100%的识别率，但对于其他手势动作的识别效果不理想. Bi-GRU的总体准确率略高于LSTM和TRANSFORMER，且Bi-GRU在模型结构上更简单，训练参数与时间更少，故选用Bi-GRU作为网络提取原信号时间特征的部分. 将提出的加强二维化方法用于CNN模型，与CNN+FE和RESNET+FE模型相比，整体识别率分别提高了7.37%和7.46%，在动作HO的识别上效果有所提升，说明利用该方法能够挖掘出HO的部分特性. 与LCNN相比，ETDTBN在保持动作HC、WE和WF接近100%识别率的情况下，对手势HO的分类准确率提高了53.85%，且该模型在12种方法中的总体识别率最高，达到86.95%，说明利用提出的方法能够有效地识别肌电信号.

如图8所示为各方法在训练过程中测试准确率的变化图像，各个模型的测试准确率都随着迭代次数N_i的增加而提升. ETDTBN在第5个轮次开始收敛，准确率开始逐步升高，在第35个轮次开始趋于稳定，最终测试准确率最高.

图 8

图 8 电极偏移情况下各模型的分类准确率

Fig.8 Classification accuracy of different model in case of electrode displacement

如图9所示为ETDTBN模型及3个对比模型在电极偏移情况下的混淆矩阵. 可知，4个模型对于手势WE和WF有着较高的识别准确率，尤其ETDTBN的识别准确率接近100%. 手势HO在3个对比模型中的分类结果较差，准确率分别仅有34%、4%与13%，而且大部分结果将手势HO误判成手势WF，说明手势HO与WF在深层特征中有极高的相似度，仅提取单一的空间特征或时间特征不足以区分手势HO与WF. ETDTBN能够有效地提取与融合sEMG的空间特征与时间特征，显著提升了手势HO的识别准确率，这说明ETDTBN对相似特征间的相对关系有着更好的表征性.

图 9

图 9 电极偏移情况下不同模型的混淆矩阵比较

Fig.9 Comparison of confusion matrix of different method under electrode displacement

3.2. 不同受试者情况下的识别效果

为了测试不同受试者情况下的识别效果，实验采集了8位受试者的sEMG数据，其中7名受试者的数据作为数据集，1名受试者的数据作为测试集. 实验设置批大小为16，训练总轮次为30. 采用Adam算法优化模型参数，初始学习率为0.000 5，采用余弦退火策略衰减学习率，分别使用不同模型对数据集进行实验，得到的实验结果如表3所示.

表 3 不同受试者情况下各方法的识别效果

Tab.3 Recognition accuracy of each method under different subject

方法	P_c/%					P_o/%
方法	HC	HO	RF	WE	WF	P_o/%
KNN+FE^[30]	97.18±0.00	72.99±0.00	47.95±0.00	93.50±0.00	42.14±0.00	70.75±0.00
SVM+FE^[31]	64.27±0.00	86.24±0.00	51.71±0.00	100.00±0.00	52.99±0.00	71.04±0.00
CNN^[8]	87.35±3.45	66.63±0.58	58.44±2.09	98.94±0.65	40.85±1.05	70.49±0.86
CNN+FE	71.99±4.16	90.51±1.85	80.87±7.59	99.82±0.49	31.39±7.51	75.06±0.18
CNN+FE+ETD	82.63±2.37	80.13±3.88	82.22±6.97	99.25±0.78	33.68±8.55	77.57±0.78
RESNET+FE^[32]	73.79±3.96	85.22±2.78	81.17±6.19	99.22±0.65	32.11±6.95	74.96±0.26
Bi-GRU^[33]	82.06±6.71	66.26±7.42	37.35±3.84	94.65±2.52	63.98±5.02	68.93±0.38
LSTM^[34]	78.79±6.81	60.85±5.56	40.32±3.96	99.27±0.72	54.03±6.77	67.08±1.11
TRANSFORMER^[35]	83.09±2.81	59.05±6.56	33.22±3.88	97.57±0.92	55.13±6.44	65.33±1.08
LCNN^[36]	95.95±2.11	80.78±3.46	62.25±5.33	99.69±0.15	46.95±3.16	77.26±0.53
TDACAPS^[14]	98.25±3.89	84.98±7.12	82.48±5.96	98.24±0.62	44.75±5.50	81.90±1.09
ETDTBN	99.75±0.15	75.51±1.85	95.27±2.54	99.93±0.05	50.21±0.45	84.15±0.41

从表3可以看出，当识别不同受试者的sEMG时，利用本实验的12种方法，能够较好地识别动作WE，但对动作WF的分类效果不理想. CNN模型通过加强二维化方法处理后，提升了总体准确率，对于除WF外的其他手势，均达到了大于80%的准确率. 以Bi-GRU和LSTM为代表的RNN在本实验中表现欠佳，但在动作WF的识别上优于其他模型. 与LCNN模型相比，ETDTBN模型的总体分类准确率提高了6.89%，ETDTBN模型是所有方法中效果最优的，总识别率为84.15%. 本文提出的方法对动作HC、RF、WE的识别效果均达到最佳，HO与WF的识别率虽然没有达到良好的预期，但高于大部分方法.

不同受试者情况下，利用各方法测试准确率的变化图像如图10所示. 与其他方法相比，ETDTBN的收敛速度较慢，刚开始分类准确率较低，但随着后续模型的不断训练，测试准确率稳步上升，在第25次迭代后趋于稳定，总体准确率维持在84%左右.

图 10

图 10 不同受试者情况下各模型的分类准确率变化

Fig.10 Change of classification accuracy of different model in case of different subject

如图11所示为ETDTBN模型及3个对比模型在不同受试者情况下的混淆矩阵. 可知，4种方法对动作HC和WE有着较好的辨识性，与电极偏移情况不同的是，各方法对于动作WF的识别出现了问题，识别效果不理想. CNN模型对WF的识别准确率仅为31%，有超过一半的结果指向HO，说明仅从空间结构特性分析无法较好地区分手势HO与WF，Bi-GRU模型对动作WF的识别准确率为64%，说明手势HO与WF在时间结构的差异大于空间结构. 与LCNN模型相比，ETDTBN模型对HC、RF、WF手势动作的分类准确率分别提高了4%、33%、4%，说明ETDTBN能够更好地突出输入数据的局部特征，保留时间序列的依赖性.

图 11

图 11 不同受试者情况下不同模型的混淆矩阵

Fig.11 Comparison of confusion matrix of different method under different subject

3.3. 自适应特征融合

特征融合是模式识别领域的一种重要方法，不同的特征融合方法对于网络模型的分类效果有着不同的影响. 针对不同情况下的sEMG识别问题，对比了几个传统的特征融合方法(加性融合函数和级联融合策略)，通过对比实验验证了提出的自适应特征融合机制的有效性. 实验结果如表4所示.

表 4 融合策略对表面肌电信号分类准确率的影响

Tab.4 Effect of fusion strategies on classification accuracy of sEMG signals

方法	P_o/%
方法	电极偏移情况下	不同受试者情况下
ETDTBN +Sum	84.28±1.53	83.17±0.82
ETDTBN +Concat	82.06±2.07	81.21±0.97
ETDTBN+SAFF	86.95±1.64	84.15±0.41

从表4可以看出，无论是在电极偏移情况还是在不同受试者情况下，提出的自适应特征融合机制在识别准确率上均表现为最优. 在电极偏移情况下，ETDTBN+SAFF在测试集上的总体准确率为86.95%，较级联融合策略提升了4.89%. 对于不同的受试者，SAFF方法对分类效果的提升最明显，说明SAFF方法在融合多种特征时不仅注重多网络间的关联信息，也能突出不同特征间的重要程度关系，对更重要的特征赋予更大的权重系数，相反则赋予较小的权重系数加以抑制. SAFF方法更能够综合利用多种sEMG信号特征，实现多特征的优势互补，多种特征的有机结合能够使模型在手势识别任务中占据更大的优势.

3.4. 模型复杂度和通用性的分析

分析各个模型的复杂度，在公开数据集NinaPro DB1、NinaPro DB2、NinaPro DB4上与国内外主流的肌电手势识别模型进行对比，所有模型的参数量、计算量、训练时间及预测时间如表5所示. 表中，N_p为参数量，C为计算量，t_e为电极偏移训练时间，t_p为不同受试者情况下的训练时间，t_r为预测时间. 从计算资源来看，以SVM和KNN为代表的机器学习算法的计算速度最快，花费的训练时间和预测时间都最少. 该类算法在具体识别场景中的识别准确率只有70%左右，虽然在时间上有优势，但在准确率上有待提升. 基于深度学习的模型在参数量和计算量上远大于机器学习算法，训练时间有所增加，但在准确率上有明显的提升，模型预测时间小于1 ms，远远小于300 ms的时延标准. 本文提出的ETDTBN模型虽然在计算资源的消耗上有所增加，但训练时间在同类模型中处于优势地位. 在手势识别分类任务中，需要优先保证准确率，以计算资源换取更高的准确率是可行的.

表 5 所有方法的计算资源分析

Tab.5 Computational resource analysis for all methods

方法	N_p/10⁶	C/MB	t_e/s	t_p/s	t_r/ms
KNN+FE^[30]	—	—	0.78±0.01	86.86±1.22	0.020±0.001
SVM+FE^[31]	—	—	0.48±0.01	77.06±1.62	0.030±0.001
CNN^[8]	4.98	162.73	22.65±0.98	148.61±3.38	0.078±0.003
CNN+FE	0.76	117.30	14.13±0.46	101.32±2.11	0.066±0.002
CNN+FE+ETD	1.15	184.48	20.19±0.65	153.51±3.65	0.086±0.002
RESNET+FE^[32]	0.55	336.88	21.96±0.52	147.53±4.06	0.071±0.002
Bi-GRU^[33]	1.41	118.10	16.76±0.50	160.49±2.98	0.078±0.002
LSTM^[34]	1.52	146.35	17.14±0.59	168.25±3.16	0.082±0.002
TRANSFORMER^[35]	2.49	335.68	24.16±0.66	187.23±4.56	0.079±0.002
LCNN^[36]	1.77	533.50	21.06±0.62	180.85±4.29	0.082±0.003
TDACAPS^[14]	0.87	741.38	216.45±6.16	1978.12±14.18	1.047±0.030
ETDTBN	3.73	321.41	17.85±0.48	156.28±3.99	0.076±0.002

从表6可知，ETDTBN模型在3个NinaPro数据集中均取得了最高的识别准确率，在包含10个受试者数据中的NinaPro DB4数据集上，与其他算法相比，模型提升效果最明显. 可知，ETDTBN模型在手势分类问题上具备较好的泛化性和鲁棒性.

表 6 各方法在公开数据集上的识别效果

Tab.6 Recognition effectiveness of each method on public dataset

方法	P_o/%
ChenNet^[8]	68.23±2.07	71.74±3.67	67.25±4.49
HuNet^[10]	81.18±5.69	82.21±5.69	69.52±3.94
WeiNet^[37]	82.06±3.47	80.72±4.97	53.27±5.77
ETDTBN	82.59±4.46	83.01±3.42	77.16±3.98

4. 结　语

为了充分提取sEMG的有效特征，提高对相似手势的识别准确率，本文提出的ETDTBN模型利用加强二维化方法，将一维离散特征通过特征组合的形式构成二维规则特征图，加强了不同特征之间的联系，解决了原离散特征二维化方法生成的二维特征关系图参数重复冗余、特征信息稀疏的问题. 利用CNN在图像空间数据特征上的泛化能力，结合Bi-GRU网络善于提取信号时序特征的优势，利用2种网络同时挖掘sEMG信号的空间特征与时间特征. 利用SAFF策略对不同分支进行融合，组成时空特征，这样包含的信息更加全面，更有利于后续的分类.

本文通过大量实验，验证了ETDTBN模型的有效性与鲁棒性. 针对电极偏移和不同受试者情况下的手势识别实验，ETDTBN模型均有良好的表现. 在电极偏移实验中，手势动作HO和WF有着较高的相似度，大部分方法不能区分2种手势动作，但ETDTBN模型能够较好地区分它们，总准确率达到了86.95%. 在不同受试者实验中，ETDTBN模型的总体分类准确率优于传统机器学习方法和主流的肌电手势识别网络. 结果证明，结合CNN和Bi-GRU网络，能够有效地提高sEMG的手势识别性能. 在NinaPro数据集上，ETDTBN模型有着良好的表现，说明它在不同类型的数据集上有着较好的泛化性和通用性.

在后续的研究中，本文将进一步优化网络模型，研究其他网络的组合对表面肌电手势识别的影响，提高对相似手势的识别准确率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

BHAUMIK G, VERMA M, GOVIL M C, et al

Hyfinet: hybrid feature attention network for hand gesture recognition

[J]. Multimedia Tools and Applications, 2023, 82 (4): 4863- 4882

DOI:10.1007/s11042-021-11623-3 [本文引用: 1]

[2]

都明宇, 鲍官军, 杨庆华, 等

基于改进支持向量机的人手动作模式识别方法

[J]. 浙江大学学报: 工学版, 2018, 52 (7): 1239- 1246

[本文引用: 2]

DOU Mingyu, BAO Guanjun, YANG Qinghua, et al

Novel method in pattern recognition of hand actions based on improved support vector machine

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (7): 1239- 1246

[本文引用: 2]

[3]

赵翠莲, 徐浩宇, 罗林辉, 等

熵在不同等级偏瘫患者sEMG运动检测中的应用

[J]. 浙江大学学报: 工学版, 2018, 52 (4): 798- 805

ZHAO Cuilian, XU Haoyu, LUO Linhui, et al

SEMG activity detection of hemiplegic patients in different stages using entropy algorithms

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (4): 798- 805

DOI:10.1016/j.patcog.2010.03.016 [本文引用: 1]

[4]

CHENG Y, LI G, YU M, et al

Gesture recognition based on surface electromyography-feature image

[J]. Concurrency and Computation: Practice and Experience, 2021, 33 (6): e6051

DOI:10.1002/cpe.6051 [本文引用: 2]

[5]

SUK H I, SIN B K, LEE S W

Hand gesture recognition based on dynamic Bayesian network framework

[J]. Pattern Recognition, 2010, 43 (9): 3059- 3072

[6]

QI J, JIANG G, LI G, et al

Intelligent human-computer interaction based on surface EMG gesture recognition

[J]. IEEE Access, 2019, 7: 61378- 61387

DOI:10.1109/ACCESS.2019.2914728 [本文引用: 1]

[7]

BARGELLESI N, CARLETTI M, CENEDESE A, et al

A random forest-based approach for hand gesture recognition with wireless wearable motion capture sensors

[J]. IFAC-PapersOnLine, 2019, 52 (11): 128- 133

DOI:10.1016/j.ifacol.2019.09.129 [本文引用: 1]

[8]

CHEN H, ZHANG Y, LI G, et al

Surface electromyography feature extraction via convolutional neural network

[J]. International Journal of Machine Learning and Cybernetics, 2020, 11 (1): 185- 196

DOI:10.1007/s13042-019-00966-x [本文引用: 5]

[9]

WANG H, ZHANG Y, LIU C, et al

sEMG based hand gesture recognition with deformable convolutional network

[J]. International Journal of Machine Learning and Cybernetics, 2022, 13 (6): 1729- 1738

DOI:10.1007/s13042-021-01482-7 [本文引用: 1]

[10]

HU Y, WONG Y, WEI W, et al

A novel attention-based hybrid CNN-RNN architecture for sEMG-based gesture recognition

[J]. PloS one, 2018, 13 (10): e0206049

DOI:10.1371/journal.pone.0206049 [本文引用: 2]

[11]

TSINGANOS P, CORNELIS B, CORNELIS J, et al. Improved gesture recognition based on sEMG signals and TCN [C]// IEEE International Conference on Acoustics, Speech and Signal Processing . Brighton: IEEE, 2019: 1169-1173.

[12]

WANG W, YOU W, WANG Z, et al

Feature fusion-based improved capsule network for sEMG signal recognition

[J]. Computational Intelligence and Neuroscience, 2022, (1): 7603319

[13]

KUMAR V, MINZ S

Feature selection: a literature review

[J]. SmartCR, 2014, 4 (3): 211- 229

DOI:10.1016/j.patcog.2017.10.013 [本文引用: 1]

[14]

CHEN G, WANG W, WANG Z, et al

Two-dimensional discrete feature based spatial attention CapsNet for sEMG signal recognition

[J]. Applied Intelligence, 2020, 50: 3503- 3520

DOI:10.1007/s10489-020-01725-0 [本文引用: 4]

[15]

GU J, WANG Z, KUEN J, et al

Recent advances in convolutional neural networks

[J]. Pattern Recognition, 2018, 77: 354- 377

[16]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60 (6): 84- 90

DOI:10.1145/3065386 [本文引用: 1]

[17]

O'SHEA K, NASH R. An introduction to convolutional neural networks [EB/OL]. [2023-09-01]. https://arxiv.org/abs/1511.08458.

[18]

SHERSTINSKY A

Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network

[J]. Physica D: Nonlinear Phenomena, 2020, 404: 132306

DOI:10.1016/j.physd.2019.132306 [本文引用: 1]

[19]

YU Y, SI X, HU C, et al

A review of recurrent neural networks: LSTM cells and network architectures

[J]. Neural Computation, 2019, 31 (7): 1235- 1270

DOI:10.1162/neco_a_01199 [本文引用: 1]

[20]

SHEWALKAR A, NYAVANANDI D, LUDWIG S A

Performance evaluation of deep neural networks applied to speech recognition: RNN, LSTM and GRU

[J]. Journal of Artificial Intelligence and Soft Computing Research, 2019, 9 (4): 235- 245

DOI:10.2478/jaiscr-2019-0006 [本文引用: 1]

[21]

CHO K, VAN M B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [EB/OL]. [2023-09-01]. https://arxiv.org/abs/1406.1078.

[22]

BERGLUND M, RAIKO T, HONKALA M, et al. Bidirectional recurrent neural networks as generative models [EB/OL]. [2023-09-01]. https://proceedings.neurips.cc/paper/2015/hash/c75b6f114c23a4d7ea11331e7c00e73c-Abstract.html.

[23]

LI X, WANG W, HU X, et al. Selective kernel networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 510-519.

[24]

ATZORI M, GIJSBERTS A, HEYNEN S, et al. Building the Ninapro database: a resource for the biorobotics community [C]// 4th IEEE RAS and EMBS International Conference on Biomedical Robotics and Biomechatronics . Rome: IEEE, 2012: 1258-1265.

[25]

NAZMI N, RAHMAN M A, YAMAMOTO S, et al

Assessment on stationarity of EMG signals with different windows size during isotonic contractions

[J]. Applied Sciences, 2017, 7 (10): 1050

DOI:10.3390/app7101050 [本文引用: 1]

[26]

HUDGINS B, PARKER P, SCOTT R N

A new strategy for multifunction myoelectric control

[J]. IEEE Transactions on Biomedical Engineering, 1993, 40 (1): 82- 94

DOI:10.1109/10.204774 [本文引用: 1]

[27]

PHINYOMARK A, PHUKPATTARANONT P, LIMSAKUL C

Feature reduction and selection for EMG signal classification

[J]. Expert Systems with Applications, 2012, 39 (8): 7420- 7431

DOI:10.1016/j.eswa.2012.01.102 [本文引用: 1]

[28]

ABBASPOUR S, LINDEN M, GHOLAMHOSSEINI H, et al

Evaluation of surface EMG-based recognition algorithms for decoding hand movements

[J]. Medical and Biological Engineering and Computing, 2020, 58: 83- 100

DOI:10.1007/s11517-019-02073-z [本文引用: 1]

[29]

ZI L I, ZA X G, BI Z, et al

Review of sEMG-based motion intent recognition methods in non-ideal conditions

[J]. Acta Automatica Sinica, 2021, 47 (5): 955- 969

[30]

PAUL Y, GOYAL V, JASWAL R A. Comparative analysis between SVM & KNN classifier for EMG signal classification on elementary time domain features [C]// 4th International Conference on Signal Processing, Computing and Control . Solan: IEEE, 2017: 169-175.

[31]

NARAYAN Y

Comparative analysis of SVM and Naive Bayes classifier for the SEMG signal classification

[J]. Materials Today: Proceedings, 2021, 37: 3241- 3245

DOI:10.1016/j.matpr.2020.09.093 [本文引用: 3]

[32]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2016: 770-778.

[33]

ZHAO R, WANG D, YAN R, et al

Machine health monitoring using local feature-based gated recurrent unit networks

[J]. IEEE Transactions on Industrial Electronics, 2017, 65 (2): 1539- 1548

[34]

GRAVES A, SCHMIDHUBER J

Framewise phoneme classification with bidirectional LSTM and other neural network architectures

[J]. Neural Networks, 2005, 18 (5/6): 602- 610

[35]

SHEN S, WANG X, MAO F, et al

Movements classification through sEMG with convolutional vision transformer and stacking ensemble learning

[J]. IEEE Sensors Journal, 2022, 22 (13): 13318- 13325

DOI:10.1109/JSEN.2022.3179535 [本文引用: 3]

[36]

WU Y, ZHENG B, ZHAO Y. Dynamic gesture recognition based on LSTM-CNN [C]// Chinese Automation Congress . Xi’an: IEEE, 2018: 2446-2450.