浙江大学学报(工学版), 2024, 58(11): 2208-2218 doi: 10.3785/j.issn.1008-973X.2024.11.002

计算机技术、控制工程

基于双分支网络的表面肌电信号识别方法

王万良,, 潘杰, 王铮, 潘家宇

浙江工业大学 计算机科学与技术学院,浙江 杭州 310023

Recognition method of surface electromyographic signal based on two-branch network

WANG Wanliang,, PAN Jie, WANG Zheng, PAN Jiayu

College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China

收稿日期: 2023-09-26  

基金资助: 国家自然科学基金资助项目(51875524, 61873240);浙江大学CAD&CG国家重点实验室开放课题资助项目(A2210).

Received: 2023-09-26  

Fund supported: 国家自然科学基金资助项目(51875524,61873240);浙江大学CAD&CG国家重点实验室开放课题资助项目(A2210).

作者简介 About authors

王万良(1957—),男,教授,从事人工智能及其自动化、网络控制的研究.orcid.org/0000-0002-1552-5075.E-mail:zjutwwl@zjut.edu.cn , E-mail:zjutwwl@zjut.edu.cn

摘要

针对目前表面肌电信号(sEMG)手势识别细节信息提取不充分,对相似手势区分困难的问题,提出基于加强二维化特征的双分支网络(ETDTBN)模型. 该模型通过加强二维化方法生成二维特征图,使用多层卷积神经网络(ML-CNN)提取sEMG的空间特征,利用双向门控循环单元(Bi-GRU)提取原始信号的时序特征. 考虑到不同的特征对网络的影响程度不同,引入自适应特征融合机制对不同分支进行融合,强化有用特征并弱化无用特征,提高表面肌电识别的准确率. 实验在电极偏移和不同受试者2种情况下对ETDTBN进行训练与测试,与主流的肌电手势识别模型进行对比. 可知,ETDTBN的总体识别准确率分别为86.95%和84.15%,准确率均为最优,证明了该模型的有效性.

关键词: 表面肌电信号(sEMG) ; 手势识别 ; 加强二维化特征 ; 双分支网络 ; 自适应特征融合机制

Abstract

An enhanced two-dimensional feature based two-branch network (ETDTBN) was proposed aiming at the problems of insufficient detailed information extraction and difficulty in distinguishing similar gestures in surface electromyogram (sEMG) gesture recognition. Discrete features were converted into two-dimensional feature maps by the proposed enhanced two-dimensional method. Then a multi-layer convolutional neural network (ML-CNN) was used to extract the spatial features, while a bidirectional gated recurrent unit (Bi-GRU) was used to extract the temporal features from the original signal. A self-adaptive feature fusion mechanism was introduced to fuse different branches, strengthen useful features and weaken useless features in order to improve the accuracy of sEMG recognition by considering that different features had different degrees of influence on the network. Experiments were used to train and test the ETDTBN in two scenarios of electrode displacement and different subjects comparing with mainstream sEMG gesture recognition models. Results showed that the overall recognition accuracy of ETDTBN were 86.95% and 84.15%, respectively. Both accuracies are optimal, proving the effectiveness of the model.

Keywords: surface electromyogram (sEMG) ; gesture recognition ; enhanced two-dimensional feature ; two-branch network ; self-adaptive feature fusion mechanism

PDF (2511KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王万良, 潘杰, 王铮, 潘家宇. 基于双分支网络的表面肌电信号识别方法. 浙江大学学报(工学版)[J], 2024, 58(11): 2208-2218 doi:10.3785/j.issn.1008-973X.2024.11.002

WANG Wanliang, PAN Jie, WANG Zheng, PAN Jiayu. Recognition method of surface electromyographic signal based on two-branch network. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(11): 2208-2218 doi:10.3785/j.issn.1008-973X.2024.11.002

肌电信号是肌肉收缩产生的皮下运动动作电位的总和,它代表运动单位动作电位在空间和时间上的叠加[1]. 目前人体仿生假肢的主要控制信号来源于表面肌电信号(sEMG)[2]. sEMG蕴含丰富的生物信息,且信号的采集通常是无创的,在康复医学和临床医学领域上常被当作仿生假肢的控制信号源,被广泛应用于人机交互领域[3].

sEMG是较微弱的生物电信号[2],能够有效地提取肌电信号特征,是目前肌电领域的研究热点. 传统的特征提取方法大多以一个或多个统计值来表示sEMG所隐含的信息,可能会丢失更深层的特征信息[4]. 因为受试者的个体差异和电极偏移诸多外界因素的影响,常用的机器学习方法如贝叶斯分类法[5]、线性判别分析法[6]、随机森林[7]等,它们的分类准确率受到较大的影响.

近年来,不少学者将深度学习算法引入肌电手势识别中,取得了一定的效果. Chen等[8]提出基于卷积神经网络(CNN)的特征提取方法,与传统特征相结合,提高手势识别的精度. Wang等[9]提出结合可变形卷积层获得的高维特征映射与传统卷积层得到的低维特征映射,放入分类层分类,有效提高了手势识别的准确率. Hu等[10]提出基于传统特征向量的新sEMG图像表示方法,能够挖掘肌电信号多个通道之间的隐式相关性. Tsinganos等[11]提出使用时间卷积网络(TCN)来处理sEMG的问题,提高了识别准确率,但在实时性试验中表现欠佳,说明TCN无法满足实时性要求较高的手势识别系统.

综上所述,基于深度学习的肌电识别研究在可泛化性与识别准确率问题上取得了一定的进步,但在个别相似度较高的手势上识别困难. 对此,本文提出基于加强二维化的双分支网络模型(ETDTBN)用于提取时空特征,通过提出的融合方法,将不同角度的特征进行融合,实现多特征的优势互补.

1. 相关方法

近年来,学者通常将提取原始肌电信号所得到的一维离散特征转换为高维特征图后,送入深度学习网络进行训练[12]. 现有的深度学习网络模型如CNN侧重捕捉肌电信号的空间信息,但忽视了肌电信号本质上是一连串时间序列数据,可能会忽视某些关键性特征[4]. 本文提出ETDTBN框架,整体结构如图1所示.

图 1

图 1   ETDTBN的整体结构

Fig.1   Overall framework of ETDTBN


1.1. 加强二维化方法

在机器学习中,对于某个对象的属性特征通常会以特征向量的形式来表示[13]. 目前现有的提取原始肌电信号方法只能得到一维离散特征,若对一维离散特征不作处理,则容易遗漏不同离散特征之间的相关性,导致较难区分相似手势情况下的sEMG. Chen等[14]提出离散特征二维化的方法,构建包含离散特征与合成特征的二维特征关系图,但该方法存在处理后特征信息稀疏、参数重复冗余的问题,由此本文提出加强二维化方法.

该方法通过数学公式从原始信号的每个通道提取$ n $个特征,特征向量$ {{\boldsymbol{v}}} $可以表示成

$ {\boldsymbol{v}}{\text{ = }}\left[ {{{{v}}_1}{\text{,}}\;{{{v}}_2}{\text{,}}\;\cdots{\text{,}}\;{{{v}}_i}{\text{,}}\;\cdots{\text{,}}\;{{{{v}}}_{n}}} \right]{\text{.}} $

式中:$ {{{{v}}}_{i}} $为第$ {i} $个离散特征.

为了保留单个离散特征自身的信息,在特征向量$ {{\boldsymbol{v}}} $上增加$ {1} $,组成n+1维特征向量$ {{\boldsymbol{f}}} $,表示为

$ {{\boldsymbol{f}}} = [{1}{\text{,}}\;{{{{v}}}_{1}}{\text{,}}\;{{{{v}}}_{2}}{\text{,}}\;\cdots{\text{,}}\;{{{{v}}}_{i}}{\text{,}}\;\cdots{\text{,}}\;{{{{v}}}_{n}}]. $

如果直接对向量$ {{\boldsymbol{f}}} $进行笛卡尔积操作,将向量中的相同特征两两组合,那么二维特征图中有一半信息是重复的,导致二维矩阵的特征数据重复输入. 考虑将特征向量$ {{\boldsymbol{f}}} $中的离散特征信息进行平方处理,放大其中的细节特征:

$ {{\boldsymbol{s}}}{\text{ = }}{{{\boldsymbol{f}}}^{2}}{\text{ = }}\left[ {{1}{\text{,}}\;{{{v}}}_{1}^{2}{\text{,}}\;{{{v}}}_{2}^{2}{\text{,}}\;\cdots{\text{,}}\;{{{v}}}_{i}^{2}{\text{,}}\;\cdots{\text{,}}\;{{{v}}}_{n}^{2}} \right]{\text{.}} $

在得到特征向量$ {{\boldsymbol{s}}} $与特征向量$ {{\boldsymbol{f}}} $后,二维特征矩阵$ {{\boldsymbol{F}}} $可以利用下式计算:

$ {{\boldsymbol{F}}} = \sigma \left( {\alpha {{\left( {{{{\boldsymbol{f}}}^{{\mathrm{T}}}} \times {{\boldsymbol{s}}}} \right)}^\beta }} \right). $

$ {{\boldsymbol{f}}} \times {{\boldsymbol{s}}}{\text{ = }}\left\{ {\left( {{{{\boldsymbol{f}}}_{i}} \cdot {{{\boldsymbol{s}}}_{j}}} \right)\left| {{{{\boldsymbol{f}}}_{i}} \in {{\boldsymbol{f}}} 且 } \right.{{{\boldsymbol{s}}}_{j}} \in {{\boldsymbol{s}}}} \right\}. $

式中:$ \alpha $$ \beta $分别为转换参数;$ \times $表示笛卡尔乘积;$ \sigma $$ {\mathrm{sigmoid}} $激活函数,将变量映射到$ \left[ {0,1.0} \right] $区间,引入非线性;$ {{\boldsymbol{F}}} $$ {{\boldsymbol{f}}} $$ {{\boldsymbol{s}}} $通过笛卡尔积运算得到的二维特征矩阵.

1.2. 双分支网络结构

肌电原始信号经加强二维化后得到二维特征矩阵,需要放入深度学习模型中进一步训练. CNN模型是目前应用最广泛的深度学习算法之一,在基于sEMG的手势识别问题上有着良好的表现[15]. 肌电信号是时序信号,CNN不能有效地分析时序信号的历史信息. 门控循环神经网络与CNN最大的不同是它有记忆功能,当前的输出不仅依赖于当前的输入,而且依赖于前一次的输出,这使得它具有较强的处理时间序列的能力. CNN和RNN各自提取的特征信息侧重点不同,结合2种网络,有利于发挥各自的特点与优势. 本文提出双分支网络模型,具体结构如图2所示.

图 2

图 2   双分支网络的实现细节

Fig.2   Detail of two-branch structure


1.2.1. 多层卷积神经网络

CNN是包含卷积计算且具备深度结构的前馈神经网络,从低层到高层逐步训练得到深层特征信息. 对输入数据进行分类,CNN具备局部连接与共享权重的特点,主要包括卷积层、池化层和全连接层[16-17].

对处理后的二维特征矩阵进行空间特征的提取,利用不同尺度的卷积核多尺度、多层次地提取输入数据中的信息,从低级特征中迭代提取更复杂的特征. 该模型由6层组成,第1层是卷积层,包含16个5×5卷积核,步长为1,填充为2. 经过最大池化层,得到维度较小的特征,在保留有价值信息的同时,减少网络的参数量和计算量. 经过包含64个3×3卷积核、步长为1、填充为1的卷积层和最大池化层,在较小的感受野下捕捉更细节的局部信息. 为了得到最有效的空间特征,依次使用2层分别包含512个单位和128个单位的全连接层,经归一化操作和非线性激活函数后,得到的空间特征大小为128×16.

1.2.2. 双向门控循环单元

RNN在处理时序性较强的信号时有着较好的效果[18]. RNN在训练过程中容易出现梯度消失或梯度爆炸的情况,存在长期依赖的问题[19]. 门限循环单元(GRU)是RNN的重要变体,能够较好地克服这些问题. GRU以原始信号作为输入,保留sEMG原始时间序列的相关性与时间依赖性,相较于长短期记忆网络(LSTM),GRU结构更简单,训练参数量更少,可以有效地减少训练时间,提高计算速率[20].

GRU是由Cho等[21]提出的. GRU由更新门和重置门组成. 其中更新门代替了LSTM中的输入门和遗忘门,控制当前状态要从历史状态中保留多少有用信息以及要从候选状态中接受多少新信息.

$ {{{\boldsymbol{z}}}_{t}} = \sigma\; ({{{\boldsymbol{x}}}_{t}}{{{\boldsymbol{W}}}_{{xz}}}+{{{\boldsymbol{h}}}_{{t - 1}}}{{{\boldsymbol{W}}}_{{hz}}}+{{{\boldsymbol{b}}}_{z}}). $

重置门用来控制候选状态$ \tilde{\boldsymbol{ h}} $依赖于上一时刻的状态$ {{\boldsymbol{h}}_{t - 1}} $的程度,即控制要遗忘多少过去的信息.

$ {{{\boldsymbol{r}}}_{t}} = \sigma \;({{{\boldsymbol{x}}}_{t}}{{{\boldsymbol{W}}}_{{xr}}}+{{{\boldsymbol{h}}}_{{t - 1}}}{{{\boldsymbol{W}}}_{{hr}}}+{{{\boldsymbol{b}}}_{r}}). $

当收到门控信号时,对候选隐藏层单元状态值进行更新,具体操作如下:

$ {\tilde {\boldsymbol{h}}} = \tanh \;({{{\boldsymbol{x}}}_{t}}{{{\boldsymbol{W}}}_{{xh}}}+{{{\boldsymbol{r}}}_{t}} \otimes {{{\boldsymbol{h}}}_{{t - 1}}}+{{{\boldsymbol{b}}}_{h}}). $

网络节点的最终状态更新方式为

$ {{{\boldsymbol{h}}}_{t}} = ({{\boldsymbol{1}} - }{{{\boldsymbol{z}}}_{t}}) \otimes {{{\boldsymbol{h}}}_{{t - 1}}}+{{{\boldsymbol{z}}}_{t}} \otimes {{\tilde {\boldsymbol{h}}}_{t}}. $

式中:$ \sigma $$ {\mathrm{sigmoid}} $函数,将数据变换为$ 0 \sim 1.0 $范围内的数值,充当门控信号;$ {{{\boldsymbol{h}}}_{{t - 1}}} $$ t - 1 $时刻的信息;$ {{{\boldsymbol{r}}}_{t}} $ 为重置门;$ \tanh $ 为激活函数;$ {{{\boldsymbol{b}}}_{z}} $$ {{{\boldsymbol{b}}}_{r}} $$ {{{\boldsymbol{b}}}_{h}} $$ {{{\boldsymbol{W}}}_{{hz}}} $$ {{{\boldsymbol{W}}}_{{xz}}} $$ {{{\boldsymbol{W}}}_{{hr}}} $$ {{{\boldsymbol{W}}}_{{xr}}} $$ {{{\boldsymbol{W}}}_{{xh}}} $均为门神经元参数,在训练中学习得到;$ \otimes $为按元素相乘.

通常,完成一个连续手部动作所产生的电信号前后存在着某种依赖关系. 为了利用过去和未来的信息,采用Bi-GRU来分析连续动作中动作电位的变化关系[22]. Bi-GRU模型的结构如图3所示.

图 3

图 3   Bi-GRU的展开结构

Fig.3   Unfolded structure of Bi-GRU


1.2.3. 自适应特征融合

在多源信息问题上,现有的线性聚合方法难以根据输入内容调整不同分支的大小[23]. 本文提出自适应特征融合机制,该机制允许每个神经元根据输入信息的不同特征自适应地调整其在网络中的占比,采用非线性的方法融合两部分网络,实现对时间空间特征的学习. 该方法容易扩展到包含多个分支的网络中. 具体结构如图4所示.

图 4

图 4   自适应特征融合结构

Fig.4   Structure of self-adaptive feature fusion


为了实现不同模块神经元能够根据刺激自适应地调整其在网络中的占比,利用门来控制来自2个分支的信息流,通过元素合并的方式来整合2个分支的结果.

$ {{\boldsymbol{U}}} = {\mathrm{Concatenate}}\;({{{\boldsymbol{F}}}_{{\mathrm{S}}}},{{{\boldsymbol{F}}}_{{\mathrm{T}}}}). $

通过元素求和的方式对$ {\boldsymbol{U}} $进行初步融合,生成融合特征$ {{\boldsymbol{Z}}} \in {{{\bf{R}}^{{d} \times 1}}} $

$ {{{Z}}_{{p}}} = \sum\limits_{i = 1}^c {{U_p}\left( i \right)}; \;p=1,2, \cdots ,d. $

通过全连接层${W_{{\mathrm{fc}}}} $得到压缩特征$ {{\boldsymbol{S}}} \in {{\bf{R}}^{k \times 1}} $,以实现自适应选择的引导,减少维度,加快计算效率.

$ {{\boldsymbol{S}}} = {W_{{\mathrm{fc}}}}\left( {l \left( {\partial \left( {{\boldsymbol{Z}}} \right)} \right)} \right). $

式中:$ k $为压缩特征数,k = 8;$ \partial $表示卷积操作;$ l $表示$ {\mathrm{RuLU}} $函数.

为了实现自适应调节,通过注意机制设计控制门,选择网络最重要的区域. 这是由$ {\text{softmax}} $函数来获得各路径特征的选择权重:

$ \left.\begin{aligned} &{m_d} = \frac{{{{\rm{exp}}\;({{{\boldsymbol{M}}_d}}}{\boldsymbol{S}})}}{{{{\rm{exp}}\;({{{\boldsymbol{M}}_d}}}{\boldsymbol{S}})+{{\rm{exp}}\;({{{\boldsymbol{N}}_d}}}{\boldsymbol{S}})}}, \\&{n_d} = \frac{{{{\rm{exp}}\;({{{\boldsymbol{N}}_d}}}{\boldsymbol{S}})}}{{{{\rm{exp}}\;({{{\boldsymbol{M}}_d}}}{\boldsymbol{S}})+{{\rm{exp}}\;({{{\boldsymbol{N}}_d}}}{\boldsymbol{S}})}},\\&{{{m}}_d}+{{{{{n}}}}_d} = 1. \end{aligned}\right\}$

式中:$ {{\boldsymbol{M}}}、{{\boldsymbol{N}}} \in {{\bf {R}}^{d \times k}} $$ {{{\boldsymbol{M}}}_{d}}、{{{\boldsymbol{N}}}_{d}} \in {{\bf {R}}^{1 \times k}} $分别对应$ {{\boldsymbol{M}}} $$ {{\boldsymbol{N}}} $的第$ {{d}} $个分量;$ {{\boldsymbol{m}}} $$ {{\boldsymbol{n}}} $分别对应$ {{{\boldsymbol{F}}}_{{\mathrm{S}}}} $$ {{{\boldsymbol{F}}}_{{\mathrm{T}}}} $的软注意力向量. 根据软注意力向量的选择权重聚合对应分支的信息,得到最终的特征映射$ {\hat {\boldsymbol{F}}} $.

$ {\hat {\boldsymbol{F}}} = {{\tilde {\boldsymbol{F}}}_{{\mathrm{S}}}}+{{\tilde {\boldsymbol{F}}}_{{\mathrm{T}}}} = {{\boldsymbol{m}}} {{{\boldsymbol{F}}}_{{\mathrm{S}}}}+{{\boldsymbol{n}}} {{{\boldsymbol{F}}}_{{\mathrm{T}}}}. $

2. 实验采集与处理

2.1. 实验数据采集

研究数据的采集所用的设备是英国朴次茅斯大学团队所研发的ELONXI肌电仪. 选用16个通道采样,系统采样频率为1 kHz,采样分辨率为24 bit,在50 Hz下进行滤波操作.

实验共邀请8名健康受试者(7名男性、1名女性,年龄为(25±5)岁,身高为(175±10) cm,体重为(65±10) kg),参与3 d(每天上午9时与下午15时,共6个时间段)的数据采集工作. 受试者在实验前均被告知本次采集的完整过程. 在采集前,使用酒精棉对受试者右前臂进行清洁,每位受试者将肌电采集袖套佩戴在右前臂,调节袖套使其紧贴肌肉,无法产生滑动,前臂与桌面呈45°角放置在桌面,根据指示完成相应动作. 每个人每个时间段分别演示5个手势动作,重复做3组,尽量保持每次手势的动作力度相当. 每个手势动作持续12 s,取中间10 s的稳定信号进行记录,每2个动作之间休息10 s. 这5种手势分别是握拳(hand closed, HC)、伸掌(hand open, HO)、手腕弯曲(radial flexion, RF)、手掌向下(wrist flexion, WF)、手腕展开(wrist extension, WE) [24]. 具体手势如图5所示.

图 5

图 5   手势动作的示意图

Fig.5   Diagram of hand gesture movement


2.2. 数据预处理

原始的sEMG可以看作是一连串连续的一维时间序列信号,而要实现通过sEMG对假肢的实时控制,输入延时是重点需要考虑的因素,因此采用窗口分析法对数据进行预处理. 该方法最重要的参数有2个,分别是滑动窗口长度和增量区间[25]. 滑动窗口的大小影响识别精度,增量区间对应影响系统的响应时间. 如图6所示为窗口分析法的具体处理过程. 图中,$ w $为滑动窗口长度,$ t $为增量区间,$U $为电压幅值.

图 6

图 6   窗口分析法

Fig.6   Window analysis method


Hudgins等[26]提出最大允许时延是300 ms,因此本文设定$ w $为300,$ t $为50,提取离散特征的数目$ n $为14,加强特征二维化方法的转换参数$ \alpha $$ \beta $均取0.5. 实验所选取sEMG的离散特征分别为均方根(root mean square, RMS)、平均绝对值(mean absolute value, MAV)、波形长度(waveform length, WL)、过零点数(zero crossing, ZC)、差分绝对标准差值(difference absolute standard deviation value, DASDV)、对数积分肌电值(log detector, LOG)、平方积分(simple square integral, SSI)、第三时间矩(the third moment of sEMG, TM3)、第四时间矩(the fourth moment of sEMG, TM4)、第五时间矩(the fifth moment of sEMG, TM5)、频率比(frequency ratio, FR)、积分肌电值(integrated EMG, IEMG)、平均频率(mean frequency, MNF)、中值频率(median frequency, MDF)[27-28].

3. 实验结果与分析

目前采集sEMG大多在理想条件下进行,而在现实生活中的采集存在诸多不可控因素,电极偏移和受试者个体差异是影响识别效果的2个重要因素[29]. 电极偏移指的是在采集过程中,由于电极袖套的穿戴与脱下,无法保证同一个电极对应之前皮肤的同一个位置,采集的数据会因检测点的变化在分布上有所差异. 不同受试者之间的浅层肌肉、运动神经元位置分布不同,在做出相同动作时产生的电位分布有所不同.

针对上述情况,设计2种实验. 1)对于同一个受试者,分上、下午2个不同时间段,采集训练数据与测试数据(穿戴电极袖套的相对位置有所不同),模拟电极偏移的情况. 2)对多名受试者采集相同的手势,以探究模型在不同受试者之间的识别效果. 网络运行的具体过程如图7所示.

图 7

图 7   ETDTBN网络的结构

Fig.7   Structure of ETDTBN network


本文的网络模型参数如表1所示. 表中,SAFF为本文提出的自适应特征融合方法.

表 1   ETDTBN网络的结构参数

Tab.1  Structural parameters of ETDTBN

网络层操作卷积核/步长输出/通道零补
Input—/—300/16
ML-CNNConv2d5*5/1*115*15/64
MaxPool2*2/2*28*8/64
Conv2d3*3/1*14*4/128
MaxPool2*2/2*24*4/128
FC—/—512/—
FC—/—128/—
Bi-GRUBi-GRU—/—256/16
Conv1d3/2128/32
Conv1d1/1128/32
Conv1d3/264/64
Conv1d1/164/64
FC—/—512/—
FC—/—128/—
ClassSAFF—/—128/—
FC—/—64/—
FC—/—5/—

新窗口打开| 下载CSV


3.1. 电极偏移情况下的识别效果

为了验证ETDTBN模型在电极偏移情况下的有效性,实验选取一名受试者在上午的一个连续时间段重复采集3次规定动作的sEMG数据作为训练集,其中每组之间休息10 min,避免肌肉疲劳且保证电极袖套不脱下. 在下午重新佩戴电极袖套后,将测得的一组sEMG作为测试集. 实验设置批大小为16,训练总轮次为40,采用Adam算法优化模型参数,初始学习率为0.000 5,采用余弦退火策略衰减学习率,得到的实验结果如表2所示. 表中,Pc为手势动作准确率,Po为总体准确率,FE为特征提取,ETD为本文的加强二维化方法.

表 2   电极偏移情况下各方法的识别效果

Tab.2  Recognition effect of each method under electrode displacement

方法Pc/%Po/%
HCHORFWEWF
KNN+FE[30]28.21±0.009.23±0.0094.90±0.00100±0.00100±0.0066.67±0.00
SVM+FE[31]42.64±0.0018.97±0.0087.82±0.00100±0.00100±0.0070.49±0.00
CNN[8]90.72±6.9713.42±7.8223.21±10.1596.79±2.5896.75±5.2964.18±2.73
CNN+FE29.89±4.2433.91±16.2695.01±3.6098.90±1.3191.58±10.6670.87±2.74
CNN+FE+ETD85.56±4.4440.33±13.5075.20±8.0598.85±1.1886.18±5.2478.24±2.26
RESNET+FE[32]31.09±3.9435.17±10.9690.78±4.8898.92±1.2992.22±3.2670.78±2.66
Bi-GRU[33]84.10±8.195.41±5.0972.67±10.26100±0.0099.34±1.0972.04±2.35
LSTM[34]73.64±11.844.33±1.9971.13±18.33100±0.0099.40±1.0270.88±3.55
TRANSFORMER[35]80.64±5.8420.15±3.5366.17±8.6298.55±1.3889.14±2.1966.14±3.25
LCNN[36]93.13±2.9812.51±3.5381.03±6.5498.26±0.5291.08±4.9076.38±0.94
TDACAPS[14]97.59±2.6274.87±15.7195.18±4.4298.56±1.8255.39±16.8784.77±0.82
ETDTBN99.80±0.4166.36±6.9069.85±7.44100±0.0099.85±0.3686.95±1.64

新窗口打开| 下载CSV


以KNN和SVM为代表的传统机器学习模型在动作WE和WF上的识别效果最好,均达到了100%的识别率,但对于其他手势动作的识别效果不理想. Bi-GRU的总体准确率略高于LSTM和TRANSFORMER,且Bi-GRU在模型结构上更简单,训练参数与时间更少,故选用Bi-GRU作为网络提取原信号时间特征的部分. 将提出的加强二维化方法用于CNN模型,与CNN+FE和RESNET+FE模型相比,整体识别率分别提高了7.37%和7.46%,在动作HO的识别上效果有所提升,说明利用该方法能够挖掘出HO的部分特性. 与LCNN相比,ETDTBN在保持动作HC、WE和WF接近100%识别率的情况下,对手势HO的分类准确率提高了53.85%,且该模型在12种方法中的总体识别率最高,达到86.95%,说明利用提出的方法能够有效地识别肌电信号.

图8所示为各方法在训练过程中测试准确率的变化图像,各个模型的测试准确率都随着迭代次数Ni的增加而提升. ETDTBN在第5个轮次开始收敛,准确率开始逐步升高,在第35个轮次开始趋于稳定,最终测试准确率最高.

图 8

图 8   电极偏移情况下各模型的分类准确率

Fig.8   Classification accuracy of different model in case of electrode displacement


图9所示为ETDTBN模型及3个对比模型在电极偏移情况下的混淆矩阵. 可知,4个模型对于手势WE和WF有着较高的识别准确率,尤其ETDTBN的识别准确率接近100%. 手势HO在3个对比模型中的分类结果较差,准确率分别仅有34%、4%与13%,而且大部分结果将手势HO误判成手势WF,说明手势HO与WF在深层特征中有极高的相似度,仅提取单一的空间特征或时间特征不足以区分手势HO与WF. ETDTBN能够有效地提取与融合sEMG的空间特征与时间特征,显著提升了手势HO的识别准确率,这说明ETDTBN对相似特征间的相对关系有着更好的表征性.

图 9

图 9   电极偏移情况下不同模型的混淆矩阵比较

Fig.9   Comparison of confusion matrix of different method under electrode displacement


3.2. 不同受试者情况下的识别效果

为了测试不同受试者情况下的识别效果,实验采集了8位受试者的sEMG数据,其中7名受试者的数据作为数据集,1名受试者的数据作为测试集. 实验设置批大小为16,训练总轮次为30. 采用Adam算法优化模型参数,初始学习率为0.000 5,采用余弦退火策略衰减学习率,分别使用不同模型对数据集进行实验,得到的实验结果如表3所示.

表 3   不同受试者情况下各方法的识别效果

Tab.3  Recognition accuracy of each method under different subject

方法Pc/%Po/%
HCHORFWEWF
KNN+FE[30]97.18±0.0072.99±0.0047.95±0.0093.50±0.0042.14±0.0070.75±0.00
SVM+FE[31]64.27±0.0086.24±0.0051.71±0.00100.00±0.0052.99±0.0071.04±0.00
CNN[8]87.35±3.4566.63±0.5858.44±2.0998.94±0.6540.85±1.0570.49±0.86
CNN+FE71.99±4.1690.51±1.8580.87±7.5999.82±0.4931.39±7.5175.06±0.18
CNN+FE+ETD82.63±2.3780.13±3.8882.22±6.9799.25±0.7833.68±8.5577.57±0.78
RESNET+FE[32]73.79±3.9685.22±2.7881.17±6.1999.22±0.6532.11±6.9574.96±0.26
Bi-GRU[33]82.06±6.7166.26±7.4237.35±3.8494.65±2.5263.98±5.0268.93±0.38
LSTM[34]78.79±6.8160.85±5.5640.32±3.9699.27±0.7254.03±6.7767.08±1.11
TRANSFORMER[35]83.09±2.8159.05±6.5633.22±3.8897.57±0.9255.13±6.4465.33±1.08
LCNN[36]95.95±2.1180.78±3.4662.25±5.3399.69±0.1546.95±3.1677.26±0.53
TDACAPS[14]98.25±3.8984.98±7.1282.48±5.9698.24±0.6244.75±5.5081.90±1.09
ETDTBN99.75±0.1575.51±1.8595.27±2.5499.93±0.0550.21±0.4584.15±0.41

新窗口打开| 下载CSV


表3可以看出,当识别不同受试者的sEMG时,利用本实验的12种方法,能够较好地识别动作WE,但对动作WF的分类效果不理想. CNN模型通过加强二维化方法处理后,提升了总体准确率,对于除WF外的其他手势,均达到了大于80%的准确率. 以Bi-GRU和LSTM为代表的RNN在本实验中表现欠佳,但在动作WF的识别上优于其他模型. 与LCNN模型相比,ETDTBN模型的总体分类准确率提高了6.89%,ETDTBN模型是所有方法中效果最优的,总识别率为84.15%. 本文提出的方法对动作HC、RF、WE的识别效果均达到最佳,HO与WF的识别率虽然没有达到良好的预期,但高于大部分方法.

不同受试者情况下,利用各方法测试准确率的变化图像如图10所示. 与其他方法相比,ETDTBN的收敛速度较慢,刚开始分类准确率较低,但随着后续模型的不断训练,测试准确率稳步上升,在第25次迭代后趋于稳定,总体准确率维持在84%左右.

图 10

图 10   不同受试者情况下各模型的分类准确率变化

Fig.10   Change of classification accuracy of different model in case of different subject


图11所示为ETDTBN模型及3个对比模型在不同受试者情况下的混淆矩阵. 可知,4种方法对动作HC和WE有着较好的辨识性,与电极偏移情况不同的是,各方法对于动作WF的识别出现了问题,识别效果不理想. CNN模型对WF的识别准确率仅为31%,有超过一半的结果指向HO,说明仅从空间结构特性分析无法较好地区分手势HO与WF,Bi-GRU模型对动作WF的识别准确率为64%,说明手势HO与WF在时间结构的差异大于空间结构. 与LCNN模型相比,ETDTBN模型对HC、RF、WF手势动作的分类准确率分别提高了4%、33%、4%,说明ETDTBN能够更好地突出输入数据的局部特征,保留时间序列的依赖性.

图 11

图 11   不同受试者情况下不同模型的混淆矩阵

Fig.11   Comparison of confusion matrix of different method under different subject


3.3. 自适应特征融合

特征融合是模式识别领域的一种重要方法,不同的特征融合方法对于网络模型的分类效果有着不同的影响. 针对不同情况下的sEMG识别问题,对比了几个传统的特征融合方法(加性融合函数和级联融合策略),通过对比实验验证了提出的自适应特征融合机制的有效性. 实验结果如表4所示.

表 4   融合策略对表面肌电信号分类准确率的影响

Tab.4  Effect of fusion strategies on classification accuracy of sEMG signals

方法Po/%
电极偏移情况下不同受试者情况下
ETDTBN +Sum84.28±1.5383.17±0.82
ETDTBN +Concat82.06±2.0781.21±0.97
ETDTBN+SAFF86.95±1.6484.15±0.41

新窗口打开| 下载CSV


表4可以看出,无论是在电极偏移情况还是在不同受试者情况下,提出的自适应特征融合机制在识别准确率上均表现为最优. 在电极偏移情况下,ETDTBN+SAFF在测试集上的总体准确率为86.95%,较级联融合策略提升了4.89%. 对于不同的受试者,SAFF方法对分类效果的提升最明显,说明SAFF方法在融合多种特征时不仅注重多网络间的关联信息,也能突出不同特征间的重要程度关系,对更重要的特征赋予更大的权重系数,相反则赋予较小的权重系数加以抑制. SAFF方法更能够综合利用多种sEMG信号特征,实现多特征的优势互补,多种特征的有机结合能够使模型在手势识别任务中占据更大的优势.

3.4. 模型复杂度和通用性的分析

分析各个模型的复杂度,在公开数据集NinaPro DB1、NinaPro DB2、NinaPro DB4上与国内外主流的肌电手势识别模型进行对比,所有模型的参数量、计算量、训练时间及预测时间如表5所示. 表中,Np为参数量,C为计算量,te为电极偏移训练时间,tp为不同受试者情况下的训练时间,tr为预测时间. 从计算资源来看,以SVM和KNN为代表的机器学习算法的计算速度最快,花费的训练时间和预测时间都最少. 该类算法在具体识别场景中的识别准确率只有70%左右,虽然在时间上有优势,但在准确率上有待提升. 基于深度学习的模型在参数量和计算量上远大于机器学习算法,训练时间有所增加,但在准确率上有明显的提升,模型预测时间小于1 ms,远远小于300 ms的时延标准. 本文提出的ETDTBN模型虽然在计算资源的消耗上有所增加,但训练时间在同类模型中处于优势地位. 在手势识别分类任务中,需要优先保证准确率,以计算资源换取更高的准确率是可行的.

表 5   所有方法的计算资源分析

Tab.5  Computational resource analysis for all methods

方法Np/106C/MBte/stp/str/ms
KNN+FE[30]0.78±0.0186.86±1.220.020±0.001
SVM+FE[31]0.48±0.0177.06±1.620.030±0.001
CNN[8]4.98162.7322.65±0.98148.61±3.380.078±0.003
CNN+FE0.76117.3014.13±0.46101.32±2.110.066±0.002
CNN+FE+ETD1.15184.4820.19±0.65153.51±3.650.086±0.002
RESNET+FE[32]0.55336.8821.96±0.52147.53±4.060.071±0.002
Bi-GRU[33]1.41118.1016.76±0.50160.49±2.980.078±0.002
LSTM[34]1.52146.3517.14±0.59168.25±3.160.082±0.002
TRANSFORMER[35]2.49335.6824.16±0.66187.23±4.560.079±0.002
LCNN[36]1.77533.5021.06±0.62180.85±4.290.082±0.003
TDACAPS[14]0.87741.38216.45±6.161978.12±14.181.047±0.030
ETDTBN3.73321.4117.85±0.48156.28±3.990.076±0.002

新窗口打开| 下载CSV


表6可知,ETDTBN模型在3个NinaPro数据集中均取得了最高的识别准确率,在包含10个受试者数据中的NinaPro DB4数据集上,与其他算法相比,模型提升效果最明显. 可知,ETDTBN模型在手势分类问题上具备较好的泛化性和鲁棒性.

表 6   各方法在公开数据集上的识别效果

Tab.6  Recognition effectiveness of each method on public dataset

方法Po/%
ChenNet[8]68.23±2.0771.74±3.6767.25±4.49
HuNet[10]81.18±5.6982.21±5.6969.52±3.94
WeiNet[37]82.06±3.4780.72±4.9753.27±5.77
ETDTBN82.59±4.4683.01±3.4277.16±3.98

新窗口打开| 下载CSV


4. 结 语

为了充分提取sEMG的有效特征,提高对相似手势的识别准确率,本文提出的ETDTBN模型利用加强二维化方法,将一维离散特征通过特征组合的形式构成二维规则特征图,加强了不同特征之间的联系,解决了原离散特征二维化方法生成的二维特征关系图参数重复冗余、特征信息稀疏的问题. 利用CNN在图像空间数据特征上的泛化能力,结合Bi-GRU网络善于提取信号时序特征的优势,利用2种网络同时挖掘sEMG信号的空间特征与时间特征. 利用SAFF策略对不同分支进行融合,组成时空特征,这样包含的信息更加全面,更有利于后续的分类.

本文通过大量实验,验证了ETDTBN模型的有效性与鲁棒性. 针对电极偏移和不同受试者情况下的手势识别实验,ETDTBN模型均有良好的表现. 在电极偏移实验中,手势动作HO和WF有着较高的相似度,大部分方法不能区分2种手势动作,但ETDTBN模型能够较好地区分它们,总准确率达到了86.95%. 在不同受试者实验中,ETDTBN模型的总体分类准确率优于传统机器学习方法和主流的肌电手势识别网络. 结果证明,结合CNN和Bi-GRU网络,能够有效地提高sEMG的手势识别性能. 在NinaPro数据集上,ETDTBN模型有着良好的表现,说明它在不同类型的数据集上有着较好的泛化性和通用性.

在后续的研究中,本文将进一步优化网络模型,研究其他网络的组合对表面肌电手势识别的影响,提高对相似手势的识别准确率.

参考文献

BHAUMIK G, VERMA M, GOVIL M C, et al

Hyfinet: hybrid feature attention network for hand gesture recognition

[J]. Multimedia Tools and Applications, 2023, 82 (4): 4863- 4882

DOI:10.1007/s11042-021-11623-3      [本文引用: 1]

都明宇, 鲍官军, 杨庆华, 等

基于改进支持向量机的人手动作模式识别方法

[J]. 浙江大学学报: 工学版, 2018, 52 (7): 1239- 1246

[本文引用: 2]

DOU Mingyu, BAO Guanjun, YANG Qinghua, et al

Novel method in pattern recognition of hand actions based on improved support vector machine

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (7): 1239- 1246

[本文引用: 2]

赵翠莲, 徐浩宇, 罗林辉, 等

熵在不同等级偏瘫患者sEMG运动检测中的应用

[J]. 浙江大学学报: 工学版, 2018, 52 (4): 798- 805

[本文引用: 1]

ZHAO Cuilian, XU Haoyu, LUO Linhui, et al

SEMG activity detection of hemiplegic patients in different stages using entropy algorithms

[J]. Journal of Zhejiang University: Engineering Science, 2018, 52 (4): 798- 805

[本文引用: 1]

CHENG Y, LI G, YU M, et al

Gesture recognition based on surface electromyography-feature image

[J]. Concurrency and Computation: Practice and Experience, 2021, 33 (6): e6051

DOI:10.1002/cpe.6051      [本文引用: 2]

SUK H I, SIN B K, LEE S W

Hand gesture recognition based on dynamic Bayesian network framework

[J]. Pattern Recognition, 2010, 43 (9): 3059- 3072

DOI:10.1016/j.patcog.2010.03.016      [本文引用: 1]

QI J, JIANG G, LI G, et al

Intelligent human-computer interaction based on surface EMG gesture recognition

[J]. IEEE Access, 2019, 7: 61378- 61387

DOI:10.1109/ACCESS.2019.2914728      [本文引用: 1]

BARGELLESI N, CARLETTI M, CENEDESE A, et al

A random forest-based approach for hand gesture recognition with wireless wearable motion capture sensors

[J]. IFAC-PapersOnLine, 2019, 52 (11): 128- 133

DOI:10.1016/j.ifacol.2019.09.129      [本文引用: 1]

CHEN H, ZHANG Y, LI G, et al

Surface electromyography feature extraction via convolutional neural network

[J]. International Journal of Machine Learning and Cybernetics, 2020, 11 (1): 185- 196

DOI:10.1007/s13042-019-00966-x      [本文引用: 5]

WANG H, ZHANG Y, LIU C, et al

sEMG based hand gesture recognition with deformable convolutional network

[J]. International Journal of Machine Learning and Cybernetics, 2022, 13 (6): 1729- 1738

DOI:10.1007/s13042-021-01482-7      [本文引用: 1]

HU Y, WONG Y, WEI W, et al

A novel attention-based hybrid CNN-RNN architecture for sEMG-based gesture recognition

[J]. PloS one, 2018, 13 (10): e0206049

DOI:10.1371/journal.pone.0206049      [本文引用: 2]

TSINGANOS P, CORNELIS B, CORNELIS J, et al. Improved gesture recognition based on sEMG signals and TCN [C]// IEEE International Conference on Acoustics, Speech and Signal Processing . Brighton: IEEE, 2019: 1169-1173.

[本文引用: 1]

WANG W, YOU W, WANG Z, et al

Feature fusion-based improved capsule network for sEMG signal recognition

[J]. Computational Intelligence and Neuroscience, 2022, (1): 7603319

[本文引用: 1]

KUMAR V, MINZ S

Feature selection: a literature review

[J]. SmartCR, 2014, 4 (3): 211- 229

[本文引用: 1]

CHEN G, WANG W, WANG Z, et al

Two-dimensional discrete feature based spatial attention CapsNet for sEMG signal recognition

[J]. Applied Intelligence, 2020, 50: 3503- 3520

DOI:10.1007/s10489-020-01725-0      [本文引用: 4]

GU J, WANG Z, KUEN J, et al

Recent advances in convolutional neural networks

[J]. Pattern Recognition, 2018, 77: 354- 377

DOI:10.1016/j.patcog.2017.10.013      [本文引用: 1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60 (6): 84- 90

DOI:10.1145/3065386      [本文引用: 1]

O'SHEA K, NASH R. An introduction to convolutional neural networks [EB/OL]. [2023-09-01]. https://arxiv.org/abs/1511.08458.

[本文引用: 1]

SHERSTINSKY A

Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network

[J]. Physica D: Nonlinear Phenomena, 2020, 404: 132306

DOI:10.1016/j.physd.2019.132306      [本文引用: 1]

YU Y, SI X, HU C, et al

A review of recurrent neural networks: LSTM cells and network architectures

[J]. Neural Computation, 2019, 31 (7): 1235- 1270

DOI:10.1162/neco_a_01199      [本文引用: 1]

SHEWALKAR A, NYAVANANDI D, LUDWIG S A

Performance evaluation of deep neural networks applied to speech recognition: RNN, LSTM and GRU

[J]. Journal of Artificial Intelligence and Soft Computing Research, 2019, 9 (4): 235- 245

DOI:10.2478/jaiscr-2019-0006      [本文引用: 1]

CHO K, VAN M B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [EB/OL]. [2023-09-01]. https://arxiv.org/abs/1406.1078.

[本文引用: 1]

BERGLUND M, RAIKO T, HONKALA M, et al. Bidirectional recurrent neural networks as generative models [EB/OL]. [2023-09-01]. https://proceedings.neurips.cc/paper/2015/hash/c75b6f114c23a4d7ea11331e7c00e73c-Abstract.html.

[本文引用: 1]

LI X, WANG W, HU X, et al. Selective kernel networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 510-519.

[本文引用: 1]

ATZORI M, GIJSBERTS A, HEYNEN S, et al. Building the Ninapro database: a resource for the biorobotics community [C]// 4th IEEE RAS and EMBS International Conference on Biomedical Robotics and Biomechatronics . Rome: IEEE, 2012: 1258-1265.

[本文引用: 1]

NAZMI N, RAHMAN M A, YAMAMOTO S, et al

Assessment on stationarity of EMG signals with different windows size during isotonic contractions

[J]. Applied Sciences, 2017, 7 (10): 1050

DOI:10.3390/app7101050      [本文引用: 1]

HUDGINS B, PARKER P, SCOTT R N

A new strategy for multifunction myoelectric control

[J]. IEEE Transactions on Biomedical Engineering, 1993, 40 (1): 82- 94

DOI:10.1109/10.204774      [本文引用: 1]

PHINYOMARK A, PHUKPATTARANONT P, LIMSAKUL C

Feature reduction and selection for EMG signal classification

[J]. Expert Systems with Applications, 2012, 39 (8): 7420- 7431

DOI:10.1016/j.eswa.2012.01.102      [本文引用: 1]

ABBASPOUR S, LINDEN M, GHOLAMHOSSEINI H, et al

Evaluation of surface EMG-based recognition algorithms for decoding hand movements

[J]. Medical and Biological Engineering and Computing, 2020, 58: 83- 100

DOI:10.1007/s11517-019-02073-z      [本文引用: 1]

ZI L I, ZA X G, BI Z, et al

Review of sEMG-based motion intent recognition methods in non-ideal conditions

[J]. Acta Automatica Sinica, 2021, 47 (5): 955- 969

[本文引用: 1]

PAUL Y, GOYAL V, JASWAL R A. Comparative analysis between SVM & KNN classifier for EMG signal classification on elementary time domain features [C]// 4th International Conference on Signal Processing, Computing and Control . Solan: IEEE, 2017: 169-175.

[本文引用: 3]

NARAYAN Y

Comparative analysis of SVM and Naive Bayes classifier for the SEMG signal classification

[J]. Materials Today: Proceedings, 2021, 37: 3241- 3245

DOI:10.1016/j.matpr.2020.09.093      [本文引用: 3]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . [S. l. ]: IEEE, 2016: 770-778.

[本文引用: 3]

ZHAO R, WANG D, YAN R, et al

Machine health monitoring using local feature-based gated recurrent unit networks

[J]. IEEE Transactions on Industrial Electronics, 2017, 65 (2): 1539- 1548

[本文引用: 3]

GRAVES A, SCHMIDHUBER J

Framewise phoneme classification with bidirectional LSTM and other neural network architectures

[J]. Neural Networks, 2005, 18 (5/6): 602- 610

[本文引用: 3]

SHEN S, WANG X, MAO F, et al

Movements classification through sEMG with convolutional vision transformer and stacking ensemble learning

[J]. IEEE Sensors Journal, 2022, 22 (13): 13318- 13325

DOI:10.1109/JSEN.2022.3179535      [本文引用: 3]

WU Y, ZHENG B, ZHAO Y. Dynamic gesture recognition based on LSTM-CNN [C]// Chinese Automation Congress . Xi’an: IEEE, 2018: 2446-2450.

[本文引用: 3]

WEI W, DAI Q, WONG Y, et al

Surface-electromyography-based gesture recognition by multi-view deep learning

[J]. IEEE Transactions on Biomedical Engineering, 2019, 66 (10): 2964- 2973

DOI:10.1109/TBME.2019.2899222      [本文引用: 1]

/