基于高采样率惯性测量单元的手部状态与手势识别

doi:10.3785/j.issn.1008-973X.2023.03.008

基于高采样率惯性测量单元的手部状态与手势识别

李卓峰^,, 孙铭会^,

吉林大学计算机科学与技术学院，吉林长春 130012

Hand gesture/state recognition based on inertial measurement unit at high sample rate

LI Zhuo-feng^,, SUN Ming-hui^,

Department of Computer Science and Technology, Jilin University, Changchun 130012, China

通讯作者: 孙铭会，男，副教授. orcid.org/0000-0002-1809-8187. E-mail: smh@jlu.edu.cn

收稿日期: 2022-03-12

基金资助:

国家自然科学基金资助项目（61872164）

Received: 2022-03-12

Fund supported:

国家自然科学基金资助项目（61872164）

作者简介 About authors

李卓峰（1998—），男，硕士生.从事人机交互研究.orcid.org/0000-0002-6692-4551.E-mail：zfli20@mails.jlu.edu.cn , E-mail：zfli20@mails.jlu.edu.cn

摘要

为了同时实现手势识别与手部状态识别，针对高采样率惯性测量单元具有同时采集动作信号与振动信号的特点，搭建基于单惯性测量单元的手势识别与触摸识别原型设备. 可视化分析手部状态数据与手势数据在时域与频域上的差异，建立手部状态、划动手势与画圈手势数据集. 针对数据特征的差异，提出差异化特征提取方法，分别构建手部状态分类与手势分类的神经网络结构. 使用数据集训练神经网络模型，在手部综合状态识别任务中正确率达到99%，在划动手势识别任务和画圈手势识别任务中的正确率均达到98%. 提出实时数据流处理、状态转移、未知类别判断的原型程序框架，基于手部状态识别模型实体与手势识别模型实体搭建实时程序，测量实际运行整体计算延时与单模型计算延时，验证模型实时运算能力. 模型评估实验与实时运算能力验证实验结果表明，使用高采样率惯性测量单元准确且实时地识别手部状态与手势具备可行性.

关键词： 人机交互 ; 惯性测量单元 ; 手势识别 ; 触摸识别 ; 可穿戴设备

Abstract

In order to realize gesture recognition and hand state recognition at the same time, a single inertial measurement unit-based gesture recognition and touch recognition prototype was built, considering the inertial measurement unit at high sample rate has the capability of collecting motion signals and vibration signals simultaneously. The differences within hand state data and gesture data in the time and frequency domains were visually analyzed. Hand state, slipping gesture and circling gesture data sets were established. Considering the difference within data features, differential feature extraction methods were proposed, and neural network structures for hand state classification and gesture classification were constructed. Neural network models were trained by the data sets to achieve 99% accuracy rate in the comprehensive hand state recognition task, and 98% accuracy rate in both the slipping gesture recognition task and the circling gesture recognition task. A prototype program framework for real-time data stream processing, state shifting, and unknown class judgment was proposed. And a real-time program based on the hand state recognition model entities and the gesture recognition model entities was built, and the overall computational latency of the actual operation and the single model computational latency were measured, in order to prove the capability of real-time computing. Experimental results of model evaluation and real-time computing verification showed that, accurate and real-time hand states and gesture recognition with high sample rate inertial measurement units was feasible.

Keywords： human-computer interaction ; inertial measurement unit ; hand gesture recognition ; touch recognition ; wearable device

PDF (3956KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李卓峰, 孙铭会. 基于高采样率惯性测量单元的手部状态与手势识别. 浙江大学学报(工学版)[J], 2023, 57(3): 503-511 doi:10.3785/j.issn.1008-973X.2023.03.008

LI Zhuo-feng, SUN Ming-hui. Hand gesture/state recognition based on inertial measurement unit at high sample rate. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(3): 503-511 doi:10.3785/j.issn.1008-973X.2023.03.008

可穿戴式设备（如智能手表、智能眼镜）日渐被大众所接受，为机器感知人类活动提供了新方式，但在实际使用中，它们往往被狭小的交互界面局限^[1]. 如何拓展可穿戴设备交互界面成为人机交互研究中待解决的问题. 研究者提出如使用设备周围空间^[2]、使用人皮肤上空间^[3]的解决方案，其中较为可行的是使用与人接触的平面空间. 这种平面空间通常是人手接触的桌面、墙面. 研究者在平面或接触部位部署传感器以达到感知、追踪接触活动的效果，如SurfaceSight^[4]使用部署在桌面的激光雷达，通过分析桌面上物体边缘，成功完成了感知与追踪人体活动、感知物体的任务.

本研究将使用佩戴在手指上的惯性测量单元（inertial measurement unit,IMU）以感知手指与平面的触碰活动. IMU通常由3个自由度的加速度计与3个自由度的角速度计构成，部分IMU集成了3个自由度的地磁传感器. 由于IMU提供的丰富信息（加速度、速度、姿态定位^[5-6]等）以及消费级IMU低廉的价格，该传感器被广泛地部署在各类智能设备中；由于IMU具有强大的感知能力，还被广泛地应用于如感知人体姿态、人的行为^[7]的人机交互领域任务中. Gu等^[8]低延迟且高准确率地识别了手指在表面的点击手势；HulaMove^[9]通过配置在腰部的智能设备，感知人腰部的运动并以此建立新交互方式；Ott等^[10-11]使用配置了包括IMU在内的多传感器笔，完成了对手写内容的识别；Xu等^[12]通过智能手表中的IMU，完成了对定制手势的识别；TapID^[13]使用配置在手上的IMU阵列，成功地区分了不同手指的点击活动.

由于人体活动变化频率低，研究者出于对能耗的考虑，往往将IMU在智能设备中的采样频率设定在50~100 Hz，但是消费级IMU可以支持更高的采样频率. IMU设定更高采样频率，可以获得以往无法获得的信息（如摩擦产生的表面振动波），这些新信息为IMU带来新功能与新应用场景. Viband^[14-15]通过提高智能手表中IMU的采样频率，完成了人体活动感知、振动物体识别以及接触状态下基于振动信号的传输通信3种任务. Acustico^[16]利用手腕佩戴的麦克风与高采样率加速度计，捕捉了手指点击桌面产生的空气中声波与表面声波到达时间差距，精确定位了点击位置.

本研究使用单个高频率采样的消费级IMU同时采集动作信息与表面声波信息，采用不同特征提取方法对这2种信息进行分别处理；使用基于神经网络的分类算法同时完成手部状态与手部具体活动的分类；以分类算法为基础，搭建基于接触手势的实时控制原型系统.

1. 硬件配置与数据预处理

1.1. 输入设备的硬件配置

使用型号为MPU9250的消费级IMU与树莓派3B+作为输入设备. IMU中加速度计与角速度计采样频率设置为4 000 Hz. IMU佩戴在右手中指第2关节与第3关节之间，如图1所示. 树莓派承担数据采集、初始化标定与实时传输任务. 树莓派通过SPI总线与IMU相连，实时获取三自由度加速度与三自由度角速度（本研究希望输入设备对地磁方位信息不敏感，因此不使用IMU提供的地磁传感器信息），硬件连接如图2所示. 数据经过树莓派标定过程消除零漂后，通过Wi-Fi实时发送到电脑客户端上.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 硬件佩戴示例

Fig.1 Example of hardware wearing

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 硬件连接示例

Fig.2 Example of hardware connection

1.2. 加速度与角速度的数据处理

原始加速度数据中包含重力加速度分量，保留重力加速度分量将使手势识别算法对方位敏感. 客户端获得数据后先通过Madgwick滤波器^[17]获得IMU姿态四元数，并以此为依据移除重力分量. 为了减少加速度与角速度的数值差距，使模型训练顺利进行，数据处理过程还包含数据标准化、标准化后的数据将会被送入程序，实现手势模式识别.

2. 数据分析

以采样频率100 Hz为例，高采样率IMU数据比传统IMU数据复杂. 为了展示2种IMU数据的差别，根据频率将数据分为2个信道：低频信号（0~50 Hz）、高频信号（50~2 000 Hz）.

2.1. 高频信道特征提取方法

人体活动属于低频运动，主动运动信息集中于低频信号. 高频信号包含人体运动时被动产生的表面声波信息，与人体所处状态与环境密切相关. 如图3所示为手指在桌面上移动时，IMU采集的单轴加速度数据. 图中，a为加速度，t为时间. 高频信号包含频繁震荡且数值比低频信号的小，这使时域上特征分析变得复杂烦琐. 如图4所示为设备未佩戴、设备佩戴且手部处于静止状态、手指点击2次桌面、手指在桌面上运动这4种情况的时频图. 图中，f为频率，w为信号强度. 与声音信号类似，高频信道各频段能量分布很大程度上体现了点击、手指在桌面上运动这2种手势的差别. 未佩戴状态与佩戴状态差别来源于人体微小颤动，时域上由于数据接近零且设备噪声不可忽视，两者差别难以区分. 频域数据可以分离部分噪声以此增加信噪比，弥补了时域数据的不足，因此在研究高频信道数据时使用频域特征能够有效地进行特征提取.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 单轴加速度在时域上的原始信号、低频信号与高频信号

Fig.3 Raw signals, low-frequency signals and high-frequency signals of single-axis acceleration in time domain

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 不同情况下的频段能量分布图

Fig.4 Frequency band energy distribution for different scenarios

2.2. 手部状态与手势数据可视化分析

采集不同手部状态与手势共3组数据，供可视化分析使用：1）600条手部状态分类数据，包含5种状态类别；2）480条划动手势分类数据，包含8种方向类别；3）620条画圈手势分类数据，包含2种方向类别. 在各组数据中，每个类别数据量均相同. 分别提取3组数据的低频信号特征与高频信号特征，使用t-SNE方法降维可视化，使用预训练低频特征自编码器提取低频信号特征，使用快速傅里叶变换（fast Fourier transform, FFT）幅度谱提取高频信号特征，可视化结果如图5所示. 结果显示，手部状态分类在FFT幅度谱中更具有区分度，划动与画圈手势分类在自编码器特征中更具有区分度.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 不同特征上各分类数据的t-SNE可视化图

Fig.5 Visualization of t-SNE for each classification data on different features

3. 数据采集

3.1. 无标签的数据采集

采集21组长度为4.8×10⁶的无标签数据，每组约20 min，共计约7 h. 采集数据期间，使用者不受任何限制. 数据经过窗口大小为800、步长为100的滑动窗口截取后，获得1 007 853条无标签数据. 数据采集完成后，计算数据各通道均值与标准差.

3.2. 有标签的数据采集

采集6组长度为800，共计51 840条有标签数据（每组8 640条）. 数据分别对应6种手部状态或手势类别：1）未佩戴设备、2）佩戴时静止、3）点击、4）划动、5）画圈、6）空中手部移动. 其中第4组数据分为左、左上、左下、右、右上、右下、上、下共8种划动手势类别，第5组可分为顺时针、逆时针2种画圈手势类别. 为了提高模型在不同表面泛化能力，除第6组数据外，每组数据均在布料材质、硬纸板材质、木材质3种表面上采集. 在实际训练中，所有表面数据同时训练. 共有3位采集人员参与采集，采集人员惯用手均为右手. 在第4组数据采集过程中，采集人员均反映使用斜向划动手势（如向左上划动）时感到困难.

4. 模型结构、训练与评估

4.1. 模型任务与拆分

4.1.1. 模型任务

模型须完成2个任务：1）对使用者的手部状态进行分类，类别包括未佩戴设备、佩戴设备时手部静止、手指点击、手指划动（移动轨迹为直线）、手指画圈（移动轨迹近似为圆圈）；2）对个别手势类别分类，类别包括手指划动中的8个方向与手指画圈中的2个方向.

4.1.2. 任务与模型拆分

根据各类别中隐含的包含关系，将任务1）拆分为4个子任务；将任务2）中划动手势任务沿水平与垂直方向拆分为2个子任务；根据拆分子任务，将模型结构拆分为7个部分，每个部分均为1个二分类或三分类子模型，拆分结果如表1所示. 实际使用中，子模型之间通过简单逻辑判断相连，形成针对任务1）、2）的整合模型. 具体而言，模型A、B、D、G通过逻辑判断连接共同完成任务1）；模型C单独完成任务2）中画圈手势部分，模型E、F连接共同完成划动手势部分.

表 1 模型的任务拆分

Tab.1 Task decomposition for models

模型名称	分类数量	模型分类类别
A	2	未佩戴、佩戴时手部静止
B	2	划动、画圈
C	2	顺时针、逆时针
D	3	静止（包括未佩戴和手部静止）、点击、手部移动（包括划动与画圈与空中运动）
E	3	（划动）左、居中、右
F	3	（划动）上、居中、下
G	2	表面上移动、非表面上移动

新窗口打开| 下载CSV

模型拆分的优势如下. 1）在实际训练中观察到的现象与Gu等^[8]观察到的相似：在数据量少的情况下，将复杂任务拆分为简单分类任务并将各个小模型耦合为大模型会提升识别正确率，降低训练难度；2）由小模型耦合而来的大模型在实际运用中，更易于维护与实现功能拓展（维护与功能更新过程只需更新相关小模型）.

4.2. 模型基本结构

4.2.1. 分类模型基本结构

将分类模型基本结构分为2个部分：特征提取器、特征分类器. 其中特征提取器根据各任务数据信道不同，分为低频特征提取器、高频特征提取器. 高频特征提取器为FFT计算模块，该模块输入原始数据并输出一定频段范围的幅度谱. 高频特征提取器频段范围由超参数f₀控制：当f₀被设定时，仅f₀至2 kHz频段的能量分布会作为特征传递至特征分类器，且f₀必须大于0，即特征提取器必须去除频谱直流分量. 低频特征提取器使用预训练自编码器. 如图6所示，特征分类器层次结构统一为3层全连接神经网络层与1层SoftMax输出层. 每个分类模型均由1个特征提取器与1个特征分类器连接构成. 其中模型A、B、D、G使用高频特征提取器，模型C、E、F使用低频特征提取器.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 特征分类器结构

Fig.6 Structure of feature classifier

4.2.2. 自编码器模型结构

设计基于一维卷积神经网络的去噪自编码器^[18]，高鲁棒性地提取低频特征进行数据分析与特征分类器分类. 自编码器对称地分为2个部分：编码器、解码器，各部分由4层一维卷积神经网络层组成. 编码器中每层连接最大池化层以达到数据降维效果；解码器中每层连接上采样层以对称地还原数据大小（上采样插值策略为填充最近值）. 解码器最后连接1层一维卷积层作为输出层. 自编码器整体结构如图7所示，其中C为数据通道数，C下方数据为各通道数据尺寸. 实际使用时仅选取编码器部分作为低频特征提取器.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 自编码器结构

Fig.7 Structure of autoencoder

4.3. 模型训练

4.3.1. 自编码器训练

使用无标签数据作为自编码器训练数据. 在训练前，使用均值与标准差对数据分布进行标准化变换. 训练过程中使用原始数据作为模型输入，使用经过零相位数字低通滤波（截止频率为50 Hz）处理的数据作为模型重建目标，计算重建目标与模型输出的均方根误差作为模型损失函数. 训练完成后，保留自编码器权重作为后续模型训练的预训练权重.

4.3.2. 分类模型训练

使用有标签数据作为训练数据：根据各模型须解决任务差异，组合不同类型数据，构造各模型训练所需训练集. 在训练模型E、F时，8个方向只考虑当前模型分类维度并将方向种类合并至3个. 如训练模型E时，左、左上、左下3个类别合并为左类别；右、右上、右下3个类别合并为右类别；上、下2个类别合并为居中类别.

4.4. 分类模型评估 4.4.1. 各模型单独评估

对7种分类模型表现情况进行单独评估. 对二分类模型，计算模型准确率、精确率、召回率及F1分数作为评估指标；对三分类模型，计算模型准确率、宏精确率、宏召回率及宏F1分数作为评估指标. 评估使用的测试集来自小型数据集. 模型B测试集使用第2组全部480条数据和第3组中480条数据，模型G测试集使用模型B测试集以及额外采集获得的960条在空中移动的类别数据. 对每种分类模型训练10个模型并计算评估指标. 各项指标均值与标准差如表2所示. 表中，N为测试集大小，A为正确率，P为准确率或宏准确率，R为召回率或宏召回率，F为F1分数或宏F1分数，括号外数字为参数均值，括号内数字为标准差.

表 2 分类模型评估指标均值与标准差

Tab.2 Means and standard deviations of classification models evaluation indices

模型名称	N	A/%	P/%	R/%	F/%
A	240	97.92 （0.92）	100.00 （0.00）	95.83 （1.84）	97.86 （0.95）
B	960	90.63 （0.78）	90.63 （1.76）	90.67 （0.95）	90.63 （0.69）
C	620	98.63 （1.32）	99.29 （1.61）	97.97 （1.03）	98.62 （1.31）
D	600	99.22 （0.14）	99.30 （0.22）	98.75 （0.19）	99.01 （0.17）
E	480	99.77 （0.18）	99.73 （0.23）	99.76 （0.19）	99.75 （0.20）
F	480	94.23 （3.51）	93.94 （3.09）	94.64 （3.18）	93.77 （3.72）
G	1920	98.42 （0.23）	99.21 （0.37）	97.63 （0.53）	98.41 （0.23）

新窗口打开| 下载CSV

4.4.2. 综合任务评估

对任务1）、2）中划动手势分类任务的2种综合分类任务进行评估. 手部状态分类任务由模型A、B、D、G共同完成，测试集由手部状态与手势采集的第2组数据、120条空中移动类别数据组合而成. 划动手势分类任务由模型E、F共同完成. 数据集由手部状态与手势采集的第2组数据组成，若模型E与F同时识别为居中类别将被额外分类为未知类别.

如图8所示，绘制2种综合任务的混淆矩阵. 图中，竖列为真实类别，横行为预测类别. 虽然模型B的整体正确率达到90.63%，但在手部状态分类数据集上表现不佳（手部状态与手势采集的第1组数据没有限制划动方向和画圈方式，仅限制了移动轨迹样式），在实际观察中，模型B出现了严重的过拟合现象. 因此实际程序中不包含模型B，程序将从另外角度区分划动与画圈手势. 划动手势分类任务中模型整体识别准确率达到96.5%；当仅考虑上、下、左、右4种方向时，整体识别准确率达到98.5%，并且没有数据出现识别成未知类别的情况. 模型分类错误集中在模型F上且集中在斜向方向上（如左下）. 原因是手关节弯曲结构使得使用人在做出向左划动手势时不自觉地向下偏移，这使得训练数据与测试数据在左和左下类别中充满噪声. 考虑到数据采集人员对手势舒适度意见反馈，实际使用中将忽略斜向的4种方向.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 2种分类任务的混淆矩阵

Fig.8 Confusion matrix for two classification tasks

5. 控制程序结构与功能

5.1. 程序算法的实现目标

为了使识别程序有能力与智能设备对接，实现智能设备中部分单点手势控制（如阅读器划动翻页、单击确认、图片放大缩小等），将算法分为2个部分：手部状态识别、手部具体运动识别.

5.1.1. 手部状态识别

手部状态指导识别程序状态转移，使程序在不同状态下实现不同功能. 将待识别手部状态分为5类：1）静止且设备未佩戴、2）静止且设备已佩戴、3）点击、4）使用者手部在表面上移动、5）使用者手部在空中移动.

5.1.2. 手部具体运动识别

手部具体运动是指对各个手部状态的细分. 对状态3）、4）进行分类，其中状态3）中确定具体点击次数，状态4）中确定移动为直线轨迹或圆圈轨迹并得到具体移动方向.

5.2. 实时程序的数据流处理

实时程序设置大小为6×800的数据缓冲区，程序每次接收大小为6×40的数据帧以先进先出方式进入数据缓冲区. 数据帧缓冲完成后，程序使用模型A、D、G组合完成分类，获得当前数据状态类别. 程序根据分类结果进行状态转移并根据当前状态与上个状态选择执行功能.

5.3. 状态转移条件

为了减少误识别可能性，设计控制程序状态转移规则，状态转移图如图9所示. 除划动与画圈状态、开机启动与未佩戴状态之间转移条件（开机启动时，状态将自动转移到未佩戴状态）以外，其他状态间转换均由模型A、D、G耦合而成的大模型决定. 状态转移开始时，程序获取模型对当前数据帧识别结果. 若识别状态可达，则转移至下一状态，否则保持原状态不变. 可以观察到，划动属于短时间手势，约持续6~12帧长；画圈属于长时间手势，持续大于20帧长，因此程序根据状态持续时间决定是否向画圈状态转移. 对于点击与在表面上运动状态转移，手与表面刚接触时可能产生小幅度碰撞从而触发点击状态，因此程序增加从“点击”向“在表面上运动”转移的判断，以减少误判情况：若当前分类判断为在表面运动且点击次数为0，则向在表面运动状态转移. 另外，未知类别不会对状态产生影响.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 实时程序状态转移图

Fig.9 State diagram of real-time program

5.4. 未知类别的判断方法

模型训练中缺乏实际应用中的非目标类别数据（即未知类别数据），因此程序在实际应用中须另外执行未知类别判断以保证自身正常运行.

5.4.1. 未知类别识别树

本研究采用勾勒出已知数据边界并拒绝边界外数据的方式进行未知类别识别. 受K-Means聚类算法启发，设计基于已知数据的未知类别识别树，树形结构如图10所示. 计算有标签数据1）~5）组的FFT幅度谱，分别计算其均值x_i作为数据中心点. 对每组数据计算每个数据点到数据中心欧式距离，获得距离均值d_m和距离标准差d_s，相似度判断阈值为

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 未知类别的判别树

Fig.10 Discriminant tree for unknown class

(1) $ d=d_{{\rm{m}}}+3 d_{{\rm{s}}} . $

计算x_i的加权平均x₀作为数据整体中心，计算x_i到x₀的欧式距离c_i，相似度判断阈值为

(2) $ {d_0} = \mathop {{\text{max}}}\limits_i {\text{\{ }}{c_i}{\text+}{d_i}{\text{\} }} \text{；}i=1,2,3,4,5. $

数据组3）的距离标准差显著大于其他类别. 使用层次聚类（连接标准为全连接）将数据组3）分为4个子类并舍弃数据量最小的1个子类（88条数据），对剩余3个子类遵循与父类相同方法，计算数据中心点与相似度判断阈值. 实际使用时，数据在进入分类模型前经过识别树判断：若数据到每个中心的欧氏距离都不在阈值范围，则该数据被标记为未知类别.

5.4.2. SoftMax 阈值

对模型SoftMax输出设置0.99的置信度阈值，若最大项输出小于阈值，则标记为未知类.

5.4.3. 针对空中手部移动类别模型

实际使用中，表面上手部移动的误判大部分来自空中手部移动，因此在训练模型A、B、D的同时，训练模型G以区分空中手部运动. 实际使用中，空中手部移动类别并入未知类别以减少对程序的影响.

5.5. 程序功能介绍

5.5.1. 点击计数功能

当程序进入点击状态，程序将对点击计数. 程序首先计算加速度向量模长，使三轴数据合并为一轴，再计算加速度曲线中大于3.5g的峰值个数且各峰值之间最小距离为200个数据点. 计算所得峰值个数即为点击次数.

5.5.2. 划动与画圈分类识别

当程序进入划动状态，程序开始计算状态持续时间，直至返回手部静止状态或进入画圈状态. 程序根据模型E、F获得划动方向，同时根据模型C获得画圈方向并将判断结果放入长度为20的滑动窗口中. 当进入划动状态超过20个数据帧长时，程序进入画圈状态，并以滑动窗口中占比超过50%的方向作为当前方向输出.

5.5.3. 控制信号种类与发送时机

对于点击状态和划动状态，程序从当前状态进入手部静止状态时，向目标发送点击或划动信号；对于未佩戴状态和画圈状态，程序进入当前状态时，向目标发送休眠或画圈开始信号，并在离开当前状态时发送结束信号.

5.6. 模型与程序时延

如表3所示为各模型实际运行的计算时延均值与标准差, 计算过程均在型号为i7-12700的 CPU上完成. 表中，T为计算时延，括号外数字为均值，括号内数字为标准差. 识别程序从数据帧接收到完成单次响应的整体时延为6.01 ms（标准差为6.29 ms）.

表 3 模型计算时延的均值与标准差

Tab.3 Means and standard deviations of model calculation time

模型名称	T/ms	模型名称	T/ms
A	0.92（1.95）	E	1.28（1.86）
C	1.04（1.34）	F	2.02（3.28）
D	0.99（1.75）	G	1.15（2.76）

新窗口打开| 下载CSV

6. 结　论

（1）手部状态间的差异主要体现在频域分布上，手势间的差异主要体现在时域上且频段分布比手部状态的低. 针对数据差异进行差异化建模可以提升数据的可分程度.

（2）使用简单神经网络模型对手部状态数据与手势数据分类，在手部状态数据中达到99%的综合正确率，在2种手势数据中均达到98%的正确率，表明使用单个IMU同时进行手部状态识别与手势识别具有可行性.

（3）搭建实时系统并测量了实际运行下的计算时延，证明了IMU识别手部状态与手势在实际应用环境下的可行性.

（4）本研究侧重于证明使用 IMU 实现手部状态与手势识别的技术路线，忽略了硬件设备的轻量化设计. 本研究最大限度地限制了数据采集端的运算且模型运算量小，可以适应可佩戴设备运算环境，因此本研究的技术路线对应用于未来轻量化设备以及现有可佩戴设备技术集成具有参考意义.

（5）为了应对未来应用中面临的设备便携性与可佩戴设备计算资源限制问题，后续工作计划从设备轻量化与无线化设计、优化模型、减少实时识别程序能耗3个方向展开.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

SIEK K A, ROGERS Y, CONNELLY K H. Fat finger worries: how older and younger users physically interact with PDAs [C]// IFIP Conference on Human-Computer Interaction. [S.l.]: Springer, 2005: 267-280.

[本文引用: 1]

[2]

ZHOU J, ZHANG Y, LAPUT G, et al. AuraSense: enabling expressive around-smartwatch interactions with electric field sensing [C]// Proceedings of the 29th Annual Symposium on User Interface Software and Technology. [S.l.]: Association for Computing Machinery, 2016: 81-86.

[本文引用: 1]

[3]

ZHANG Y, KIENZLE W, MA Y, et al. ActiTouch: robust touch detection for on-skin AR/VR interfaces [C]// Proceedings of the 32nd Annual ACM Symposium on User Interface Software and Technology. [S.l.]: Association for Computing Machinery, 2019: 1151-1159.

[本文引用: 1]

[4]

LAPUT G, HARRISON C. SurfaceSight: a new spin on touch, user, and object sensing for IoT experiences [C]// Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems. [S.l.]: Association for Computing Machinery, 2019: 1-12.

[本文引用: 1]

[5]

SUKKARIEH S, NEBOT E M, DURRANT-WHYTE H F

A high integrity IMU/GPS navigation loop for autonomous land vehicle applications

[J]. IEEE Transactions on Robotics and Automation, 1999, 15 (3): 572- 578

DOI:10.1109/70.768189 [本文引用: 1]

[6]

BU Y, XIE L, YIN Y, et al. Handwriting-assistant: reconstructing continuous strokes with millimeter-level accuracy via attachable inertial sensors [C]// Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies. [S.l.]: Association for Computing Machinery, 2021, 5(4): 1-25.

[本文引用: 1]

[7]

BAO L, INTILLE S S. Activity recognition from user-annotated acceleration data [C]// International Conference on Pervasive Computing. [S.l.]: Springer, 2004: 1-17.

[本文引用: 1]

[8]

GU Y, YU C, LI Z, et al. Accurate and low-latency sensing of touch contact on any surface with finger-worn IMU sensor [C]// Proceedings of the 32nd Annual ACM Symposium on User Interface Software and Technology. [S.l.]: Association for Computing Machinery, 2019: 1059-1070.

[本文引用: 2]

[9]

XU X, LI J, YUAN T, et al. HulaMove: using commodity IMU for waist interaction [C]// Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. [S.l.]: Association for Computing Machinery, 2021: 1-16.

[本文引用: 1]

[10]

OTT F, WEHBI M, HAMANN T, et al. The OnHW dataset: online handwriting recognition from IMU-enhanced ballpoint pens with machine learning [C]// Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies. [S.l.]: Association for Computing Machinery, 2020, 4(3): 1-20.

[本文引用: 1]

[11]

WEHBI M, HAMANN T, BARTH J, et al. Towards an IMU-based pen online handwriting recognizer [C]// International Conference on Document Analysis and Recognition. [S.l.]: Springer, 2021: 289-303.

[本文引用: 1]

[12]

XU X, GONG J, BRUM C, et al. Enabling hand gesture customization on wrist-worn devices [C]// Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems. [S.l.]: Springer, 2022: 1-19.

[本文引用: 1]

[13]

MEIER M, STRELI P, FENDER A, et al. TaplD: rapid touch interaction in virtual reality using wearable sensing [C]// 2021 IEEE Virtual Reality and 3D User Interfaces (VR). Lisboa: IEEE, 2021: 519-528.

[本文引用: 1]

[14]

LAPUT G, XIAO R, HARRISON C. Viband: high-fidelity bio-acoustic sensing using commodity smartwatch accelerometers [C]// Proceedings of the 29th Annual Symposium on User Interface Software and Technology. [S.l.]: Association for Computing Machinery, 2016: 321-333.

[本文引用: 1]

[15]

LAPUT G, HARRISON C. Sensing fine-grained hand activity with smartwatches [C]// Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems. [S.l.]: Association for Computing Machinery, 2019: 1-13.

[本文引用: 1]

[16]

GONG J, GUPTA A, BENKO H. Acustico: surface tap detection and localization using wrist-based acoustic TDOA sensing [C]// Proceedings of the 33rd Annual ACM Symposium on User Interface Software and Technology. [S.l.]: Association for Computing Machinery, 2020: 406-419.

[本文引用: 1]

[17]

MADGWICK S O H, HARRISON A J L, VAIDYANATHAN R. Estimation of IMU and MARG orientation using a gradient descent algorithm [C]// 2011 IEEE International Conference on Rehabilitation Robotics. Zurich: IEEE, 2011: 1-7.

[本文引用: 1]

[18]

VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders [C]// Proceedings of the 25th International Conference on Machine Learning. [S.l.]: Association for Computing Machinery, 2008: 1096-1103.

[本文引用: 1]

... 可穿戴式设备（如智能手表、智能眼镜）日渐被大众所接受，为机器感知人类活动提供了新方式，但在实际使用中，它们往往被狭小的交互界面局限^[1]. 如何拓展可穿戴设备交互界面成为人机交互研究中待解决的问题. 研究者提出如使用设备周围空间^[2]、使用人皮肤上空间^[3]的解决方案，其中较为可行的是使用与人接触的平面空间. 这种平面空间通常是人手接触的桌面、墙面. 研究者在平面或接触部位部署传感器以达到感知、追踪接触活动的效果，如SurfaceSight^[4]使用部署在桌面的激光雷达，通过分析桌面上物体边缘，成功完成了感知与追踪人体活动、感知物体的任务. ...

A high integrity IMU/GPS navigation loop for autonomous land vehicle applications

1999

... 本研究将使用佩戴在手指上的惯性测量单元（inertial measurement unit,IMU）以感知手指与平面的触碰活动. IMU通常由3个自由度的加速度计与3个自由度的角速度计构成，部分IMU集成了3个自由度的地磁传感器. 由于IMU提供的丰富信息（加速度、速度、姿态定位^[5-6]等）以及消费级IMU低廉的价格，该传感器被广泛地部署在各类智能设备中；由于IMU具有强大的感知能力，还被广泛地应用于如感知人体姿态、人的行为^[7]的人机交互领域任务中. Gu等^[8]低延迟且高准确率地识别了手指在表面的点击手势；HulaMove^[9]通过配置在腰部的智能设备，感知人腰部的运动并以此建立新交互方式；Ott等^[10-11]使用配置了包括IMU在内的多传感器笔，完成了对手写内容的识别；Xu等^[12]通过智能手表中的IMU，完成了对定制手势的识别；TapID^[13]使用配置在手上的IMU阵列，成功地区分了不同手指的点击活动. ...

... 模型拆分的优势如下. 1）在实际训练中观察到的现象与Gu等^[8]观察到的相似：在数据量少的情况下，将复杂任务拆分为简单分类任务并将各个小模型耦合为大模型会提升识别正确率，降低训练难度；2）由小模型耦合而来的大模型在实际运用中，更易于维护与实现功能拓展（维护与功能更新过程只需更新相关小模型）. ...

... 由于人体活动变化频率低，研究者出于对能耗的考虑，往往将IMU在智能设备中的采样频率设定在50~100 Hz，但是消费级IMU可以支持更高的采样频率. IMU设定更高采样频率，可以获得以往无法获得的信息（如摩擦产生的表面振动波），这些新信息为IMU带来新功能与新应用场景. Viband^[14-15]通过提高智能手表中IMU的采样频率，完成了人体活动感知、振动物体识别以及接触状态下基于振动信号的传输通信3种任务. Acustico^[16]利用手腕佩戴的麦克风与高采样率加速度计，捕捉了手指点击桌面产生的空气中声波与表面声波到达时间差距，精确定位了点击位置. ...

... 原始加速度数据中包含重力加速度分量，保留重力加速度分量将使手势识别算法对方位敏感. 客户端获得数据后先通过Madgwick滤波器^[17]获得IMU姿态四元数，并以此为依据移除重力分量. 为了减少加速度与角速度的数值差距，使模型训练顺利进行，数据处理过程还包含数据标准化、标准化后的数据将会被送入程序，实现手势模式识别. ...

... 设计基于一维卷积神经网络的去噪自编码器^[18]，高鲁棒性地提取低频特征进行数据分析与特征分类器分类. 自编码器对称地分为2个部分：编码器、解码器，各部分由4层一维卷积神经网络层组成. 编码器中每层连接最大池化层以达到数据降维效果；解码器中每层连接上采样层以对称地还原数据大小（上采样插值策略为填充最近值）. 解码器最后连接1层一维卷积层作为输出层. 自编码器整体结构如图7所示，其中C为数据通道数，C下方数据为各通道数据尺寸. 实际使用时仅选取编码器部分作为低频特征提取器. ...

〈

〉