基于视觉Transformer时空自注意力的工人行为识别
Worker behavior recognition based on temporal and spatial self-attention of vision Transformer
通讯作者:
收稿日期: 2022-05-20
基金资助: |
|
Received: 2022-05-20
Fund supported: | 国家自然科学基金资助项目(51805477) |
作者简介 About authors
陆昱翔(1996—),男,硕士生,从事图像处理及机器人自动化应用研究.orcid.org/0000-0001-8285-8796.E-mail:
针对人机协作特殊场景中工人行为识别的问题,提出基于Transformer网络的视频人体行为识别模型,利用Transformer网络核心的自注意力机制,减少网络的结构复杂度,提升网络的性能. 模型在提取图像空间特征的基础上,增加时间特征的分析,从空间和时间2个维度实现对视频数据的处理. 在处理后的数据中提取分类向量传入分类模块,得到最终的识别结果. 为了验证模型的有效性,分别在公开数据集UCF101和实验室采集的工人常规行为(自建)数据集上进行人体行为识别实验. 实验结果显示,在UCF101上模型平均识别准确率为93.44%,在自建数据集上模型平均识别准确率为98.54%.
关键词:
A video human behavior recognition model based on Transformer network structure was proposed, in order to solve the problem of worker behavior recognition in the special scene of human-robot collaboration. The self-attention mechanism at the core of Transformer network was used to reduce the structure complexity and boost the performance of the network. On the basis of extracting the spatial features of the image, a method of adding time features analysis was used to process the video data from two dimensions of space and time. After that, the classification vector was extracted from the processed data, and passed into the classification module to get the final recognition result. Human behavior recognition experiments were carried out on the public dataset UCF101 and the routine behavior dataset of workers collected in the laboratory (a self-built dataset) respectively, in order to verify the effectiveness of the model. Experimental results showed that the average recognition accuracy of the model on UCF101 was 93.44%, and the average recognition accuracy of the model on the self-built dataset was 98.54%.
Keywords:
本文引用格式
陆昱翔, 徐冠华, 唐波.
LU Yu-xiang, XU Guan-hua, TANG Bo.
有大量学者投入视频分析研究,这些研究以CNN、RNN神经网络及其改进为主. Simonyan等[6]提出的双流卷积网络使用2个并行网络分别提取时空特征,融合后得到分类结果. Feichtenhofer等[7]在卷积层融合时空特征改进双流卷积网络,增强网络分类效果. Ye等[8]针对时间特征信息利用不足的情况,提出基于时间相关采样的双流网络模型. 该模型充分利用时间相关性,在KTH上的准确率达92.1%. Peng等[9]提出的3D-MRCNN卷积模型可以自主提取视频信息中的时空特征进行分析,在公开数据集UCF101上的识别准确率达到85.7%. 张传雷等[10]结合残差网络和注意力机制改进LSTM网络,在办公人员行为识别任务中取得较好的效果. Yu等[11]将CNN与LSTM网络结合并加入改进密集轨迹流来学习短时间运动特征,在HMDB-51上取得71.0%的分类效果. Tanberk等[12]采用3DCNN模型提取光流信息,并利用LSTM算法提取辅助信息,再将信息融合,在多个数据集上模型的识别精度均超过90%. Wu等[13]发掘挤压激励网络(squeeze-andexcitation network,SE Net)、I3D和GRU网络的互补性,提出SE-I3D-GRU模型,将SE模块扩展到三维,再分别与I3D和GRU网络融合,最终合并的网络可以高效提取三维时空特征,模型在UCF101上的识别精度达到93.2%. 上述研究取得了一定的成果,但在运算时间、效果或训练资源上仍需改进.
Vaswai等[14]提出的Transformer网络凭借训练资源和精度上的优势,逐渐取代RNN成为处理自然语言问题的主力并向视觉领域拓展. 在不少视觉任务中,相比于CNN和RNN网络,Transformer表现出更好的鲁棒性和效率,为Transformer迁移到计算机视觉领域提供了理论支撑[15-17]. Zhou等[18]研究了语言Transformer模型缩放规律,使用2种尺度扩展模型和数据,引入CNN设计范式,丰富网络特征多样性,模型在数据集ImageNet上的识别精度达到90.45%. Chen等[19]将Transformer的多尺度特征用于图像分类,采用2种尺度划分图像和编码,再使用交互注意层实现不同尺度序列的信息交互,模型在ImageNet上的识别精度达到83.0%. 总体来说,视觉Transformer作为新的视觉特征学习网络仍处于较早的发展阶段,以其为骨架的分类算法相较于传统网络表现出更强大的特征学习能力,但也存在对数据和算力资源的严重依赖. 既有的相关研究主要通过改进算法结构和融合其他算法来提高算法的运行效率,提升算法应对不同维度和场景的能力.
本研究以人机协作的特殊环境为背景,针对工位内工人动作识别任务,提出结合空间和时间自注意力的网络结构,提取3D视频数据中的连续关键帧测试网络行为识别的性能,验证人机协作环境下应用该网络的可行性.
1. 基于Transformer时空自注意力的工人行为识别网络
1.1. 时空自注意力
针对人机协作环境中工人行为识别问题,本研究在空间自注意力模块之前添加时间自注意力模块,引入时间自注意力,对输入的一系列连续帧提取时间特征信息,学习特征信息在时序方面的内在联系并反馈给网络,使网络具备视频识别的能力. 在处理一系列权重参数时,时空自注意力会对时间和空间两方面的元素按照重要程度排序,根据排序结果进行元素合并,聚合丰富的动作分类信息,提高模型性能.
如图1所示为时空自注意力模块的工作示例. 每个视频片段视为由
图 1
1.2. 模型基本框架
如图2所示,模型核心包括图像关键时序帧提取、图像分块处理、图像数据降维展平、Transformer编码器和多层感知机(multilayer perceptron,MLP) 5个部分,其中前3个部分为数据转换层,后2个部分为数据分析层. 图中,
图 2
1.2.1. 数据转换层
模型的输入为视频数据,每个视频片段由1组
图 3
式中:
Transformer与RNN的网络结构类似,不具备直接处理图像的功能,要求输入的数据是数字序列形式,即长度为
构造全连接层对上述图像序列进行线性变换,同时插入位置编码来保留图像块之间的时空位置信息. 式(2)中的
1.2.2. 数据分析层
Transformer编码器是数据分析层的核心,也是本研究所提网络的核心,与仅包含1个自注意力模块的常规网络不同,其具备时间和空间2个自注意力模块. 每个自注意力模块均包含层归一化和多头注意力机制,层归一化的作用是稳定数据的维度和分布,多头注意力机制用于计算多头注意力. 序列输入后,先在时间上计算注意力,再在空间上计算注意力,在时空上交互建模,将计算后携带时空信息的结果传入MLP模块.
将数据转换层得到的
式中:
式中:SM为softmax归一化函数.
将数据转换层处理完的连续视频帧数据输入Transformer结构中,1)通过时间注意力模块得到时间注意力权重矩阵
2. 实验结果与分析
2.1. 数据获取
2.1.1. 数据集UCF101
视频动作数据集UCF101是以2016年谷歌发布的数据集youtube-8M为代表构建的多标签行为识别数据集,该数据集包含101个动作类别的13 320个视频. 101个动作类别的视频被分为25组,每组包含1个动作的4~7个视频,同组的视频具备相似背景、相似意图. 101类行为可以概括为5个大类:人与物体交互、单纯的肢体动作、人与人交互、演奏乐器、体育运动.
2.1.2. 自建数据集
本研究所用的自建数据集通过实验室自行采集,数据集内容为模拟人机协作场景下机器人观测到的工人常规工作行为视频. 视频数据采集步骤:1)选取一类场景;2)选取一类动作;3)每个场景分别从正面、左侧45°、左侧90°、右侧45°、右侧90°的拍摄角度录制选取类型的动作视频,其中正面录制2次,共6个视频;4)更换为不重复的场景和动作类型;5)重复步骤1)~4). 总共采集1 200个视频片段,平均每个视频片段时间为7 s,采集到的行为视频数据共分为25个不同背景的8类,分别是开始、使用螺丝刀、使用钳子、使用扳手、使用锤子、使用键盘、离岗、结束,数据集部分示例截图如图4所示.
图 4
图 4 自建数据集8类视频的截图
Fig.4 Screenshots of self-built dataset with eight categories of video
2.2. 数据预处理和增强
将数据集中所有视频片段进行类别标注,标注相同的视频片段分到对应的文件夹中,将视频文件路径和对应的类别信息索引存放到TXT文件中,以便后续训练和验证模型时调取数据集. 在数据集划分方面,将70%的视频行为片段作为训练集,30%的视频行为片段作为测试集. 将视频片段分段处理,依据帧间差分法的原理计算出每2帧之间的帧间差异,选取每段视频帧间差异最大的关键帧为中间帧,采集连续的16帧. 图像无需进行随机裁剪,均匀裁剪为统一大小:224像素×224像素,这里卷积核大小n=16,RGB图像通道数
2.3. 实验环境
实验的运行环境为 64位Windows10系统,GPU驱动CUDA10.1与CUDNN7.6;训练采用NVIDIA GeForce GTX 1650 Ti显卡,硬件平台处理器采用AMD Ryzen 7 4800H with Radeon Graphics CPU,运行内存16 GB;算法实验的软件环境采用Python 3.7和PyTorch深度学习框架.
2.4. 实验设置
在数据进行增强和预处理操作后,提取数据集中所有视频帧文件的索引,以3∶7划分出测试集和训练集对应的索引,索引中地址和类别信息均保持一致,保证每次输入的数据是同一行为类别的数据,对网络进行有效训练. 每次读取1条索引,即输入1个视频进入网络. 训练迭代次数为100,取模型的初始学习率为0.002 5,采用指数衰减来防止过拟合,即随着循环次数的增加学习率呈指数式减小,采用大型行为识别数据集ImageNet21上的预训练参数对模型初始化. 模型使用L2正则化防止过拟合,选取交叉熵作为损失函数,采用Adam优化器优化网络,寻找损失的全局最优点.
模型评估指标采用模型在数据集上的识别准确率Acc、正类精确率TPR和F1值F1来衡量分类性能,其中识别准确率的计算式为
式中:
2.5. 实验结果与分析
将本研究所提网络与仅包含Transformer空间自注意力机制的行为识别算法ViT[17]进行比较,分别在UCF101日常行为数据集和自制数据集上进行实验.
2.5.1. 对比实验及分析
验证本研究所提网络在RGB图像行为识别任务中的性能. 将处理好的数据集UCF101输入所提网络模型中训练,保存获取最高准确度的训练模型,在测试集上进行多次测试并计算准确率平均值Accavg,实验后得到的评估结果与传统动作识别算法的对比如表1所示. 可以看出,所提网络相较于传统算法有较大的提升,在UCF101上的识别准确率为93.44%,与识别准确率为88.54%的ViT相比提高了5.53%. 表明相较于对比算法和不包含时间注意力机制的ViT算法,基于时空注意力机制的Transformer行为识别网络在各项指标上都为最优,整体和单独动作类的识别效果良好且具备一致性. 如表2所示为所提网络在UCF101的5大类视频数据上的实验结果. 可见识别准确率均超过92%,证明所提网络在应对不同场景时均具备较好的识别分析能力. 也应注意到,各类别之间的识别效果存在一定差异,主要原因是UCF101通常在复杂的现实环境中采集,模型抗环境干扰能力有待提高,进行图像处理时易受到光照、人为因素和采集角度单一等影响导致识别精度的波动.
表 1 不同模型在UCF101数据集上的评估实验结果
Tab.1
表 2 本研究模型对UCF101各类别视频的识别精度
Tab.2
% | |||
视频类别 | Accmin | Accmax | Accavg |
人与物体交互 | 92.62 | 93.70 | 93.16 |
单纯的肢体动作 | 92.19 | 92.26 | 92.28 |
人与人交互 | 96.89 | 96.96 | 96.93 |
演奏乐器 | 97.76 | 98.50 | 98.13 |
体育运动 | 92.64 | 93.53 | 93.09 |
图 5
图 5 不同图像识别模型的识别准确率变化
Fig.5 Variation of recognition accuracy for different image recognition models
图 6
图 6 不同图像识别模型的训练损失率变化
Fig.6 Variation of training loss rate for different image recognition models
输入测试集对保存的模型进行多次训练,取准确率的平均值作为结果,如表3所示. 所提网络在验证集上的准确率平均值为98.54%,比ViT模型高出了5.89%;所提网络的TPR和F1值与ViT模型的结果相比有较大提升,证明本研究所提方法可以较好地完成人机协作环境下的视频行为识别任务. 得益于Transformer的自注意力机制,所提模型可以快速捕捉到视频中动作发生的空间位置,在时间和空间注意力机制依次作用下,模型更加关注动作前后间的联系,将包含时空特征的位置信息加入结点进行编码,使Transformer内部的编码与解码部分在每个结点上叠加相应的位置编码,有效提升了识别准确率.
表 3 不同图像识别模型在自建数据集上的评估实验结果
Tab.3
模型 | Accmin/% | Accmax/% | Accavg/% | TPR/% | F1 |
ViT | 92.55 | 92.68 | 92.65 | 97.54 | 0.8903 |
本研究 | 98.50 | 98.58 | 98.54 | 100.00 | 0.9812 |
综合2个数据集的实验结果可以看出,相较于普遍在室外场景中采集的UCF101,在实验室模拟环境下采集的自建数据集不仅避免了视频背景光照复杂和人物遮挡影响的情况,还可以自主调整光照和角度,更加符合本研究的人机协作场景,得到的行为识别的准确率普遍更高. 如图7所示为所提模型与ViT模型对自建数据集每种行为类别测试所得的准确率. 可以看出,不同行为的识别准确率存在一定差异. 对于动作幅度较小的动作(如使用螺丝刀、使用钳子),模型的识别准确率较低;对于动作幅度较大的动作(如举手开始、使用锤子),模型的识别准确率较高. 所得结果符合动物视觉系统更容易识别大幅度动作的生物机理,也表明在行为识别任务中学习工人肢体运动关键部位特征的重要性.
图 7
图 7 不同图像识别模型的类别识别准确率
Fig.7 Recognition accuracy of different image recognition models by category
2.5.2. 消融实验及分析
所提模型在设计上对输入帧数没有特定要求,理论上能够识别任意输入帧数的视频数据,但选择合适的帧数可以节省训练资源、提高识别精度与效率. 如表4所示,在自建数据集上测试输入不同帧数连续关键帧对识别结果的影响. 可以发现,当输入帧数为2、4帧时,数据不能提供足够的特征给网络训练,缺乏学习内容,模型的识别效果较差;当帧数大于等于8时,网络得到的数据逐渐丰富,模型可以基本识别动作类型;当帧数为16帧时,模型的识别效果达到最佳;超过16帧后,模型的识别效果受到多余信息干扰产生波动. 实验结果总体呈现帧数越大,模型的识别效果越好的趋势. 所得结果符合注意力模型善于保留长期信息的规律,也证明模型需要一定量的数据来学习时间和空间成分的关系. 过多的输入信息会影响网络的识别性能,综合考虑下,选取16帧数据作为输入的模型,识别效果最好.
表 4 本研究模型在不同采样帧数下的评估实验结果
Tab.4
% | |||
采样帧数 | Acc | TPR | |
验证集 | 测试集 | ||
2 | 92.21 | 93.67 | 97.71 |
4 | 93.03 | 94.30 | 98.64 |
8 | 94.85 | 95.17 | 99.73 |
16 | 98.54 | 99.73 | 100.00 |
32 | 95.67 | 99.25 | 100.00 |
如表5所示,针对不同类型模型样本的输入进行对比实验,主要包括固定连续帧、连续关键帧和离散关键帧. 固定连续帧采集每段视频开头的连续16帧作为网络输入;连续关键帧以每段视频中动作前后差异度最大的关键帧作为中心,采集连续的16帧作为网络输入;离散关键帧选取视频段中离散的16个关键帧作为网络输入. 分析可知,在输入为连续关键帧的情况下,所提模型提取时空特征的效果最好;固定连续帧提供的空间特征缺乏部分关键动作的信息,在ViT和所提模型上的识别准确率都较差;离散关键帧缺乏时间关联信息,因此对ViT模型识别效果影响较小而对所提模型存在较大影响. 通过比较不同类型输入帧下网络的表现,发现使用连续关键帧能够较稳定的发挥模型的识别性能.
表 5 本研究模型在不同类型输入帧下的识别精度
Tab.5
% | |||
模型 | Acc | ||
连续帧(固定) | 连续帧(关键) | 离散帧(关键) | |
ViT | 90.54 | 92.62 | 92.55 |
本研究 | 97.29 | 98.54 | 96.97 |
预训练参数初始化模型常用于图像和视频分类任务. 在本研究中,图像单帧特征提取网络采用网络在行为识别领域预训练的参数进行初始化,时、空自注意力模块各使用12个注意力机制的编码单元. 针对所提模型的结构消融实验如表6所示,在保证其余结构不变的前提下,取消特征提取网络的参数初始化,其中Head为注意力头数. 结果表明,无预训练参数初始化的模型陷入局部最优,识别精度大幅下降,说明先验知识对网络完成行为识别任务有导向作用. 通过赋予网络不同注意力机制个数发现,数目过少会减弱模型的学习能力,数目过多会产生过拟合缺陷导致准确率下降,因此选取合适的结构对保证行为识别的性能有关键作用. 为了验证时间自注意力模块对网络识别性能的提升,将时间自注意力模块替换成空间自注意力模块进行实验. 实验结果表明,仅包含空间自注意力模块的模型无法关注时间信息,缺乏提取时空关联性特征的能力;增加模块数量不但难以提升模型的识别性能,还会降低运行效率. 相比之下,具备时空自注意力模块的模型识别性能远高于具备2个空间自注意力模块的模型,由此证明了所提模型的有效性.
表 6 本研究模型的结构消融实验结果
Tab.6
% | |
结构调整 | Acc |
无预训练参数初始化 | 89.72 |
Head=4 | 88.71 |
Head=8 | 94.44 |
Head=12 | 98.54 |
Head=16 | 97.31 |
双空间自注意力模块 | 92.96 |
3. 结 语
本研究主要针对人机协作的特殊场景,结合Transformer神经网络核心的自注意力机制,提出视频行为识别网络,旨在识别和获取工作人员的行为习惯信息,推进后续人机协作任务. 通过提取视频连续关键帧的方法进一步提高识别精度,在公开数据集UCF101上进行测试,与仅包含空间自注意力的ViT网络相比,识别准确率提高了5.53%;在自建人机协作场景数据集上取得了98.54%识别效果,为后续特定场景内行为识别技术研究提供了新的思路. 针对本研究所提网络后续可开展的研究包括:1)采用多元化信息作为网络的输入;2)通过加入骨架数据和深度数据的方法,使识别网络可以应对场景和光照强度变换带来的影响;3)在人机协作场景中,增强工人运动关键部位的空间特征提取,提高行为识别准确率.
参考文献
Depth camera based collision avoidance via active robot control
[J].DOI:10.1016/j.jmsy.2014.04.004 [本文引用: 1]
人体行为识别研究
[J].DOI:10.3969/j.issn.1003-9767.2017.24.058 [本文引用: 1]
Analysis of human behavior recognition
[J].DOI:10.3969/j.issn.1003-9767.2017.24.058 [本文引用: 1]
Prediction of human activity patterns for human–robot collaborative assembly tasks
[J].DOI:10.1109/TII.2018.2882741 [本文引用: 1]
Human behavior recognition based on time correlation sampling two stream heterogeneous grafting network
[J].DOI:10.1016/j.ijleo.2021.168402 [本文引用: 1]
3D convolutional neural network for human behavior analysis in intelligent sensor network
[J].DOI:10.1007/s11036-021-01873-8 [本文引用: 1]
基于ResNet-LSTM的具有注意力机制的办公人员行为视频识别
[J].DOI:10.13364/j.issn.1672-6510.20190252 [本文引用: 1]
Office staff behavior recognition based on ResNET-LSTM attention mechanism
[J].DOI:10.13364/j.issn.1672-6510.20190252 [本文引用: 1]
A novel recurrent hybrid network for feature fusion in action recognition
[J].DOI:10.1016/j.jvcir.2017.09.007 [本文引用: 1]
A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition
[J].DOI:10.1109/ACCESS.2020.2968529 [本文引用: 1]
Research on behavior recognition algorithm based on SE-I3D-GRU network
[J].
Standing-posture recognition in human–robot collaboration based on deep learning and the dempster–shafer evidence theory
[J].DOI:10.3390/s20041158 [本文引用: 1]
Predicting short-term next-active-object through visual attention and hand position
[J].DOI:10.1016/j.neucom.2020.12.069
基于卷积神经网络与注意力模型的人体步态识别
[J].DOI:10.3969/j.issn.1004-1699.2019.07.012 [本文引用: 1]
Human gait recognition based on convolutional neural network and attention model
[J].DOI:10.3969/j.issn.1004-1699.2019.07.012 [本文引用: 1]
/
〈 |
|
〉 |
