浙江大学学报(工学版), 2023, 57(3): 446-454 doi: 10.3785/j.issn.1008-973X.2023.03.002

计算机与控制工程

基于视觉Transformer时空自注意力的工人行为识别

陆昱翔,, 徐冠华,, 唐波

1. 中国计量大学 计量测试工程学院,浙江 杭州 310018

2. 浙江大学 浙江省三维打印工艺与装备重点实验室,流体动力与机电系统国家重点实验室,浙江 杭州 310027

3. 宁波水表(集团) 股份有限公司,浙江 宁波 315033

Worker behavior recognition based on temporal and spatial self-attention of vision Transformer

LU Yu-xiang,, XU Guan-hua,, TANG Bo

1. College of Metrology and Measurement Engineering, China Jiliang University, Hangzhou 310018, China

2. Zhejiang Province’s Key Laboratory of 3D Printing Process and Equipment, State Key Laboratory of Fluid Power and Mechatronic Systems, Zhejiang University, Hangzhou 310027, China

3. Ningbo Water Meter (Group) Limited Company, Ningbo 315033, China

通讯作者: 徐冠华,男,高级工程师,博士. orcid.org/0000-0003-4022-7720. E-mail: xuguanhua@zju.edu.cn

收稿日期: 2022-05-20  

基金资助: 国家自然科学基金资助项目(51805477)

Received: 2022-05-20  

Fund supported: 国家自然科学基金资助项目(51805477)

作者简介 About authors

陆昱翔(1996—),男,硕士生,从事图像处理及机器人自动化应用研究.orcid.org/0000-0001-8285-8796.E-mail:yuxiang_lu1996@163.com , E-mail:yuxiang_lu1996@163.com

摘要

针对人机协作特殊场景中工人行为识别的问题,提出基于Transformer网络的视频人体行为识别模型,利用Transformer网络核心的自注意力机制,减少网络的结构复杂度,提升网络的性能. 模型在提取图像空间特征的基础上,增加时间特征的分析,从空间和时间2个维度实现对视频数据的处理. 在处理后的数据中提取分类向量传入分类模块,得到最终的识别结果. 为了验证模型的有效性,分别在公开数据集UCF101和实验室采集的工人常规行为(自建)数据集上进行人体行为识别实验. 实验结果显示,在UCF101上模型平均识别准确率为93.44%,在自建数据集上模型平均识别准确率为98.54%.

关键词: 人机协作 ; Transformer ; 时空自注意力 ; 工人行为 ; 行为识别

Abstract

A video human behavior recognition model based on Transformer network structure was proposed, in order to solve the problem of worker behavior recognition in the special scene of human-robot collaboration. The self-attention mechanism at the core of Transformer network was used to reduce the structure complexity and boost the performance of the network. On the basis of extracting the spatial features of the image, a method of adding time features analysis was used to process the video data from two dimensions of space and time. After that, the classification vector was extracted from the processed data, and passed into the classification module to get the final recognition result. Human behavior recognition experiments were carried out on the public dataset UCF101 and the routine behavior dataset of workers collected in the laboratory (a self-built dataset) respectively, in order to verify the effectiveness of the model. Experimental results showed that the average recognition accuracy of the model on UCF101 was 93.44%, and the average recognition accuracy of the model on the self-built dataset was 98.54%.

Keywords: human-robot collaboration ; Transformer ; temporal and spatial self-attention ; worker action ; behavior recognition

PDF (2240KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陆昱翔, 徐冠华, 唐波. 基于视觉Transformer时空自注意力的工人行为识别. 浙江大学学报(工学版)[J], 2023, 57(3): 446-454 doi:10.3785/j.issn.1008-973X.2023.03.002

LU Yu-xiang, XU Guan-hua, TANG Bo. Worker behavior recognition based on temporal and spatial self-attention of vision Transformer. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(3): 446-454 doi:10.3785/j.issn.1008-973X.2023.03.002

作为工业智能化的产物,人机协作系统需要理解人的意图,并实时辅助人类完成各项任务[1]. 行为识别[2-3]作为人机协作流程中的重要环节,是机器人理解意图、执行协作任务的基础[4]. 视觉技术和计算机硬件水平的高速发展,使得机器人理解视频内容成为可能[5]. 因此,通过分析视频数据,对车间工位环境内工人进行行为识别具有重要的研究价值.

有大量学者投入视频分析研究,这些研究以CNN、RNN神经网络及其改进为主. Simonyan等[6]提出的双流卷积网络使用2个并行网络分别提取时空特征,融合后得到分类结果. Feichtenhofer等[7]在卷积层融合时空特征改进双流卷积网络,增强网络分类效果. Ye等[8]针对时间特征信息利用不足的情况,提出基于时间相关采样的双流网络模型. 该模型充分利用时间相关性,在KTH上的准确率达92.1%. Peng等[9]提出的3D-MRCNN卷积模型可以自主提取视频信息中的时空特征进行分析,在公开数据集UCF101上的识别准确率达到85.7%. 张传雷等[10]结合残差网络和注意力机制改进LSTM网络,在办公人员行为识别任务中取得较好的效果. Yu等[11]将CNN与LSTM网络结合并加入改进密集轨迹流来学习短时间运动特征,在HMDB-51上取得71.0%的分类效果. Tanberk等[12]采用3DCNN模型提取光流信息,并利用LSTM算法提取辅助信息,再将信息融合,在多个数据集上模型的识别精度均超过90%. Wu等[13]发掘挤压激励网络(squeeze-andexcitation network,SE Net)、I3D和GRU网络的互补性,提出SE-I3D-GRU模型,将SE模块扩展到三维,再分别与I3D和GRU网络融合,最终合并的网络可以高效提取三维时空特征,模型在UCF101上的识别精度达到93.2%. 上述研究取得了一定的成果,但在运算时间、效果或训练资源上仍需改进.

Vaswai等[14]提出的Transformer网络凭借训练资源和精度上的优势,逐渐取代RNN成为处理自然语言问题的主力并向视觉领域拓展. 在不少视觉任务中,相比于CNN和RNN网络,Transformer表现出更好的鲁棒性和效率,为Transformer迁移到计算机视觉领域提供了理论支撑[15-17]. Zhou等[18]研究了语言Transformer模型缩放规律,使用2种尺度扩展模型和数据,引入CNN设计范式,丰富网络特征多样性,模型在数据集ImageNet上的识别精度达到90.45%. Chen等[19]将Transformer的多尺度特征用于图像分类,采用2种尺度划分图像和编码,再使用交互注意层实现不同尺度序列的信息交互,模型在ImageNet上的识别精度达到83.0%. 总体来说,视觉Transformer作为新的视觉特征学习网络仍处于较早的发展阶段,以其为骨架的分类算法相较于传统网络表现出更强大的特征学习能力,但也存在对数据和算力资源的严重依赖. 既有的相关研究主要通过改进算法结构和融合其他算法来提高算法的运行效率,提升算法应对不同维度和场景的能力.

本研究以人机协作的特殊环境为背景,针对工位内工人动作识别任务,提出结合空间和时间自注意力的网络结构,提取3D视频数据中的连续关键帧测试网络行为识别的性能,验证人机协作环境下应用该网络的可行性.

1. 基于Transformer时空自注意力的工人行为识别网络

1.1. 时空自注意力

为了实现较好的人体行为识别效果,模型需要高效提取数据特征,保证网络得到类型众多、数量充足的特征进行学习. 注意力机制可以高效提取特征,在行为识别研究中已有通过增加注意力机制来提高网络性能的案例[20-22]. 本研究使用的Transformer网络结构具备的自注意力机制,针对输入的数据,Transformer的自注意力机制可以进行自动调节,增强特征,大幅提高网络的识别性能.

针对人机协作环境中工人行为识别问题,本研究在空间自注意力模块之前添加时间自注意力模块,引入时间自注意力,对输入的一系列连续帧提取时间特征信息,学习特征信息在时序方面的内在联系并反馈给网络,使网络具备视频识别的能力. 在处理一系列权重参数时,时空自注意力会对时间和空间两方面的元素按照重要程度排序,根据排序结果进行元素合并,聚合丰富的动作分类信息,提高模型性能.

图1所示为时空自注意力模块的工作示例. 每个视频片段视为由 $ F $帧的帧级图像组成,每帧分为 $ N $个不重叠的图像块,X为某一时刻查询图像块,YX前后时刻σ(在该时刻取前后帧)在时间维度的自注意力邻域,Z为该时刻X在空间维度的自注意力邻域,空白图像块不用于与X图像块相关的自注意力计算. 在训练过程中,自注意力模块先计算时间注意力,再计算空间注意力;先将每一个图片块与其他在相同空间位置但时间帧不同的图像块进行对比,再对相同时间帧内不同空间位置的图像块进行比较;每帧图像的每个图像块X只进行 $ N+2 $次对比,以在提高计算效率的同时提升分类准确率.

图 1

图 1   自注意力模块的工作示例

Fig.1   Working example of self-attention module


1.2. 模型基本框架

图2所示,模型核心包括图像关键时序帧提取、图像分块处理、图像数据降维展平、Transformer编码器和多层感知机(multilayer perceptron,MLP) 5个部分,其中前3个部分为数据转换层,后2个部分为数据分析层. 图中, $ {\boldsymbol{x}}_0 $为分类向量用作记录分类信息, $ {\boldsymbol{x}}_{{i}}({{i}} \in 1,\cdots ,{{N}}) $为线性展平后的输入向量,QKV分别为Transformer模型的查询向量、关键值向量和内容向量.

图 2

图 2   工人行为识别模型的流程图

Fig.2   Flowchart of worker behavior recognition model


1.2.1. 数据转换层

模型的输入为视频数据,每个视频片段由1组 $ F $帧的时序图像组成. 对图像进行分块的预处理,输入的图像数据为 $ H \times W \times C $的三维数据,其中 $ H $$ W $分别为图像高和宽, $ C $为通道数. 如图3所示,先将图像的像素大小由 $ H \times W $统一调整为 $ m \times m $,再将图像分成 $ N $个给定的像素大小为 $ n \times n $的图像块,其中 $ N=(m/n)^{2} $为产生的图像块总数. CNN分块部分使用1个卷积核大小为 $ n \times n $像素、步距为 $ n $像素、卷积核个数为 $ C \times {n^2} $的卷积来实现分块和图像维特征向量的提取. 为了减小集合变换的影响,加快模型梯度下降得到最优解,进行归一化处理,将图像像素大小介于[0,255]的图像数据转化为介于[0,1]分布的数据. 假设原始图像数据为x,采用最大最小值的归一化,计算式为

图 3

图 3   图像分块

Fig.3   Image block


$ {x}'=\frac{{x}_{i}-{x}_{\mathrm{m}\mathrm{i}\mathrm{n}}}{{x}_{\mathrm{m}\mathrm{a}\mathrm{x}}-{x}_{\mathrm{m}\mathrm{i}\mathrm{n}}} . $

式中: $ {x}_{i} $为图像像素点的值; $ {x}_{\mathrm{m}\mathrm{a}\mathrm{x}} $$ {x}_{\mathrm{m}\mathrm{i}\mathrm{n}} $分别为图像像素的最大值和最小值.

Transformer与RNN的网络结构类似,不具备直接处理图像的功能,要求输入的数据是数字序列形式,即长度为 $ \alpha $、深度为 $\; \beta $的二维矩阵[ $ \alpha $, $\; \beta $],因此须通过线性映射将每个图像块映射到二维矩阵中. 每个形式为[ $ n $, $ n $, $ C $]的块数据通过映射得到长度为 $ C \times {n^2} $像素的向量,即将[ $ m $, $ m $, $ C $]的三维图片转换为[ $ k $, $ k $, $ C \times {n^2} $]的三维数据,其中 $ k = m/n $. 再将 $ H $维度和 $ W $维度展平,即可使[ $ k $, $ k $, $ C \times {n^2} $]的三维数据转换为[ $ N $, $ C \times {n^2} $]的二维图像序列,得到的二维序列 $ {{\boldsymbol{x}}_{(p,t)}} $携带时空信息,其中 $ p $为空间位置, $ t $为时间信息. 在经过上述处理得到的图像序列中,插入专门用于分类的分类向量作为其他图像块寻找的类别信息,其数据格式与转换后的输入序列一致,为长度为 $ C \times {n^2} $的向量. 将分类向量与由输入图片数据生成的向量相互拼接,即将形式为[ $ 1 $, $ C \times {n^2} $]的分类向量序列接入形式为[ $ N $, $ C \times {n^2} $]的图像序列中,使其扩展为[ $ N+1 $, $ C \times {n^2} $]形式的序列. 为了将图像序列转化为二维数字序列,须进行将高维向量转化为低维向量的操作. 具体实现过程为

$ {\boldsymbol{y}}_{(p,t)}=[{\boldsymbol{x}}_{0}\boldsymbol{E},\;{\boldsymbol{x}}_{1}\boldsymbol{E},\;{\boldsymbol{x}}_{2}\boldsymbol{E},\;\cdots ,\;{\boldsymbol{x}}_{N}\boldsymbol{E}]+{\boldsymbol{e}}_{(p,t)}. $

构造全连接层对上述图像序列进行线性变换,同时插入位置编码来保留图像块之间的时空位置信息. 式(2)中的 $ {\boldsymbol{x}}_0 $为分类向量; $ {\boldsymbol{x}}_{{i}}({{i}} \in 1,\cdots , {{N}}) $为输入向量; $ \boldsymbol{E}\in {\mathbf{R}}^{({n}^{2}\times C)\times D} $为块嵌入的全连接层; $ {\boldsymbol{e}}_{\left( {{{p}},{{t}}} \right)}^{} $ $ \in {\mathbf{R}}^{(N+1)\times D} $为携带时空信息的位置编码向量,类型与输入向量保持一致,为[ $ N+1 $, $ C \times {n^2} $]. $ {\boldsymbol{x}}_{{i}}^{}(i \in 1,\cdots,{{N}}) $的输入维度为 $ {n^2} \times C$,转换后得到 $ {\boldsymbol{y}}_{({{p}},{{t}})}^{} $的输出维度为 $ D $(即降维后的维度). 集合上述操作后输出的向量 $ {\boldsymbol{y}}_{({{p}},{{t}})}^{} $可以直接输入Transformer编码器.

1.2.2. 数据分析层

Transformer编码器是数据分析层的核心,也是本研究所提网络的核心,与仅包含1个自注意力模块的常规网络不同,其具备时间和空间2个自注意力模块. 每个自注意力模块均包含层归一化和多头注意力机制,层归一化的作用是稳定数据的维度和分布,多头注意力机制用于计算多头注意力. 序列输入后,先在时间上计算注意力,再在空间上计算注意力,在时空上交互建模,将计算后携带时空信息的结果传入MLP模块.

将数据转换层得到的 $ {\boldsymbol{y}}_{({{p}},{{t}})}^{} $输入Transformer 编码器. 在编码器时空自注意力计算过程中,对携带时空信息的输入向量 $ {\boldsymbol{y}}_{\left( {{{p}},{{t}}} \right)}^{} $进行层归一化后,先送入时间自注意力模块,与时间权值矩阵 $ {\boldsymbol{W}}_{\mathrm{Q}} $$ {\boldsymbol{W}}_{{{\rm{K}}}} $$ {\boldsymbol{W}}_{{{\rm{V}}}} $相乘,求得对应的向量QKV

$ {\boldsymbol{Q}}_{(p,t)}^{(l,a)}={\boldsymbol{W}}_{\mathrm{Q}}^{(l,a)}\mathrm{L}\mathrm{N}\left({\boldsymbol{y}}_{(p,t)}^{(l-1)}\right)\in {\mathbf{R}}^{{D}_{\mathrm{h}}}, $

$ {\boldsymbol{K}}_{(p,t)}^{(l,a)}={\boldsymbol{W}}_{\mathrm{K}}^{(l,a)}\mathrm{L}\mathrm{N}\left({\boldsymbol{y}}_{(p,t)}^{(l-1)}\right)\in {\mathbf{R}}^{{D}_{\mathrm{h}}} , $

$ {\boldsymbol{V}}_{(p,t)}^{(l,a)}={\boldsymbol{W}}_{\mathrm{V}}^{(l,a)}\mathrm{L}\mathrm{N}\left({\boldsymbol{y}}_{(p,t)}^{(l-1)}\right)\in {\mathbf{R}}^{{D}_{\mathrm{h}}} . $

式中: $ a $为多个注意力头的索引, $ \mathrm{L}\mathrm{N} $为层归一化, $ {\boldsymbol{y}}_{(p,t)}^{(l-1)} $为第 $ (l - 1) $个输入向量, $ {D_{\text{h}}} $为注意力头潜在维度. 通过每帧生成的QK,计算各帧之间的关系系数并进行归一化,得到对应的时间权重矩阵 $ {\boldsymbol{\alpha }}_{t} $,将其与生成的V集合加权求和,计算出时间特征向量 ${\boldsymbol{y}}^{\rm{t}}$,再送入空间自注意力模块进行计算,即可得到输入向量经过时空自注意力计算的结果.

$ {\boldsymbol{\alpha }}_{t}=\mathrm{S}\mathrm{M}\left({\sum _{t=0}^{F}}\frac{{\boldsymbol{Q}}^{\mathrm{T}}{\boldsymbol{K}}_{t}}{\sqrt{{D}_{\mathrm{h}}}}\right) , $

$ {\boldsymbol{y}}^{\mathrm{t}}={\sum\limits _{t=0}^{F}}{\boldsymbol{\alpha }}_{t}{\boldsymbol{V}}_{t} . $

式中:SM为softmax归一化函数.

将数据转换层处理完的连续视频帧数据输入Transformer结构中,1)通过时间注意力模块得到时间注意力权重矩阵 $ {{\boldsymbol{\alpha}} _{{t}}} $,根据权重矩阵计算出时间特征向量 ${\boldsymbol{y}}^{\rm{t}}$;2)将 ${\boldsymbol{y}}^{\rm{t}}$输入空间注意力模块,计算得到空间特征向量 ${\boldsymbol{y}}^{\rm{s}}$. 本研究所提模型的实质是对输入的视频数据按行为类别进行分类,Transformer编码器不改变输入数据的形式,即输出的数据形式与式(2)相同,因此只需提取分类序列 $ {\boldsymbol{x}}_0 $通过编码器生成的对应结果. 将所得结果 $ {\boldsymbol{x}}_0' $输入MLP模块,比较各行为的概率,概率最高的行为即为最终行为分类的结果.

2. 实验结果与分析

2.1. 数据获取

2.1.1. 数据集UCF101

视频动作数据集UCF101是以2016年谷歌发布的数据集youtube-8M为代表构建的多标签行为识别数据集,该数据集包含101个动作类别的13 320个视频. 101个动作类别的视频被分为25组,每组包含1个动作的4~7个视频,同组的视频具备相似背景、相似意图. 101类行为可以概括为5个大类:人与物体交互、单纯的肢体动作、人与人交互、演奏乐器、体育运动.

2.1.2. 自建数据集

本研究所用的自建数据集通过实验室自行采集,数据集内容为模拟人机协作场景下机器人观测到的工人常规工作行为视频. 视频数据采集步骤:1)选取一类场景;2)选取一类动作;3)每个场景分别从正面、左侧45°、左侧90°、右侧45°、右侧90°的拍摄角度录制选取类型的动作视频,其中正面录制2次,共6个视频;4)更换为不重复的场景和动作类型;5)重复步骤1)~4). 总共采集1 200个视频片段,平均每个视频片段时间为7 s,采集到的行为视频数据共分为25个不同背景的8类,分别是开始、使用螺丝刀、使用钳子、使用扳手、使用锤子、使用键盘、离岗、结束,数据集部分示例截图如图4所示.

图 4

图 4   自建数据集8类视频的截图

Fig.4   Screenshots of self-built dataset with eight categories of video


2.2. 数据预处理和增强

将数据集中所有视频片段进行类别标注,标注相同的视频片段分到对应的文件夹中,将视频文件路径和对应的类别信息索引存放到TXT文件中,以便后续训练和验证模型时调取数据集. 在数据集划分方面,将70%的视频行为片段作为训练集,30%的视频行为片段作为测试集. 将视频片段分段处理,依据帧间差分法的原理计算出每2帧之间的帧间差异,选取每段视频帧间差异最大的关键帧为中间帧,采集连续的16帧. 图像无需进行随机裁剪,均匀裁剪为统一大小:224像素×224像素,这里卷积核大小n=16,RGB图像通道数 $ C $=3. 对数据集进行在线增强,包括对图像的随机裁剪、均匀裁剪和随即翻转. 随机裁剪是在图像中任取一点为顶点,截取 $ H \times W $固定大小的区域;均匀裁剪是在图像长边的两端和中点截取 $ H \times W $固定大小的区域;随机翻转是对图像进行随机角度的翻转. 通过在线增强数据集的方法使训练数据扩充,避免实际训练过程中数据集内数据偏少的问题. 在使用模型训练时,对得到的数据先进行增强处理,再把增量后的数据集输入到网络中,同时使用GPU进行优化计算.

2.3. 实验环境

实验的运行环境为 64位Windows10系统,GPU驱动CUDA10.1与CUDNN7.6;训练采用NVIDIA GeForce GTX 1650 Ti显卡,硬件平台处理器采用AMD Ryzen 7 4800H with Radeon Graphics CPU,运行内存16 GB;算法实验的软件环境采用Python 3.7和PyTorch深度学习框架.

2.4. 实验设置

在数据进行增强和预处理操作后,提取数据集中所有视频帧文件的索引,以3∶7划分出测试集和训练集对应的索引,索引中地址和类别信息均保持一致,保证每次输入的数据是同一行为类别的数据,对网络进行有效训练. 每次读取1条索引,即输入1个视频进入网络. 训练迭代次数为100,取模型的初始学习率为0.002 5,采用指数衰减来防止过拟合,即随着循环次数的增加学习率呈指数式减小,采用大型行为识别数据集ImageNet21上的预训练参数对模型初始化. 模型使用L2正则化防止过拟合,选取交叉熵作为损失函数,采用Adam优化器优化网络,寻找损失的全局最优点.

模型评估指标采用模型在数据集上的识别准确率Acc、正类精确率TPR和F1值F1来衡量分类性能,其中识别准确率的计算式为

$ {\rm{Acc}} = \frac{{{T_{{{\rm{C}}}}}}}{{{T_{{{\rm{A}}}}}}}. $

式中: $ {T_{\text{C}}} $为被正确识别为对应类别的样本数量, $ {T_{\text{A}}} $为总的样本数量.

2.5. 实验结果与分析

将本研究所提网络与仅包含Transformer空间自注意力机制的行为识别算法ViT[17]进行比较,分别在UCF101日常行为数据集和自制数据集上进行实验.

2.5.1. 对比实验及分析

验证本研究所提网络在RGB图像行为识别任务中的性能. 将处理好的数据集UCF101输入所提网络模型中训练,保存获取最高准确度的训练模型,在测试集上进行多次测试并计算准确率平均值Accavg,实验后得到的评估结果与传统动作识别算法的对比如表1所示. 可以看出,所提网络相较于传统算法有较大的提升,在UCF101上的识别准确率为93.44%,与识别准确率为88.54%的ViT相比提高了5.53%. 表明相较于对比算法和不包含时间注意力机制的ViT算法,基于时空注意力机制的Transformer行为识别网络在各项指标上都为最优,整体和单独动作类的识别效果良好且具备一致性. 如表2所示为所提网络在UCF101的5大类视频数据上的实验结果. 可见识别准确率均超过92%,证明所提网络在应对不同场景时均具备较好的识别分析能力. 也应注意到,各类别之间的识别效果存在一定差异,主要原因是UCF101通常在复杂的现实环境中采集,模型抗环境干扰能力有待提高,进行图像处理时易受到光照、人为因素和采集角度单一等影响导致识别精度的波动.

表 1   不同模型在UCF101数据集上的评估实验结果

Tab.1  Results evaluated by different models on UCF101 dataset

模型 Accmin/% Accmax/% Accavg/% TPR/% F1
C3D[23] 85.17 85.42 85.32 98.35 0.7412
ViT[17] 88.39 88.71 88.54 96.48 0.8557
P3D[24] 88.51 88.65 88.59 96.43 0.7994
Conv-LSTM[25] 88.53 88.68 88.61 98.16 0.8235
本研究 93.25 93.68 93.44 99.21 0.9226

新窗口打开| 下载CSV


表 2   本研究模型对UCF101各类别视频的识别精度

Tab.2  Recognition accuracy of proposed model for UCF101 video categories

%
视频类别 Accmin Accmax Accavg
人与物体交互 92.62 93.70 93.16
单纯的肢体动作 92.19 92.26 92.28
人与人交互 96.89 96.96 96.93
演奏乐器 97.76 98.50 98.13
体育运动 92.64 93.53 93.09

新窗口打开| 下载CSV


使用自建数据集进一步验证所提网络在人机协作场景中的视频行为识别效果. 训练过程记录模型训练时间与步数,以本研究提出的视频行为识别模型作为实验组,图像行为识别ViT模型作为参照组,模型训练过程可视化如图5所示,训练结束后保存模型训练结果. 图中,I为训练的迭代次数. 训练过程中2种模型的训练损失率变化如图6所示. 图中,L为损失率,B为训练的批次数. 本研究模型经过500个批次后损失收敛到0.08,经过1 000个批次损失率降到最低,模型基本收敛. 相较于ViT的损失变换,本研究模型的收敛速度更快、效果更好.

图 5

图 5   不同图像识别模型的识别准确率变化

Fig.5   Variation of recognition accuracy for different image recognition models


图 6

图 6   不同图像识别模型的训练损失率变化

Fig.6   Variation of training loss rate for different image recognition models


输入测试集对保存的模型进行多次训练,取准确率的平均值作为结果,如表3所示. 所提网络在验证集上的准确率平均值为98.54%,比ViT模型高出了5.89%;所提网络的TPR和F1值与ViT模型的结果相比有较大提升,证明本研究所提方法可以较好地完成人机协作环境下的视频行为识别任务. 得益于Transformer的自注意力机制,所提模型可以快速捕捉到视频中动作发生的空间位置,在时间和空间注意力机制依次作用下,模型更加关注动作前后间的联系,将包含时空特征的位置信息加入结点进行编码,使Transformer内部的编码与解码部分在每个结点上叠加相应的位置编码,有效提升了识别准确率.

表 3   不同图像识别模型在自建数据集上的评估实验结果

Tab.3  Results evaluated by different image recognition models on self-built dataset

模型 Accmin/% Accmax/% Accavg/% TPR/% F1
ViT 92.55 92.68 92.65 97.54 0.8903
本研究 98.50 98.58 98.54 100.00 0.9812

新窗口打开| 下载CSV


综合2个数据集的实验结果可以看出,相较于普遍在室外场景中采集的UCF101,在实验室模拟环境下采集的自建数据集不仅避免了视频背景光照复杂和人物遮挡影响的情况,还可以自主调整光照和角度,更加符合本研究的人机协作场景,得到的行为识别的准确率普遍更高. 如图7所示为所提模型与ViT模型对自建数据集每种行为类别测试所得的准确率. 可以看出,不同行为的识别准确率存在一定差异. 对于动作幅度较小的动作(如使用螺丝刀、使用钳子),模型的识别准确率较低;对于动作幅度较大的动作(如举手开始、使用锤子),模型的识别准确率较高. 所得结果符合动物视觉系统更容易识别大幅度动作的生物机理,也表明在行为识别任务中学习工人肢体运动关键部位特征的重要性.

图 7

图 7   不同图像识别模型的类别识别准确率

Fig.7   Recognition accuracy of different image recognition models by category


2.5.2. 消融实验及分析

所提模型在设计上对输入帧数没有特定要求,理论上能够识别任意输入帧数的视频数据,但选择合适的帧数可以节省训练资源、提高识别精度与效率. 如表4所示,在自建数据集上测试输入不同帧数连续关键帧对识别结果的影响. 可以发现,当输入帧数为2、4帧时,数据不能提供足够的特征给网络训练,缺乏学习内容,模型的识别效果较差;当帧数大于等于8时,网络得到的数据逐渐丰富,模型可以基本识别动作类型;当帧数为16帧时,模型的识别效果达到最佳;超过16帧后,模型的识别效果受到多余信息干扰产生波动. 实验结果总体呈现帧数越大,模型的识别效果越好的趋势. 所得结果符合注意力模型善于保留长期信息的规律,也证明模型需要一定量的数据来学习时间和空间成分的关系. 过多的输入信息会影响网络的识别性能,综合考虑下,选取16帧数据作为输入的模型,识别效果最好.

表 4   本研究模型在不同采样帧数下的评估实验结果

Tab.4  Evaluation experimental results of proposed model for different sampling frames

%
采样帧数 Acc TPR
验证集 测试集
2 92.21 93.67 97.71
4 93.03 94.30 98.64
8 94.85 95.17 99.73
16 98.54 99.73 100.00
32 95.67 99.25 100.00

新窗口打开| 下载CSV


表5所示,针对不同类型模型样本的输入进行对比实验,主要包括固定连续帧、连续关键帧和离散关键帧. 固定连续帧采集每段视频开头的连续16帧作为网络输入;连续关键帧以每段视频中动作前后差异度最大的关键帧作为中心,采集连续的16帧作为网络输入;离散关键帧选取视频段中离散的16个关键帧作为网络输入. 分析可知,在输入为连续关键帧的情况下,所提模型提取时空特征的效果最好;固定连续帧提供的空间特征缺乏部分关键动作的信息,在ViT和所提模型上的识别准确率都较差;离散关键帧缺乏时间关联信息,因此对ViT模型识别效果影响较小而对所提模型存在较大影响. 通过比较不同类型输入帧下网络的表现,发现使用连续关键帧能够较稳定的发挥模型的识别性能.

表 5   本研究模型在不同类型输入帧下的识别精度

Tab.5  Recognition accuracy of proposed model for different types of input frames

%
模型 Acc
连续帧(固定) 连续帧(关键) 离散帧(关键)
ViT 90.54 92.62 92.55
本研究 97.29 98.54 96.97

新窗口打开| 下载CSV


预训练参数初始化模型常用于图像和视频分类任务. 在本研究中,图像单帧特征提取网络采用网络在行为识别领域预训练的参数进行初始化,时、空自注意力模块各使用12个注意力机制的编码单元. 针对所提模型的结构消融实验如表6所示,在保证其余结构不变的前提下,取消特征提取网络的参数初始化,其中Head为注意力头数. 结果表明,无预训练参数初始化的模型陷入局部最优,识别精度大幅下降,说明先验知识对网络完成行为识别任务有导向作用. 通过赋予网络不同注意力机制个数发现,数目过少会减弱模型的学习能力,数目过多会产生过拟合缺陷导致准确率下降,因此选取合适的结构对保证行为识别的性能有关键作用. 为了验证时间自注意力模块对网络识别性能的提升,将时间自注意力模块替换成空间自注意力模块进行实验. 实验结果表明,仅包含空间自注意力模块的模型无法关注时间信息,缺乏提取时空关联性特征的能力;增加模块数量不但难以提升模型的识别性能,还会降低运行效率. 相比之下,具备时空自注意力模块的模型识别性能远高于具备2个空间自注意力模块的模型,由此证明了所提模型的有效性.

表 6   本研究模型的结构消融实验结果

Tab.6  Experimental results of structure ablation of proposed model

%
结构调整 Acc
无预训练参数初始化 89.72
Head=4 88.71
Head=8 94.44
Head=12 98.54
Head=16 97.31
双空间自注意力模块 92.96

新窗口打开| 下载CSV


3. 结 语

本研究主要针对人机协作的特殊场景,结合Transformer神经网络核心的自注意力机制,提出视频行为识别网络,旨在识别和获取工作人员的行为习惯信息,推进后续人机协作任务. 通过提取视频连续关键帧的方法进一步提高识别精度,在公开数据集UCF101上进行测试,与仅包含空间自注意力的ViT网络相比,识别准确率提高了5.53%;在自建人机协作场景数据集上取得了98.54%识别效果,为后续特定场景内行为识别技术研究提供了新的思路. 针对本研究所提网络后续可开展的研究包括:1)采用多元化信息作为网络的输入;2)通过加入骨架数据和深度数据的方法,使识别网络可以应对场景和光照强度变换带来的影响;3)在人机协作场景中,增强工人运动关键部位的空间特征提取,提高行为识别准确率.

参考文献

LASOTA P A, ROSSANO G F, SHAH J A. Toward safe close-proximity human-robot interaction with standard industrial robots [C]// Proceeding of 2014 IEEE International Conference on Automation Science and Engineering. [S. l.]: IEEE, 2014: 339-344.

[本文引用: 1]

SCHMIDT B, WANG L

Depth camera based collision avoidance via active robot control

[J]. Journal of Manufacturing Systems, 2014, 33 (4): 711- 718

DOI:10.1016/j.jmsy.2014.04.004      [本文引用: 1]

富倩

人体行为识别研究

[J]. 信息与电脑, 2017, (24): 146- 147

DOI:10.3969/j.issn.1003-9767.2017.24.058      [本文引用: 1]

FU Qian

Analysis of human behavior recognition

[J]. China Computer and Communication, 2017, (24): 146- 147

DOI:10.3969/j.issn.1003-9767.2017.24.058      [本文引用: 1]

ZANCHETTIN A M, CASALINO A, PIRODDI L, et al

Prediction of human activity patterns for human–robot collaborative assembly tasks

[J]. IEEE Transactions on Industrial Informatics, 2019, 15 (7): 3934- 3942

DOI:10.1109/TII.2018.2882741      [本文引用: 1]

ZANCHETTIN A M, ROCCO P. Probabilistic inference of human arm reaching target for effective human-robot collaboration [C]// Proceeding of 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver: IEEE, 2017: 6595-6600.

[本文引用: 1]

SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/1406.2199.pdf.

[本文引用: 1]

FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1933-1941.

[本文引用: 1]

YE Q, LIANG Z, ZHONG H, et al

Human behavior recognition based on time correlation sampling two stream heterogeneous grafting network

[J]. Optik, 2022, 251: 168402

DOI:10.1016/j.ijleo.2021.168402      [本文引用: 1]

PENG B, YAO Z, WU Q, et al

3D convolutional neural network for human behavior analysis in intelligent sensor network

[J]. Mobile Networks and Applications, 2022, 27: 1559- 1568

DOI:10.1007/s11036-021-01873-8      [本文引用: 1]

张传雷, 武大硕, 向启怀, 等

基于ResNet-LSTM的具有注意力机制的办公人员行为视频识别

[J]. 天津科技大学学报, 2020, 35 (6): 72- 80

DOI:10.13364/j.issn.1672-6510.20190252      [本文引用: 1]

ZHANG Chuan-lei, WU Da-shuo, XIANG Qi-huai, et al

Office staff behavior recognition based on ResNET-LSTM attention mechanism

[J]. Journal of Tianjin University of Science and Technology, 2020, 35 (6): 72- 80

DOI:10.13364/j.issn.1672-6510.20190252      [本文引用: 1]

YU S, CHENG Y, XIE L, et al

A novel recurrent hybrid network for feature fusion in action recognition

[J]. Journal of Visual Communication and Image Representation, 2017, 49: 192- 203

DOI:10.1016/j.jvcir.2017.09.007      [本文引用: 1]

TANBERK S, KILIMCI Z H, TÜKEL D B, et al

A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition

[J]. IEEE Access, 2020, 8: 19799- 19809

DOI:10.1109/ACCESS.2020.2968529      [本文引用: 1]

WU J, YANG X, XI M, et al

Research on behavior recognition algorithm based on SE-I3D-GRU network

[J]. High Technology Letters, 2021, 27 (2): 163- 172

[本文引用: 1]

VASWANI A, SHAZZER N, PARMAR N, et al. Attention is all you need [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/1706.03762.pdf.

[本文引用: 1]

PARMAR N, VASWANI A, USZKOREIT J, et al. Image transformer [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/1802.05751.pdf.

[本文引用: 1]

ZHU X, SU W, LU L, et al. Deformable DETR: deformable transformers for end-to-end object detection [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/2010.04159.pdf.

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/2010.11929.pdf.

[本文引用: 3]

ZHOU D, SHI Y, KANG B, et al. Refiner: refining self-attention for vision-transformers[EB/OL]. [2022-05-03]. https://arxiv.org/pdf/2106.03714.pdf.

[本文引用: 1]

CHEN C F, FAN Q F, PANDA R. CrossViT: cross-attention multi-scale vision transformer for image classification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 347-356.

[本文引用: 1]

LI G, LIU Z, CAI L, et al

Standing-posture recognition in human–robot collaboration based on deep learning and the dempster–shafer evidence theory

[J]. Sensors, 2020, 20 (4): 1158

DOI:10.3390/s20041158      [本文引用: 1]

JIANG J, NAN Z, CHEN H, et al

Predicting short-term next-active-object through visual attention and hand position

[J]. Neurocomputing, 2021, 433: 212- 222

DOI:10.1016/j.neucom.2020.12.069     

汪涛, 汪泓章, 夏懿, 等

基于卷积神经网络与注意力模型的人体步态识别

[J]. 传感技术学报, 2019, 32 (7): 1027- 1033

DOI:10.3969/j.issn.1004-1699.2019.07.012      [本文引用: 1]

WANG Tao, WANG Hong-zhang, XIA Yi, et al

Human gait recognition based on convolutional neural network and attention model

[J]. Chinese Journal of Sensors and Actuators, 2019, 32 (7): 1027- 1033

DOI:10.3969/j.issn.1004-1699.2019.07.012      [本文引用: 1]

TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 4489-4497.

[本文引用: 1]

QIU Z, YAO T, MEI T. Learning spatio-temporal representation with pseudo-3D residual networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 5533-5541.

[本文引用: 1]

NG J Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4694-4702.

[本文引用: 1]

/