<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 自注意力模块的工作示例

Fig.1 Working example of self-attention module

1.2. 模型基本框架

如图2所示，模型核心包括图像关键时序帧提取、图像分块处理、图像数据降维展平、Transformer编码器和多层感知机（multilayer perceptron，MLP） 5个部分，其中前3个部分为数据转换层，后2个部分为数据分析层. 图中， $ {\boldsymbol{x}}_0 $为分类向量用作记录分类信息， $ {\boldsymbol{x}}_{{i}}({{i}} \in 1,\cdots ,{{N}}) $为线性展平后的输入向量，Q、K、V分别为Transformer模型的查询向量、关键值向量和内容向量.

图 2

图 2 工人行为识别模型的流程图

Fig.2 Flowchart of worker behavior recognition model

1.2.1. 数据转换层

模型的输入为视频数据，每个视频片段由1组 $ F $帧的时序图像组成. 对图像进行分块的预处理，输入的图像数据为 $ H \times W \times C $的三维数据，其中 $ H $、 $ W $分别为图像高和宽， $ C $为通道数. 如图3所示，先将图像的像素大小由 $ H \times W $统一调整为 $ m \times m $，再将图像分成 $ N $个给定的像素大小为 $ n \times n $的图像块，其中 $ N=(m/n)^{2} $为产生的图像块总数. CNN分块部分使用1个卷积核大小为 $ n \times n $像素、步距为 $ n $像素、卷积核个数为 $ C \times {n^2} $的卷积来实现分块和图像维特征向量的提取. 为了减小集合变换的影响，加快模型梯度下降得到最优解，进行归一化处理，将图像像素大小介于[0，255]的图像数据转化为介于[0，1]分布的数据. 假设原始图像数据为x，采用最大最小值的归一化，计算式为

图 3

图 3 图像分块

Fig.3 Image block

(1) $ {x}'=\frac{{x}_{i}-{x}_{\mathrm{m}\mathrm{i}\mathrm{n}}}{{x}_{\mathrm{m}\mathrm{a}\mathrm{x}}-{x}_{\mathrm{m}\mathrm{i}\mathrm{n}}} . $

式中： $ {x}_{i} $为图像像素点的值； $ {x}_{\mathrm{m}\mathrm{a}\mathrm{x}} $、 $ {x}_{\mathrm{m}\mathrm{i}\mathrm{n}} $分别为图像像素的最大值和最小值.

Transformer与RNN的网络结构类似，不具备直接处理图像的功能，要求输入的数据是数字序列形式，即长度为 $ \alpha $、深度为 $\; \beta $的二维矩阵[ $ \alpha $, $\; \beta $]，因此须通过线性映射将每个图像块映射到二维矩阵中. 每个形式为[ $ n $, $ n $, $ C $]的块数据通过映射得到长度为 $ C \times {n^2} $像素的向量，即将[ $ m $, $ m $, $ C $]的三维图片转换为[ $ k $, $ k $, $ C \times {n^2} $]的三维数据，其中 $ k = m/n $. 再将 $ H $维度和 $ W $维度展平，即可使[ $ k $, $ k $, $ C \times {n^2} $]的三维数据转换为[ $ N $, $ C \times {n^2} $]的二维图像序列，得到的二维序列 $ {{\boldsymbol{x}}_{(p,t)}} $携带时空信息，其中 $ p $为空间位置， $ t $为时间信息. 在经过上述处理得到的图像序列中，插入专门用于分类的分类向量作为其他图像块寻找的类别信息，其数据格式与转换后的输入序列一致，为长度为 $ C \times {n^2} $的向量. 将分类向量与由输入图片数据生成的向量相互拼接，即将形式为[ $ 1 $, $ C \times {n^2} $]的分类向量序列接入形式为[ $ N $, $ C \times {n^2} $]的图像序列中，使其扩展为[ $ N+1 $, $ C \times {n^2} $]形式的序列. 为了将图像序列转化为二维数字序列，须进行将高维向量转化为低维向量的操作. 具体实现过程为

(2) $ {\boldsymbol{y}}_{(p,t)}=[{\boldsymbol{x}}_{0}\boldsymbol{E},\;{\boldsymbol{x}}_{1}\boldsymbol{E},\;{\boldsymbol{x}}_{2}\boldsymbol{E},\;\cdots ,\;{\boldsymbol{x}}_{N}\boldsymbol{E}]+{\boldsymbol{e}}_{(p,t)}. $

构造全连接层对上述图像序列进行线性变换，同时插入位置编码来保留图像块之间的时空位置信息. 式（2）中的 $ {\boldsymbol{x}}_0 $为分类向量； $ {\boldsymbol{x}}_{{i}}({{i}} \in 1,\cdots , {{N}}) $为输入向量； $ \boldsymbol{E}\in {\mathbf{R}}^{({n}^{2}\times C)\times D} $为块嵌入的全连接层； $ {\boldsymbol{e}}_{\left( {{{p}},{{t}}} \right)}^{} $ $ \in {\mathbf{R}}^{(N+1)\times D} $为携带时空信息的位置编码向量，类型与输入向量保持一致，为[ $ N+1 $, $ C \times {n^2} $]. $ {\boldsymbol{x}}_{{i}}^{}(i \in 1,\cdots,{{N}}) $的输入维度为 $ {n^2} \times C$，转换后得到 $ {\boldsymbol{y}}_{({{p}},{{t}})}^{} $的输出维度为 $ D $（即降维后的维度）. 集合上述操作后输出的向量 $ {\boldsymbol{y}}_{({{p}},{{t}})}^{} $可以直接输入Transformer编码器.

1.2.2. 数据分析层

Transformer编码器是数据分析层的核心，也是本研究所提网络的核心，与仅包含1个自注意力模块的常规网络不同，其具备时间和空间2个自注意力模块. 每个自注意力模块均包含层归一化和多头注意力机制，层归一化的作用是稳定数据的维度和分布，多头注意力机制用于计算多头注意力. 序列输入后，先在时间上计算注意力，再在空间上计算注意力，在时空上交互建模，将计算后携带时空信息的结果传入MLP模块.

将数据转换层得到的 $ {\boldsymbol{y}}_{({{p}},{{t}})}^{} $输入Transformer 编码器. 在编码器时空自注意力计算过程中，对携带时空信息的输入向量 $ {\boldsymbol{y}}_{\left( {{{p}},{{t}}} \right)}^{} $进行层归一化后，先送入时间自注意力模块，与时间权值矩阵 $ {\boldsymbol{W}}_{\mathrm{Q}} $、 $ {\boldsymbol{W}}_{{{\rm{K}}}} $、 $ {\boldsymbol{W}}_{{{\rm{V}}}} $相乘，求得对应的向量Q、K、V：

(3) $ {\boldsymbol{Q}}_{(p,t)}^{(l,a)}={\boldsymbol{W}}_{\mathrm{Q}}^{(l,a)}\mathrm{L}\mathrm{N}\left({\boldsymbol{y}}_{(p,t)}^{(l-1)}\right)\in {\mathbf{R}}^{{D}_{\mathrm{h}}}, $

(4) $ {\boldsymbol{K}}_{(p,t)}^{(l,a)}={\boldsymbol{W}}_{\mathrm{K}}^{(l,a)}\mathrm{L}\mathrm{N}\left({\boldsymbol{y}}_{(p,t)}^{(l-1)}\right)\in {\mathbf{R}}^{{D}_{\mathrm{h}}} , $

(5) $ {\boldsymbol{V}}_{(p,t)}^{(l,a)}={\boldsymbol{W}}_{\mathrm{V}}^{(l,a)}\mathrm{L}\mathrm{N}\left({\boldsymbol{y}}_{(p,t)}^{(l-1)}\right)\in {\mathbf{R}}^{{D}_{\mathrm{h}}} . $

式中： $ a $为多个注意力头的索引， $ \mathrm{L}\mathrm{N} $为层归一化， $ {\boldsymbol{y}}_{(p,t)}^{(l-1)} $为第 $ (l - 1) $个输入向量， $ {D_{\text{h}}} $为注意力头潜在维度. 通过每帧生成的Q、K，计算各帧之间的关系系数并进行归一化，得到对应的时间权重矩阵 $ {\boldsymbol{\alpha }}_{t} $，将其与生成的V集合加权求和，计算出时间特征向量 ${\boldsymbol{y}}^{\rm{t}}$，再送入空间自注意力模块进行计算，即可得到输入向量经过时空自注意力计算的结果.

(6) $ {\boldsymbol{\alpha }}_{t}=\mathrm{S}\mathrm{M}\left({\sum _{t=0}^{F}}\frac{{\boldsymbol{Q}}^{\mathrm{T}}{\boldsymbol{K}}_{t}}{\sqrt{{D}_{\mathrm{h}}}}\right) , $

(7) $ {\boldsymbol{y}}^{\mathrm{t}}={\sum\limits _{t=0}^{F}}{\boldsymbol{\alpha }}_{t}{\boldsymbol{V}}_{t} . $

式中：SM为softmax归一化函数.

将数据转换层处理完的连续视频帧数据输入Transformer结构中，1）通过时间注意力模块得到时间注意力权重矩阵 $ {{\boldsymbol{\alpha}} _{{t}}} $，根据权重矩阵计算出时间特征向量 ${\boldsymbol{y}}^{\rm{t}}$；2）将 ${\boldsymbol{y}}^{\rm{t}}$输入空间注意力模块，计算得到空间特征向量 ${\boldsymbol{y}}^{\rm{s}}$. 本研究所提模型的实质是对输入的视频数据按行为类别进行分类，Transformer编码器不改变输入数据的形式，即输出的数据形式与式（2）相同，因此只需提取分类序列 $ {\boldsymbol{x}}_0 $通过编码器生成的对应结果. 将所得结果 $ {\boldsymbol{x}}_0' $输入MLP模块，比较各行为的概率，概率最高的行为即为最终行为分类的结果.

2. 实验结果与分析

2.1. 数据获取

2.1.1. 数据集UCF101

视频动作数据集UCF101是以2016年谷歌发布的数据集youtube-8M为代表构建的多标签行为识别数据集，该数据集包含101个动作类别的13 320个视频. 101个动作类别的视频被分为25组，每组包含1个动作的4~7个视频，同组的视频具备相似背景、相似意图. 101类行为可以概括为5个大类：人与物体交互、单纯的肢体动作、人与人交互、演奏乐器、体育运动.

2.1.2. 自建数据集

本研究所用的自建数据集通过实验室自行采集，数据集内容为模拟人机协作场景下机器人观测到的工人常规工作行为视频. 视频数据采集步骤：1）选取一类场景；2）选取一类动作；3）每个场景分别从正面、左侧45°、左侧90°、右侧45°、右侧90°的拍摄角度录制选取类型的动作视频，其中正面录制2次，共6个视频；4）更换为不重复的场景和动作类型；5）重复步骤1）~4）. 总共采集1 200个视频片段，平均每个视频片段时间为7 s，采集到的行为视频数据共分为25个不同背景的8类，分别是开始、使用螺丝刀、使用钳子、使用扳手、使用锤子、使用键盘、离岗、结束，数据集部分示例截图如图4所示.

图 4

图 4 自建数据集8类视频的截图

Fig.4 Screenshots of self-built dataset with eight categories of video

2.2. 数据预处理和增强

将数据集中所有视频片段进行类别标注，标注相同的视频片段分到对应的文件夹中，将视频文件路径和对应的类别信息索引存放到TXT文件中，以便后续训练和验证模型时调取数据集. 在数据集划分方面，将70%的视频行为片段作为训练集，30%的视频行为片段作为测试集. 将视频片段分段处理，依据帧间差分法的原理计算出每2帧之间的帧间差异，选取每段视频帧间差异最大的关键帧为中间帧，采集连续的16帧. 图像无需进行随机裁剪，均匀裁剪为统一大小：224像素×224像素，这里卷积核大小n=16，RGB图像通道数 $ C $=3. 对数据集进行在线增强，包括对图像的随机裁剪、均匀裁剪和随即翻转. 随机裁剪是在图像中任取一点为顶点，截取 $ H \times W $固定大小的区域；均匀裁剪是在图像长边的两端和中点截取 $ H \times W $固定大小的区域；随机翻转是对图像进行随机角度的翻转. 通过在线增强数据集的方法使训练数据扩充，避免实际训练过程中数据集内数据偏少的问题. 在使用模型训练时，对得到的数据先进行增强处理，再把增量后的数据集输入到网络中，同时使用GPU进行优化计算.

2.3. 实验环境

实验的运行环境为 64位Windows10系统，GPU驱动CUDA10.1与CUDNN7.6；训练采用NVIDIA GeForce GTX 1650 Ti显卡，硬件平台处理器采用AMD Ryzen 7 4800H with Radeon Graphics CPU，运行内存16 GB；算法实验的软件环境采用Python 3.7和PyTorch深度学习框架.

2.4. 实验设置

在数据进行增强和预处理操作后，提取数据集中所有视频帧文件的索引，以3∶7划分出测试集和训练集对应的索引，索引中地址和类别信息均保持一致，保证每次输入的数据是同一行为类别的数据，对网络进行有效训练. 每次读取1条索引，即输入1个视频进入网络. 训练迭代次数为100，取模型的初始学习率为0.002 5，采用指数衰减来防止过拟合，即随着循环次数的增加学习率呈指数式减小，采用大型行为识别数据集ImageNet21上的预训练参数对模型初始化. 模型使用L2正则化防止过拟合，选取交叉熵作为损失函数，采用Adam优化器优化网络，寻找损失的全局最优点.

模型评估指标采用模型在数据集上的识别准确率Acc、正类精确率TPR和F1值F₁来衡量分类性能，其中识别准确率的计算式为

(8) $ {\rm{Acc}} = \frac{{{T_{{{\rm{C}}}}}}}{{{T_{{{\rm{A}}}}}}}. $

式中： $ {T_{\text{C}}} $为被正确识别为对应类别的样本数量， $ {T_{\text{A}}} $为总的样本数量.

2.5. 实验结果与分析

将本研究所提网络与仅包含Transformer空间自注意力机制的行为识别算法ViT^[17]进行比较，分别在UCF101日常行为数据集和自制数据集上进行实验.

2.5.1. 对比实验及分析

验证本研究所提网络在RGB图像行为识别任务中的性能. 将处理好的数据集UCF101输入所提网络模型中训练，保存获取最高准确度的训练模型，在测试集上进行多次测试并计算准确率平均值Acc_avg，实验后得到的评估结果与传统动作识别算法的对比如表1所示. 可以看出，所提网络相较于传统算法有较大的提升，在UCF101上的识别准确率为93.44%，与识别准确率为88.54%的ViT相比提高了5.53%. 表明相较于对比算法和不包含时间注意力机制的ViT算法，基于时空注意力机制的Transformer行为识别网络在各项指标上都为最优，整体和单独动作类的识别效果良好且具备一致性. 如表2所示为所提网络在UCF101的5大类视频数据上的实验结果. 可见识别准确率均超过92%，证明所提网络在应对不同场景时均具备较好的识别分析能力. 也应注意到，各类别之间的识别效果存在一定差异，主要原因是UCF101通常在复杂的现实环境中采集，模型抗环境干扰能力有待提高，进行图像处理时易受到光照、人为因素和采集角度单一等影响导致识别精度的波动.

表 1 不同模型在UCF101数据集上的评估实验结果

Tab.1 Results evaluated by different models on UCF101 dataset

模型	Acc_min/%	Acc_max/%	Acc_avg/%	TPR/%	F₁
C3D^[23]	85.17	85.42	85.32	98.35	0.7412
ViT^[17]	88.39	88.71	88.54	96.48	0.8557
P3D^[24]	88.51	88.65	88.59	96.43	0.7994
Conv-LSTM^[25]	88.53	88.68	88.61	98.16	0.8235
本研究	93.25	93.68	93.44	99.21	0.9226

表 2 本研究模型对UCF101各类别视频的识别精度

Tab.2 Recognition accuracy of proposed model for UCF101 video categories

%
视频类别	Acc_min	Acc_max	Acc_avg
人与物体交互	92.62	93.70	93.16
单纯的肢体动作	92.19	92.26	92.28
人与人交互	96.89	96.96	96.93
演奏乐器	97.76	98.50	98.13
体育运动	92.64	93.53	93.09

使用自建数据集进一步验证所提网络在人机协作场景中的视频行为识别效果. 训练过程记录模型训练时间与步数，以本研究提出的视频行为识别模型作为实验组，图像行为识别ViT模型作为参照组，模型训练过程可视化如图5所示，训练结束后保存模型训练结果. 图中，I为训练的迭代次数. 训练过程中2种模型的训练损失率变化如图6所示. 图中，L为损失率，B为训练的批次数. 本研究模型经过500个批次后损失收敛到0.08，经过1 000个批次损失率降到最低，模型基本收敛. 相较于ViT的损失变换，本研究模型的收敛速度更快、效果更好.

图 5

图 5 不同图像识别模型的识别准确率变化

Fig.5 Variation of recognition accuracy for different image recognition models

图 6

图 6 不同图像识别模型的训练损失率变化

Fig.6 Variation of training loss rate for different image recognition models

输入测试集对保存的模型进行多次训练，取准确率的平均值作为结果，如表3所示. 所提网络在验证集上的准确率平均值为98.54%，比ViT模型高出了5.89%；所提网络的TPR和F1值与ViT模型的结果相比有较大提升，证明本研究所提方法可以较好地完成人机协作环境下的视频行为识别任务. 得益于Transformer的自注意力机制，所提模型可以快速捕捉到视频中动作发生的空间位置，在时间和空间注意力机制依次作用下，模型更加关注动作前后间的联系，将包含时空特征的位置信息加入结点进行编码，使Transformer内部的编码与解码部分在每个结点上叠加相应的位置编码，有效提升了识别准确率.

表 3 不同图像识别模型在自建数据集上的评估实验结果

Tab.3 Results evaluated by different image recognition models on self-built dataset

模型	Acc_min/%	Acc_max/%	Acc_avg/%	TPR/%	F₁
ViT	92.55	92.68	92.65	97.54	0.8903
本研究	98.50	98.58	98.54	100.00	0.9812

综合2个数据集的实验结果可以看出，相较于普遍在室外场景中采集的UCF101，在实验室模拟环境下采集的自建数据集不仅避免了视频背景光照复杂和人物遮挡影响的情况，还可以自主调整光照和角度，更加符合本研究的人机协作场景，得到的行为识别的准确率普遍更高. 如图7所示为所提模型与ViT模型对自建数据集每种行为类别测试所得的准确率. 可以看出，不同行为的识别准确率存在一定差异. 对于动作幅度较小的动作(如使用螺丝刀、使用钳子)，模型的识别准确率较低；对于动作幅度较大的动作(如举手开始、使用锤子)，模型的识别准确率较高. 所得结果符合动物视觉系统更容易识别大幅度动作的生物机理，也表明在行为识别任务中学习工人肢体运动关键部位特征的重要性.

图 7

图 7 不同图像识别模型的类别识别准确率

Fig.7 Recognition accuracy of different image recognition models by category

2.5.2. 消融实验及分析

所提模型在设计上对输入帧数没有特定要求，理论上能够识别任意输入帧数的视频数据，但选择合适的帧数可以节省训练资源、提高识别精度与效率. 如表4所示，在自建数据集上测试输入不同帧数连续关键帧对识别结果的影响. 可以发现，当输入帧数为2、4帧时，数据不能提供足够的特征给网络训练，缺乏学习内容，模型的识别效果较差；当帧数大于等于8时，网络得到的数据逐渐丰富，模型可以基本识别动作类型；当帧数为16帧时，模型的识别效果达到最佳；超过16帧后，模型的识别效果受到多余信息干扰产生波动. 实验结果总体呈现帧数越大，模型的识别效果越好的趋势. 所得结果符合注意力模型善于保留长期信息的规律，也证明模型需要一定量的数据来学习时间和空间成分的关系. 过多的输入信息会影响网络的识别性能，综合考虑下，选取16帧数据作为输入的模型，识别效果最好.

表 4 本研究模型在不同采样帧数下的评估实验结果

Tab.4 Evaluation experimental results of proposed model for different sampling frames

%
采样帧数	Acc		TPR
采样帧数	验证集	测试集	TPR
2	92.21	93.67	97.71
4	93.03	94.30	98.64
8	94.85	95.17	99.73
16	98.54	99.73	100.00
32	95.67	99.25	100.00

如表5所示，针对不同类型模型样本的输入进行对比实验，主要包括固定连续帧、连续关键帧和离散关键帧. 固定连续帧采集每段视频开头的连续16帧作为网络输入；连续关键帧以每段视频中动作前后差异度最大的关键帧作为中心，采集连续的16帧作为网络输入；离散关键帧选取视频段中离散的16个关键帧作为网络输入. 分析可知，在输入为连续关键帧的情况下，所提模型提取时空特征的效果最好；固定连续帧提供的空间特征缺乏部分关键动作的信息，在ViT和所提模型上的识别准确率都较差；离散关键帧缺乏时间关联信息，因此对ViT模型识别效果影响较小而对所提模型存在较大影响. 通过比较不同类型输入帧下网络的表现，发现使用连续关键帧能够较稳定的发挥模型的识别性能.

表 5 本研究模型在不同类型输入帧下的识别精度

Tab.5 Recognition accuracy of proposed model for different types of input frames

%
模型	Acc
模型	连续帧（固定）	连续帧（关键）	离散帧（关键）
ViT	90.54	92.62	92.55
本研究	97.29	98.54	96.97

预训练参数初始化模型常用于图像和视频分类任务. 在本研究中，图像单帧特征提取网络采用网络在行为识别领域预训练的参数进行初始化，时、空自注意力模块各使用12个注意力机制的编码单元. 针对所提模型的结构消融实验如表6所示，在保证其余结构不变的前提下，取消特征提取网络的参数初始化，其中Head为注意力头数. 结果表明，无预训练参数初始化的模型陷入局部最优，识别精度大幅下降，说明先验知识对网络完成行为识别任务有导向作用. 通过赋予网络不同注意力机制个数发现，数目过少会减弱模型的学习能力，数目过多会产生过拟合缺陷导致准确率下降，因此选取合适的结构对保证行为识别的性能有关键作用. 为了验证时间自注意力模块对网络识别性能的提升，将时间自注意力模块替换成空间自注意力模块进行实验. 实验结果表明，仅包含空间自注意力模块的模型无法关注时间信息，缺乏提取时空关联性特征的能力；增加模块数量不但难以提升模型的识别性能，还会降低运行效率. 相比之下，具备时空自注意力模块的模型识别性能远高于具备2个空间自注意力模块的模型，由此证明了所提模型的有效性.

表 6 本研究模型的结构消融实验结果

Tab.6 Experimental results of structure ablation of proposed model

%
结构调整	Acc
无预训练参数初始化	89.72
Head=4	88.71
Head=8	94.44
Head=12	98.54
Head=16	97.31
双空间自注意力模块	92.96

3. 结　语

本研究主要针对人机协作的特殊场景，结合Transformer神经网络核心的自注意力机制，提出视频行为识别网络，旨在识别和获取工作人员的行为习惯信息，推进后续人机协作任务. 通过提取视频连续关键帧的方法进一步提高识别精度，在公开数据集UCF101上进行测试，与仅包含空间自注意力的ViT网络相比，识别准确率提高了5.53%；在自建人机协作场景数据集上取得了98.54%识别效果，为后续特定场景内行为识别技术研究提供了新的思路. 针对本研究所提网络后续可开展的研究包括：1）采用多元化信息作为网络的输入；2）通过加入骨架数据和深度数据的方法，使识别网络可以应对场景和光照强度变换带来的影响；3）在人机协作场景中，增强工人运动关键部位的空间特征提取，提高行为识别准确率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LASOTA P A, ROSSANO G F, SHAH J A. Toward safe close-proximity human-robot interaction with standard industrial robots [C]// Proceeding of 2014 IEEE International Conference on Automation Science and Engineering. [S. l.]: IEEE, 2014: 339-344.

DOI:10.3969/j.issn.1003-9767.2017.24.058 [本文引用: 1]

[2]

SCHMIDT B, WANG L

Depth camera based collision avoidance via active robot control

[J]. Journal of Manufacturing Systems, 2014, 33 (4): 711- 718

DOI:10.1016/j.jmsy.2014.04.004 [本文引用: 1]

[3]

富倩

人体行为识别研究

[J]. 信息与电脑, 2017, (24): 146- 147

FU Qian

Analysis of human behavior recognition

[J]. China Computer and Communication, 2017, (24): 146- 147

DOI:10.3969/j.issn.1003-9767.2017.24.058 [本文引用: 1]

[4]

ZANCHETTIN A M, CASALINO A, PIRODDI L, et al

Prediction of human activity patterns for human–robot collaborative assembly tasks

[J]. IEEE Transactions on Industrial Informatics, 2019, 15 (7): 3934- 3942

DOI:10.1109/TII.2018.2882741 [本文引用: 1]

[5]

ZANCHETTIN A M, ROCCO P. Probabilistic inference of human arm reaching target for effective human-robot collaboration [C]// Proceeding of 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver: IEEE, 2017: 6595-6600.

[6]

SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/1406.2199.pdf.

[7]

FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1933-1941.

DOI:10.13364/j.issn.1672-6510.20190252 [本文引用: 1]

[8]

YE Q, LIANG Z, ZHONG H, et al

Human behavior recognition based on time correlation sampling two stream heterogeneous grafting network

[J]. Optik, 2022, 251: 168402

DOI:10.1016/j.ijleo.2021.168402 [本文引用: 1]

[9]

PENG B, YAO Z, WU Q, et al

3D convolutional neural network for human behavior analysis in intelligent sensor network

[J]. Mobile Networks and Applications, 2022, 27: 1559- 1568

DOI:10.1007/s11036-021-01873-8 [本文引用: 1]

[10]

张传雷, 武大硕, 向启怀, 等

基于ResNet-LSTM的具有注意力机制的办公人员行为视频识别

[J]. 天津科技大学学报, 2020, 35 (6): 72- 80

ZHANG Chuan-lei, WU Da-shuo, XIANG Qi-huai, et al

Office staff behavior recognition based on ResNET-LSTM attention mechanism

[J]. Journal of Tianjin University of Science and Technology, 2020, 35 (6): 72- 80

DOI:10.13364/j.issn.1672-6510.20190252 [本文引用: 1]

[11]

YU S, CHENG Y, XIE L, et al

A novel recurrent hybrid network for feature fusion in action recognition

[J]. Journal of Visual Communication and Image Representation, 2017, 49: 192- 203

DOI:10.1016/j.jvcir.2017.09.007 [本文引用: 1]

[12]

TANBERK S, KILIMCI Z H, TÜKEL D B, et al

A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition

[J]. IEEE Access, 2020, 8: 19799- 19809

DOI:10.1109/ACCESS.2020.2968529 [本文引用: 1]

[13]

WU J, YANG X, XI M, et al

Research on behavior recognition algorithm based on SE-I3D-GRU network

[J]. High Technology Letters, 2021, 27 (2): 163- 172

[14]

VASWANI A, SHAZZER N, PARMAR N, et al. Attention is all you need [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/1706.03762.pdf.

[15]

PARMAR N, VASWANI A, USZKOREIT J, et al. Image transformer [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/1802.05751.pdf.

[16]

ZHU X, SU W, LU L, et al. Deformable DETR: deformable transformers for end-to-end object detection [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/2010.04159.pdf.

[17]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. [2022-05-03]. https://arxiv.org/pdf/2010.11929.pdf.

[本文引用: 3]

[18]

ZHOU D, SHI Y, KANG B, et al. Refiner: refining self-attention for vision-transformers[EB/OL]. [2022-05-03]. https://arxiv.org/pdf/2106.03714.pdf.

[19]

CHEN C F, FAN Q F, PANDA R. CrossViT: cross-attention multi-scale vision transformer for image classification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 347-356.

DOI:10.3969/j.issn.1004-1699.2019.07.012 [本文引用: 1]

[20]

LI G, LIU Z, CAI L, et al

Standing-posture recognition in human–robot collaboration based on deep learning and the dempster–shafer evidence theory

[J]. Sensors, 2020, 20 (4): 1158

DOI:10.3390/s20041158 [本文引用: 1]

[21]

JIANG J, NAN Z, CHEN H, et al

Predicting short-term next-active-object through visual attention and hand position

[J]. Neurocomputing, 2021, 433: 212- 222

DOI:10.1016/j.neucom.2020.12.069

[22]

汪涛, 汪泓章, 夏懿, 等

基于卷积神经网络与注意力模型的人体步态识别

[J]. 传感技术学报, 2019, 32 (7): 1027- 1033

WANG Tao, WANG Hong-zhang, XIA Yi, et al

Human gait recognition based on convolutional neural network and attention model

[J]. Chinese Journal of Sensors and Actuators, 2019, 32 (7): 1027- 1033

DOI:10.3969/j.issn.1004-1699.2019.07.012 [本文引用: 1]

[23]

TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 4489-4497.

[24]

QIU Z, YAO T, MEI T. Learning spatio-temporal representation with pseudo-3D residual networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 5533-5541.

[25]

NG J Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4694-4702.