浙江大学学报(工学版), 2023, 57(7): 1345-1353 doi: 10.3785/j.issn.1008-973X.2023.07.009

自动化技术

基于3D-ResNet双流网络的VR病评估模型

权巍,, 蔡永青, 王超, 宋佳, 孙鸿凯, 李林轩

长春理工大学 计算机科学技术学院,吉林 长春 130013

VR sickness estimation model based on 3D-ResNet two-stream network

QUAN Wei,, CAI Yong-qing, WANG Chao, SONG Jia, SUN Hong-kai, LI Lin-xuan

School of Computer Science and Technology, Changchun University of Science and Technology, Changchun 130013, China

收稿日期: 2022-08-20  

基金资助: 吉林省科技发展计划重点研发项目(20210203218SF)

Received: 2022-08-20  

Fund supported: 吉林省科技发展计划重点研发项目(20210203218SF)

作者简介 About authors

权巍(1981—),女,副教授,从事虚拟现实的研究.orcid.org/0000-0001-7191-3921.E-mail:quanwei@cust.edu.cn , E-mail:quanwei@cust.edu.cn

摘要

为了准确地评估VR视频引起不适的程度,提出基于3D双流卷积神经网络的VR病评估模型. 模仿人类视觉系统的2条通路,建立外观流和运动流2个子网络;将2D-ResNet50模型改为3D模型,增加一个深度通道,用以学习视频中的时序信息. 加入3D-CBAM注意力模块提高了各帧通道之间的空间关联,增强关键信息,去除冗余信息. 采用后端融合的方法,实现2个子网络结果的融合. 在公开视频数据集上进行实验验证,结果表明,通过3D-CBAM注意力模块引入注意力机制,使得外观流和运动流网络的VR病评估精度分别提升了1.7%和3.6%,与现有文献相比,融合的双流网络模型的精度得到了较大的提升,精度达到93.7%.

关键词: 虚拟现实 ; VR病 ; 深度学习 ; 注意力机制 ; 3D卷积神经网络

Abstract

A VR sickness estimation method was proposed based on 3D two-stream convolutional neural network in order to accurately estimate VR sickness of VR video. Two sub-networks, which were appearance flow and motion flow, were constructed to mimic the two pathways of human visual system. 2D-ResNet50 model was changed to 3D model and a depth channel was added to learn the timing information in videos. 3D-CBAM attention module was introduced to improve the spatial correlation between channels of each frame. Then the key information was enhanced and redundant information was suppressed. The back-end fusion method was used to fuse the results of the two sub-networks. Experiments were conducted on a public video dataset. The experimental results showed that the accuracy of the appearance stream network and the motion stream network was improved by 1.7% and 3.6% respectively by introducing the attention mechanism. The accuracy of the fused two-stream network was improved to 93.7%, which outperformed other literatures.

Keywords: virtual reality ; VR sickness ; deep learning ; attention mechanism ; 3D convolutional neural network

PDF (1790KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

权巍, 蔡永青, 王超, 宋佳, 孙鸿凯, 李林轩. 基于3D-ResNet双流网络的VR病评估模型. 浙江大学学报(工学版)[J], 2023, 57(7): 1345-1353 doi:10.3785/j.issn.1008-973X.2023.07.009

QUAN Wei, CAI Yong-qing, WANG Chao, SONG Jia, SUN Hong-kai, LI Lin-xuan. VR sickness estimation model based on 3D-ResNet two-stream network. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(7): 1345-1353 doi:10.3785/j.issn.1008-973X.2023.07.009

虚拟现实(virtual reality, VR)融合计算机图形学、多媒体、仿真等多种技术模拟出360°虚拟环境,能够为用户带来逼真、身临其境的观看和交互体验,广泛应用于工业、教育、艺术、医学、游戏娱乐等众多领域中. 在VR体验中极易产生头晕、恶心、呕吐等不适症状,严重者甚至会出现心率不齐、虚脱的情况,严重影响了VR技术与产业的发展. 对于VR体验中的这种不适,一些学者称其为运动病、模拟器病、网络病(cybersickness)、虚拟现实病(VR sickness)、视觉诱发运动病(visual induced motion sickness, VIMS)等. 这些名称存在相似之处,但不完全相同. 运动病通常是指人们暴露在真实环境(如乘车、船、飞机等)下因异常运动刺激产生的不适症状;模拟器病是使用飞行模拟器训练引起的一种运动病. 虚拟现实病[1]特指在VR环境下由视觉诱发的病症,也可称为网络病或视觉诱发运动病,属于运动病的一种. Mccauley等[2]将体验VR产生的不适称为VR病或网络病,近几年来,越来越多的学者认同了VR病这一名称[3-6].

准确地评估VR病是VR领域的一个重要研究内容. 有许多理论试图对VR病作出解释,其中感官冲突理论[7]是被广泛接受的理论. 该理论认为:当眼睛看到VR画面时,视觉系统产生运动感知,但实际上前庭系统感知到人体并没有运动,这种视觉与前庭系统的不匹配是引起VR病最重要的因素. 目前对于VR疾病的评估主要包括主观评价法和客观评价法. 主观评价法主要是通过人在VR体验后填写调查问卷,从而计算分值,评价VR的病症程度. VR病的主观评价主要采用Kennedy等[8]提出的模拟器病SSQ调查问卷. 主观评价方法的实施需要大量的人力物力资源,耗时长、成本高,容易受个人因素的影响. 大量学者以主观评估结果作为基准,研究VR病的客观评价方法.

近几年,一些学者开展了基于深度学习的VR病客观评估方法研究,通过分析VR视频实现病症评估. Kim等[9]提出VR视频序列中感知的异常运动信息(例如急转、急加速等)会加剧运动不匹配,产生不适,基于深度卷积自编码器实现VR病的评估. Kim等[10]基于异常运动,提出基于生成对抗网络、长短期记忆网络与卷积神经网络的VR病评估模型VRSA. Lee等[11]利用3D神经网络实现VR病的估计,输入视频的显著性图、光流图和视差图分别代表眼球运动、速度、深度3个特征,使用了2种数据增强技术:帧移动和像素移动,扩展了自建的数据集,使得模型更精准地预测VR病的程度.

本文提出双流网络VR病评估模型. 模型包括2个子网络,分别用于模拟人类视觉系统的腹侧流和背侧流. 分别以VR视频的彩色纹理信息及光流图运动信息作为输入,同时引入注意力机制,提升了病症评估的精度.

1. 算法简介

视觉与前庭系统感知运动不匹配是导致VR体验不适的主要原因. 人类视觉系统是复杂、神奇的系统,人眼摄取原始图像,大脑进行处理与抽象,所以VR病的形成机理复杂. Goodale等[12]的研究表明,人类的视觉系统包含2条通路:一条为负责识别物体的腹侧流,另一条为负责识别运动的背侧流. 本文创建3D-ResNet卷积神经网络,其中包含2个子网络:外观流网络和运动流网络. 这2个子网络分别模仿人类视觉系统的腹侧流、背侧流,将视频中包含的运动信息与能够识别物体的纹理信息分别作为输入,以主观评价值作为基准,利用双流卷积神经网络学习负责的人类视觉机制,实现VR病的评估. 考虑到视频连续帧的时序信息对视频理解的影响,将传统的ResNet50模型改进为3D-ResNet50模型,2个子网络均采用该模型. 网络的总体结构如图1所示. 其中外观流子网络的输入为连续RGB视频帧,用以提取视频中的物体、纹理、色彩等信息. 运动流子网络的输入为相应的连续光流图像,用以提取运动信息. 2个子网络独立地完成VR病评估任务,通过后端融合的方式,将2个子网络的预测结果进行融合.

图 1

图 1   基于双流网络的3D-ResNet VR病评估模型

Fig.1   VR sickness estimation model based on 3D-ResNet two-stream network


1.1. 子网络结构

卷积神经网络(CNN)在计算机视觉和自然语言处理中表现出了优越的性能,传统的CNN模型只针对2D图像,无法提取视频特有的时间维度的信息. 使用3D CNN模型,增加一个深度通道来表示视频中的连续帧,以此提取视频中时间维度的信息.

采用残差网络(ResNet)[13],而ResNet-101网络较深,对硬件的要求较高. 使用ResNet50作为基础网络,将1×1的卷积扩展为1×1×1的3D卷积,具体结构如表1所示.

表 1   子网络结构

Tab.1  Sub-network structure

网络层 输出大小 3D-ResNet50
Conv1 $ L \times 112 \times 112 $ $ 7 \times 7 \times 7 $,64,stride 2
Conv2_x $ L \times 56 \times 56 $ $ \left[\begin{array}{c}1\times 1\times 1,64\\ 3\times 3\times 3,64\\ 1\times 1\times 1,256\end{array}\right]\times 3 $
Conv3_x $ \dfrac{L}{2} \times 28 \times 28 $ $ \left[\begin{array}{c}1\times 1\times 1,128\\ 3\times 3\times 3,128\\ 1\times 1\times 1,512\end{array}\right]\times 4 $
Conv4_x $ \dfrac{L}{4} \times 14 \times 14 $ $\left[\begin{array}{c}1\times 1\times 1,256\\ 3\times 3\times 3,256\\ 1\times 1\times 1,1\;024\end{array}\right]\times 6$
Conv5_x $ \dfrac{L}{8} \times 7 \times 7 $ $\left[\begin{array}{c}1\times 1\times 1,512\\ 3\times 3\times 3,512\\ 1\times 1\times 1,2\;048\end{array}\right]\times 3$
$ 1 \times 1 \times 1 $ 3D-Average Pool,Fc Layer with Softmax

新窗口打开| 下载CSV


网络输入为 $ L \times 112 \times 112 $,代表连续 $ L $帧大小为112像素×112像素的图像序列. 将所有2D卷积核扩展成3D卷积核,增加了一个深度维度,因此输出的特征图增加相应的时间序列信息. 对输入图像逐层提取特征后接入全连接层,利用Softmax分类器和交叉熵损失函数完成子网络的舒适度分类任务.

1.2. 基于后端融合方式的结果融合

目前,多模态数据融合主要包括前端融合、中间融合和后端融合. 后端融合(late-fusion),也称为决策级融合,可以避免不同子网络中错误的进一步累加,增强模型分类的鲁棒性. 采用后端融合的方式,将外观流网络和运动流网络的Softmax输出进行加权平均融合,平滑各子网络结果,如下所示.

$f_{\rm{a}} = \sum\limits_{i = 1}^T {{w_i}P({{\boldsymbol{x}}_i})} . $

式中: $T$为子网络数量; $ {{\boldsymbol{x}}_i} $为对应网络输出的特征向量, $ P({{\boldsymbol{x}}_i}) $为VR病评估分数; $ {w_i} $为对应的网络权重, $ {w_i} \geqslant 0 $$ \displaystyle\sum\nolimits_{i = 1}^T {{w_i} = 1} $.

1.3. 3D-CBAM注意力机制的引入

卷积神经网络能够提升视觉任务的性能. 从AlexNet到ResNet,网络越来越深,对特征提取的能力越来越强. 在提取特征的时候,这些模型都忽略了一个影响特征的因素,即注意力. Huang等[14]提出CBAM-Resnet神经网络,通过加入注意力机制,使得神经网络有选择性地接受和处理特征信息,抑制了无用信息,提高了网络性能.

卷积注意力模块(convolutional block attention module, CBAM)[15]基于通道和空间2个维度,能够有效地提取图像的重点信息,增强网络性能. 作为轻量化模块,可以无缝地集成到ResNet架构中,用较小的参数代价,实现网络模型性能的优化. 由于卷积计算是通过混合跨通道信息和空间信息来提取特征信息,CBAM强调在通道和空间轴这2个维度中提取有意义的特征.

由于是将CBAM模块应用到3D-ResNet模型中,考虑到深度参数的变化,将输入特征图命名为 ${{\boldsymbol{F}}_{3{\rm{D}}}} \in {{\bf{R}}^{L \times W \times H \times C}}$,3D-CBAM依次生成通道注意力特征图 $ {{{\boldsymbol{M}}}_{{{\rm{CA}}} }} \in {{{\bf{R}}}^{1 \times 1 \times 1 \times C}} $以及空间注意力特征图 $ {{\boldsymbol{M}}_{{{\rm{SA}}} }} \in {{\bf{R}}^{1 \times L \times W \times H}} $. 计算过程如下:

$ {\boldsymbol{F}}_{_{3{\rm{D}}}}^{'} = {{\boldsymbol{M}}_{{{\rm{CA}}} }}({{\boldsymbol{F}}_{3{\rm{D}}}}) \otimes {{\boldsymbol{F}}_{3{\rm{D}}}} , $

$ {\boldsymbol{F}}_{_{3{\rm{D}}}}^{''} = {{\boldsymbol{M}}_{{{\rm{SA}}} }}({\boldsymbol{F}}_{_{3{\rm{D}}}}^{'}) \otimes {\boldsymbol{F}}_{_{3{\rm{D}}}}^{'} . $

式中: $ \otimes $为逐个元素相乘; $ {\boldsymbol{F}}_{_{3{\rm{D}}}}^{'}$为输入的特征图与通道注意力图的乘积; $ {\boldsymbol{F}}_{_{3{\rm{D}}}}^{''} $为空间注意力与 $ {\boldsymbol{F}}_{_{3{\rm{D}}}}^{'} $的乘积,即3D-CBAM的最后输出,如图2所示.

图 2

图 2   3D-CBAM结构

Fig.2   Structure of 3D-CBAM


1) 通道注意力模块. 3D-CBAM基于特征通道间的相互关系解算通道注意力图,目的是为了寻找对于输入特征图有效的通道. 为了提高注意力计算的效率,3D-CBAM对特征图进行空间维度上的压缩,结合平均池化和最大池化增强特征信息,如图3所示.

图 3

图 3   通道注意力模块

Fig.3   Channel attention module


将输入特征图 $ {{\boldsymbol{F}}_{3{\rm{D}}}} $分别利用最大池化和平均池化操作解算出2个不同的空间特征描述子: $ {\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}} $$ {\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}} $.$ {\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}} $$ {\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}} $送入只包含一层隐藏层的共享多层感知机(multi layer perception, MLP)中进行逐个元素的加和处理,经过Sigmoid激活函数将输入特征图与生成的通道特征图相乘,得到最后的通道与特征图 $ {\boldsymbol{F}}_{_{3{\rm{D}}}}^{'} $. 整个过程如下所示:

$ \begin{split} {{\boldsymbol{M}}_{{{\rm{CA}}} }}({{\boldsymbol{F}}_{3{\rm{D}}}}) =\; &\sigma \;({{\rm{MLP}}}\; (3{\rm{D}} {\rm{AvgPool}}\;({{\boldsymbol{F}}_{3{\rm{D}}}}))+ \\ & {{\rm{MLP}}}\; (3{\rm{D}} {\rm{MaxPool}}\;({{\boldsymbol{F}}_{3{\rm{D}}}}))) = \\ & \sigma \;({{\boldsymbol{W}}_1}({{\boldsymbol{W}}_0}({\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}}))+{{\boldsymbol{W}}_1}({{\boldsymbol{W}}_0}({\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}}))){\text{ }}{\text{.}} \\ \end{split} $

式中: $ \sigma $为Sigmoid激活函数; $ {{\boldsymbol{W}}_0} $$ {{\boldsymbol{W}}_1} $为权重, $ {{\boldsymbol{W}}_0} \in {{\mathbf{R}}^{C/r \times C}} $$ {{\boldsymbol{W}}_1} \in {{\mathbf{R}}^{C \times C/r}} $$ {{\boldsymbol{W}}_0} $$ {{\boldsymbol{W}}_1} $对于 $ {\boldsymbol{F}}_{{\rm{avg}}}^{\rm{c}} $$ {\boldsymbol{F}}_{{\rm{max}}}^{\rm{c}} $是共享的;参数 $r$通常取16.

2) 空间注意力模块. 该模块主要关注特征图空间上的相互关系,是针对通道注意力模块的补充,如图4所示.

图 4

图 4   空间注意力模块

Fig.4   Space attention module


在3D-CBAM中对特征图进行通道维度上的压缩,结合平均池化和最大池化增强特征信息. 根据通道维度聚合特征,将运算结果拼接成深层次的空间特征描述子. 经过7×7×7的3D卷积层和Sigmoid激活函数生成空间注意力图,整个过程如下所示:

$ \begin{gathered} {{\boldsymbol{M}}_{{\rm{SA}}}}\left( {{\boldsymbol{F}}_{3{\rm{D}}}^{'}} \right) = \\ \sigma \left( {{{\boldsymbol{f}}^{7 \times 7 \times 7}}\left( {\left[ \begin{gathered} 3{\rm{DAvgPool}}({\boldsymbol{F}}_{3{\rm{D}}}^{'}); {\rm{3DMaxPool}}({\boldsymbol{F}}_{3{\rm{D}}}^{'}) \end{gathered} \right]} \right)} \right) = \\ {\text{ }} \sigma \left( {{{\boldsymbol{f}}^{7 \times 7 \times 7}}\left( {\left[ {{\boldsymbol{F}}_{{\rm{avg}}}^{\rm{s}};{\boldsymbol{F}}_{{\rm{max}}}^{\rm{s}}} \right]} \right)} \right){\text{ }}{\text{.}} \\ \end{gathered} $

式中: 3DAvgPool和3DMaxPool为3D最大池化和3D平均池化, $ {{\boldsymbol{f}}^{7 \times 7 \times 7}} $为7×7×7的3D卷积层.

在改进的3D-ResNet50网络中加入3D-CBAM注意力机制,如图5所示. 对于每一部分子网络,将3D-CBAM注意力机制接入第1层卷积3D-Conv1后,在网络的每个残差块后都加入注意力机制, 只增加很少的参数量和计算量,就可以使得网络更精确地学习空间表观特征和感知运动特征,有利于提升模型的精度.

图 5

图 5   基于注意力机制的子网络结构

Fig.5   Sub-network structure based on attention mechanism


2. 实验结果与分析

2.1. 数据预处理

现阶段能够用于VR体验舒适度研究的公开数据集非常有限[16]. Kim等[17]使用Unity3D建立包括36个VR场景的视频数据库,该数据库包含对象运动、相机运动、场景纹理等细节,但作者未公开该数据集. Padmanaban等[18]建立并公开包含主观评分的数据集,该数据集由19个播放时长为60 s的全景立体VR视频组成,大部分视频的分辨率为3 840×2 160像素,帧速率为30帧/s. 韩国先进科学院提供了VR视频库[10]. 该数据库被用于研究物体运动信息对视觉舒适的影响,但不是所有的视频都免费提供. Hell等[19]创建包含VR场景位置、速度及主观舒适度评分的RCVR数据库,但未公开数据集.

使用Padmanaban等[18]建立的公开数据集进行实验,该数据集主要来自于YouTube中的360°立体视频库,选取年龄为19~62岁的共96名受试者进行VR体验舒适度的主观评估实验. Padmanaban在实验中通过让受试者在观看视频后填写SSQ和MSSQ-Short问卷,计算视频的主观评分.

根据数据集中VR视频的主观评分,对视频进行分类. 对VR体验舒适度类别划分最常用的方式是二分类和四分类[20-21]. 二分类形式仅仅是对用户在进行VR体验时是否产生不适进行评估,四分类的优势是能够更细致地判断参与者的体验感,更具有现实意义[22],因此将数据集的主观评分按照四分类形式划分,如表2所示.

表 2   主观评分和舒适度等级分类

Tab.2  Subjective rating and comfort level classification

主观评分 舒适度等级 数字类别
0<Score≤10 舒适 0
10<Score≤30 轻度不适 1
31<Score≤40 明显不适 2
Score>40 重度不适 3

新窗口打开| 下载CSV


考虑到原始视频数据的分辨率较大,直接应用于模型训练会产生较大的计算成本. 图像质量的优劣往往会对评估结果造成直接影响,因此在将数据送入网络前需要对视频的每帧图像进行预处理操作. 该操作能够消除视频帧中的多余信息,使得模型需要的真实信息得以呈现,增强舒适度评估的准确性. 在网络训练前对数据进行预处理操作: 采用标准化、图片缩放、多尺度中心裁剪和多尺度随机裁剪等方法,对数据进行预处理操作. 1)考虑到计算成本及实验设备参数,采用缩放的方法,使输入图片的分辨率归一化到112像素×112像素. 2)按照 $ \left\{1,{{2}^{-1/4}},{{2}^{-3/4}},{2}^{-1}\right\} $比例对视频帧进行随机缩放,再裁剪到112像素×112像素. 3)每批次输入的视频帧固定为连续的16帧,每个视频大约有110组连续帧,共19个视频. 4)采用图像平移、旋转、翻转等数据增强技术扩充实验样本,防止过拟合,提升模型的泛化性.

2.2. 模型训练

实验环境的配置信息如表3所示. 在进行模型训练时,统一输入图像尺寸. 其中外观流网络的输入为3通道×112像素×112像素的连续视频帧,运动流网络的输入为2通道×112像素×112像素的连续视频帧.

表 3   测试平台的配置信息

Tab.3  Configuration information of test platform

配置 参数信息
CPU Intel(R) Xeon(R) CPU E5-2620@ 2.00 GHz
GPU NVIDIA GeForce RTX 2080 SUPER 8 GB
内存 16 GB
操作系统 Windows10
通用并行计算架构 CUDA10.0、cuDNN7.6.1
深度学习框架 Pytorch1.2
开发环境 Anaconda3、Python3.6

新窗口打开| 下载CSV


整个训练模型采用随机梯度下降算法(stochastic gradient descent, SGD)进行优化,反向传播时的权重衰减为0.001,动量因子为0.9. 学习率从0.01开始,训练至第15轮时,学习率以10−1系数减小,每训练100次,开展一次模型验证调整. 考虑到计算机的内存和GPU利用率,采用的Batch-size大小为8,训练120个轮次,具体参数的设定如表4所示. 表中,L为采样帧数,α为初始学习率,w为权重衰减率,β为动量因子,Emax为最大迭代次数.

表 4   子网络训练参数的设置

Tab.4  Setting of sub-network training parameters

参数 参数值
L 16
输入图像维度 [3,112,112]、[2,112,112]
α 10−2
w 10−3
β 0.9
Batchsize 8
Emax 120
优化器 动量SGD

新窗口打开| 下载CSV


2.3. 实验对比分析

图6所示分别为应用3D-ResNet50模型的外观流和运动流2个子网络在训练过程中的训练损失变化、模型验证变化以及添加3D-CBAM注意力机制后的模型变化. 图中,L为损失,E为迭代次数,P为精度. 从图6(a)可以看出,模型的整体训练损失在最初的迭代过程中较大,随着迭代次数的增加,在大约10次时开始出现迅速降低的情况,并持续到30次后开始缓慢降低并逐渐趋向于0,经过120次迭代后训练结束. 与之对应,精度曲线在10次迭代前迅速提高,最后趋于稳定,精度基本上收敛于90%以上,且添加3D-CBAM后网络精度的收敛速度更快,网络更加稳定. 从图6(b)可知,未添加注意力机制的运动流网络虽然训练误差不断减小,但始终处于较大的值域内,在网络中添加3D-CBAM后损失显著降低. 添加注意力机制的模型的精度和收敛速度高于未添加注意力机制的模型,这表明通过添加3D-CBAM注意力机制可以有效地提高网络性能与VR病的预测准确性.

图 6

图 6   模型的损失曲线与精确度曲线

Fig.6   Loss curves and accuracy curves of model


总体来看,整个模型在训练过程中损失虽然会出现不同幅度的振荡,但会随着训练次数的增加而不断减小并趋向于0. 在精确度曲线中,随着训练次数的增加,模型验证精度逐渐增加. 可以发现,运动流网络的训练损失和精确度明显差于外观流网络. 原始的RGB图像中包含了更多的细节信息,使得网络提取的特征更准确,而稠密光流图虽然能够直观地表现视频序列中的运动信息,但对于自然场景下VR病的估计精度不高. 在基于卷积神经网络的VR病估计中不应仅考虑运动流网络,本文使用双流网络是恰当且非常必要的.

未添加注意力机制子网络的参数量为46237032,添加注意力机制后子网络的参数量为51250085. 结合表5可知,本网络没有增加太多的参数量,有效地提高了网络性能.

表 5   Padmanabar模型精度的对比

Tab.5  Comparison of Padmanabar model accuracy

模型 $ P $/% $ N $ $ t $/h
外观流网络-无注意力机制 87.9 46 237 032 11. 2
运动流网络-无注意力机制 79.3 46 237 032 11. 2
无注意力机制的双流网络 91.5
外观流网络-注意力机制 89.6 51 250 085 12. 0
运动流网络-注意力机制 82.9 51 250 085 12. 0
二分类SVM [24] 81.8
三分类SVM [24] 58.0
四分类ANN [25] 90.0
包含注意力机制的双流网络 93.7

新窗口打开| 下载CSV


利用Grad-CAM方法[23],将外观流网络中最后一层卷积所提取的特征进行可视化,如图7所示.

图 7

图 7   3D-CBAM注意力可视化

Fig.7   3D-CBAM attention visualization


图7中,第1行为原始的输入图像,第2行为加入注意力机制后的网络特征可视化图像,展示了网络所认定的预测重要区域. 通过与实际人眼观看的主要区域相比,添加3D-CBAM注意力机制后模型预测的重要区域与人眼观看的目标对象区域基本一致,聚焦于图像中的物体. 这证明添加3D-CBAM模块后网络不仅感知到了图中的关键信息,而且抑制了其他冗余的无用信息,能够提取输入图像的关键特征,提高了模型预测的准确性.

对VR病评估模型的测试精度进行汇总,精度的定义如下:

$ P=\frac{{N}_{\text{cor}}}{{N}_{\text{tot}}} . $

式中: $ {N_{{\text{cor}}}} $为预测正确的样本数, $ {N_{{\text{tot}}}} $为样本总数.

结果如表5所示. 表中, $ N $为参数量, $ t $为模型运行时间. 可知,在外观流网络和运动流网络中添加3D-CBAM模块后,精度分别达到89.6%和82.9%,比未添加注意力模块的精度相应提高了1.7%和3.6%,说明视频的特征信息被3D-CBAM模块更充分地提取与学习.

目前,本领域缺乏其他统一公开的数据集,本文与领域内近两年评估精度较高的文献进行对比,如表5所示. Garcia-Agundez等[24]测量受试者在进行VR体验时的线速度、角速度与加速度等信息,通过SSQ调查问卷得分将体验舒适度分别划分为二分类和三分类,利用SVM模型预测体验舒适度的精度分别为81.8%和58%. Shahid等[25]采用相同的四分类方式对SSQ主观评分进行分类,通过视频内容类型、摄像机运动特征进行人工神经网络(ANN)建模,对VR病进行预测,精确度最终达到90%. 利用外观流网络和运动流网络融合的方式,使得网络模型重点关注图像的显著特征,融合后的网络模型精度提高到93.7%.

3. 结 语

本文提出VR病评估模型,将传统的2D-ResNet50网络改进为3D-ResNet50,模仿人类视觉系统的2条通路,建立外观流和运动流2个子网络,同时融入了3D形式的通道注意力和空间注意力机制. 实验结果表明,利用该模型提升了评估网络的性能,提高了预测精度.

在未来的研究中,将开展立体深度信息对VR病影响的研究,计划将眼动、头部、生理信号等信息加入评估模型进行多模态训练,提升评估模型的准确性.

参考文献

GUNA J, GERŠAK G, HUMAR I, et al

Influence of video content type on users’ virtual reality sickness perception and physiological response

[J]. Future Generation Computer Systems, 2019, 91: 263- 276

DOI:10.1016/j.future.2018.08.049      [本文引用: 1]

MCCAULEY M E, SHARKEY T J

Cybersickness: perception of self-motion in virtual environments

[J]. Presence: Teleoperators and Virtual Environments, 1992, 1 (3): 311- 318

DOI:10.1162/pres.1992.1.3.311      [本文引用: 1]

GUNA J, GERŠAK G, HUMAR I, et al

Virtual reality sickness and challenges behind different technology and content settings

[J]. Mobile Networks and Applications, 2020, 25 (4): 1436- 1445

DOI:10.1007/s11036-019-01373-w      [本文引用: 1]

CHEN S, WENG D

The temporal pattern of VR sickness during 7.5-h virtual immersion

[J]. Virtual Reality, 2022, 26 (3): 817- 822

DOI:10.1007/s10055-021-00592-5     

KIM H G, LEE S, KIM S, et al. Towards a better understanding of VR sickness: physical symptom prediction for VR contents [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Washington: AAAI, 2021: 836-844.

LIM K, LEE J, WON K, et al

A novel method for VR sickness reduction based on dynamic field of view processing

[J]. Virtual Reality, 2021, 25 (2): 331- 340

DOI:10.1007/s10055-020-00457-3      [本文引用: 1]

NG A K T, CHAN L K Y, LAU H Y K. A study of cybersickness and sensory conflict theory using a motion-coupled virtual reality system [C]// 2018 IEEE Conference on Virtual Reality and 3D User Interfaces. Reutlingen: IEEE, 2018: 643-644.

[本文引用: 1]

KENNEDY R S, LANE N E, BERBAUM K S, et al

Simulator sickness questionnaire: an enhanced method for quantifying simulator sickness

[J]. International Journal of Aviation Psychology, 1993, 3 (3): 203- 220

DOI:10.1207/s15327108ijap0303_3      [本文引用: 1]

KIM H G, BADDAR W J, LIM H, et al. Measurement of exceptional motion in VR video contents for VR sickness assessment using deep convolutional autoencoder [C]// 23rd ACM Conference on Virtual Reality Software and Technology. Gothenburg: ACM, 2017: 1-7.

[本文引用: 1]

KIM H G, LIM H T, LEE S, et al

Vrsa net: VR sickness assessment considering exceptional motion for 360 VR video

[J]. IEEE Transactions on Image Processing, 2018, 28 (4): 1646- 1660

[本文引用: 2]

LEE T M, YOON J C, LEE I K

Motion sickness prediction in stereoscopic videos using 3D convolutional neural networks

[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25 (5): 1919- 1927

DOI:10.1109/TVCG.2019.2899186      [本文引用: 1]

GOODALE M A, MILNER A D

Separate visual pathways for perception and action

[J]. Trends in Neurosciences, 1992, 15 (1): 20- 25

DOI:10.1016/0166-2236(92)90344-8      [本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

HUANG C, WANG F, ZHANG R. Sign language recognition based on CBAM-ResNet [C]// Proceedings of the 2019 International Conference on Artificial Intelligence and Advanced Manufacturing. New York: ACM, 2019: 1-6.

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 3-19.

[本文引用: 1]

权巍, 王超, 耿雪娜, 等

基于运动感知的VR体验舒适度研究

[J]. 系统仿真学报, 2023, 35 (1): 169- 177

DOI:10.16182/j.issn1004731x.joss.21-0966      [本文引用: 1]

QUAN Wei, WANG Chao, GENG Xue-na, et al

Research on VR experience comfort based on motion perception

[J]. Journal of System Simulation, 2023, 35 (1): 169- 177

DOI:10.16182/j.issn1004731x.joss.21-0966      [本文引用: 1]

KIM J, KIM W, AHN S, et al. Virtual reality sickness predictor: analysis of visual-vestibular conflict and VR contents[C]// Proceedings of 2018 10th International Conference on Quality of Multimedia Experience. Sardinia: IEEE, 2018: 1-6.

[本文引用: 1]

PADMANABAN N, RUBAN T, SITZMANN V, et al

Towards a machine-learning approach for sickness prediction in 360 stereoscopic videos

[J]. IEEE Transactions on Visualization and Computer Graphics, 2018, 24 (4): 1594- 1603

DOI:10.1109/TVCG.2018.2793560      [本文引用: 2]

HELL S, ARGYRIOU V. Machine learning architectures to predict motion sickness using a virtual reality rollercoaster simulation tool [C]// IEEE International Conference on Artificial Intelligence and Virtual Reality. New York: IEEE, 2018: 153-156.

[本文引用: 1]

PORCINO T, RODRIGUES E O, SILVA A, et al. Using the gameplay and user data to predict and identify causes of cybersickness manifestation in virtual reality games [C]// IEEE 8th International Conference on Serious Games and Applications for Health. Vancouver: IEEE, 2020: 1-8.

[本文引用: 1]

YILDIRIM C. A review of deep learning approaches to EEG-based classification of cybersickness in virtual reality [C]// 2020 IEEE International Conference on Artificial Intelligence and Virtual Reality. Utrecht: IEEE, 2020: 351-357.

[本文引用: 1]

LI Y, LIU A, DING L

Machine learning assessment of visually induced motion sickness levels based on multiple biosignals

[J]. Biomedical Signal Processing and Control, 2019, 49: 202- 211

DOI:10.1016/j.bspc.2018.12.007      [本文引用: 1]

SELVARAJU R R, COGSWELL M, DAS A, et al

Grad-CAM: visual explanations from deep networks via gradient-based localization

[J]. International Journal of Computer Vision, 2020, 128 (2): 336- 359

DOI:10.1007/s11263-019-01228-7      [本文引用: 1]

GARCIA-AGUNDEZ A, REUTER C, BECKER H, et al

Development of a classifier to determine factors causing cybersickness in virtual reality environments

[J]. Games for Health Journal, 2019, 8 (6): 439- 444

DOI:10.1089/g4h.2019.0045      [本文引用: 3]

ANWAR M S, WANG J, AHMAD S, et al

Evaluating the factors affecting QoE of 360-degree videos and cybersickness levels predictions in virtual reality

[J]. Electronics, 2020, 9 (9): 1530- 1550

DOI:10.3390/electronics9091530      [本文引用: 2]

/