基于注意力机制的视觉诱导晕动症评估模型

doi:10.3785/j.issn.1008-973X.2025.06.002

基于注意力机制的视觉诱导晕动症评估模型

蔡永青^,, 韩成^,, 权巍, 陈兀迪

长春理工大学计算机科学技术学院，吉林长春 130022

Visual induced motion sickness estimation model based on attention mechanism

CAI Yongqing^,, HAN Cheng^,, QUAN Wei, CHEN Wudi

School of Computer Science and Technology, Changchun University of Science and Technology, Changchun 130022, China

通讯作者: 韩成，男，教授. orcid.org/0000-0003-3735-0162. E-mail：hancheng@cust.edu.cn

收稿日期: 2024-11-25

基金资助:

吉林省教育厅科学研究项目(JJKH20250531BS).

Received: 2024-11-25

Fund supported:

吉林省教育厅科学研究项目(JJKH20250531BS).

作者简介 About authors

蔡永青（1999—），男，博士生，从事虚拟现实技术研究.orcid.org/0000-0003-0005-545.E-mail：1364392394@qq.com , E-mail：1364392394@qq.com

摘要

为了准确评估用户在体验虚拟产品时由视觉内容诱发的晕动症程度，提出基于注意力机制的视觉诱导晕动症（VIMS）评估模型. 该模型依托Transformer架构构建网络，分别在时间序列和空间序列上建立自注意力机制，捕捉时间与空间特征之间的关系. 利用光流信息和用户关注信息，设计运动流和关注流2个子网络，构成双流网络结构；运动流子网络解析视觉内容中的运动特征，关注流子网络专注于提取用户关注区域的物体、纹理等重要信息. 采用后端融合策略实现双流网络结果的融合. 在公开视频数据集上进行实验验证，结果表明，关注流子网络和Transformer架构在注意力机制方面的协同作用有效提升了模型准确性. VIMS模型在F1指数、准确度和精确率方面均取得了最优结果，分别为0.8468、89.19%和92.28%，相较于现有方法有显著的性能提升.

关键词： 虚拟现实 ; 视觉诱导晕动症 ; 注意力机制 ; 深度学习 ; Transformer架构

Abstract

A visual induced motion sickness (VIMS) estimation model based on attention mechanism was proposed to accurately assess the degree of VIMS experienced by users when interacting with virtual products. The model was constructed upon Transformer architecture, incorporating the self-attention mechanism within temporal and spatial sequences to capture the complex interactions between temporal and spatial features. By utilizing the optical flow information and user attention information, two sub-networks of motion flow and attention flow were designed to form a dual-flow network structure. The motion flow sub-network was responsible for capturing the motion features in the visual content, and the attention flow sub-network focused on extracting critical information, such as objects, textures, and other key elements within the user’s attention area. A late fusion strategy was employed to effectively combine the outputs of the dual-flow network. Experimental validation conducted on public video datasets demonstrated that the synergistic interaction between the attention flow sub-network and the Transformer architecture significantly enhanced the model accuracy. The VIMS model achieved optimal results in terms of the F1 score, accuracy and precision with values of 0.8468, 89.19% and 92.28%, respectively, representing a notable advancement over existing approaches.

Keywords： virtual reality ; visual induced motion sickness ; attention mechanism ; deep learning ; Transformer architecture

PDF (1295KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

蔡永青, 韩成, 权巍, 陈兀迪. 基于注意力机制的视觉诱导晕动症评估模型. 浙江大学学报(工学版)[J], 2025, 59(6): 1110-1118 doi:10.3785/j.issn.1008-973X.2025.06.002

CAI Yongqing, HAN Cheng, QUAN Wei, CHEN Wudi. Visual induced motion sickness estimation model based on attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(6): 1110-1118 doi:10.3785/j.issn.1008-973X.2025.06.002

虚拟现实技术能够使观看者置身于虚拟环境中，得到一种身临其境的体验，这是传统的平面显示器所无法比拟的. 近些年，头戴式显示器等虚拟现实（virtual reality, VR）设备的量产降低了VR的准入门槛. 娱乐、影视、游戏等众多领域涌现出大量的虚拟现实应用，使VR逐渐融入普通大众的生产生活. 因此，对于优秀VR内容的需求不断增长.

伴随着VR技术与产业的快速发展，一些问题也逐渐显现. 其中最为突出的是，在VR体验过程中，用户极易产生头晕、恶心、呕吐等不适症状^[1]，严重者甚至会出现心率不齐、虚脱等情况. 这种不适感被称为视觉诱导晕动症（visual induced motion sickness, VIMS）^[2-3]. 有许多理论试图对VIMS作出解释，其中感官冲突理论^[4]是最合理且被广泛接受的理论. 感官冲突理论认为：眼睛看到VR画面，认为人体在运动，而实际上人体并没有运动，这种视觉与前庭系统的不匹配是引起VIMS的最重要因素. VIMS成为VR技术发展的瓶颈，极大地影响了VR产品的体验效果，阻碍了其进一步的普及.

准确地评估VR内容可能诱发的VIMS程度是近年来该领域的研究热点^[5]. 当前，主流的评估方法主要有基于主观问卷、生理信号、VR内容等形式的方法.

在主观问卷评估方法中，模拟器病调查问卷（simulator sickness questionnaire, SSQ）^[6]是一种应用广泛的主观评价工具. Bruck等^[7]重点关注SSQ的16个具体症状项并进行量化评分，这一改进的有效性在后续研究中得到了证实^[8-9]. Islam等^[10]提出快速晕动症量表，通过口头问卷的形式提高了评估效率. 然而，此类方法耗时较长且难以实时应用.

生理信号评估法通过测量生理信号（如皮肤电导、脑电、心率、眼跳幅度等），实现VIMS的客观评估^[11-15]. 然而，此类方法依赖于佩戴式设备，这不仅增加了受试者的物理负担，而且可能影响VR体验的沉浸感和存在感. 针对这一问题，一些学者采用机器学习方法，通过手工提取特征并建立数学模型来评估VIMS程度. Yao等^[16]利用线性回归算法从视频质量角度预测使用头戴式显示器（head-mounted display, HMD）观看VR视频时的体验舒适度水平. Quan等^[17]通过手工提取VR视频特征并建立支持向量机模型来评估VIMS程度. 在构建评估模型的同时，一些学者针对VIMS的影响因素开展研究. Cao等^[18]深入分析光流强度对VIMS的影响，并据此提出优化方案，有效减轻了用户的晕动症症状. Bala等^[19]通过实验计算出不同视野大小对VIMS和VR视频沉浸感的影响. Kim等^[20]根据VR视频内容的运动信息和纹理信息，结合VR环境中视角的变换程度计算各个特征对VIMS的影响程度. Lee等^[21]揭示了用户的视觉注意力会随着VIMS的程度而变化.

随着深度学习技术的发展，各种基于卷积神经网络的模型逐渐应用在VIMS评估上. 不需要手工提取特征，直接由模型分析出视频特征，从而实现VIMS评估. Zhao等^[22]结合生理信息数据和VR内容特征来综合评估VIMS程度. Lu等^[23]提出基于内容感知和双目特征的VIMS预测方法. 然而，这些方法仍需要生理信号的辅助，实施起来非常繁琐，且容易受到各种噪声和人体动作等因素的影响，测量结果的准确性有待提高. 因此，开发仅基于VR内容且具有高准确性的VIMS评估方法，仍然是一个亟待解决的问题. 为了解决这一问题，研究人员提出基于VR内容的VIMS评估模型. Lee等^[24]根据VR内容中的显著性图、光流图和视差图，建立神经网络模型，以此评估VIMS程度. Du等^[25]依托注意力机制建立三维卷积神经网络（3D CNN），对VR内容特征进行分析，以进一步预测用户VIMS程度. 权巍等^[26]以人类视觉系统的2条主要通路为基础，构建基于外观流和运动流的VIMS评估模型.

上述方法均依赖于3D CNN来解析VR内容和实现VIMS评估. 然而，3D CNN的设计初衷是捕捉局部时空信息，其卷积核的感受野限定了信息捕捉的范围，使得其在全局信息捕捉方面存在局限性^[27]. 因此，本研究选择Transformer作为VIMS评估的骨干网络. 其自注意力机制能够捕捉序列中元素之间的全局关联性，且不受卷积窗口大小的限制，尤其适用于视频中长期依赖问题的处理. 采用能够同时捕捉视频中静态外观特征和动态运动特征的双流网络结构. 考虑到VR内容的全景特性，将外观流优化为更贴近用户视觉感知的关注流，有效提升了VIMS评估的准确性.

1. 视觉诱导晕动症评估模型

1.1. 整体结构

为了更准确地评估VIMS程度，提出基于注意力机制的评估模型，其框架如图1所示. 采用Transformer架构作为骨干网络，并对注意力模块进行优化，以提高模型运算效率. 模型由运动流和关注流2个子网络构成. 其中，运动流子网络以连续的光流图像作为输入，以解析VR内容中的运动特征；关注流子网络处理关注区域的连续RGB视频帧，以提取用户视觉焦点区域的物体、纹理等信息. 通过后端融合策略，将2个子网络的输出有效地结合起来，实现双流网络结果的优势互补，从而得到更全面、准确的VIMS评估结果.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于注意力机制的视觉诱导晕动症评估模型整体框架

Fig.1 Overall framework of visual induced motion sickness estimation model based on attention mechanism

Transformer架构通过自注意力机制计算序列中每一元素与其他所有元素的相关性，这意味着在处理长序列数据时，计算量会随着序列长度的增加呈指数级膨胀. 在视频分析中，尤其是当处理VR视频时，传统的Transformer架构需要将时间序列与空间序列放在一起计算，导致计算复杂度和内存消耗量随着空间大小和时间长度的增加急剧增长. 这种计算方式使得模型的训练和推理变得极为昂贵，甚至超出硬件的处理能力. 为了解决这一问题，在Transformer 编码器中建立时间注意力层和空间注意力层，分别在时间序列和空间序列上独立建立自注意力机制. 这样既能有效处理时空信息，又能保证模型的计算效率.

运动流子网络针对视觉与前庭系统不匹配的问题，通过深入分析VR内容中的光流信息，捕捉决定用户视觉感知的运动特征^[18]. 鉴于VIMS在很大程度上与视觉感知到的运动和前庭系统感知到的运动不一致相关，运动流的整合能够有效提升模型的能力，使其能够准确评估视频中的运动特征对用户VR体验的影响.

关注流子网络的设计源于人类视觉系统中的信息处理机制. 人类视觉系统通过快速扫描全局图像，获得需要重点关注的目标区域，即注意力焦点；然后对这一区域投入更多注意力资源，以获取更多细节信息，同时抑制其他无用信息. 在进行基于VR内容的VIMS评估时，通常不考虑用户的个人差异，评估标准主要参照用户观看区域的内容. 因此，现有数据集通常让多位用户观看同一视频并填写调查问卷来获得个人评分，再求平均值而得到视频内容的VIMS评分. 有些数据集甚至进一步限制用户仅观看视频的正前方区域，以确保评分结果的统一性和可靠性. 研究指出，当观看VR视频时，用户在大多数时间聚焦于初始视点及其周围30°的区域，对其余区域仅短暂地一瞥^[28]. 此外，在全景视频从球面投影到等矩形投影的过程中，边缘区域会出现畸变. 因此，关注流子网络在进行VR视频分析时，截去畸变且用户不关注的边缘区域，专注于用户视觉焦点的中心区域，即全景图像中左右180°和上下100°区域，如图2所示. 被截掉的边缘区域的特征信息将在运动流中通过光流通道被补充到评估模型中.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 提取关注区域

Fig.2 Extracting region of interest

1.2. 子网络结构

运动流和关注流子网络的网络结构相同，如图3所示，具体流程可分为4个阶段.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 基于Transformer架构的子网络流程图

Fig.3 Flowchart of subnetwork based on Transformer architecture

阶段1：对输入视频进行预处理. 对于视频来说，输入为${\boldsymbol{ X}} \in {{\bf{R}}^{H \times W \times F}} $，表示$F$帧采样、尺寸为$ H \times W $的视频. 为了方便统一计算，将输入视频帧尺寸统一改为224×224大小. 将视频帧分成$N$个相同大小的正方形图像块，且$N = HW/{P^2}$，其中$P$为图像块的边长. 将输入视频拆解后，可以表示为向量$ {\boldsymbol{X}}(p,t) \in {{\bf{R}}^{{P^2}}} $，其中$ p $表示空间位置，$ p $=1,2,$\cdots $,$N$；$ t $表示时间位置，$ t $=1,2,$\cdots $,$F$. 如图3所示，将同一空间位置的不同时刻的图像块集合定义为时间块集合${{\boldsymbol{X}}_{^p}} \in {{\bf{R}}^{{P^2}}}$，表示当前时间序列中空间位置$ p $对应的图像块集合.

阶段2：计算输入视频的时间序列相关性. 如图3所示，将组合好的时间块集合输入到嵌入层，并将每一个时间块转变为带有位置编码信息的时间单元：

(1)$ {\boldsymbol{z}}_{(p, t)}=\boldsymbol{E} \boldsymbol{X}(p, t)+\boldsymbol{e}_{(p, t)}^{\mathrm{pos}} . $

式中：${\boldsymbol{E}} \in {{\bf{R}}^{D \times {P^2}}}$为可学习矩阵，$ {\boldsymbol{e}}_{(p,t)}^{{\mathrm{pos}}} \in {{\bf{R}}^D} $为可学习的空间位置编码，其中$D$为图像块的维度.

通过注意力层计算各个时间单元之间的关联度，保证每一个时间单元能捕捉到同一空间位置在不同帧之间的变化，加强模型对时间维度上的特征的学习能力. 将相同视频帧中不同空间位置的图像块集合定义为空间块集合，表示为${{\boldsymbol{X}}_{^t}} \in {{\bf{R}}^{{P^2}}}$，即当前空间序列中时间位置t对应的图像块集合.

阶段3：计算输入视频的空间序列相关性并提取特征. 将空间块集合输入到嵌入层，并将每一个空间块转变为带有位置编码的空间单元，再额外加入位置编码为$ {\boldsymbol{z}}_{(0,0)}^{} $的分类单元.

通过注意力层学习各个空间单元之间的空间序列相关性，再输入到多层感知机（multilayer perceptron, MLP）层中进行非线性变换和高级特征提取. 阶段2和阶段3组合起来就是图1中的Transformer编码器模块. 将Transformer编码器模块堆叠多次，提高模型捕捉复杂特征和远距离依赖关系的能力. 分类单元在Transformer编码器的每个注意力层中都与其他空间单元交互，逐层整合整个序列的特征信息，最终提供统一的全局表示，作为当前帧的分类结果. 因为是多帧并行计算，所以同时输出$F$个分类单元.

阶段4：将$F$个分类单元进行融合计算，得出最终特征为$D$维的特征. 通过全连接层将$F$个分类单元得到的结果整合，得到输入视频对应的VIMS程度分类结果.

1.3. 注意力模块

Transformer架构最初应用于自然语言处理，随后被迁移到图像处理领域. 其核心是Transformer编码器模块，由注意力层和多层感知机层共同组成^[29]，通过自注意力机制来捕捉序列中元素之间的关系，具有强大的建模能力. 然而，与图像相比，视频增加了时间维度. 直接将视频分割为图像块再输入模型计算，会导致计算量急剧增加，并显著延长训练时间. 为了解决这一问题，提出一种创新的解决方案，将传统的单一注意力层拆分为2个独立的层：时间注意力层和空间注意力层. 首先，通过时间注意力层计算视频数据的时间序列自注意力分布，使模型能够捕捉到随时间变化的关键动态特征. 接着，利用空间注意力层计算视频帧内的空间序列自注意力分布，进一步细化模型对视频帧内空间结构的理解.

为了进一步提高计算效率，采用多头注意力机制，将注意力分配到多个“头”（heads）上，实现并行计算. 网络模型包含L层编码器模块，每层编码器模块包含2个注意力层和1个多层感知机层. 每个注意力层中的查询向量$ {\boldsymbol{q}} $、键向量$ {\boldsymbol{k }}$、值向量$ {\boldsymbol{v}} $的计算方式为

(2)$ \boldsymbol{q}_{(p, t)}^{(l, h)}=\boldsymbol{W}_{\boldsymbol{q}}^{(l, h)} \operatorname{LN}\left(\boldsymbol{z}_{(p, t)}^{(l-1)}\right) \in \mathbf{R}^{D_{\mathrm{h}}}, $

(3)$ \boldsymbol{k}_{(p, t)}^{(l, h)}=\boldsymbol{W}_{\boldsymbol{k}}^{(l, h)} \operatorname{LN}\left(\boldsymbol{z}_{(p, t)}^{(l-1)}\right) \in \mathbf{R}^{D_{\mathrm{h}}}, $

(4)$ \boldsymbol{v}_{(p, t)}^{(l, h)}=\boldsymbol{W}_{\boldsymbol{v}}^{(l, h)} \operatorname{LN}\left(\boldsymbol{z}_{(p, t)}^{(l-1)}\right) \in \mathbf{R}^{D_{\mathrm{h}}} . $

式中：$h$为heads的索引位置，$h$=1,2,$\cdots $,$H$；$l$为编码器模块序号，$l$=1,2,$\cdots $,$ L $；$ {\boldsymbol{W}}_{\boldsymbol{q}}^{(l,h)}、{\boldsymbol{W}}_{\boldsymbol{k}}^{(l,h)}、{\boldsymbol{W}}_{\boldsymbol{v}}^{(l,h)} $分别为第l层编码器模块中第h个heads的查询、键、值的权重矩阵；$ {D_{\mathrm{h}}} $为heads的维度；LN表示层归一化.

传统的Transformer架构中使用的单一注意力层计算公式如下：

(5)$ \boldsymbol{a}_{(p, t)}^{(l, h)}=\operatorname{softmax}\left\{\frac{\boldsymbol{q}_{(p, t)}^{(l, h)}}{\sqrt{D_{\mathrm{h}}}} \cdot\left[\boldsymbol{k}_{(0,0)}^{(l, h)},\;\boldsymbol{k}_{\left(p^{\prime}, t^{\prime}\right)}^{(l, h)}\right]\right\} . $

式中：$ p' $=1,2,$\cdots $,$N$，$ t' $=1,2,$\cdots $,$F$. 同时计算输入视频的时间单元和空间单元，计算复杂度为$O({(N \times F+1)^2})$. 采用的双层注意力机制将时间注意力与空间注意力分为2层注意力层进行计算，每个编码器模块中的注意力层计算方式为

(6)$ \boldsymbol{a}_{(p, t) \text { time }}^{(l, h)}=\operatorname{softmax}\left\{\frac{\boldsymbol{q}_{(p, t)}^{(l, h)}}{\sqrt{D_{\mathrm{h}}}} \cdot\left[\boldsymbol{k}_{(0,0)}^{(l, h)},\;\boldsymbol{k}_{\left(p, t^{\prime}\right)}^{(l, h)}\right]\right\}, $

(7)$ \boldsymbol{a}_{(p, t) \text { space }}^{(l, h)}=\operatorname{softmax}\left\{\frac{\boldsymbol{q}_{(p, t)}^{(l, h)}}{\sqrt{D_{\mathrm{h}}}} \cdot\left[\boldsymbol{k}_{(0,0)}^{(l, h)},\;\boldsymbol{k}_{\left(p^{\prime}, t\right)}^{(l, h)}\right]\right\}, $

(8)$ \text { Attention }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\boldsymbol{A} \boldsymbol{V}. $

式中：$ {\boldsymbol{Q }}$、$ {\boldsymbol{K}} $、$ {\boldsymbol{V}} $、$ {\boldsymbol{A }}$分别为$ {\boldsymbol{q}}_{(p,t)}^{(l,h)} $、$ {\boldsymbol{k}}_{(p,t)}^{(l,h)} $、$ {\boldsymbol{v}}_{(p,t)}^{(l,h)} $、$ {\boldsymbol{a}}_{(p,t)}^{(l,h)} $的集合，且$ {\boldsymbol{A}} $为$ {\boldsymbol{Q}} $和$ {\boldsymbol{K}} $计算得到的自注意力分布. 将输入视频的时间单元和空间单元分开计算，其计算复杂度为$O({(N+F+2)^2})$；相较于单一注意力层，计算复杂度显著降低.

合并heads中的计算结果后，进行线性投影，送入多层感知机层中，解决注意力层无法解决的非线性问题. 经过$ L $层编码器模块后，合并多头注意力结果，取位置编码为0的${\boldsymbol{z}}_{(0,t)}^{L}$为当前帧分类结果. 对所有帧的分类融合，得出最终的分类结果：

(9)$ \boldsymbol{y}=\operatorname{MEAN}\left\{\operatorname{MLP}\Bigg[\operatorname{LN}\Biggr(\sum_{t=1}^F \boldsymbol{z}_{(0, t)}^L\Biggr)\Bigg]\right\}. $

式中：MLP表示多层感知机操作，MEAN函数用于计算均值.

1.4. 后端融合模块

目前，数据融合方法主要包括前端融合、中间融合和后端融合法. 前端融合法在数据预处理阶段合并不同模态的特征，简化了后续处理步骤，但可能会损失模态特有的信息. 中间融合法在特征提取和决策制定之间进行，旨在保留模态特征的同时增强模型的泛化能力，但需要精心设计网络结构以确保有效融合. 后端融合法，也称为决策级融合法，通过在决策阶段整合各个子网络的输出，有效地避免错误在不同子网络间的累积，从而增强模型的鲁棒性. 本研究采用后端融合方式，对关注流网络和运动流网络的softmax输出进行加权平均融合来平滑各子网络结果：

(10)$ \text { average}\_\mathrm{f}=\sum_{i=1}^T w_i P\left(\boldsymbol{x}_i\right) . $

式中：$T$为子网络数量；$ {w_i} $为第i个子网络的权重，且$ {w}_{i}\geqslant $0，$ \sum {_{i = 1}^T{w_i}} = 1.0 $；$ {{\boldsymbol{x}}_i} $为子网络输出的特征向量，$ P({{\boldsymbol{x}}_i}) $为VIMS评估结果.

2. 实验结果与分析

2.1. 实验设置

鉴于现阶段能够用于VIMS研究的公开数据集非常有限^[30]，选用KAIST^[5]公开数据集和Kuo等^[31]建立的公开数据集作为实验数据来源. 2个数据集中的视频内容均来自YouTube中的360°立体视频，并且提供了每个视频的SSQ评分. 由于这2个数据集中的视频样本数量较少，为了验证本模型的泛化能力，使用由2个数据集组成的混合数据集，共计28个视频. 视频的分辨率范围为2560×1440至5120×2560，时长介于1 min 30 s至5 min之间，且帧率统一为30帧/s. 为了增强数据的多样性，采用滑动起始帧的方法进行数据增强，将数据集扩充至224个视频，其中75%用于训练，25%用于测试，如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 混合数据集的组成及训练集/测试集示例

Fig.4 Composition of mixed dataset and examples of training/testing sets

根据通过SSQ问卷获取的主观评分对视频进行分类. 对VIMS分类最常用的方式是二分类和四分类法^[32-33]，其中，二分类法仅评估用户在进行VR体验时是否产生不适，而四分类法能够更细致地评估参与者的体验感，更具现实意义^[34]. 为了避免类别不平衡对实验结果造成偏差，根据SSQ值（S）合理划分VIMS分类范围，确保各类别的样本数量大致相等，从而保证实验中数据集的类别分布均衡. 具体的四分类标准如下：

(11)$ \text { VIMS }= \begin{cases}\text { None, } & 0 \leqslant S \leqslant 10 ;\\ \text { Low, } & 10< S \leqslant 30 ;\\ \text { Medium}, & 30< S \leqslant 40 ; \\ \text { High, } & S > 40.\end{cases} $

在网络训练前须对数据进行增强，考虑到图像模糊、旋转、翻转等常规数据增强手段可能导致VIMS的变化，在视频输入时采用尺度抖动（scale jittering）方法将输入视频的短边按比例缩放到[256, 320]区间内的某个随机数值，然后随机裁剪成224×224的图像区域.

实验环境配置如表1所示. 网络模型采用随机梯度下降算法进行优化，反向传播时的权重衰减为0.0001，动量因子为0.9，批量大小为8，网络层数为12，训练轮数为120.

表 1 实验环境配置信息

Tab.1 Experimental environment configuration information

配置	参数信息
CPU	Intel CORE i9 13900K
GPU	NVIDIA GeForce RTX 2080TI
操作系统	Ubuntu
通用并行计算架构	CUDA 10.0、cuDNN 7.6.1
深度学习框架	Pytorch 1.2
开发环境	Anaconda 3、Python 3.7

新窗口打开| 下载CSV

2.2. 评估指标

为了评估算法的有效性，采用准确度、F1分数与精确率作为主要评估指标. 准确度表示正确分类的样本占总样本的比例；F1值是精确率与召回率的调和平均数，用于综合考虑二者之间的平衡；精确率表示模型预测为正类的样本中，实际为正类的比例. 表达式分别为

(12)$ A = \frac{{{\text{TP}}+{\text{TN}}}}{{{\text{TP}}+{\text{TN}}+{\text{FP}}+{\text{FN}}}}, $

(13)$ {\mathrm{F1}} = \frac{{2R \times P}}{{R+P}}, $

(14)$ P = \frac{{{\text{TP}}}}{{{\text{TP}}+{\text{FP}}}}. $

式中：${\text{TP}}$、${\text{FN}}$、$ {\text{FP}} $和${\text{TN}}$分别代表真阳性、假阴性、假阳性和真阴性，$ A $表示准确度，$ R $表示召回率，$ P $表示精确率.

2.3. 性能比较

部分研究团队通过建立数据集并结合生理信号来开展VIMS的四分类评估工作. 例如，Islam等^[14]结合受试者的眼部运动和头部运动数据，预测VIMS的准确度为87.70%；Shimada等^[15]利用瞳孔直径、视线变化和凝视位置等眼部数据，预测VIMS的准确度为81.16%. 然而，这些方法不仅增加了用户的负担，而且使测评过程变得复杂. 相比之下，本研究仅基于VR内容进行VIMS分类，不涉及生理信号，准确度达到89.19%，这表明在无生理信号的情况下，也能实现评估准确性.

鉴于当前VIMS评估领域的多数研究未公开源代码，为了确保本研究所提模型与现有模型的可比性，选取主题密切相关的研究工作进行复现，并将其应用于相同数据集中，以此为基准进行比较和验证，实验结果如表2所示. 在对比方法中，Lee等^[24]提出基于3D CNN的VIMS评估方法，输入特征包括显著性图、光流图和视差图，并采用“滑动起始帧”数据增强技术，提高了模型的泛化能力，VIMS评估精确率为81.87%. Du等^[25]在此基础上引入多层次特征提取方案，增强模型对复杂信息的表达能力；在后端融合阶段，引入注意力机制对多层次特征进行加权融合，将精确率提升至83.34%. 权巍等^[26]对VIMS评估模型的输入特征进行优化，构建基于外观流和运动流的VIMS评估模型，引入轻量化注意力模块，将精确率提升到88.91%.

表 2 不同VIMS评估方法的实验结果对比

Tab.2 Comparison of experimental results of different VIMS estimation methods

方法	输入特征	模型	F1	A/%	P/%
Lee等^[24]	运动流+视差流+显著流	3D CNN	0.649 4	74.36	81.87
Du等^[25]	运动流+视差流+显著流	3D CNN+attention	0.689 8	78.38	83.34
权巍等^[26]	运动流+外观流	3D CNN+attention	0.816 7	86.49	88.91
本研究	运动流+关注流	Transformer	0.846 8	89.19	92.28

新窗口打开| 下载CSV

在现有研究的基础上进行进一步的优化和创新. 首先，基于人类视觉系统中的信息处理机制优化输入特征，用关注流取代外观流，使模型更贴近于人类视觉感知的自然特性. 其次，将模型的骨干网络替换为以注意力机制为核心的Transformer架构，该架构能够更好地捕捉视频内容中的长距离依赖关系和全局信息. 此外，对Transformer架构中的注意力计算方式进行优化，降低计算复杂度，以提高模型的运行效率. 最终，模型在F1指数、准确度和精确率方面均取得了最优结果，分别为0.8468、89.19%和92.28%.

2.4. 消融实验

为了验证提出的关注流子网络在VIMS评估中的有效性，引入未提取关注区域的原始视频，即外观流. 此外，为了全面评估各个子网络及不同网络结构在VIMS识别性能上的表现，在Resnet和Transformer这2种架构下分别训练外观流、关注流和运动流子网络.

实验结果如表3所示，采用Transformer架构的模型在整体性能上超越了ResNet架构. 这一优势主要归功于Transformer架构在处理空间和时间序列数据时，能够更有效地计算和调整注意力分布，从而更精准地捕捉数据的关键特征和动态变化，有助于模型在VIMS评估任务中取得更优的性能表现.

表 3 不同子网络在ResNet/Transformer架构中的实验结果对比

Tab.3 Comparison of experimental results for different subnetworks in ResNet/Transformer architectures

方法	F1	A/%	P/%
外观流网络-ResNet架构	0.516 6	54.05	70.79
关注流网络-ResNet架构	0.619 8	62.16	62.10
运动流网络-ResNet架构	0.665 2	72.97	86.49
外观流网络-Transformer架构	0.748 8	78.38	72.36
关注流网络- Transformer架构	0.792 5	83.78	89.10
运动流网络- Transformer架构	0.824 0	86.48	90.99

新窗口打开| 下载CSV

运动流子网络在2种架构中均实现了最高的准确度，这进一步验证了感官冲突理论，即VIMS的诱导原因主要与画面运动信息和用户在静止状态下的感官信息之间的冲突有关，因此运动信息对VIMS评估有着关键性作用. 特别是对于复杂动态场景，光流能够更好地捕捉和处理这些场景中的动态变化特征，使得运动流子网络在这些场景下表现出色，从而有效提升模型对VIMS的评估能力. 在外观流子网络基础上经过改进的关注流子网络在2种网络架构中都优于原始的外观流子网络. 这是因为外观流包含大量用户未关注的信息，而这些非必要的信息不仅增加了模型处理的负担，还可能干扰模型的判断准确性. 关注流子网络专注于用户关注区域，而这些区域与用户的VIMS体验密切相关，因此其在网络模型中展现出了更佳的性能. 这一结果强调了在构建VIMS评估模型时，应重视人类视觉系统的机制，并有效利用这些机制以提升评估的精确度和效率.

图5详细展示了外观流、运动流和关注流3个子网络在Transformer架构中训练过程中的性能变化. 实验结果显示，尽管外观流在训练初期展现出较快的准确度提升，但随着训练的继续，其性能未能进一步提升，显示出稳定性不足的缺点. 运动流在整个训练过程中损失值持续降低，且取得了最高的准确度，表现出优秀的学习稳定性和鲁棒性. 关注流虽然在训练初期准确度和损失表现逊色于外观流，但随着训练的推进，逐渐超越外观流，最终展现出较高的准确度，不仅证明了其在处理视觉信息方面的有效性，而且显示了其在视觉信息处理上相较于外观流的优势. 这些结果再次强调了在构建VIMS评估模型的过程中运动流与关注流的重要性，其能够在长期训练中提供更可靠的性能，为VIMS评估提供了强有力的支持.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 不同子网络模型的准确度和损失变化曲线

Fig.5 Accuracy and loss variation curves for different subnetwork models

为了探讨关注流视野范围的选取对模型性能的影响，选取完整视野范围、关注视野范围及HMD视野范围进行对比实验，实验结果如表4所示. HMD视野代表市面上常见HMD设备的平均可视范围^[35]，但由于其覆盖的区域较小，导致大量信息的丢失，从而影响模型的精确率. 相较之下，完整视野范围虽然包含更多信息，但冗余数据的存在对VIMS评估结果产生了负面影响. 实验结果表明，视野范围的选择并非越大越好或越小越好，而是应该合理设定，使其恰好覆盖用户关注区域，以实现最佳效果^[28].

表 4 不同视野范围的实验结果对比

Tab.4 Comparison of experimental results of different fields of view

视野范围	F1	A/%	P/%
完整视野（360°×180°）	0.748 8	78.38	72.36
关注视野（180°×100°）	0.792 5	83.78	89.10
HMD视野（100°×90°）	0.732 1	75.67	71.31

新窗口打开| 下载CSV

通过实验对比不同融合网络所训练的模型的准确度，实验结果如表5所示. 由表5可知，无论是外观流还是关注流，当与运动流结合时，融合网络都能实现较高的准确度. 这一现象揭示了运动流所代表的时间特征与外观流和关注流所代表的空间特征之间的高效融合能力. 值得注意的是，包含关注流的融合网络在性能上始终超越了仅包含外观流的网络，这表明关注流中的特征对于提升模型性能具有显著的贡献. 此外，当外观流和关注流融合时，在不同模型架构中并未带来性能增益，反而成为表现最差的组合. 这一结果指出外观流和关注流在特征提取上存在较大的重叠，并且关注流在融合网络中起到了替代外观流的作用.

表 5 不同融合网络的实验结果对比

Tab.5 Comparison of experimental results of different fusion networks

方法	F1	A/%	P/%
外观流+关注流-ResNet架构	0.619 8	62.16	62.10
外观流+运动流-ResNet架构	0.742 9	81.08	84.83
关注流+运动流-ResNet架构	0.766 5	81.08	87.16
外观流+关注流-Transformer架构	0.805 0	83.78	77.61
外观流+运动流-Transformer架构	0.820 0	86.48	89.12
关注流+运动流-Transformer架构	0.846 8	89.19	92.27

新窗口打开| 下载CSV

3. 结　语

本研究提出基于注意力机制的VIMS评估模型，将Transformer架构应用到VIMS评估领域，并对其自注意力机制进行优化. 研究结果证实了相较于传统的ResNet架构，Transformer架构的自注意力机制在处理此类复杂时空数据时的优越性. 提出基于用户注意力机制的关注流通道不仅能够高效地替代传统外观流，还避免了外观流中常见的边缘畸变和信息复杂性问题，其有效性在实验中得到了证实. 然而，当前模型仅对VR内容进行分析，未能考虑不同人群的易感性差异. 此外，Transformer架构对数据量的依赖性较强，在处理小型数据集时效果较为有限，这也是本研究选择混合数据集进行实验的主要原因.

在未来的研究中，计划构建多模态VIMS评估模型，允许用户选择仅分析VR内容或额外输入生理数据，以满足个性化的评估需求. 同时，致力于构建大规模、公开的VIMS评估数据集，以解决当前公开数据集有限、数据量较小的问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

SOUCHET A D, LOURDEAUX D, PAGANI A, et al

A narrative review of immersive virtual reality’s ergonomics and risks at the workplace: cybersickness, visual fatigue, muscular fatigue, acute stress, and mental overload

[J]. Virtual Reality, 2023, 27 (1): 19- 50