浙江大学学报(工学版), 2022, 56(1): 36-46 doi: 10.3785/j.issn.1008-973X.2022.01.004

计算机技术、信息与电子工程

基于关系推理与门控机制的视觉问答方法

王鑫,, 陈巧红,, 孙麒, 贾宇波

浙江理工大学 信息学院, 浙江 杭州310018

Visual question answering method based on relational reasoning and gating mechanism

WANG Xin,, CHEN Qiao-hong,, SUN Qi, JIA Yu-bo

School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

通讯作者: 陈巧红,女,副教授. orcid.org/0000-0003-0595-341X. E-mail: chen_lisa@zstu.edu.cn

收稿日期: 2021-03-19  

基金资助: 浙江省自然科学基金资助项目(LY17E050028)

Received: 2021-03-19  

Fund supported: 浙江省自然科学基金资助项目(LY17E050028)

作者简介 About authors

王鑫(1995—),男,硕士生,从事计算机辅助设计及机器学习技术的研究.orcid.org/0000-0002-5589-5628.E-mail:xinwang952021@163.com , E-mail:xinwang952021@163.com

摘要

针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制. 该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系. 将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献. 在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.

关键词: 视觉问答(VQA) ; 注意力机制 ; 视觉区域 ; 关系推理 ; 自适应门控

Abstract

A relational reasoning module and an adaptive gating mechanism were added based on the attention mechanism aiming at the problems that the existing attention mechanism lacks understanding of the relationship between visual objects and has low accuracy. The attention mechanism was used to focus on multiple visual regions related to the question. The dual relational reasoning and multiple relational reasoning in the relational reasoning module were used to strengthen the connection between the visual regions. The obtained visual attention feature and visual relationship feature were input into adaptive gating, and the contribution of the two features to the predicted answer was dynamically controlled. The experimental results on the VQA1.0 and VQA2.0 data sets showed that the overall accuracy of the model was improved by about 2% compared with advanced models such as DCN, MFB, MFH and MCB. The model based on relational reasoning and gating mechanism can better understand the image content and effectively improve the accuracy of visual question and answer.

Keywords: visual question answering (VQA) ; attention mechanism ; visual region ; relational reasoning ; adaptive gating

PDF (1137KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王鑫, 陈巧红, 孙麒, 贾宇波. 基于关系推理与门控机制的视觉问答方法. 浙江大学学报(工学版)[J], 2022, 56(1): 36-46 doi:10.3785/j.issn.1008-973X.2022.01.004

WANG Xin, CHEN Qiao-hong, SUN Qi, JIA Yu-bo. Visual question answering method based on relational reasoning and gating mechanism. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(1): 36-46 doi:10.3785/j.issn.1008-973X.2022.01.004

视觉问答是结合计算机视觉与自然语言处理2个重要科学领域的一项课题. 视觉问答作为高级视觉任务,旨在准确回答给定图像或视频的自然语言问题. 这项技术在医疗援助、智能客服、人机交互、视觉导航等研究方向有着广泛的应用前景.

近年来,运用最广泛的注意力机制能够从多模态的输入中提取有效的信息,使其成为视觉问答领域的主流技术之一[1]. 视觉问答的相关研究主要基于CNN-RNN技术框架[2],使用“编码器-解码器(encoder-decoder)”的结构输出预测答案. Anderson等[3]提出结合自上向下与自下向上注意力机制,用于视觉问答领域. 自下向上注意力机制检测视觉区域,以突出显著对象;自上向下注意力机制用于计算所有显著对象的注意映射,对重要的视觉区域分配较大的权重. 这些与问题相关的视觉区域可以得到更多的关注. Chen等[4]提出双通道多跳注意力模型用于视觉对话领域,在模型中多次回溯关注与问题相关的视觉特征,解决了只利用编码端输出多模态信息融合的局限性. Yu等[5]设计深度模块化注意网络,该网络能够将问题的关键词与图像的关键区域相关联,提升对图像及问题的细粒度理解.

研究人员除注意力机制方法外,还探索了众多方法,取得了一定的研究成果. Zhu等[6]通过加入外部知识库帮助模型理解图像内容,但这些工作严重依赖于作为监督信息的知识事实. Johnson等[7]提出将视觉关系推理运用到视觉问答工作中,提出由程序生成器构成的框架,可以显式地表示推理过程. 该方法的不足是需要额外的监督数据,训练时面临着运算量过高和训练时间过长的问题. 邱真娜等[8]提出利用上下游网络分别进行物体检测与特征推理的神经网络模型,利用极快速区域卷积神经网络提取特征在下游网络加以推理. Santoro等[9]提出关系推理网络(RN),该模型的思想是通过约束神经网络的形式来捕捉对象之间的关系. 上述研究针对视觉问答领域,从多个方向进行改进,但均忽略了视觉区域之间的空间信息.

本文针对上述方法存在忽略图像场景中视觉区域之间的关系以及准确度不高等问题,开展3个方面的改进. 1)采用Faster R-CNN编码图像中的视觉特征向量与几何特征向量,结合自下向上与自上向下注意力机制,使模型关注与问题相关的视觉区域. 2)引入视觉关系推理模块,其中包括二元关系推理与多元关系推理,加强模型对视觉内容的理解能力. 3)将得到的视觉注意力特征与视觉关系特征输入到自适应选择门控中,自适应地控制并显式地表示2种特征对预测答案的贡献.

1. 基于关系推理与门控机制的视觉问答方法

图1所示,给定图像I及相应的问题Q,视觉问答的任务是根据图像的内容及问题的语义,从一组候选答案中返回概率最大的答案at. 设计的基于关系推理与门控机制的视觉问答模型主要包含视觉特征提取、文本问题嵌入、视觉注意力模块、关系推理模块、自适应门控机制及答案预测6个部分.

图 1

图 1   基于关系推理与门控机制的视觉问答模型图

Fig.1   Visual question answering model diagram based on relational reasoning and gating mechanism


1.1. 视觉特征提取

将ResNet-101[10]作为基础网络,使用对象检测器(Faster R-CNN[11])检测图像中的物体,以提取输入图像中显著区域的视觉特征. 采用Faster R-CNN以获得对象检测区域,对每个对象区域执行非极大抑制并选择最相关的K个候选区域(一般为K = 36). 对于每个候选区域ividv维的视觉对象向量,则输入的图像表示为V = [v1, v2, ···, vK]T,其中 ${\boldsymbol{v}}_{i}\in {\bf{R}}^{{{d}}_{\mathrm{v}}}$. 此外,会获取到输入图像的视觉几何特征B = [b1,b2,···,bK]T,其中 ${{\boldsymbol b}}_{i} = [ {{{x}}_{{i}}}/{{w}},{{{y}}_{{i}}}/{{h}}, $ $ {{{w}}_{{i}}}/{{w}},{{{h}}_{{i}}}/{{h}} ]$,(xi, yi)、wihi分别为候选区域i的中心坐标、宽度与高度,wh分别为输入图像的宽度与高度. 上述的视觉对象特征与视觉几何特征将会被输入到视觉注意力模块与关系推理模块.

1.2. 文本问题嵌入

对于问题的嵌入,用空格与标点符号将句子分割为单词(数字或基于数字的单词被当作是一个单词). Teney等[12]提出在VQA的数据集中,只有0.25% 的问题长度会超过14个单词,为了提高计算效率,将每个输入问题Q修剪为最多14个单词,将超过14个单词的额外单词丢弃,不足14个单词的问题用0向量填补. 通过使用预训练的Glove模型[13]进行词向量嵌入,将每个单词转换为300维的向量. 由此产生的单词嵌入序列大小为14×300,将单词嵌入序列依次通过隐藏层为dq维的长短期记忆(LSTM)[14]网络中,得到问题的特征向量 $\widetilde{\boldsymbol{Q}}\in {\bf{R}}^{{{d}}_{\mathrm{q}}}$.

1.3. 视觉注意力模块

深度学习中的注意力机制充分展示了在回答图像问题方面的优势. 结合自上向下注意力机制与自下向上注意力机制,构成视觉注意力模块. 该方法可以使模型聚焦在与问题最相关的视觉区域上,关注与问题相关的视觉特征. 给定图像的视觉对象特征vi和问题特征 $\widetilde{\boldsymbol{Q}}$,最简单的双线性多模态融合如下所示:

$ {{\boldsymbol{z}}}_{{i}}={\boldsymbol{v}}_i^{\mathrm{{\rm T}}}{\boldsymbol{W}}_{{i}}\widetilde{\boldsymbol{Q}}. $

该模型采用低秩双线性模型[15]来降低双线性模型参数的数量,通过将Wi替换为2个参数数量较少的矩阵HiGiT,降低计算的复杂程度,其中 ${\boldsymbol{H}}_{{i}}\in {\bf{R}}^{{{d}}_{\mathrm{v}}\times {d}}$${\boldsymbol{G}}_{{i}}\in {\bf{R}}^{{{d}}_{\mathrm{q}}\times {d}}$,计算如下:

$ {\boldsymbol{z}}_{{i}}={\boldsymbol{v}}_i^{\mathrm{{\rm T}}}{\boldsymbol{W}}_{\mathrm{i}}\widetilde{\boldsymbol{Q}}={{\boldsymbol{1}}}^{\mathrm{{\rm T}}}({{\boldsymbol{H}}_{\mathrm{i}}}^{\mathrm{{\rm T}}}\boldsymbol{v}_i\circ {{\boldsymbol{G}}_{{i}}}^{\mathrm{{\rm T}}}\widetilde{\boldsymbol{Q}}). $

式中:1Rd是元素均为1的向量, $\circ $表示逐元素乘法.

在式(2)的基础上计算视觉区域的注意力映射,对于图像区域i的权重ωi

$ {\mathrm{\omega }}_{{i}}=\frac{\mathrm{exp}\;{\boldsymbol{z}}_{{i}}}{{\displaystyle\sum }_{{k}=1}^{{K}}\mathrm{exp}\;{\boldsymbol{z}}_{{k}}} . $

为了减少参数,对所有图像区域采用相同的映射矩阵 $\boldsymbol{H}\in {{\bf{R}}}^{{d}_{\mathrm{v}}\times d}$$\boldsymbol{G}\in {\bf R}^{{d}_{\mathrm{q}}\times d}$${\boldsymbol{z}}_{i}$更新为

$ {\boldsymbol{z}}_{{i}}={\boldsymbol{P}}^{\mathrm{{\rm T}}}({\boldsymbol{H}}^{\mathrm{{\rm T}}}{\boldsymbol{v}}_{{i}}\circ {\boldsymbol{G}}^{\mathrm{{\rm T}}}\widetilde{\boldsymbol{Q}}) . $

式中:PRd为训练参数. 输入图像的注意力特征 ${\boldsymbol{V}}_{\mathrm{a}\mathrm{t}}\in {\bf{R}}^{{{d}}_{\mathrm{v}}}$可以表示为所有视觉对象特征的加权求和,如下所示:

$ {\boldsymbol{V}}_{\mathrm{a}\mathrm{t}}={\boldsymbol{A}}^{\mathrm{{\rm T}}} \boldsymbol{V}. $

式中:A为注意力的映射矩阵,A = [ω1, ω2, ···, ωK]T.

1.4. 关系推理模块

关系推理模块扩展了关系推理网络(RN),主要是通过2种不同形式的卷积流处理视觉关系中的成对关系与组内关系,即一对一与一对多的视觉关系. 关系推理模块主要由特征融合、二元关系推理与多元关系推理3部分组成.

1.4.1. 特征融合

图2所示,给定输入图像中K个视觉区域的视觉对象特征 $\boldsymbol{V}\in {\bf R}^{K\times {d}_{\mathrm{v}}}$与视觉几何特征 $\boldsymbol{B}\in {\bf R}^{K\times {d}_{\mathrm{b}}}$,由于视觉问答任务中关系推理的特点,须综合考虑视觉对象特征与视觉几何特征的关系,将2种特征级联表示为Vco = concat [V, B]. 为了降低计算的复杂程度,将Vco$ \widetilde{\boldsymbol{Q}} $映射到低维度的子空间中,将视觉特征与问题特征相关联,如下所示:

图 2

图 2   关系推理模块

Fig.2   Relational reasoning module


$ {\widetilde{\boldsymbol{V}}}_{\mathrm{c}\mathrm{o}}=\mathrm{Re}\mathrm{L}\mathrm{U}\;({\boldsymbol{W}}_{\mathrm{v}}{\boldsymbol{V}}_{\mathrm{c}\mathrm{o}}+{\boldsymbol{b}}_{\mathrm{v}})+ \mathrm{Re}\mathrm{L}\mathrm{U}\;({\boldsymbol{W}}_{\mathrm{q}}\widetilde{\boldsymbol{Q}}+{\boldsymbol{b}}_{\mathrm{q}}). $

式中:WvWq为训练参数;bvbq为偏置; ${\widetilde{\boldsymbol{V}}}_{\mathrm{c}\mathrm{o}}= $ $ [{\widetilde{\boldsymbol{v}}}_{\mathrm{c}{\mathrm{o}}_{1}},{\widetilde{\boldsymbol{v}}}_{\mathrm{c}{\mathrm{o}}_{2}},\cdots ,{\widetilde{\boldsymbol{v}}}_{\mathrm{c}{\mathrm{o}}_{{K}}}{]}^{{\rm T}}\in {\bf R}^{K\times {d}_{\mathrm{s}}}$,其中ds为子空间的维度, $ {\widetilde{\boldsymbol{v}}}_{\mathrm{c}{\mathrm{o}}_{i}} $为图像区域i组合了视觉对象特征 $ \boldsymbol{V} $、视觉几何特征 $ \boldsymbol{B} $与问题特征 $ \widetilde{\boldsymbol{Q}} $的视觉区域特征.

在进入双通道的推理模块之前,将所有图像区域表示为成对组合. 本文采用的方法是增加视觉区域特征 $ {\widetilde{\boldsymbol{V}}}_{\mathrm{c}\mathrm{o}} $的维度,与转置的 $ {\widetilde{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}} $相加,计算公式如下:

$ {\widetilde{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}}=\mathrm{r}\mathrm{e}\mathrm{p}\mathrm{e}\mathrm{a}{\mathrm{t}}_{K}\left(\mathrm{u}\mathrm{n}\mathrm{s}\mathrm{q}\mathrm{u}\mathrm{e}\mathrm{e}\mathrm{z}\mathrm{e}\right({\widetilde{\boldsymbol{V}}}_{\mathrm{c}\mathrm{o}},0)), $

${{\boldsymbol{V}}_{{\rm{fu}}}} = {{\widetilde{\boldsymbol{V}}}_{{\rm{fu}}}} + {{\widetilde{\boldsymbol{V}}}_{{\rm{fu}}}}^{\rm{T}}. $

式中: $ \mathrm{u}\mathrm{n}\mathrm{s}\mathrm{q}\mathrm{u}\mathrm{e}\mathrm{e}\mathrm{z}\mathrm{e}({\widetilde{\boldsymbol{V}}}_{\mathrm{c}\mathrm{o}},0) $为在 $ {\widetilde{\boldsymbol{V}}}_{\mathrm{c}\mathrm{o}} $的第1个位置插入维度为1的向量后得到的新张量; $ \mathrm{r}\mathrm{e}\mathrm{p}\mathrm{e}\mathrm{a}{\mathrm{t}}_{K}\left(\;\right) $表示插入操作重复执行K次,得到图像区域特征的成对组合 $ {\boldsymbol{V}}_{\mathrm{f}\mathrm{u}}\in {\bf R}^{K\times K\times {d}_{\mathrm{s}}} $.

1.4.2. 二元关系推理

二元关系推理旨在挖掘视觉区域间的成对视觉关系,这样的关系通常由主体与客体组成,例如“人”与“摩托车”的关系,是一对一的关系. 成对关系推理可以应用于绝大多数视觉场景中,因此这种推理可以应对一部分问题的需求. 如图2的二元关系推理模块所示,将特征融合模块输出的图像区域特征的成对组合Vfu输入二元关系推理模块中,本文的成对关系推理模块采用3个连续的1×1卷积层,在每层卷积层后采用ReLU激活层. 这3个1×1卷积层的通道数分别为 $ {d}_{\mathrm{s}} $${{d}_{\mathrm{s}}}/{2}$${{d}_{\mathrm{s}}}/{4}$,卷积核个数分别为 ${{d}_{\mathrm{s}}}/{2}$${{d}_{\mathrm{s}}}/{4}$、1. 输入数据在分别经过第1个、第2个及第3个卷积层得到的通道数为 ${{d}_{\mathrm{s}}}/{2}$${{d}_{\mathrm{s}}}/{4}$、1,则在最后一个卷积层与ReLU激活层的输出为 $ {\dot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}}\in {\bf R}^{K\times K} $. 由于视觉关系具有相互性,将 $ {\dot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}} $与其转置相加,得到对称矩阵,经过softmax生成图像的成对视觉关系Rp. 成对关系Rp是对称矩阵. 上述的计算过程如下所示:

$ {\boldsymbol{R}}_{\mathrm{p}}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{max}\;({\dot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}}+{{\dot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}}}^{\mathrm{{\rm T}}}) .$

1.4.3. 多元关系推理

在二元关系推理模块中,连续的1×1卷积层只能挖掘成对的视觉关系,另一个重要的关系是视觉区域间的组内关系. 若设计连续的n×n卷积层探索组内关系,则会导致网络的权重系数较多,训练难度变大. 对图像区域的成对组合采用空洞卷积的方法,获得指数增长的感受野. 如图3的多元关系推理模块所示,将特征融合模块输出的成对组合Vfu输入多元关系推理模块中. 具体而言,多元关系推理模块设计3个卷积核大小为3×3的空洞卷积层,在每层卷积层后都采用ReLU激活层. 对于多元推理模块中的3个空洞卷积层,它们的空洞间隔分别是1、2和4,所有卷积的步长均为1,为了使每次卷积的输出与输入的尺寸相同,采用边缘填充. 最后一个卷积层与ReLU激活层的输出为 $ {\ddot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}}\in {\bf R}^{K\times K} $. 与上述二元关系的推理方法同理,将 $ {\ddot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}} $与其转置相加得到对称矩阵,经过softmax生成组内关系Rg,公式如下:

图 3

图 3   关系推理过程的可视化

Fig.3   Visualization of relational reasoning process


$ {\boldsymbol{R}}_{\mathrm{g}}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{max}\;({\ddot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}}+{{\ddot{\boldsymbol{V}}}_{\mathrm{f}\mathrm{u}}}^{\mathrm{{\rm T}}}). $

给定上述成对关系Rp与组内关系Rg,每个图像区域i的视觉特征可以表示为

$ {\widetilde{\boldsymbol{v}}}_{i}={\sum }_{j=1}^{K}({\boldsymbol{R}}_{{\mathrm{p}}_{i,j}} {\boldsymbol{v}}_{j}+{\boldsymbol{R}}_{{\mathrm{g}}_{i,j}} {\boldsymbol{v}}_{j}). $

式中: ${\boldsymbol{R}}_{{\mathrm{p}}_{i,j}}$${\boldsymbol{R}}_{{\mathrm{g}}_{i,j}}$表示图像区域ij之间的关系,且 ${\boldsymbol{R}}_{{\mathrm{p}}_{i,j}}={\boldsymbol{R}}_{{\mathrm{p}}_{j,i}}$${\boldsymbol{R}}_{{\mathrm{g}}_{i,j}}={\boldsymbol{R}}_{{\mathrm{g}}_{j,i}}$. 整个图像的关系特征是所有图像区域特征之和, ${\boldsymbol{V}}_{\mathrm{r}\mathrm{l}}={\displaystyle\sum }_{i=1}^{K}{\widetilde{\boldsymbol{v}}}_{i}$.

1.5. 自适应门控机制

视觉图像主要包含2种信息:视觉对象的信息及对象间的关系信息. 当对一个问题给出回答时,要求模型能够根据问题的需要检索视觉区域的信息或区域间的关系信息,或同时检索二者. 受门控机制应用[16]的启发,引入自适应门控机制,动态地控制2种信息对预测答案的贡献. 该模块的输入是视觉注意力特征Vat与视觉关系特征Vrl,为了能够自适应地对2种不同特征进行筛选,将2种特征映射到同一空间中,获得自适应选择门控gatec,如下所示:

$ {\bf{gate}}^{\mathrm{c}}=\sigma \left({\boldsymbol{W}}_{\mathrm{c}}\right[{\boldsymbol{V}}_{\mathrm{a}\mathrm{t}},{\boldsymbol{V}}_{\mathrm{r}\mathrm{l}}]+{\boldsymbol{b}}_{\mathrm{c}}). $

式中:Wc为权重矩阵. 通过自适应选择门控,融合视觉注意力特征与视觉关系特征,如下所示:

$ \widetilde{\boldsymbol{I}}={\boldsymbol{W}}_{\mathrm{t}}\left({\bf{gate}}^{\mathrm{c}}\circ \left[{\boldsymbol{V}}_{\mathrm{a}\mathrm{t}},{\boldsymbol{V}}_{\mathrm{r}\mathrm{l}}\right]\right)+{\boldsymbol{b}}_{\mathrm{t}}. $

式中:Wt为权重矩阵, $\widetilde{\boldsymbol{I}}$为图像的视觉表示.

1.6. 答案预测

在计算得到图像的视觉表示 $ \widetilde{\boldsymbol{I}} $后,将图像的视觉表示与问题特征 $ \widetilde{\boldsymbol{Q}} $融合,如下所示:

$ \boldsymbol{f}=\widetilde{\boldsymbol{I}}\circ {\boldsymbol{W}}_{\mathrm{q}}\widetilde{\boldsymbol{Q}} . $

式中:Wq为训练参数. 给定图像与问题的融合特征,采用2个全连接层及sigmod激活层组成MLP(多层感知机),计算候选答案ai的概率:

$ P\left({a}_{i}\right|\boldsymbol{I},\boldsymbol{Q})=\sigma ({\rm{MLP}}\left(\boldsymbol{f}\right){)}_{i} . $

在候选答案中,选择具有最高概率的答案作为最终的预测.

2. 实验及结果分析

2.1. 数据集

在视觉问答领域的2个主流数据集(VQA 1.0与VQA 2.0数据集)上进行实验. 对于这2个数据集,样本均被分为训练集、验证集和测试集. VQA 1.0是基于MSCOCO图像数据集[17]建立的,数据集中的训练集包含248 349个问题与82 783张图片,验证集包含121 512个问题与40 504个图片,测试集包含244 302个问题与81 434个图片. 问题的类型主要包含3种:Yes/No、number及other. VQA 2.0是VQA 1.0 的更新版本,相比于 VQA 1.0增加了更多的问题样本,使语言偏置方面变得更加平衡,问题类型变得更加广泛. 对于视觉问答的测试集,一般被分为4个部分:测试开发集、测试标准集、测试挑战集和测试保留集. 在VQA 2.0验证集上报告消融实验的实验结果;分别在VQA 1.0与VQA 2.0的测试开发集(test-dev)与测试标准集(test-standard)上,报告模型总体性能实验的结果.

2.2. 评价指标

对于VQA 1.0和VQA 2.0数据集,选择在训练集中出现超过9次的答案作为候选答案集,所以在VQA 1.0中产生了包含2 185个候选答案的答案集,在VQA 2.0中产生了3 129个候选答案. 本文的VQA模型分别被视为对2 185个标签及3 129个标签进行筛选的分类器. 对于开放式任务,遵循Antol等[18]的工作,使用投票机制对预测答案的准确率进行打分,如下所示:

$ \mathrm{A}\mathrm{c}\mathrm{c}\mathrm{u}\mathrm{r}\mathrm{a}\mathrm{c}\mathrm{y}\left(a\right)=\mathrm{min}\;\left\{\frac{\mathrm{c}\mathrm{o}\mathrm{u}\mathrm{n}\mathrm{t}\left(a\right)}{3},1\right\}. $

式中:count(a)为10个不同标注人员对答案a投票的数量.

2.3. 实验细节

使用pytorch作为模型的定义、训练与测试平台,在训练与测试阶段,使用2个GTX 1080ti作为硬件平台. 对于视觉方面,采用Faster-RCNN探索对象区域并提取2048维的区域特征. 对于文本方面,问题的句子长度均设置为14,LSTM模块的隐藏层大小为512. 使用Adamax优化函数,对模型训练50个周期. 具体而言,对于学习率采用“训练热身”的方法:在第1个训练周期将学习率设置为0.001,在第2个训练周期将学习率设置为0.002,在第3个训练周期将学习率设置为0.003保持至第10个训练周期,之后的学习率每2个周期衰减一次. 使用梯度修剪法,以防止梯度爆炸的问题,样本子集(mini-batch)设置为15. 为了防止过拟合,在每个全连接层之后采用dropout,dropout设为0.5.

2.4. 消融实验

提出的基于关系推理与门控机制的视觉问答方法由多个模块组成. 为了分析各个模块在模型中的作用,证明该方法的优越性,在VQA 2.0 验证集上对完整模型进行消融分析,探讨每个模块的作用. 提出的VQA模型变体如下.

1)基线模型. 该模型将图1中的视觉注意力模块与关系推理模块移除,仅将图像的视觉对象特征与问题文本特征通过全连接层进行非线性映射,利用逐元素相乘的方法进行融合,通过多层感知机完成答案预测.

2)基线模型+关系推理模块. 该模型在完整模型的基础上移除了视觉注意力模块,仅将关系推理模块输出的视觉关系特征经过多层感知机完成答案预测.

3)基线模型+注意力机制. 该模型在完整模型的基础上移除了关系推理模块,仅将注意力模块输出的视觉注意力特征经过多层感知机完成答案的预测.

4)基线模型+注意力机制+二元关系推理. 该模型在完整模型的基础上移除了关系推理模块中的多元推理,无须进行关系特征融合,直接将成对关系视为关系特征参与后续计算.

5)基线模型+注意力机制+多元关系推理. 该模型在完整模型的基础上移除了关系推理模块中的二元推理,无须进行关系特征融合,直接将组内关系视为关系特征参与后续计算.

6)基线模型+注意力机制+关系推理模块. 该模型是在基于关系推理与门控机制的视觉问答模型的基础上移除了自适应门控模块,直接将视觉注意力特征与视觉关系特征通过逐元素相乘的方法进行融合,经过多层感知机后完成答案预测.

7)基于关系推理与门控机制的视觉问答模型(full model). 该模型为提出的完整模型.

表1所示的消融实验可以得出以下分析. 基线模型考虑大量的对象特征而忽略与问题相关的对象特征及对象特征之间的关系,对图像信息的提取不充分且不具有针对性. 分别增加关系推理模块(relation)与视觉注意力模块(attention)后,准确率由58.70%分别提升至61.89%与62.45%. 前者的性能提升是由于增强了视觉区域间的关系性,使模型更加关注对象间的关系;后者的性能提升是由于视觉特征与问题特征不是简单的映射,模型更多关注的是与问题相关的视觉区域. 实验结果表明,通过问题的引导增加对图像部分区域的关注,答案预测的准确率优于仅泛化地关注视觉区域间的关系. 虽然两者性能相比于基线模型有所改善,但与本文提出的完整模型相比有明显的不足. 将二元关系推理模块与多元关系推理模块分别加入到具有注意力机制的基线模型中,可以看出,在加入二元关系推理或多元关系推理后,模型的性能均有一定的提升,准确率分别由62.45%提升至62.78%与62.84%.

表 1   基于关系推理与门控机制的视觉问答模型消融实验结果

Tab.1  Ablation experiment results based on relational reasoning and gating mechanism

模型 准确率/%
基线模型
基线模型+关系推理模块
基线模型+注意力机制
基线模型+注意力机制+二元关系推理
基线模型+注意力机制+多元关系推理
基线模型+注意力机制+关系推理模块
Full model
58.70
61.89
62.45
62.78
62.84
63.10
64.26

新窗口打开| 下载CSV


该实验结果表明,采用二元关系推理仅考虑视觉区域间的成对关系而忽略视觉区域间的组内关系,虽然模型性能有一定的提升但不显著. 仅采用多元关系推理的模型考虑了关系推理中的组内关系,实验结果表明,削弱成对关系推理的同时增加对多元关系的推理,不足以提高模型的性能. 基线模型在同时增加视觉注意力模块与完整的关系推理模块后,模型能够进一步结合问题特征关注视觉区域,运用成对关系与组内关系对答案进行推理. 与上述5种模型相比获得了最佳的性能,表明二元关系推理与多元关系推理的结合能够更加有效地提升模型对答案预测的准确率. 提出的完整模型增加了自适应门控机制,该机制可以自适应地选择与问题相关的视觉对象特征或视觉关系特征用于答案预测. 上述实验表明,提出的基于关系推理与门控机制的视觉问答模型中的各个模块均发挥了至关重要的作用,在能够利用问题关注图像区域的同时可以对区域间的关系进行推理. 该方法可以帮助模型更好地理解图像内容并进行作答.

2.5. 模型总体性能

表2所示为提出的模型在VQA 1.0的测试-开发集与测试-标准集上的性能对比. 可以看出,提出的模型在大部分指标上优于目前较先进的方法. 其中,在测试-标准集上相比于DCN[23]的总体精度提升了1.41%,相比于MAN[19] 提升了4.44%. 从表2的第1、2行结果表明,视觉问答系统中基于关系推理与门控机制的效果优于基于文本注意力与记忆机制的效果,后者加强了对图像对象与文本内容的关注,而本文模型在关注图像内容的同时,加入了关系信息是预测精度提升的重要原因. 从表2的第2~4行可以看出,目前较流行的双线性池化方法及变体虽然能够高效地学习特定阶数的组合特征,但在忽略关系信息的前提下性能尚有明显不足,验证了关系推理与门控机制的重要影响. 提出的方法对于答案预测能力的提升,在测试-标准集上有同样的表现.

表 2   基于关系推理与门控机制的视觉问答模型在VQA 1.0数据集上的实验结果

Tab.2  Experimental results of visual question answering model based on relational reasoning and gating mechanism on VQA 1.0 data set

%
模型 测试-开发集 测试-标准集
总体 其他 数字 是/否 总体 其他 数字 是/否
MAN[19] 63.80 54.00 39.00 81.50 64.10 54.70 37.60 81.70
DAN[20] 64.30 53.90 39.10 83.00 64.20 54.00 38.10 82.80
MFB[21] 65.90 56.20 39.80 84.00 65.80 56.30 38.90 83.80
MFH[22] 66.80 57.40 39.70 85.00 66.90 57.40 39.50 85.00
DCN[23] 66.83 57.44 41.66 84.48 66.66 56.83 41.27 84.61
提出模型 68.24 58.56 42.32 84.65 68.37 58.21 47.44 84.48

新窗口打开| 下载CSV


表3所示为提出的模型在VQA 2.0中的测试-开发集和测试-标准集上的性能.

表 3   基于关系推理与门控机制的视觉问答模型在VQA 2.0数据集上的实验结果

Tab.3  Experimental results of visual question answering model based on relational reasoning and gating mechanism on VQA 2.0 data set

%
模型 测试-开发集 测试-标准集
总体 其他 数字 是/否 总体 其他 数字 是/否
LSTM+CNN[24] 54.22 41.83 35.18 73.46
MCB[24] 62.27 53.36 38.28 78.82
Adelaide[12] 65.32 56.05 44.21 81.82 65.67 56.26 43.90 82.20
DCN[23] 66.60 56.72 46.60 83.50 67.00 56.90 46.93 83.89
MuRel[25]
DFAF[26]
68.03 57.85 49.84 84.77 68.41
70.22 60.49 53.32 86.09 70.34
TRRNet[27] 70.80 61.02 51.89 87.27 71.20
提出模型 68.16 58.46 47.78 84.00 68.51 58.11 47.36 84.36

新窗口打开| 下载CSV


表3的对比实验可以得出,利用提出的关系推理模块与自适应门控机制能够提高答案预测的准确率. 表3中的前2种方法均未采用自下向上的注意力机制,本文模型在各类问题的指标上明显高于这2种方法,因此可以认为软注意力机制的运用对模型的整体效果有着重要的影响. Adelaide模型[12]是2017年VQA挑战赛的冠军,模型采用自下向上的注意力机制提取视觉特征. 可以看出,本文模型的性能明显优于Adelaide模型,是由于本文模型中的关系推理模块能够加强模型对视觉区域关系的理解,筛选区域间的关系信息,通过自适应门控机制动态选择与问题相关的特征,这与VQA 1.0数据集上的观察结果一致. DCN[23]模型尽管没有采用自下向上的注意力机制,但通过使用密集双向交互的注意力机制在“数字”与“是/否”的问题上取得不错的成果,本文提出的模型相较于DCN模型具有明显的优势. 相比于MuRel[25]模型,本文模型在测试-开发集总体精度上达到68.16%的准确率,在测试-标准集总体精度上达到68.51%的准确率,均高于采用残差特性学习端到端推理的MuRel模型. DFAF[26]模型设计的模态内与模态间的信息流交互,使该模型在总体准确率上达到70.22%,该方法中核心单元的迭代与本文提出的逐步推理本质类似,不同之处在于该模型相比于本文更加注重文本模态内的内模特征,在结合模态间的信息流后可以更好地捕捉语言和视觉域之间的高层次交互. 本文方法相比于DFAF模型存在一定的优势:DFAF模型缺乏视觉模态内多特征间的交互,在某种程度上忽略了视觉区域间的多重关系;本文将多元关系特征加入视觉特征中,使得模型在多元的角度上更好地理解图像内容. TRRNet[27]与本文均采用推理关系特征的方法加强模型对图像的理解能力. 本文在选取视觉特征时,考虑多个视觉特征对答案输出的影响,采用36个候选区域作为输入; TRRNet中的方法认为一个问题特征中包含的对象不应超过6个.

该方法的总体性能优于本文,这可能是由于在建立对象关系特征时,通过筛选对象数量减少了不必要特征带来的噪声,从而使模型针对性地理解视觉区域间的关系. 在后续的工作中,关于特征筛选的研究尤为重要. 综上所述,与上述先进方法相比,提出的模型能够帮助图像更好地理解视觉内容,加强视觉区域间的联系,在各类答案预测精度的指标上具有一定的优势.

2.6. 关系推理模块可视化

图3所示,可视化关系推理模块的推理过程体现了关系推理模块的有效性. 为了保证实验的可靠性,将二元关系推理单元与多元关系推理单元中的最后2层卷积采用全连接层代替,可视化结果如图3的步骤1所示. 最后一层卷积由全连接层代替的结果如步骤2所示,步骤3为本文完整模型的可视化输出. 图3中未标有数字的区域框为主要视觉区域,表示与问题最相关的视觉区域;标有数字的区域框为与该区域最相关的2个视觉区域,区域框的数字为相应的概率.

图3的第1行示例所示,该示例存在较简单的一对一关系,在步骤1中,关系推理模块已推理出与主体最相关的视觉区域即滑板与天空,在步骤2与步骤3中滑板的概率逐步提升至最高. 对于图3中的第2行,可见在步骤1的推理中没有将“篮球”的概率预测为前2位,“篮球”与主体“人”的关系在步骤1中直接进行预测答案时不起重要作用;在步骤2、3中,“篮球”与主体的关系权重分别提升至0.21与0.57,从而丢弃原步骤1中的视觉区域,为准确预测答案提供保证. 如图3中的第3行示例所示,在步骤1中模型将“球”与“人”视为重要的关系特征并分配较高的权重,该问题的出现是由于多元关系推理单元中第1步空洞卷积的感受野较大所导致,在后续的步骤中模型为与主体较近的“帽子”分配更高的权重并在步骤3时提升至0.62,为模型的后续预测提供依据.

综上所述,经过关系推理模块的逐步筛选,模型根据问题特征与视觉特征逐渐保留最相关的视觉关系,利用关系推理模块生成的关系特征对答案的预测过程具有正向引导的作用.

2.7. 模型结构可视化

本文的另一优势还包括模型整体架构的可解释性,能够揭示模型对信息选择的过程. 如图4所示为2种不同问题对视觉注意力模块与关系推理模块的影响. 图4中区域框表示注意力模块根据问题对该区域分配最高的权重,本文提出的关系推理模块还给出前4个与该区域最相关的视觉区域. 图4下方条状热力图表示门控机制对视觉注意特征与关系推理特征的权重分配,颜色越深表示自适应选择门控对该特征分配的权重越大,对答案的预测越重要.

图 4

图 4   视觉问答模型可视化

Fig.4   Visualization of visual question answering model


图4(a)所示,传统基于注意力模块的模型与本文提出的模型均给出正确的答案. 模型在回答问题过程中首先关注对象本身即男孩与棒球,通过对男孩的帽子及棒球的识别,判断这项运动为棒球. 对于该问题的回答,模型没有过多关注视觉区域间的关系,通过分析视觉区域可以预测答案,因此利用基于注意力机制的基线模型能够预测出正确的答案. 在本文模型中,门控机制对视觉注意力特征赋予更高的权重,达到68.49%,相比于关系推理特征拥有更高的比率. 图4(b)中,传统基于注意力机制的模型仅通过关注视觉区域的主体直接用于答案预测,忽略了视觉区域间的关系,即该图中的“frisbee”,因此给出错误答案“Waves”. 本文模型不仅关注最重要的视觉区域,筛选出与该区域最相关的4个视觉区域,解释了视觉区域间的关系,关注到与主体最相关的“frisbee”,判断出正确答案“Throwing frisbee”. 相对于图4(a),门控机制对关系特征赋予更高的权重,视觉注意力模块的门控比率达到54.11%,关系推理模块的门控比率达到45.89%. 可以看出,2个模块对预测答案均起着相当的作用.

本文围绕模型在面对相同图片但输入的问题不同时,对输出的答案进行讨论,探索模型的性能优势. 如图4(c)所示,模型针对输入的问题仅需要关注对象的主体,即男孩的头部、面部及手部等;由于数据集的特性,即模型的预测过程具有一定的语言先验性,因此基于注意力机制的视觉问答模型能够预测出该问题的准确答案. 对于提出的模型来讲,包括二元与多元视觉区域间的相关性不大,门控对视觉注意力模块分配较大的权重,帮助模型准确地预测答案. 如图4(d)所示,该类问题不仅需要视觉对象特征,还需要分析视觉对象特征间的关系. 基于注意力机制的模型仅仅关注对象主体,在面对非yes/no类问题时表现出该类模型的弊端,忽视了视觉区域间的关系,从而给出错误答案:“Running”. 本文模型不仅关注到主要的视觉区域,即“男孩”,同时对男孩与自行车间的关系加以推理,门控对2类特征分配了相当的权重,意味着视觉区域间的关系变得更加重要,从而判断出正确答案:“Cycling”. 由此可以看出,本文模型在面对相同图片不同问题时,模型能够找到与主体视觉特征相关的视觉区域,将该区域的视觉特征与问题特征关联,配合门控机制自适应地对2种特征分配不同的权重,对答案给出合理的预测.

图4(b)、(d)中,注意力特征与关系特征对答案的预测有着相当的影响. 通过对模型的可视化,本文提出的基于关系推理与自适应门控机制的视觉问答方法能够重点关注与问题相关的视觉区域,对这些显著区域间的关系进行推理,通过自适应门控机制控制视觉信息与关系信息对预测答案的贡献.

3. 结 语

本文提出基于关系推理与门控机制的视觉问答方法,是用来推理视觉对象间复杂关系的高效网络模型. 该模型利用自下向上的注意力机制提取图片中的对象特征,自上向下的注意力机制根据给定的问题聚焦在最相关的视觉对象上. 以问题为引导,将视觉对象特征与视觉几何特征输入到关系推理模块中,通过二元关系推理与多元关系推理输出图像的视觉关系特征. 将得到的视觉注意力特征与视觉关系特征分别输入到自适应选择门控中,该门控能够帮助模型自适应地选择不同的视觉特征,帮助模型筛选有利的视觉信息. 通过多层感知机完成对候选答案的预测,给出最优答案. 为了验证本文模型的性能,对模型进行消融实验,验证了模型中的每个组件均有着重要的作用. 在VQA 1.0与VQA 2.0数据集上进行性能分析,分别在总体精度及其他3类问题精度上与当前先进的方法进行对比. 从结果可以看出,利用本文模型能够更好地理解视觉内容,推理视觉区域间的多种视觉关系. 上述3组实验结果表明,本文方法在视觉问答任务中的表现较好,能够有效地提升模型回答问题的准确率.

参考文献

牛玉磊, 张含望

视觉问答与对话综述

[J]. 计算机科学, 2021, 48 (3): 10

URL     [本文引用: 1]

NIU Yu-lei, ZHANG Han-wang

Visual question answering and dialogue summary

[J]. Computer Science, 2021, 48 (3): 10

URL     [本文引用: 1]

REN M, KIROS R, ZEMEL R. Exploring models and data for image question answering [C]// Advances in Neural Information Processing Systems. Montreal: [s. n.], 2015: 2953–2961.

[本文引用: 1]

ANDERSON P, HE X, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6077-6086.

[本文引用: 1]

CHEN F, MENG F, XU J, et al. Dmrm: a dual-channel multi-hop reasoning model for visual dialog [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020, 34(5): 7504-7511.

[本文引用: 1]

YU Z, YU J, CUI Y, et al. Deep modular co-attention networks for visual question answering [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6281-6290.

[本文引用: 1]

ZHU Z, YU J, WANG Y, et al. Mucko: multi-layer cross-modal knowledge reasoning for fact-based visual question answering [EB/OL]. (2020-11-04)[2021-03-19]. https://arxiv.org/abs/2006.09073.

[本文引用: 1]

JOHNSON J, HARIHARAN B, VAN DER MAATEN L, et al. Inferring and executing programs for visual reasoning [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2989-2998.

[本文引用: 1]

邱真娜, 张丽红, 陶云松

基于物体检测及关系推理的视觉问答方法研究

[J]. 测试技术学报, 2020, 34 (5): 8

URL     [本文引用: 1]

QIU Zhen-na, ZHANG Li-hong, TAO Yun-song

Research on visual question answering method based on object detection and relational reasoning

[J]. Journal of Testing Technology, 2020, 34 (5): 8

URL     [本文引用: 1]

SANTORO A, RAPOSO D, BARRETT D G T, et al. A simple neural network module for relational reasoning [EB/OL]. (2017-06-05)[2021-03-19]. https://arxiv.org/abs/1706.01427.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39 (6): 1137- 1149

[本文引用: 1]

TENEY D, ANDERSON P, HE X, et al. Tips and tricks for visual question answering: learnings from the 2017 challenge [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4223-4232.

[本文引用: 3]

PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014: 1532-1543.

[本文引用: 1]

HOCHREITER S, SCHMIDHUBER J

Long short-term memory

[J]. Neural computation, 1997, 9 (8): 1735- 1780

DOI:10.1162/neco.1997.9.8.1735      [本文引用: 1]

PIRSIAVASH H, RAMANAN D, FOWLKES C C. Bilinear classifiers for visual recognition [C]// Advances in Neural Information Processing Systems. Denver, USA: Curran Associates, 2009: 3.

[本文引用: 1]

PEI H, CHEN Q, WANG J, et al. Visual relational reasoning for image caption [C]// 2020 International Joint Conference on Neural Networks. Glasgow, UK: IEEE, 2020: 1-8.

[本文引用: 1]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context [C]// European Conference on Computer Vision. Cham: Springer, 2014: 740-755.

[本文引用: 1]

ANTOL S, AGRAWAL A, LU J, et al. Vqa: visual question answering [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 2425-2433.

[本文引用: 1]

MA C, SHEN C, DICK A, et al. Visual question answering with memory-augmented networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6975-6984.

[本文引用: 2]

NAM H, HA J W, KIM J. Dual attention networks for multimodal reasoning and matching [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 299-307.

[本文引用: 1]

YU Z, YU J, FAN J, et al. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 1821-1830.

[本文引用: 1]

YU Z, YU J, XIANG C, et al

Beyond bilinear: generalized multimodal factorized high-order pooling for visual question answering

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29 (12): 5947- 5959

DOI:10.1109/TNNLS.2018.2817340      [本文引用: 1]

NGUYEN D K, OKATANI T. Improved fusion of visual and language representations by dense symmetric co-attention for visual question answering [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6087-6096.

[本文引用: 4]

GOYAL Y, KHOT T, SUMMER-STAY D, et al. Making the v in vqa matter: elevating the role of image understanding in visual question answering [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6904-6913.

[本文引用: 2]

CADENE R, BEN-YOUNES H, CORD M, et al. Murel: multimodal relational reasoning for visual question answering [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 1989-1998.

[本文引用: 2]

GAO P, JIANG Z, YOU H, et al. Dynamic fusion with intra-and inter-modality attention flow for visual question answering[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6639-6648.

[本文引用: 2]

YANG X, LIN G, LV G, et al. TRRNet: tiered relation reasoning for compositional visual question answering[C]// The European Conference on Computer Vision. Glasgow: Springer, 2020: 414-430.

[本文引用: 2]

/