基于全局?局部特征和自适应注意力机制的图像语义描述算法

doi:10.3785/j.issn.1008-973X.2020.01.015

基于全局−局部特征和自适应注意力机制的图像语义描述算法

赵小虎^,, 尹良飞^,, 赵成龙

Image captioning based on global-local feature and adaptive-attention

ZHAO Xiao-hu^,, YIN Liang-fei^,, ZHAO Cheng-long

收稿日期: 2019-04-29

Received: 2019-04-29

作者简介 About authors

赵小虎（1976—），男，教授，从事矿山物联网与智能计算的研究.orcid.org/0000-0002-7352-103X.E-mail：525815788@qq.com , E-mail：525815788@qq.com

摘要

为了探究图像底层视觉特征与高层语义概念存在的差异，提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法. 在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入，确定不同时刻对图像的关注点，对图像细节的描述更加完善；在解码时加入注意力机制对图像特征加权输入，可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重，有效地提高对图像语义描述的性能. 实验结果表明，该方法相对于其他语义描述算法效果更有竞争力，可以更准确、更细致地识别图片中的物体，对输入图像进行更全面地描述；对于微小的物体的识别准确率更高.

关键词： 图像语义描述 ; 图像关注点 ; 高层语义信息 ; 描述句子细节 ; 全局-局部特征提取 ; 自适应注意力机制

Abstract

The image captioning algorithm was proposed in order to explore the difference of the image visual features and the upper layer semantic concept. The algorithm can determine the image focus, mine higher-level semantic information, and improve the description details. Local features were added for the image visual feature extraction, and the global-local feature of the input image was combined with the global features and local features for visual information. Then the focus of the image at different time was determined, and more details of the image were caught. The attention mechanism was added to weight the image feature during decoding, so that the dependence of the text words on the visual information and the semantic information at the current moment could be adaptively adjusted, and the performance of image captioning was effectively improved. The experimental results show that the proposed method can acquire competitive captioning results than other image captioning algorithms. The method can describe the image more accurately and more comprehensively, and the recognition accuracy of tiny objects is higher than others.

Keywords： image captioning ; image focus ; higher-level semantic information ; description detail ; global-local feature extraction ; adaptive-attention mechanism

PDF (1697KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

赵小虎, 尹良飞, 赵成龙. 基于全局−局部特征和自适应注意力机制的图像语义描述算法. 浙江大学学报(工学版)[J], 2020, 54(1): 126-134 doi:10.3785/j.issn.1008-973X.2020.01.015

ZHAO Xiao-hu, YIN Liang-fei, ZHAO Cheng-long. Image captioning based on global-local feature and adaptive-attention. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(1): 126-134 doi:10.3785/j.issn.1008-973X.2020.01.015

随着人工智能的迅猛发展以及深度学习技术的突破，基于深度学习的计算机视觉技术日趋成熟，研究人员尝试让机器理解视觉信息中更复杂的语义信息，因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究技术. 图像语义描述技术最早由Farhadi等^[1]提出，目标是实现视觉空间的图像到语义空间的文本描述的转换，算法实现从图像 $I$到文本描述 $S$的映射.

Mao等^[2]提出m-RNN图像语义描述模型，结合卷积神经网络（convolutional neural network，CNN）和循环神经网络（recurrent neural network，RNN），解决图像标注和语句检索问题. Vinyals等^[3]提出NIC模型，利用卷积神经网络提取输入图像的特征图；递归循环神经层采用长短记忆网络（long short-term memory，LSTM）模型，将输入的Feature Map进行编码，即输入内容的编码值进行带有前后之间关系的拟合，最终输出一个通顺的句子，并且把这个句子和标准的标签句子进行对比评分，和标签最接近的句子即为最好的句子. Wu等^[4]提出将图像特征用高等级的语义概念表达后再输入递归神经网络，利用卷积神经网络产生标签预测结果，将结果经过池化层进行最大池化下的采样输出，作为图像的高级语义信息，利用LSTM生成语义描述文本并取得更好的描述效果. Zhou等^[5]将视觉特征与词向量的文本特征结合作为LSTM的输入，且LSTM的指导采用text-conditional，最终能够根据图像特定的部分生成当前单词. Rennie等^[6]改进传统的编码-解码框架，在Maxout的基础上改进LSTM；引入贪婪搜索，提出SCST（self-critical sequence training）算法，在图像语义描述比赛MS COCO Captioning Challenge位居榜首.

图像语义描述的目标是实现对视觉数据给出语义解释，完成从视觉空间到语义空间的映射. 由于图像底层的视觉特征与高层的语义概念存在很大差异，目前的图像场景语义描述算法存在较多问题亟待解决，如确定图像的关注重点，挖掘更高层次的语义信息，完善描述句子的细节信息等.

本文针对上述问题，基于传统的图像语义描述框架，在图像视觉特征提取时加入局部特征，与图像的全局特征结合，提取输入图像的全局-局部特征作为视觉信息输入，使得模型确定不同时刻对图像的关注点，对图像细节的描述更加完善；在解码时加入注意力机制对图像特征加权输入，使得模型可以自适应选择当前时刻的文本单词对视觉信息与语义信息的依赖权重，有效地提高对图像语义描述的性能.

1. 基于全局-局部特征和自适应注意力机制的图像语义描述算法

1.1. 编码-解码框架

基于编码-解码的图像语义描述框架，一般采用卷积神经网络CNN作为编码器从输入图像中提取图像视觉特征，将视觉特征输入循环神经网络RNN或者长短记忆网络LSTM生成自然语言描述的句子，具体框架图如图1所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 基于CNN-LSTM的图像语义描述模型结构示意图

Fig.1 Structure of image captioning based on CNN-LSTM

求解目标是在给定图像条件下最大化描述文本生成的概率. 求解问题可以表示为

(1) ${\theta ^*} = {\rm{arg}}\mathop {{\rm{max}}}\limits_{{\theta }} \sum\limits_{(I,y)} {{\rm{log}} \;p\left( {{{y}}|{{I}};\theta } \right)} .$

式中： $\theta $表示模型参数， ${{I}}$表示图像， ${{y}} = \left[ {{y_1}, \cdots ,{y_t}} \right]$表示生成的语义表示. 优化的目标函数可以表示为

(2) $ {\rm{log }}\;p\left( {{y}} \right) = \sum\limits_{t = 1}^T {{\rm{log }}\;p\left( {{y_t}|{y_1}, \cdots ,{y_{t - 1}},{{{I}}} } \right)} . $

在编码-解码框架中，编码部分一般采用RNN或者LSTM模型作为编码输出，可以表示为

(3) $ {\rm{log }}\;p\left( {{y_t}|{y_1}, \cdots ,{y_{t - 1}},{{I}} } \right) = f\left( {{{{h}} _t},{{{c}}_t}} \right). $

式中： $f\left( \cdot \right)$表示关于 ${y_t}$概率的非线性函数输出， ${{{c}}_t}$为输入图像 ${{I}}$在t时刻的关注度， ${{{h}}_t}$为RNN或者LSTM在t时刻的隐含状态.

编码部分采用LSTM模型， ${{{h}}_t}$可以表示为

(4) ${{{h}}_t} = {\rm{LSTM}}\left( {{{{x}}_t},{{{h}}_{t - 1}},{{{m}}_{t - 1}}} \right).$

式中： ${{{x}}_t}$为输入向量， ${{{m}}_{t - 1}}$为记忆单元在t−1时刻的向量.

一般地，语义向量 ${{{c}}_t}$为基于神经网络编码器-解码器框架的重要变量，为生成场景的语义描述提供视觉信息. 在非注意力机制的图像语义描述模型中， ${{{c}}_t}$只依赖于编码器的输出，即卷积神经网络的输出. 在基于注意力机制的图像语义描述模型中， ${{{c}}_t}$依赖于编码器和解码器. 在 $t$时刻，基于隐藏状态，解码器将关注图像的特定区域及卷积神经网络的输出来计算 ${{{c}}_t}$，提升了图像的场景理解性能.

传统的CNN-LSTM模型中提取输入图像特征基本都是提取整个图片的特征. 可能输入图像中有些重要的物体特征没有被选，对文本描述的准确性造成影响. 本文在图像特征提取的时候加入局部特征，应用于图像语义描述任务. 在特征编码时，提取输入图像的全局特征和局部特征进行融合：采用传统的CNN模型提取输入图像的全局特征，利用VGG-16模型^[7]进行试验；利用Faster R-CNN提取输入图像的局部特征；对全局特征向量和局部特征向量进行融合输出.

1.2. 局部特征提取

Ren等^[8]提出Faster R-CNN算法，该算法是目标检测的常用技术，也是本文的局部特征提取方法. 设计辅助生成样本的区域提取网络（region proposal networks，RPN）网络，将算法结构分为2个部分：PRN候选框提取模块及Fast R-CNN检测模块. 算法首先由RPN网络判断候选框是否为目标，再经分类定位的多任务损失判断目标类型，整个网络流程都能够共享卷积神经网络提取的特征信息，节约计算成本，且解决Fast R-CNN算法生成正负样本候选框速度慢的问题，避免候选框提取过多导致算法准确率下降. 由于RPN网络可以在固定尺寸的卷积特征图中生成多尺寸的候选框，导致出现可变目标尺寸和固定感受野不一致的现象. 将输入图像输入CNN进行特征提取，利用RPN生成推荐窗口，其中每张窗口生成300个推荐窗口；再把推荐窗口映射到CNN的最后一层卷积特征图上，同ROI池化层使得每个ROI生成固定尺寸的特征图；最后进行分类输出. 结构图如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 Faster R-CNN结构示意图

Fig.2 Faster R-CNN structure diagram

RPN结构如图3所示，用一个大小为 $3 \times 3 \times 256$的卷积核卷积特征图，每一个位置可以得到256通道的输出. 其中，特征图的每个点为原图的一个卷积核大小的区域，卷积核卷积出来的256维代表了原图的一个区域.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 RPN结构示意图

Fig.3 RPN structure diagram

用于局部特征提取Faster R-CNN的流程结构如图4所示. 首先将输入图像输入到卷积神经网络提取卷积特征图，然后将特征图输入至PRN，PRN输出对于特征图的推荐窗口；将推荐窗口进行RoI pooling操作，采用每个推荐窗口的卷积特征图裁剪，利用插值算法（一般为双线性插值）将其转换到固定尺寸，然后利用卷积核进行最大池化操作，输出特征图；将每个窗口的特征图进行R-CNN处理，筛选推荐窗口生成基于推荐窗口特征向量，作为局部特征提取向量 ${\rm{\{ }}{{{L}}_1},{{{L}}_2}, \cdots ,{{{L}}_n}{\rm{\} }}$输出.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 局部特征提取示意图

Fig.4 Local feature extraction diagram

R-CNN的处理步骤如图5所示. R-CNN对每个推荐窗口（proposal）的特征图进行扁平化处理，采用ReLU以及2次全连接层处理.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 R-CNN示意图

Fig.5 R-CNN diagram

1.3. 全局特征与局部特征融合

利用VGG-16的fc7层的输出作为图像的全局特征向量，表示为 ${{G}}$，为4 096维矢量，VGG-16的权重已在ImageNet数据集上训练好的. 对于输入图像的局部特征提取，采用Faster R-CNN，对Faster R-CNN输出窗口选择置信度最高的n个，其中n≤10，则局部特征表示为 ${{L}} = {\rm{\{ }}{{{L}}_1},{{{L}}_2}, \cdots ,{{{L}}_n}{\rm{\} }}$. 编码器的输出为全局特征和局部特征的组合，表示为 $ {\rm{\{ }}{{G}},{{{L}}_1},{{{L}}_2}, \cdots ,{{{L}}_n}{\rm{\} }}$，是4 096维向量的集合. 具体如图6所示.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 全局-局部特征提取示意图

Fig.6 Global-local feature extraction diagram

对于Encoder的输出 ${{I}}$含有输入图像的全局特征和局部特征，需要对2种图像进行融合输入Decoder. 当前时刻对于输入图像的视觉特征可以表示为

(5) ${{{v}}_t} = \varPsi {\left( {{I}} \right)^t} = \alpha _0^{(t)}{{G}} + \sum\limits_{i = 1}^n {\alpha _i^{(t)}{{{L}}_i}} .$

式中： $\alpha _i^{(t)}$为t时刻的输出权重， $\sum\nolimits_{i = 0}^n {\alpha _i^{(t)}} = 1$. $\alpha _i^{(t)}$随t的变化而变化，动态调整不同位置的权重，且与t时刻的输入的视觉权重以及t时刻之前的相关信息. $\alpha _i^{(t)}$的更新机制可以表示为

(6) $\beta _i^{\left( t \right)} = {{{w}}^{\rm{T}}}\varphi \left( {{{{W}}_h}{{{h}}_{t - 1}} + {{{W}}_f}{{{f}}_i} + {{b}}} \right),$

(7) $\alpha _i^{\left( t \right)} = {{\beta _i^{\left( t \right)}}}\bigg/{{\sum\limits_{j = 1}^{n + 1} {\beta _j^{\left( t \right)}} }}.$

式中： ${{{f}}_i}$为I的子集向量， ${{{f}}_i} \in {\rm{\{ }}{{G}},{{{L}}_1},{{{L}}_2}, \cdots ,{{{L}}_n}{\rm{\} }}$； $\;\beta _i^{\left( t \right)}$表示对应的视觉向量 ${{{f}}_i}$在该权重下的相对于先前已经产生的描述单词的相关分数权重； ${{{h}}_{t - 1}}$为上一个LSTM的隐藏状态输出； ${{w}}$、 ${{{W}}_h}$、 ${{{W}}_f}$和 ${{b}}$为需要学习的权重变量； $\varphi \left( \cdot \right)$为激活函数.

1.4. 自适应注意力机制

在CNN-LSTM的编码框架下，一般采用CNN提取图像的视觉信息生成编码向量，使用LSTM从编码向量中解码出描述词序列. 编解码器模型，可以端到端地训练模型，生成的描述更灵活多样. 该类方法只是考虑图片的整体特征，没有考虑到对于图像描述效果相关的图片空间特征. Xu等^[9]将编码器-解码器引入注意力机制，可以动态性地聚焦图片的不同区域的特征，为图片语义描述的性能带来极大的改善.

传统注意力机制主要基于编码器部分，关注点主要在于图像的不同区域，对于注意力机制输出 ${{{c}}_t}$、上一个状态LSTM的输出 ${{{h}}_{t - 1}}$以及特征输入 ${{{x}}_t}$共同作为当前节点LSTM模块的输入，LSTM的输出 ${{{h}}_t}$与attention部分的输出 ${{{c}}_t}$进行编码输出基于图像的自然语言文本描述句子. 利用隐藏状态 ${{{h}}_t}$去分析该时刻需要关注的区域，生成上下文矢量 ${{{c}}_t}$，结合两张信息预测下一个词.

提出的自适应注意力机制基于编码器，在处理图像语义描述任务时可以自适应分配图像特征和文本权重，以生成模型. 解码器存储的是视觉和语言信息，当模型不选择视觉特征聚焦时，它自适应学会从中提取一个新的组件 ${{{s}}_t}$，该组件觉得是否需要聚焦图像信息. 自适应注意力机制将生成的上下文矢量 ${{\mathop {{c}}\limits^ \wedge } _t}$理解为当前的隐藏状态的视觉残差信息，减少不确定性；新组件矢量 ${{{s}}_t}$，增加attention部分对视觉信息和语义信息的依赖，具体如图7（b）所示.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 传统注意力机制与自适应注意力机制示意图

Fig.7 Traditional attention mechanism and adaptive attention mechanism

对于模型中的语义信息 ${{{c}}_t}$依赖于图像的视觉信息与LSTM的当前状态下的输出 ${{{h}}_t}$，可以表示为

(8) ${{{c}}_t} = g\left( {{{V}}{\rm{; }}\;{{{h}}_t}} \right).$

式中： $g\left( \cdot \right)$为注意力机制函数；V为视觉特征矩阵， ${{V}} = [{{v}}_1, \cdots, {{v}}_t, \cdots, {{v}}_k], $，其中 $ {{v}}_t$为时刻t的视觉特征向量； ${{{h}}_t}$为LSTM在当前状态下的隐藏状态输出， ${{{h}}_t} \in {{\bf{R}}^d}$. 将图像的视觉特征信息 ${{V}}$与 ${{{h}}_t}$进行融合，表示为

(9) ${{{z}}_t} = {{w}}_h^{\rm{T}}{\rm{tanh}}\;\left( {{{{W}}_v}{{V}} + \left( {{{{W}}_g}{{{h}}_t}} \right){{k}}} \right).$

(10) ${{{\alpha}} _t} = {\rm{softmax}}\left( {{{{z}}_t}} \right).$

式中： ${{{w}}_h} \in {{\bf{R}} ^k}$； ${{{W}}_v} \in {{\bf{R}} ^{k\times d}}$； ${{{W}}_g} \in {{\bf{R}} ^{k \times d}}$； ${{k}}$为元素全部为1的向量，满足 ${{k}} \in {{\bf{R}} ^k}$； ${{{\alpha}} _t} \in {{\bf{R}} ^k}$，为当前状态下对于 ${{{v}}_t}$的权重. 基于当前状态的注意力分布及图像特征，语义词向量可以表示为

(11) ${{{c}}_t} = {{V}}{{{\alpha}} _t}.$

利用式（3）、（4），求解下一个单词 ${y_{t + 1}}$的输出.

自适应注意力机制细节如图8所示. 编码器为LSTM，新组件矢量 ${{{s}}_t}$可以表示为

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 自适应注意力机制细节图

Fig.8 Adaptive attention mechanism detail map

(12) ${{{g}}_t} = \sigma ({{{W}}_x}{{{x}}_t} + {{{W}}_h}{{{h}}_{t - 1}}),$

(13) ${{{s}}_t} = {{{g}}_t} \cdot {\rm{tanh}}\;\left( {{m_t}} \right).$

式中： ${{{W}}_x}$和 ${{{W}}_h}$为需要学习的参数权重， ${{{x}}_t}$表示t时刻LSTM的输入， ${{{g}}_t}$表示LSTM的记忆单元 ${m_t}$的门（gate），“·”表示点乘， $\sigma $为sigmoid激活函数.

自适应注意力机制中的残差语义向量为 $\mathop {{{{c}}_t}}\limits^ \wedge $，可以表示为

(14) $\mathop {{{{c}}_t}}\limits^ \wedge = {\beta _t}{{{s}}_t} + \left( {1 - {\beta _t}} \right){{{c}}_t}.$

式中： $\;{\beta _t}$取值为 $0 \sim 1.0$，可以理解为当前时刻的语义门，控制模型对视觉信息与语义信息的关注度分配. ${\beta _t}$取值为0表示只考虑图像视觉信息，取值为1表示只考虑语义信息.

为了计算变量 ${\beta _t}$的更新，考虑空间注意力元素 ${{{\alpha}} _t}$加入新的变量，扩展成变量 $\mathop {{{{\alpha}} _t}}\limits^ \wedge $，具体可以表示为

(15) $ \mathop {{{{\alpha}} _t}}\limits^ \wedge = {\rm{softmax}}\left( {\left[ {{{{z}}_t}{{;{{w}}}}_h^{\rm{T}}{\rm{tanh}}\left( {{{{W}}_s}{{{s}}_t} + {{{W}}_g}{{{h}}_t}} \right)} \right]} \right). $

式中： ${{{z}}_t}$为式（9）的求解内容； ${{{W}}_s}$和 ${{{W}}_g}$为权重参数； $\mathop {{{{\alpha}} _t}}\limits^ \wedge $为含有k+1个元素的向量，满足 $\mathop {{{{\alpha}} _t}}\limits^ \wedge \in {{\bf{R}} ^{k + 1}}$.

变量 $\;{\beta _t}$可以表示为

(16) ${\beta _t} = \mathop {{{{\alpha}} _t}}\limits^ \wedge \left[ {k + 1} \right].$

t时刻可能输出单词的概率可以表示为

(17) ${p_t} = {\rm{softmax}}\left( {{{{W}}_p}\left( {\mathop {{{{c}}_t}}\limits^ \wedge {\rm{ + }}{{{h}}_t}} \right)} \right).$

式中： ${{{W}}_p}$为需要学习的权重参数.

1.5. 模型整体结构

提出的图像场景语义描述算法框架如图9所示. 编码部分引入全局-局部特征，解码部分与编码部分之间采用自适应注意力机制. 输入图像经过卷积神经网络，提取图像的全局和局部特征，输出为4 096维向量的集合；将局部特征和全局特征的融合向量输出作为输入，提供到语义生成模块进行解码，输出最终文本描述句子.

图 9

新窗口打开| 下载原图ZIP| 生成PPT

图 9 模型整体结构示意图

Fig.9 Schematic diagram of overall model structure

编码器部分的输出为全局特征 $G$和局部特征 $L = {\rm{\{ }}{{{L}}_1},{{{L}}_2}, \cdots ,{{{L}}_n}{\rm{\} }}$的融合，即视觉特征可以表示为 ${{{v}}_t} = \varPsi {\left( {{I}} \right)^t} = \alpha _0^{(t)}{{G}} + \sum\nolimits_{i = 1}^n {\alpha _i^{(t)}{{{L}}_i}} $；在Decoder部分，将词矢量 ${{{w}}_t}$和视觉特征向量合并，得到输入向量 ${{{x}}_t} = \left[ {{{{w}}_t},{v_t}} \right]$，然后利用单层神经网络来转换视觉矢量 ${{{s}}_t}$和LSTM的输出向量 ${{{h}}_t}$. 整个语义描述模型的求解可以具象表示为

(18) ${\theta ^*} = {\rm{arg}}\mathop {{\rm{max}}}\limits_{{\theta }} \sum\limits_{(I,y)} {{\rm{log }}\;p\left( {{{y}}|{{I}};\theta } \right)} .$

式中： $\theta $为模型参数， ${{y}} = \left\{ {{y_1}, \cdots ,{y_t}} \right\}$表示生成的语义表示. 优化的目标函数可以表示为

(19) $ {\rm{log }}\;p\left( {{y}} \right) = \sum\limits_{t = 1}^T {{\rm{log }}\;p\left( {{y_t}|{y_1}, \cdots ,{y_{t - 1}},{{{I}}} } \right)} . $

t时刻的语义描述输出可以表示为

(20) $ {\rm{log }}\;p\left( {{y_t}|{y_1}, \cdots ,{y_{t - 1}},{{{I}}} } \right) = f\left( {{{{{h}}} _t},{{{\mathop {{c}}\limits^ \wedge } }_t}} \right). $

式中： $f\left( \cdot \right)$为 ${y_t}$概率的非线性函数输出.

2. 实验设置与数据集介绍

2.1. 试验设置

实验采用的环境如下：Ubuntu 16.06，CPU为i7 6700k，GPU为GTX1080Ti. 模型训练在GPU上开展，实验代码采用tensorflow深度学习框架，采用ImageNet数据集训练好的VGG模型和VGG-16模型提取图像的视觉特征，利用LSTM网络实现特征编码和语义解码部分，生成对于输入图像的场景描述句子.

实验中，采用含有512个隐藏节点的LSTM；在文本生成模型中，学习率设置为 $5\times 10^{-4}$的Adam优化器（Adam optimizer）；CNN模型的学习率都设置为 $ 10^{-5}$；动量和权重分别设置为0.8和0.99；Batch Size设置为80/312.

2.2. 数据集介绍

实验采用的数据集为Microsoft COCO Caption数据集和Flickr30k数据集，是目前最常用的2个数据集，实验数据集介绍如表1所示. Microsoft COCO Caption数据集是目前最大的图像语义描述数据集之一，含有123 000幅图像，每张图片含有5条及以上的文本描述. Flickr30K数据集来自于Flickr网站，数据集中有31 783张图像，主要展示人脸生活相关的情景图像，每张图像的对应人工标注是5句话，所以标注的语法比较类似. 采用这2个数据集进行试验，按照标准数据集划分训练集、验证集及测试集，分别开展试验.

表 1 Flickr30k和MS COCO实验数据集介绍

Tab.1 Flickr30k and MS COCO experimental dataset introduction

数据集	语言	规模（张）
Flickr30k	英语	31 783
MS COCO	英语	123 000

新窗口打开| 下载CSV

3. 实验结果与分析

3.1. 实验结果对比

对算法效果的衡量标准选取BLEU、METEOR、ROUGE-L和CIDEr指标，分别在Microsoft COCO Caption数据集以及Flickr30k数据集进行试验，与当前比较流行的图像语义描述算法进行比较，具体见表2、3.

表 2 Microsoft COCO数据集实验性能对比

Tab.2 Comparison of experimental results on Microsoft COCO caption dateset %

方法	BLEU-1	BLEU-2	BLEU-3	BLEU-4	METEOR	ROUGE-L	CIDEr
NIC	66.6	46.1	32.9	24.6	−	−	−
MS Captivator	71.5	54.3	40.7	30.8	24.8	52.6	93.1
m-RNN	67	45	35	25	−	−	−
LRCN	62.79	44.19	30.41	21	−	−	−
MSR	73.0	56.5	42.9	32.5	25.1	−	98.6
ATT-EK	74.0	56.0	42.0	31.0	26.0	−	−
Soft-attention	70.7	49.2	34.4	24.3	23.9	−	−
Hard-attention	71.8	50.4	35.7	25.0	23.0	−	−
ATT-FCN	70.9	53.7	40.2	30.4	24.3	−	−
Aligning-ATT	69.7	51.9	38.1	28.20	23.5	50.9	83.8
ERD	−	−	−	29.0	23.7	−	88.6
Areas-ATT	−	−	−	30.7	24.5	−	93.8
本文方法	74.0	60.1	43.9	35.2	27.5	52.4	98.7

新窗口打开| 下载CSV

表 3 Flickr30k数据集的实验性能对比

Tab.3 Comparison of experimental results on Flickr30k caption dateset %

方法	BLEU-1	BLEU-2	BLEU-3	BLEU-4	METEOR
NIC	66.6	42.3	27.7	18.3	–
Soft-attention	66.7	43.4	28.8	19.1	18.49
Hard-attention	44.9	43.9	28.6	19.9	18.46
ATT-FCN	64.7	46.0	32.4	23.0	18.9
本文方法	68.1	48.1	32.7	25.7	18.9

新窗口打开| 下载CSV

如表2所示为模型在Microsoft COCO Caption数据集的实验比较，评价指标包括BLEU、METEOR、ROUGE-L和CIDEr指标. 表中NIC^[3]、MS Captivator^[10]、m-RNN^[2]、LRCN^[11]、MSR^[12]以及ATT-EK^[13]为基于深度学习或者基于编码-解码框架的图像语义描述算法；Soft-attention^[9]、Hard-attention^[9]、ATT-FCN^[14]、Aligning-ATT^[15]、ERD^[16]以及Areas-ATT^[17]为基于注意力机制的语义描述模型. BLEU-1指标与ATT-EK持平，较其他方法提升0.1%~11.21%；BLEU-2 ~ 4较其他方法提升0%~15%；METEOR较其他方法提升1.9%~4.5%；ROUGE-L较MS Captivator持平，较其他方法提升1.5%；CIDEr较其他方法提升0.1%~9.8%. 由实验结果可知，本文方法与大部分算法相比更具竞争力，各个指标有一定的提升.

如表3所示为模型在Flickr30k数据集上的实验比较. 比较的算法有NIC^[3]、Soft-attention^[9]以及Hard-attention^[9]图像语义描述模型，选取的衡量指标有BLEU-1~4指标及METEOR. 在BLEU-1 ~ 4评价指标较其他方法提升0.3%~23.2%；METEOR较ATT-FCN方法持平，较其他方法提升0.41%~0.44%. 由实验结果可知，本文方法在Flickr30k数据集上较其他算法更具竞争力，各个指标都有一定的提升.

由表2、3的实验结果可知，该方法在Microsoft COCO Caption数据集及Flickr30k数据集上实验的评价指标整体有所提升，有较强的竞争力，描述性能更好，表明该方法具有较强的鲁棒性.

3.2. 描述效果对比

文本描述对比的效果如图10所示. 图中，其他为NIC算法^[3]生成的描述语句.

图 10

新窗口打开| 下载原图ZIP| 生成PPT

图 10 图像语义描述效果对比

Fig.10 Comparison of image captioning results

由图10比较可知，采用该方法可以更准确、更细致地识别图像的场景、物体及物体间的属性，且描述效果更好. 如图10（a）所示，利用该方法可以识别图中河面上的动物为“ducks”而非“birds”，推断出动物与河面的动作为“swiming”而非“standing”；图10（b）中，利用该方法准确识别出“red panda”，而非“brown rodent”；图10（c）中，该方法描述的对象为“young girl”而非“young boy”，且对“girl”进行更细致的描述“wearing a hat”；图10（d）中，利用该方法可以识别出“a man and a woman”.

3.3. 小结

提出的基于Global-local Feature和Adaptive-attention的图像语义描述模型可以更准确、更细致地识别图片中的物体，对输入图像进行更全面的描述；对于微小物体的识别准确率更高，可以根据图像的内容推断出图片更细节的内容；衡量指标都较其他主流图像语义描述模型或者基于注意力机制的图像语义描述效果更好.

4. 结　语

本文提出基于Global-local Feature和Adaptive-attention图像语义描述算法，对输入图像提取全局-局部特征，引入自适应注意力机制，进一步确定图像的关注重点、挖掘更高层次的语义信息以及完善描述句子的细节信息. 由实验结果可知，利用提出的图像语义描述方法可以更全面、更准确、更细致地对图像内容进行描述；描述效果较其他图像语义描述模型的描述效果更好.

在图像语义描述算法中，编码部分的全局特征和局部特征都是取全连接层的特征，这样可能导致图像特征的空间信息丢失，降低图像语义描述效果. 未来考虑在提取图像的全连接层之前的特征，优化语义描述效果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

FARHADI A, HEJRATI M, SADEGHI M A, et al. Every picture tells a story: generating sentences from images [C] // International Conference on Computer Vision. Heraklion: Springer, 2010: 15-29.

[本文引用: 1]

[2]

MAO J, XU W, YANG Y, et al. Deep captioning with multimodal recurrent neural networks(m-RNN) [EB/OL]. [2014-12-20]. https://arxiv.org/abs/1412.6632.

[本文引用: 2]

[3]

VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator [C] // IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 3156-3164.

[本文引用: 4]

[4]

WU Q, SHEN C, LIU L, et al

What value do explicit high level concepts have in vision to language problems

[J]. Computer Science, 2016, 12 (1): 1640- 1649

[本文引用: 1]

[5]

ZHOU L, XU C, KOCH P, et al. Watch what you just said: image captioning with text-conditional attention [C] // Proceedings of the on Thematic Workshops of ACM Multimedia. [S.l]: Association for Computing Machinery, 2017: 305-313.

[本文引用: 1]

[6]

RENNIE S J, MARCHERET E, ROUEH Y, et al. Self-critical sequence training for image captioning [C] // IEEE Conference on Computer Vision and Pattern Recognition. Maryland: IEEE, 2017: 1179-1195.

[本文引用: 1]

[7]

SIMONYAN K, ZISSERMAN A

Very deep convolutional networks for large-scale image recognition

[J]. Computer Science, 2014, 32 (2): 67- 85

[本文引用: 1]

[8]

REN S, HE K, GIRSHICK R, et al

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39 (6): 1137- 1149

[本文引用: 1]

[9]

XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention [C]// Computer Science. Lille: IMLS, 2015: 2048-2057.

[本文引用: 5]

[10]

FANG H, GUPTA S, IANDOLA F, et al. From captions to visual concepts and back [C] // IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1473-1482.

[本文引用: 1]

[11]

DONAHUE J, HENDRICKS L A, ROHRBACH M, et al

Long-term recurrent convolutional networks for visual recognition and description

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 39 (4): 677- 691

[本文引用: 1]

[12]

WU Q, SHEN C, WANG P, et al

Image captioning and visual question answering based on attributes and external knowledge

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40 (6): 1367- 1381

[本文引用: 1]

[13]

YAO T, PAN Y, LI Y, et al. Boosting image captioning with attributes [C]// IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 4904- 4912.

[本文引用: 1]

[14]

YOU Q, JIN H, WANG Z, et al. Image captioning with semantic attention [C] // IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 4651- 4659.

[本文引用: 1]

[15]

JIN J, FU K, CUI R, et al

Aligning where to see and what to tell: image caption with region-based attention and scene factorization

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39 (12): 2321- 2334

[本文引用: 1]

[16]

YANG Z, YUAN Y, WU Y, et al. Encode, review, and decode: reviewer module for caption generation [C] // International Conference on Neural Image Processing System. Barcelona: [s. n.], 2016.

[本文引用: 1]

[17]

PEDERSOLI M, LUCAS T, SCHMID C, et al. Areas of attention for image captioning [C] // IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 1251-1259.

[本文引用: 1]

... 随着人工智能的迅猛发展以及深度学习技术的突破，基于深度学习的计算机视觉技术日趋成熟，研究人员尝试让机器理解视觉信息中更复杂的语义信息，因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究技术. 图像语义描述技术最早由Farhadi等^[1]提出，目标是实现视觉空间的图像到语义空间的文本描述的转换，算法实现从图像

$I$

到文本描述

$S$

的映射. ...

... Mao等^[2]提出m-RNN图像语义描述模型，结合卷积神经网络（convolutional neural network，CNN）和循环神经网络（recurrent neural network，RNN），解决图像标注和语句检索问题. Vinyals等^[3]提出NIC模型，利用卷积神经网络提取输入图像的特征图；递归循环神经层采用长短记忆网络（long short-term memory，LSTM）模型，将输入的Feature Map进行编码，即输入内容的编码值进行带有前后之间关系的拟合，最终输出一个通顺的句子，并且把这个句子和标准的标签句子进行对比评分，和标签最接近的句子即为最好的句子. Wu等^[4]提出将图像特征用高等级的语义概念表达后再输入递归神经网络，利用卷积神经网络产生标签预测结果，将结果经过池化层进行最大池化下的采样输出，作为图像的高级语义信息，利用LSTM生成语义描述文本并取得更好的描述效果. Zhou等^[5]将视觉特征与词向量的文本特征结合作为LSTM的输入，且LSTM的指导采用text-conditional，最终能够根据图像特定的部分生成当前单词. Rennie等^[6]改进传统的编码-解码框架，在Maxout的基础上改进LSTM；引入贪婪搜索，提出SCST（self-critical sequence training）算法，在图像语义描述比赛MS COCO Captioning Challenge位居榜首. ...

... 如表2所示为模型在Microsoft COCO Caption数据集的实验比较，评价指标包括BLEU、METEOR、ROUGE-L和CIDEr指标. 表中NIC^[3]、MS Captivator^[10]、m-RNN^[2]、LRCN^[11]、MSR^[12]以及ATT-EK^[13]为基于深度学习或者基于编码-解码框架的图像语义描述算法；Soft-attention^[9]、Hard-attention^[9]、ATT-FCN^[14]、Aligning-ATT^[15]、ERD^[16]以及Areas-ATT^[17]为基于注意力机制的语义描述模型. BLEU-1指标与ATT-EK持平，较其他方法提升0.1%~11.21%；BLEU-2 ~ 4较其他方法提升0%~15%；METEOR较其他方法提升1.9%~4.5%；ROUGE-L较MS Captivator持平，较其他方法提升1.5%；CIDEr较其他方法提升0.1%~9.8%. 由实验结果可知，本文方法与大部分算法相比更具竞争力，各个指标有一定的提升. ...

... 如表3所示为模型在Flickr30k数据集上的实验比较. 比较的算法有NIC^[3]、Soft-attention^[9]以及Hard-attention^[9]图像语义描述模型，选取的衡量指标有BLEU-1~4指标及METEOR. 在BLEU-1 ~ 4评价指标较其他方法提升0.3%~23.2%；METEOR较ATT-FCN方法持平，较其他方法提升0.41%~0.44%. 由实验结果可知，本文方法在Flickr30k数据集上较其他算法更具竞争力，各个指标都有一定的提升. ...

... 文本描述对比的效果如图10所示. 图中，其他为NIC算法^[3]生成的描述语句. ...

What value do explicit high level concepts have in vision to language problems

2016

Very deep convolutional networks for large-scale image recognition

2014

... 传统的CNN-LSTM模型中提取输入图像特征基本都是提取整个图片的特征. 可能输入图像中有些重要的物体特征没有被选，对文本描述的准确性造成影响. 本文在图像特征提取的时候加入局部特征，应用于图像语义描述任务. 在特征编码时，提取输入图像的全局特征和局部特征进行融合：采用传统的CNN模型提取输入图像的全局特征，利用VGG-16模型^[7]进行试验；利用Faster R-CNN提取输入图像的局部特征；对全局特征向量和局部特征向量进行融合输出. ...

Faster R-CNN: towards real-time object detection with region proposal networks

2015

... Ren等^[8]提出Faster R-CNN算法，该算法是目标检测的常用技术，也是本文的局部特征提取方法. 设计辅助生成样本的区域提取网络（region proposal networks，RPN）网络，将算法结构分为2个部分：PRN候选框提取模块及Fast R-CNN检测模块. 算法首先由RPN网络判断候选框是否为目标，再经分类定位的多任务损失判断目标类型，整个网络流程都能够共享卷积神经网络提取的特征信息，节约计算成本，且解决Fast R-CNN算法生成正负样本候选框速度慢的问题，避免候选框提取过多导致算法准确率下降. 由于RPN网络可以在固定尺寸的卷积特征图中生成多尺寸的候选框，导致出现可变目标尺寸和固定感受野不一致的现象. 将输入图像输入CNN进行特征提取，利用RPN生成推荐窗口，其中每张窗口生成300个推荐窗口；再把推荐窗口映射到CNN的最后一层卷积特征图上，同ROI池化层使得每个ROI生成固定尺寸的特征图；最后进行分类输出. 结构图如图2所示. ...

... 在CNN-LSTM的编码框架下，一般采用CNN提取图像的视觉信息生成编码向量，使用LSTM从编码向量中解码出描述词序列. 编解码器模型，可以端到端地训练模型，生成的描述更灵活多样. 该类方法只是考虑图片的整体特征，没有考虑到对于图像描述效果相关的图片空间特征. Xu等^[9]将编码器-解码器引入注意力机制，可以动态性地聚焦图片的不同区域的特征，为图片语义描述的性能带来极大的改善. ...

... [9]、ATT-FCN^[14]、Aligning-ATT^[15]、ERD^[16]以及Areas-ATT^[17]为基于注意力机制的语义描述模型. BLEU-1指标与ATT-EK持平，较其他方法提升0.1%~11.21%；BLEU-2 ~ 4较其他方法提升0%~15%；METEOR较其他方法提升1.9%~4.5%；ROUGE-L较MS Captivator持平，较其他方法提升1.5%；CIDEr较其他方法提升0.1%~9.8%. 由实验结果可知，本文方法与大部分算法相比更具竞争力，各个指标有一定的提升. ...

... [9]图像语义描述模型，选取的衡量指标有BLEU-1~4指标及METEOR. 在BLEU-1 ~ 4评价指标较其他方法提升0.3%~23.2%；METEOR较ATT-FCN方法持平，较其他方法提升0.41%~0.44%. 由实验结果可知，本文方法在Flickr30k数据集上较其他算法更具竞争力，各个指标都有一定的提升. ...

Long-term recurrent convolutional networks for visual recognition and description

2014

Image captioning and visual question answering based on attributes and external knowledge

2017

Aligning where to see and what to tell: image caption with region-based attention and scene factorization

2015

〈

〉