基于全局−局部特征和自适应注意力机制的图像语义描述算法
Image captioning based on global-local feature and adaptive-attention
收稿日期: 2019-04-29
Received: 2019-04-29
作者简介 About authors
赵小虎(1976—),男,教授,从事矿山物联网与智能计算的研究.orcid.org/0000-0002-7352-103X.E-mail:
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法. 在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能. 实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.
关键词:
The image captioning algorithm was proposed in order to explore the difference of the image visual features and the upper layer semantic concept. The algorithm can determine the image focus, mine higher-level semantic information, and improve the description details. Local features were added for the image visual feature extraction, and the global-local feature of the input image was combined with the global features and local features for visual information. Then the focus of the image at different time was determined, and more details of the image were caught. The attention mechanism was added to weight the image feature during decoding, so that the dependence of the text words on the visual information and the semantic information at the current moment could be adaptively adjusted, and the performance of image captioning was effectively improved. The experimental results show that the proposed method can acquire competitive captioning results than other image captioning algorithms. The method can describe the image more accurately and more comprehensively, and the recognition accuracy of tiny objects is higher than others.
Keywords:
本文引用格式
赵小虎, 尹良飞, 赵成龙.
ZHAO Xiao-hu, YIN Liang-fei, ZHAO Cheng-long.
随着人工智能的迅猛发展以及深度学习技术的突破,基于深度学习的计算机视觉技术日趋成熟,研究人员尝试让机器理解视觉信息中更复杂的语义信息,因此在计算机视觉与自然语言处理的交叉领域出现图像语义描述研究技术. 图像语义描述技术最早由Farhadi等[1]提出,目标是实现视觉空间的图像到语义空间的文本描述的转换,算法实现从图像
Mao等[2]提出m-RNN图像语义描述模型,结合卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network,RNN),解决图像标注和语句检索问题. Vinyals等[3]提出NIC模型,利用卷积神经网络提取输入图像的特征图;递归循环神经层采用长短记忆网络(long short-term memory,LSTM)模型,将输入的Feature Map进行编码,即输入内容的编码值进行带有前后之间关系的拟合,最终输出一个通顺的句子,并且把这个句子和标准的标签句子进行对比评分,和标签最接近的句子即为最好的句子. Wu等[4]提出将图像特征用高等级的语义概念表达后再输入递归神经网络,利用卷积神经网络产生标签预测结果,将结果经过池化层进行最大池化下的采样输出,作为图像的高级语义信息,利用LSTM生成语义描述文本并取得更好的描述效果. Zhou等[5]将视觉特征与词向量的文本特征结合作为LSTM的输入,且LSTM的指导采用text-conditional,最终能够根据图像特定的部分生成当前单词. Rennie等[6]改进传统的编码-解码框架,在Maxout的基础上改进LSTM;引入贪婪搜索,提出SCST(self-critical sequence training)算法,在图像语义描述比赛MS COCO Captioning Challenge位居榜首.
图像语义描述的目标是实现对视觉数据给出语义解释,完成从视觉空间到语义空间的映射. 由于图像底层的视觉特征与高层的语义概念存在很大差异,目前的图像场景语义描述算法存在较多问题亟待解决,如确定图像的关注重点,挖掘更高层次的语义信息,完善描述句子的细节信息等.
本文针对上述问题,基于传统的图像语义描述框架,在图像视觉特征提取时加入局部特征,与图像的全局特征结合,提取输入图像的全局-局部特征作为视觉信息输入,使得模型确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,使得模型可以自适应选择当前时刻的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能.
1. 基于全局-局部特征和自适应注意力机制的图像语义描述算法
1.1. 编码-解码框架
基于编码-解码的图像语义描述框架,一般采用卷积神经网络CNN作为编码器从输入图像中提取图像视觉特征,将视觉特征输入循环神经网络RNN或者长短记忆网络LSTM生成自然语言描述的句子,具体框架图如图1所示.
图 1
图 1 基于CNN-LSTM的图像语义描述模型结构示意图
Fig.1 Structure of image captioning based on CNN-LSTM
求解目标是在给定图像条件下最大化描述文本生成的概率. 求解问题可以表示为
式中:
在编码-解码框架中,编码部分一般采用RNN或者LSTM模型作为编码输出,可以表示为
式中:
编码部分采用LSTM模型,
式中:
一般地,语义向量
传统的CNN-LSTM模型中提取输入图像特征基本都是提取整个图片的特征. 可能输入图像中有些重要的物体特征没有被选,对文本描述的准确性造成影响. 本文在图像特征提取的时候加入局部特征,应用于图像语义描述任务. 在特征编码时,提取输入图像的全局特征和局部特征进行融合:采用传统的CNN模型提取输入图像的全局特征,利用VGG-16模型[7]进行试验;利用Faster R-CNN提取输入图像的局部特征;对全局特征向量和局部特征向量进行融合输出.
1.2. 局部特征提取
Ren等[8]提出Faster R-CNN算法,该算法是目标检测的常用技术,也是本文的局部特征提取方法. 设计辅助生成样本的区域提取网络(region proposal networks,RPN)网络,将算法结构分为2个部分:PRN候选框提取模块及Fast R-CNN检测模块. 算法首先由RPN网络判断候选框是否为目标,再经分类定位的多任务损失判断目标类型,整个网络流程都能够共享卷积神经网络提取的特征信息,节约计算成本,且解决Fast R-CNN算法生成正负样本候选框速度慢的问题,避免候选框提取过多导致算法准确率下降. 由于RPN网络可以在固定尺寸的卷积特征图中生成多尺寸的候选框,导致出现可变目标尺寸和固定感受野不一致的现象. 将输入图像输入CNN进行特征提取,利用RPN生成推荐窗口,其中每张窗口生成300个推荐窗口;再把推荐窗口映射到CNN的最后一层卷积特征图上,同ROI池化层使得每个ROI生成固定尺寸的特征图;最后进行分类输出. 结构图如图2所示.
图 2
RPN结构如图3所示,用一个大小为
图 3
用于局部特征提取Faster R-CNN的流程结构如图4所示. 首先将输入图像输入到卷积神经网络提取卷积特征图,然后将特征图输入至PRN,PRN输出对于特征图的推荐窗口;将推荐窗口进行RoI pooling操作,采用每个推荐窗口的卷积特征图裁剪,利用插值算法(一般为双线性插值)将其转换到固定尺寸,然后利用卷积核进行最大池化操作,输出特征图;将每个窗口的特征图进行R-CNN处理,筛选推荐窗口生成基于推荐窗口特征向量,作为局部特征提取向量
图 4
R-CNN的处理步骤如图5所示. R-CNN对每个推荐窗口(proposal)的特征图进行扁平化处理,采用ReLU以及2次全连接层处理.
图 5
1.3. 全局特征与局部特征融合
利用VGG-16的fc7层的输出作为图像的全局特征向量,表示为
图 6
对于Encoder的输出
式中:
式中:
1.4. 自适应注意力机制
在CNN-LSTM的编码框架下,一般采用CNN提取图像的视觉信息生成编码向量,使用LSTM从编码向量中解码出描述词序列. 编解码器模型,可以端到端地训练模型,生成的描述更灵活多样. 该类方法只是考虑图片的整体特征,没有考虑到对于图像描述效果相关的图片空间特征. Xu等[9]将编码器-解码器引入注意力机制,可以动态性地聚焦图片的不同区域的特征,为图片语义描述的性能带来极大的改善.
传统注意力机制主要基于编码器部分,关注点主要在于图像的不同区域,对于注意力机制输出
提出的自适应注意力机制基于编码器,在处理图像语义描述任务时可以自适应分配图像特征和文本权重,以生成模型. 解码器存储的是视觉和语言信息,当模型不选择视觉特征聚焦时,它自适应学会从中提取一个新的组件
图 7
图 7 传统注意力机制与自适应注意力机制示意图
Fig.7 Traditional attention mechanism and adaptive attention mechanism
对于模型中的语义信息
式中:
式中:
利用式(3)、(4),求解下一个单词
自适应注意力机制细节如图8所示. 编码器为LSTM,新组件矢量
图 8
式中:
自适应注意力机制中的残差语义向量为
式中:
为了计算变量
式中:
变量
t时刻可能输出单词的概率可以表示为
式中:
1.5. 模型整体结构
提出的图像场景语义描述算法框架如图9所示. 编码部分引入全局-局部特征,解码部分与编码部分之间采用自适应注意力机制. 输入图像经过卷积神经网络,提取图像的全局和局部特征,输出为4 096维向量的集合;将局部特征和全局特征的融合向量输出作为输入,提供到语义生成模块进行解码,输出最终文本描述句子.
图 9
编码器部分的输出为全局特征
式中:
t时刻的语义描述输出可以表示为
式中:
2. 实验设置与数据集介绍
2.1. 试验设置
实验采用的环境如下:Ubuntu 16.06,CPU为i7 6700k,GPU为GTX1080Ti. 模型训练在GPU上开展,实验代码采用tensorflow深度学习框架,采用ImageNet数据集训练好的VGG模型和VGG-16模型提取图像的视觉特征,利用LSTM网络实现特征编码和语义解码部分,生成对于输入图像的场景描述句子.
实验中,采用含有512个隐藏节点的LSTM;在文本生成模型中,学习率设置为
2.2. 数据集介绍
实验采用的数据集为Microsoft COCO Caption数据集和Flickr30k数据集,是目前最常用的2个数据集,实验数据集介绍如表1所示. Microsoft COCO Caption数据集是目前最大的图像语义描述数据集之一,含有123 000幅图像,每张图片含有5条及以上的文本描述. Flickr30K数据集来自于Flickr网站,数据集中有31 783张图像,主要展示人脸生活相关的情景图像,每张图像的对应人工标注是5句话,所以标注的语法比较类似. 采用这2个数据集进行试验,按照标准数据集划分训练集、验证集及测试集,分别开展试验.
表 1 Flickr30k和MS COCO实验数据集介绍
Tab.1
数据集 | 语言 | 规模(张) |
Flickr30k | 英语 | 31 783 |
MS COCO | 英语 | 123 000 |
3. 实验结果与分析
3.1. 实验结果对比
表 2 Microsoft COCO数据集实验性能对比
Tab.2
方法 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE-L | CIDEr |
NIC | 66.6 | 46.1 | 32.9 | 24.6 | − | − | − |
MS Captivator | 71.5 | 54.3 | 40.7 | 30.8 | 24.8 | 52.6 | 93.1 |
m-RNN | 67 | 45 | 35 | 25 | − | − | − |
LRCN | 62.79 | 44.19 | 30.41 | 21 | − | − | − |
MSR | 73.0 | 56.5 | 42.9 | 32.5 | 25.1 | − | 98.6 |
ATT-EK | 74.0 | 56.0 | 42.0 | 31.0 | 26.0 | − | − |
Soft-attention | 70.7 | 49.2 | 34.4 | 24.3 | 23.9 | − | − |
Hard-attention | 71.8 | 50.4 | 35.7 | 25.0 | 23.0 | − | − |
ATT-FCN | 70.9 | 53.7 | 40.2 | 30.4 | 24.3 | − | − |
Aligning-ATT | 69.7 | 51.9 | 38.1 | 28.20 | 23.5 | 50.9 | 83.8 |
ERD | − | − | − | 29.0 | 23.7 | − | 88.6 |
Areas-ATT | − | − | − | 30.7 | 24.5 | − | 93.8 |
本文方法 | 74.0 | 60.1 | 43.9 | 35.2 | 27.5 | 52.4 | 98.7 |
表 3 Flickr30k数据集的实验性能对比
Tab.3
方法 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR |
NIC | 66.6 | 42.3 | 27.7 | 18.3 | – |
Soft-attention | 66.7 | 43.4 | 28.8 | 19.1 | 18.49 |
Hard-attention | 44.9 | 43.9 | 28.6 | 19.9 | 18.46 |
ATT-FCN | 64.7 | 46.0 | 32.4 | 23.0 | 18.9 |
本文方法 | 68.1 | 48.1 | 32.7 | 25.7 | 18.9 |
如表2所示为模型在Microsoft COCO Caption数据集的实验比较,评价指标包括BLEU、METEOR、ROUGE-L和CIDEr指标. 表中NIC[3]、MS Captivator[10]、m-RNN[2]、LRCN[11]、MSR[12]以及ATT-EK[13]为基于深度学习或者基于编码-解码框架的图像语义描述算法;Soft-attention[9]、Hard-attention[9]、ATT-FCN[14]、Aligning-ATT[15]、ERD[16]以及Areas-ATT[17]为基于注意力机制的语义描述模型. BLEU-1指标与ATT-EK持平,较其他方法提升0.1%~11.21%;BLEU-2 ~ 4较其他方法提升0%~15%;METEOR较其他方法提升1.9%~4.5%;ROUGE-L较MS Captivator持平,较其他方法提升1.5%;CIDEr较其他方法提升0.1%~9.8%. 由实验结果可知,本文方法与大部分算法相比更具竞争力,各个指标有一定的提升.
3.2. 描述效果对比
图 10
3.3. 小结
提出的基于Global-local Feature和Adaptive-attention的图像语义描述模型可以更准确、更细致地识别图片中的物体,对输入图像进行更全面的描述;对于微小物体的识别准确率更高,可以根据图像的内容推断出图片更细节的内容;衡量指标都较其他主流图像语义描述模型或者基于注意力机制的图像语义描述效果更好.
4. 结 语
本文提出基于Global-local Feature和Adaptive-attention图像语义描述算法,对输入图像提取全局-局部特征,引入自适应注意力机制,进一步确定图像的关注重点、挖掘更高层次的语义信息以及完善描述句子的细节信息. 由实验结果可知,利用提出的图像语义描述方法可以更全面、更准确、更细致地对图像内容进行描述;描述效果较其他图像语义描述模型的描述效果更好.
在图像语义描述算法中,编码部分的全局特征和局部特征都是取全连接层的特征,这样可能导致图像特征的空间信息丢失,降低图像语义描述效果. 未来考虑在提取图像的全连接层之前的特征,优化语义描述效果.
参考文献
What value do explicit high level concepts have in vision to language problems
[J].
Very deep convolutional networks for large-scale image recognition
[J].
Faster R-CNN: towards real-time object detection with region proposal networks
[J].
Long-term recurrent convolutional networks for visual recognition and description
[J].
Image captioning and visual question answering based on attributes and external knowledge
[J].
Aligning where to see and what to tell: image caption with region-based attention and scene factorization
[J].
/
〈 |
|
〉 |
