基于多视图跨模态特征融合的图像描述生成

doi:10.3785/j.issn.1008-973X.2026.06.007

基于多视图跨模态特征融合的图像描述生成

张乃洲^,, 赵云超, 曹薇, 张啸剑

1. 河南财经政法大学计算机与信息工程学院，河南郑州 450046

2. 河南财经政法大学数据科学与电子商务学院，河南郑州 450046

Image captioning generation based on multiple-view cross-modal feature fusion

ZHANG Naizhou^,, ZHAO Yunchao, CAO Wei, ZHANG Xiaojian

1. College of Computer and Information Engineering, Henan University of Economics and Law, Zhengzhou 450046, China

2. School of Data Science and E-commerce, Henan University of Economics and Law, Zhengzhou 450046, China

收稿日期: 2025-09-20

基金资助:

国家自然科学基金资助项目（62072156）；河南省科技攻关项目（262102210047）；河南省高等学校重点科研项目计划基础研究专项资助项目（25ZX012）.

Received: 2025-09-20

Fund supported:

国家自然科学基金资助项目（62072156）；河南省科技攻关项目（262102210047）；河南省高等学校重点科研项目计划基础研究专项资助项目（25ZX012）.

作者简介 About authors

张乃洲（1970—），男，教授，博士，从事人工智能、自然语言处理和图像处理的研究.orcid.org/0009-0003-8222-8999.E-mail：zhangnz@126.com , E-mail：zhangnz@126.com

摘要

针对视觉特征提取过程中的视觉信息损失问题，提出新的基于多视图跨模态特征增强与融合的图像描述生成方法. 使用多个预训练图像视觉特征提取器将图像数据映射到不同的特征空间中，引入交叉注意力双流机制，实现多视图跨模态特征的动态增强与互补融合. 利用该方法，对多种视觉特征进行有效地协同融合，利用不同视觉特征表示之间的互补性，减少在视觉特征编码过程中的视觉信息损失. 通过优化编码器-解码器架构，显著提升了图像描述生成的质量. 实验结果表明，提出的模型在衡量图像描述生成性能的多个指标上，明显优于现有的主流方法，验证了多视图特征协同的有效性.

关键词： 图像描述 ; 视觉特征提取 ; 跨模态特征融合 ; 注意力机制 ; 对比语言-图像预训练(CLIP)

Abstract

A new method based on multi-view cross-modal feature augmentation and fusion for image captioning was proposed aiming at the issue of visual information loss in visual feature extraction. Multiple pre-trained visual feature extractor was employed to map image data into different feature space, and a cross-attention dual-stream mechanism was introduced to achieve dynamic enhancement and complementary fusion of multi-view cross-modal feature. Multiple visual feature was effectively coordinated. The complementarity between different visual feature representation was exploited, and visual information loss during feature encoding was mitigated. The quality of image captioning generation was significantly improved by optimizing the encoder-decoder architecture. The experimental results showed that the proposed model significantly outperformed existing state-of-the-art methods across multiple evaluation metrics for image captioning performance, validating the effectiveness of multi-view feature collaboration.

Keywords： image captioning ; visual feature extraction ; cross-modal feature fusion ; attention mechanism ; contrastive language-image pre-training (CLIP)

PDF (718KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张乃洲, 赵云超, 曹薇, 张啸剑. 基于多视图跨模态特征融合的图像描述生成. 浙江大学学报(工学版)[J], 2026, 60(6): 1205-1212 doi:10.3785/j.issn.1008-973X.2026.06.007

ZHANG Naizhou, ZHAO Yunchao, CAO Wei, ZHANG Xiaojian. Image captioning generation based on multiple-view cross-modal feature fusion. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(6): 1205-1212 doi:10.3785/j.issn.1008-973X.2026.06.007

当前，多模态学习问题，如视觉语言模型已受到业界的广泛关注^[1-2]. 图像描述（image captioning）任务从给定的图像自动生成关于图像准确、流利的文本描述，该任务属于计算机视觉与自然语言处理交叉的研究领域，因此成为当前多模态学习研究的热点之一^[3]. 当前的图像描述研究主要采用2种类型的图像视觉特征：网格层特征（grid-level features）^[4-8]和区域层特征（region-level features）^[9-16]. 网格层特征主要采用基于预训练的卷积神经网络（convolutional neural network，CNN），如VGGNet^[4]或ResNet^[5-8]来提取图像的特征，但缺点是无法描述更高层次的图像语义信息，比如图像中的对象类别、对象位置及对象属性. 区域层特征采用基于预训练的图像对象检测方法，如Faster R-CNN来提取图像中的区域（对象）特征，克服了网格层特征存在的缺点. 随着多模态预训练模型的出现，如对比语言-图像预训练（contrastive language-image pre-training，CLIP）模型等^[1-2]，基于跨模态图像-文本特征的图像描述研究开始受到关注^[16-20]，并取得了很好的效果.

尽管图像区域层特征表示方法普遍优于网格层特征方法，但仍然存在区域层特征可能无法完全覆盖图像的某些区域，导致局部视觉信息缺失的问题^{[14, 17, 21]}. 基于多模态预训练模型的图像描述研究尽管采用了统一的图像-文本特征表示，但受限于多模态模型的训练方法，图像特征与文本特征会存在一定的模态差距（modality gap）^[18-19]. 综上所述，由于单一的图像视觉特征提取方法本质上是有损压缩，不可避免地会损失一定程度的视觉信息. 研究如何充分利用不同视觉特征之间的互补性，对于图像描述研究具有重要意义. 为此，本文提出了一个新的基于多视图跨模态特征增强与融合（multiple views cross-modal feature augmentation and fusion, MVCMFAF）的图像描述生成方法，其动机为：尽可能融合来自不同视图的图像视觉特征，使得编码器能够利用不同视图间的互补性，协同生成多视图跨模态的视觉融合特征，减少编码过程中的视觉信息损失. 利用高效语言解码器进行图像视觉特征与文本特征对齐，生成更加丰富和准确的图像文本描述，从而显著提升图像描述系统的性能.

1. 相关工作

早期基于编码器-解码器模型的图像描述研究主要集中在解码器结构的设计上^[4-6]，而往往将基于CNN的视觉特征提取器充当编码器使用. Xu等^[4] 设计基于RNN的编码器-解码器模型，在解码器端引入注意力机制，显著提升了图像描述生成的性能. Rennie等^[6]提出自批评序列训练（SCST）方法，使用强化学习中的策略梯度方法，直接对CIDEr指标进行优化，实验结果超过了之前最先进的方法. 以上这些代表性研究的一个共同特点是均采用网格层特征^[4-8]作为图像的视觉特征. 随着基于CNN的图像对象检测方法的发展，出现了一系列使用区域层特征作为图像视觉特征的图像描述研究^[9-16].

随着Transformer模型^[22]开始流行，近年来图像描述研究基本上都采用基于Transformer模型的架构^{[9-14,16-17,21]}. 为了解决Transformer模型的多头自注意力机制（MSA）计算复杂度高的问题， Swin Transformer模型^[23]引入窗口多头自注意力（W-MSA）机制和移动窗口多头自注意力（SW-MSA）机制，使得在保证模型具有良好图像视觉特征表示能力的前提下，极大地降低了Transformer模型带来的计算复杂度. 目前已有研究者^[21]利用Swin Transformer模型进行图像描述生成.

当前也有一些研究尝试利用多个图像视觉特征协同来提高图像描述系统的性能^[8,14,16-17]. 如Wu等^[8]提出双信息流网络，融合了图像的网格层特征和分割特征^[24]. Luo等^[14] 探究使用网格层特征和区域层特征协同的图像描述方法. Kuo等^[16]采用结合区域层特征与跨模态图像-文本特征的方法进行图像描述生成. 此外，随着多模态预训练模型的广泛应用，出现了一些使用跨模态图像-文本特征进行图像描述生成的研究^{[16,18-20,25]}.

2. 所提出的方法

给出提出的基于MVCMFAF的图像描述生成模型的问题定义.

定义1　给定图像$ I $,对应的文本描述$ C $可以表示为$ \{{w}_{1},{w}_{2}, \cdots ,{w}_{m}\} $，其中$ w{}_{i} $为文本描述中的一个词.

定义2　视觉特征视图$ {\boldsymbol{V}}_{k} $可以表示为通过图像视觉特征提取器$ {E}_{k} $变换后得到的集合，$ {\boldsymbol{V}}_k={[}{\boldsymbol{v}}_{{}_{1}}^{k},{\boldsymbol{v}}_{2}^{k}, \cdots , {\boldsymbol{v}}_{n}^{k}{]}$. 其中，$ {\boldsymbol{v}}_{j}^{k}\in {\bf{R}}^{{{d}}} $为${\boldsymbol{V}}_k $的第j个视觉特征嵌入.

定义3　Crop-k表示对图像$ I $进行剪裁操作，$ k=\{0,5,9\} $. 其中k取0表示保持原始图像，k取5表示将原始图像裁剪为5个子图像（具有重叠区域），k取9表示将原始图像裁剪为9个不重叠的子图像.

根据给出的基本定义，可以将提出的MVCMFAF图像描述问题定义为如下的生成过程：

(1)$ {y}_{t}=\mathrm{De}{\mathrm{c}}_{l}\;(\mathrm{En}{\mathrm{c}}_{v}\;({\boldsymbol{V}}_{1},{\boldsymbol{V}}_{2}, \cdots ,{\boldsymbol{V}}_{k}),{w}_{1\colon t-1}). $

式中：$ \mathrm{En}{\mathrm{c}}_{v}\;(\cdot ) $表示视觉特征编码器，$ \mathrm{De}{\mathrm{c}}_{l}\;(\cdot ) $表示语言模型解码器；$ {y}_{t} $表示模型在第 t 步，基于已输入的前t−1个字符序列$ {w}_{1\colon t-1} $所预测输出的字符.

如图1所示为提出的MVCMFAF图像描述生成模型的总体架构. 图1（a）给出主架构图.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 MVCMFAF图像描述生成模型的总体架构图

Fig.1 Overall architecture of MVCMFAF image captioning model

2.1. 多视图特征提取和特征映射

如图1所示，使用4个不同的视觉特征提取器，生成如下的图像视觉特征.

1) 生成网格层、区域层和Swin视觉特征.

采用冻结的预训练ResNet^[7-8]模型来提取给定图像的网格层特征：$ {\boldsymbol{V}}_{\mathrm{grid}}\in {\bf{R}}^{49\times 2048} $. 其中，网格的数量为$ 7\times 7 $. 采用冻结的预训练Faster R-CNN^[11,16]模型来提取图像的区域特征：$ {\boldsymbol{V}}_{\mathrm{reg}}\in {\bf{R}}^{50\times 2\;048} $. 其中，识别的对象（区域）数量为50. 采用冻结的预训练Swin Transformer模型来提取Swin视觉特征，$ {\boldsymbol{V}}_{\mathrm{Swin}}\in {\bf{R}}^{144\times 1\;536} $.

2) 生成跨模态图像-文本特征.

遵循文献[16]的方法，对原始图像进行剪裁处理. 采用CLIP模型对裁剪后的子图像进行变换，得到各子图像的多模态特征向量. 在FAISS向量数据库中对该向量进行基于相似度的检索，得到关于原始图像增强的全局和局部文本特征表示：

(2)$ \begin{aligned}{\boldsymbol{V}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}}&=\mathrm{CLI}{\mathrm{P}}_{\mathrm{vis}}\;(\boldsymbol{I}),\\{\boldsymbol{V}}_{\mathrm{CLI}{\mathrm{P}_{\mathrm{txt}}^{k}}}&=\mathrm{Retri}\;(\mathrm{Pr}{\mathrm{j}}_{\mathrm{vis}}\;(\mathrm{CLI}{\mathrm{P}}_{\mathrm{vis}}\;({\boldsymbol{I}}_{\mathrm{Crop}-k}));\;n,\mathrm{D}{\mathrm{B}}_{\text{Faiss}}).\end{aligned} $

式中：$ \mathrm{CLI}{\mathrm{P}}_{\mathrm{vis}}\;(\cdot ) $为CLIP视觉特征映射函数，$ {\boldsymbol{V}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}}\in {\bf{R}}^{1\times 768} $；$ \mathrm{Pr}{\mathrm{j}}_{\mathrm{vis}}\;(\cdot ) $为CLIP多模态视觉映射函数，作用是将CLIP视觉特征映射到统一的多模态特征空间中，映射后向量的维度为$ {\bf{R}}^{1\times 512} $；$ \mathrm{Retri}\;(\cdot ) $为向量数据库检索函数；${\boldsymbol{I}}_{\mathrm{Crop}-k} $表示对原始图像进行k剪裁操作得到的子图像；$ \mathrm{D}{\mathrm{B}}_{\text{Faiss}} $为向量数据库；n表示返回$ \mathrm{D}{\mathrm{B}}_{\text{Faiss}} $中与查询最相似的向量个数（即 top-n），本文取n = 12.

最终得到$ {\boldsymbol{V}}_{\mathrm{CLI}{\mathrm{P}_{\mathrm{txt}}^{0}}}\in {\bf{R}}^{12\times 512} $，$ {\boldsymbol{V}}_{\mathrm{CLI}{\mathrm{P}_{\mathrm{txt}}^{5}}}\in {\bf{R}}^{60\times 512} $，$ {\boldsymbol{V}}_{\mathrm{CLI}{\mathrm{P}_{\mathrm{txt}}^{9}}}\in {\bf{R}}^{108\times 512} $.

3) 特征映射.

如图1所示，采用下式对提取的各视图特征进行映射，生成后续CAMVCMFF模块的输入：

(3)$ \;\; \left.\begin{array}{l}{\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}}=\mathrm{MLP}\;({\boldsymbol{V}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}}),\\{\boldsymbol{F}}_{\mathrm{grid}}=\mathrm{MLP}\;({\boldsymbol{V}}_{\mathrm{grid}})+{\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}},\\{\boldsymbol{F}}_{\mathrm{reg}}=\mathrm{MLP}\;({\boldsymbol{V}}_{\mathrm{reg}})+{\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}},\\{\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{txt}}}}=\mathrm{MLP}\;(\mathrm{Conc}\;({\boldsymbol{V}}_{\mathrm{CLI}{\mathrm{P}_{\mathrm{txt}}^{0}}},{\boldsymbol{V}}_{\mathrm{CLI}{\mathrm{P}_{\mathrm{txt}}^{5}}},{\boldsymbol{V}}_{\mathrm{CLI}{\mathrm{P}_{\mathrm{txt}}^{9}}}))+\\ \qquad\qquad {\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}}.\end{array} \right\}$

式中：$ \mathrm{MLP}\;(\cdot ) $表示多层感知机，$ \mathrm{Conc}\;(\cdot ) $表示向量连接操作. 进行特征映射后，有$ {\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}}\in {\bf{R}}^{1\times 512} $，$ {\boldsymbol{F}}_{\mathrm{grid}}\in {\bf{R}}^{49\times 512} $，$ {\boldsymbol{F}}_{\mathrm{reg}}\in {\bf{R}}^{50\times 512} $，$ {\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{txt}}}}\in {\bf{R}}^{180\times 512} $.

类似地，使用多层感知机对$ {\boldsymbol{V}}_{\mathrm{Swin}} $进行变换，生成Swin视觉特征编码器的输入：

(4)$ {\boldsymbol{F}}_{{\mathrm{Swin}}}=\mathrm{MLP}\;({\boldsymbol{V}}_{\mathrm{Swin}}). $

式中：$ {\boldsymbol{V}}_{\mathrm{Swin}} $表示Swin视觉特征，$ {\boldsymbol{F}}_{\mathrm{Swin}}\in {\bf{R}}^{144\times 512} $.

2.2. 基于交叉注意力的双流CAMVCMFF

CAMVCMFF模块使用Transformer模型^[22]作为基本结构，该模块的核心组件如下.

1) MSA模块.

(5)$ \left. \begin{array}{l}\mathrm{MSA}\;(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})=\mathrm{Conc}\;(\mathrm{hea}{\mathrm{d}}_{1}, \cdots ,\mathrm{hea}{\mathrm{d}}_{m})\cdot \boldsymbol{W},\\\mathrm{hea}{\mathrm{d}}_{i}=\mathrm{Attent}\;(\boldsymbol{Q}\cdot \boldsymbol{W}_{{}^{i}}^{{\boldsymbol{Q}}},\boldsymbol{K}\cdot \boldsymbol{W}_{{}^{i}}^{{\boldsymbol{K}}},\boldsymbol{V}\cdot \boldsymbol{W}_{{}^{i}}^{{\boldsymbol{V}}}),\\\mathrm{Attent}\;({\boldsymbol{Q}}^{\prime},{\boldsymbol{K}}^{\prime},{\boldsymbol{V}}^{\prime})=\mathrm{softmax}\left(\dfrac{{\boldsymbol{Q}}^{\prime}\cdot {\boldsymbol{K}}^{\prime}{}^{{\mathrm{T}}}}{\sqrt{{d}_{{\mathrm{k}}}}}\right)\cdot {\boldsymbol{V}}^{\prime}.\end{array} \right\} $

式中：$ \mathrm{Conc}\;(\cdot ) $表示多头注意力连接，$ \mathrm{hea}{\mathrm{d}}_{i} $为第i个多头注意力，m为头的个数，$ \mathrm{Attent}\;({\boldsymbol{Q}}^{\prime},{\boldsymbol{K}}^{\prime},{\boldsymbol{V}}^{\prime}) $表示缩放点积注意力，$d_{\mathrm{k}} $为向量的维度.

2) Cross-Att模块.

交叉注意力模块与MSA模块的结构基本相同，区别如下：在MSA模块中，Q、K、V对应同一个特征向量. 在Cross-Att模块中，Q为特征向量，K和V对应另一个特征向量.

Transformer模型采用多层堆叠的方式^[22]，在图1相应的框图边使用N*来表示. 以图1（b）的双流CAMVCMFF模块为例，第1次调用时，上部处理流stream-1第i层的处理过程可以表示为

(6)$\left. \begin{aligned}{\boldsymbol{O}}_{\mathrm{reg}}&=\mathrm{LN}\;({\boldsymbol{F}}_{\mathrm{reg}}+\mathrm{MSA}\;({\boldsymbol{F}}_{\mathrm{reg}},{\boldsymbol{F}}_{\mathrm{reg}},{\boldsymbol{F}}_{\mathrm{reg}})),\\\boldsymbol{O}_{\mathrm{reg}}^{\prime}&=\mathrm{LN}\;({\boldsymbol{O}}_{\mathrm{reg}}+\mathrm{CrossAtt}\;({\boldsymbol{O}}_{\mathrm{reg}},{\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}},{\boldsymbol{F}}_{\mathrm{CLI}{{\mathrm{P}}_{\mathrm{vis}}}})),\\\boldsymbol{F}_{\mathrm{reg}}^{\prime}&=\mathrm{LN}\;(\boldsymbol{O}_{\mathrm{reg}}^{\prime}+\mathrm{FFN}\;(\boldsymbol{O}_{\mathrm{reg}}^{\prime})).\end{aligned} \right\}$

式中：$ \mathrm{MSA}\;(\cdot ) $ 为多头自注意力映射函数；$ \mathrm{CrossAtt}\;(\cdot ) $ 为交叉注意力映射函数；$ \mathrm{LN}\;(\cdot ) $表示层归一化；$+$操作引入残差连接；$ \mathrm{FFN}\;(\cdot ) $表示前馈（feed forward）处理，使用全连接层对数据进行进一步的变换.

同理，下部处理流stream-2采用式（6）进行处理，得到$ \boldsymbol{F}_{\mathrm{CLI}{\mathrm{P}}_{\mathrm{txt}}}^{\prime} $. 经过第2次调用后，CAMVCMFF模块输出区域层特征和CLIP文本特征，并进行连接操作，得到融合特征输出：$ {\boldsymbol{O}}_{\mathrm{Fuse}}=\mathrm{Conc}\;(\boldsymbol{F}_{\mathrm{reg}}^{''},\boldsymbol{F}_{\mathrm{CLI}{\mathrm{P}}_{\mathrm{txt}}}^{''}) $.

2.3. Swin视觉特征编码器

Swin视觉特征编码器用于编码特征主视图：Swin视觉特征. 如图1所示，该编码器包含3个核心组件： W-MSA层、SW-MSA层和交叉注意力（Cross-Att）层. 其中，Cross-Att层的原理如前所述，W-MSA^[21,23]层的处理过程可以表示为

(7)$ \left. \begin{array}{l}{\boldsymbol{X}}_{{\mathrm{w}}}=\mathrm{Partition}\;(\boldsymbol{X}),\\{\boldsymbol{Y}}^{i}=\mathrm{MSA}\;({\boldsymbol{X}}_{\mathrm{w}}{}^{i},{\boldsymbol{X}}_{\mathrm{w}}{}^{i},{\boldsymbol{X}}_{\mathrm{w}}{}^{i}),\\\boldsymbol{Y}=\mathrm{Merge}\;({\boldsymbol{Y}}^{1},{\boldsymbol{Y}}^{2}, \cdots ,{\boldsymbol{Y}}^{k}).\end{array}\right\} $

式中：$ \mathrm{Partition}\;(\cdot ) $为窗口划分函数，将输入特征$ \boldsymbol{X} $划分为k个子窗口的集合，$ {\boldsymbol{X}}_{\mathrm{w}}=\{{\boldsymbol{X}}_{\mathrm{w}}{}^{1},{\boldsymbol{X}}_{\mathrm{w}}{}^{2}, \cdots ,{\boldsymbol{X}}_{\mathrm{w}}{}^{k}\} $. 对每个子窗口进行MSA计算. $ \mathrm{Merge}\;(\cdot ) $为子窗口特征合并函数，将k个子窗口的MSA计算结果合并为输出$ \boldsymbol{Y} $.

SW-MSA^[21,23]层与W-MSA层的处理过程基本相同，区别如下：

(8)$ {\boldsymbol{X}}_{{\mathrm{w}}}=\mathrm{Partition}\;(\mathrm{Shift}\;(\boldsymbol{X})). $

式中：$ \mathrm{Shift}\;(\cdot ) $为窗口移动函数，将输入特征$ \boldsymbol{X} $先进行位移处理，再进行窗口的划分. 其余处理过程与式（7）相同.

Swin视觉特征编码器的编码过程可以表示为

(9)$ \left.\begin{array}{l}{\boldsymbol{F}}_{\mathrm{glob}}=\mathrm{Mean}\;({\boldsymbol{F}}_{\mathrm{Swin}}),\\{\boldsymbol{F}}_{\mathrm{local}}=\mathrm{SW}{\text{-}}\mathrm{MSA}\;(\mathrm{W}{\text{-}}\mathrm{MSA}({\boldsymbol{F}}_{\mathrm{Swin}})),\\{\boldsymbol{O}}_{\mathrm{Swin}}=\mathrm{CrossAtt}\;({\boldsymbol{F}}_{\mathrm{glob}},{\boldsymbol{F}}_{\mathrm{local}},{\boldsymbol{F}}_{\mathrm{local}}).\end{array}\right\} $

式中：$ \mathrm{Mean}\;(\cdot ) $为全局平均值函数，作用是获取输入数据$ {\boldsymbol{F}}_{\mathrm{Swin}} $的全局特征；$ {\boldsymbol{F}}_{\mathrm{Swin}} $为Swin映射特征；$ {\boldsymbol{F}}_{\mathrm{glob}} $和$ {\boldsymbol{F}}_{\mathrm{local}} $分别为全局和局部特征； $ {\boldsymbol{O}}_{{\mathrm{Swin}}}\in {\bf{R}}^{144\times 512} $为Swin视觉特征编码器的输出.

2.4. 解码器

与CAMVCMFF模块的处理过程类似，Transformer模块采用多层堆叠的方式，在图1右部的框图边使用N*来表示. 第i层处理过程可以表示为

(10)$ \left.\begin{array}{l}{\boldsymbol{C}}_{\mathrm{Emb}}=\mathrm{WE}\;(C)+\mathrm{PE}\;(C),\\{\boldsymbol{O}}_{\mathrm{C}}=\mathrm{LN}\;({\boldsymbol{C}}_{\mathrm{Emb}}+\mathrm{MMSA}\;({\boldsymbol{C}}_{\mathrm{Emb}},{\boldsymbol{C}}_{\mathrm{Emb}},{\boldsymbol{C}}_{\mathrm{Emb}})),\\{\boldsymbol{O}}_{\mathrm{cross}}=\mathrm{LN}\;({\boldsymbol{O}}_{\mathrm{C}}+\mathrm{CrossAtt}\;({\boldsymbol{O}}_{\mathrm{C}},{\boldsymbol{O}}_{\mathrm{Fuse}},{\boldsymbol{O}}_{\mathrm{Fuse}})),\\\boldsymbol{O}_{\mathrm{cross}}^{\prime}=\mathrm{LN}\;({\boldsymbol{O}}_{\mathrm{cross}}+\mathrm{CrossAtt}\;({\boldsymbol{O}}_{\mathrm{cross}},{\boldsymbol{O}}_{\mathrm{Swin}},{\boldsymbol{O}}_{\mathrm{Swin}})),\\{\boldsymbol{O}}_{\mathrm{dec}}=\mathrm{LN}\;(\boldsymbol{O}_{\mathrm{cross}}^{\prime}+{\mathrm{FFN}}\;(\boldsymbol{O}_{\mathrm{cross}}^{\prime})).\end{array}\right\} $

式中：$ C $为定义1给出的图像文本描述， $ \mathrm{WE}\;(\cdot ) $表示词嵌入映射函数，$ \mathrm{PE}\;(\cdot ) $为位置编码函数，$ {\boldsymbol{C}}_{\mathrm{Emb}} $为$ C $的嵌入表示输出，$ \mathrm{MMSA}\;(\cdot ) $ 表示掩码多头自注意力映射函数，$ {\boldsymbol{O}}_{\mathrm{Fuse}} $为CAMVCMFF模块的视觉特征融合输出.

对$ {\boldsymbol{O}}_{\mathrm{dec}} $进行如下变换，得到模型最终的图像描述预测输出：

(11)$ {\mathrm{logits}}=\mathrm{softmax}\;(\mathrm{MLP}\;({\boldsymbol{O}}_{\mathrm{dec}})) . $

3. 实验评估

3.1. 数据集与评价指标

与主流的研究方法类似，在MSCOCO 2014数据集^[26]上对提出的基于MVCMFAF的图像描述模型进行训练与评估，验证提出方法的有效性. 该数据集共包含123 287个图像数据，其中每个图像数据包含1个图像和5个手工标注的参考描述. 遵照Karpathy等^[27]提出的“Karpathy”split方法，对原始的MSCOCO 2014数据集进行处理，得到训练集、验证集和测试集3个子集，样本数量分别为113 287、5 000、5 000.

沿用多个相关研究的做法，采用5个基于自动评价的度量指标，评估图像描述的性能：BLEU-n^[28]、METEOR^[29]、ROUGE-L^[30]、CIDEr^[31]、SPICE^[32]等指标.

3.2. 基线模型和模型参数的设置

为了验证提出方法的有效性，采用12种具有代表性的图像描述生成方法作为基线模型，与提出的MVCMFAF模型进行对比实验. 根据所采用解码器的不同，可以大致将图像描述生成方法分为以下2种类型. 1) 基于RNN的模型：SCST^[6]、AoANet^[9]、VRCDA^[33]. 2) 基于Transformer的模型：X-Transformer^[10]、 $ {{{\mathrm{M}}}}^{2} $ Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据.

模型的嵌入维度统一设置为512，所有Transformer模型的头数量设置为8，所有Transformer编码器（解码器）的层数均设置为3. 图像描述采用的词汇表长度为9 487. Swin Transformer预训练模型为Swin_Large_path4_window12_22k，输入图像的尺寸为384×384. 模型使用Adam最优化器（β₁ = 0.9，β₂ = 0.98，ε = 10⁻⁹），学习率设为5×10⁻⁴，梯度剪切阈值设置为0.1.

3.3. 实验结果及分析

遵循图像描述相关研究的标准做法^{[6,8-14,16-17,21]}，使用交叉熵（XE）损失函数对模型进行训练，采用强化学习策略对交叉熵损失下的最优模型进行基于CIDEr指标的最优化.

表1、2给出提出的模型与其他基线模型在MSCOCO 2014测试数据集上的对比结果.

表 1 在MSCOCO测试数据集上与其他先进模型在单一模型上的性能比较

Tab.1 Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

新窗口打开| 下载CSV

1) 基于单一模型的评估结果.

从表1可以看出，提出的MVCMFAF模型除了在METEOR指标上低于EVCAP模型，在SPICE指标上略低于EVCAP模型外，在其他指标上均超过了所有基线模型. 从CIDEr指标来看， MVCMFAF模型的分值达到140.6%，与EVCAP模型和PureT模型相比，分别提高了+0.5%和+2.4%. 在BLEU-1指标上超过PureT模型+1.1%，在BLEU-4指标上略超EVCAP模型+0.1%.

2) 基于集成模型的评估结果.

集成4个采用不同初始化seed的MVCMFAF预训练模型，用于测试. 从表2可知，提出的MVCMFAF模型在所有指标上均优于基线模型. 与PureT模型相比，BLEU-4指标提高了+0.6%，METEOR指标提高了+0.2%，ROUGE-L指标提高了+0.3%；特别是CIDEr指标，超过PureT模型+1.3%.

表 2 在MSCOCO测试数据集上与其他先进模型在集成模型上的性能比较

Tab.2 Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

新窗口打开| 下载CSV

3) 在Flickr30k数据集上的评估结果.

为了进一步验证提出的MVCMFAF模型的泛化能力，在Flickr30k数据集上将MVCMFAF模型与一些主流的模型进行对比，实验结果如表3所示. 可以看出，与基线模型相比，MVCMFAF模型在各种性能指标上显示出较优的结果，这验证了MVCMFAF模型的有效性.

表 3 在Flickr30k数据集上与其他先进模型的性能比较

Tab.3 Comparison with other state-of-the-art model on Flickr30k dataset

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

新窗口打开| 下载CSV

从总体上看，提出的MVCMFAF模型优于现有的先进方法，该模型能够有效地提高图像描述系统生成的性能. 提出的方法采用专门设计的编码器-解码器架构，并引入4个视觉特征视图作为输入. 该设计旨在利用不同视图间的特征互补性，有效减少编码过程中的视觉信息损失，提升图像描述生成的总体质量.

4) 消融研究.

为了评估提出的模型中各个组件对模型性能的影响，在MSCOCO 2014测试数据集上，开展相应的消融实验. 针对MVCMFAF模型的架构，围绕双流CAMVCMFF模块和Swin视觉特征编码器 2个组件，设计消融方案. 实验采用单模型范式生成图像描述，结果如表4所示.

表 4 在MSCOCO测试数据集上的消融实验结果

Tab.4 Ablation experimental result on MSCOCO test dataset %

模块	模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
CAMVCMFF模块	CAMVCMFF（w/o grid features）	82.1	40.7	30.1	59.8	137.3	23.7
	CAMVCMFF（w/o region features）	80.9	40.2	29.2	59.7	132.9	22.9
	CAMVCMFF（w/o clip features）	80.1	39.6	28.8	57.7	130.2	22.5
	CAMVCMFF（w/o clip-txt）	80.5	39.9	29.1	58.6	131.8	22.7
	CAMVCMFF（w/o clip-visual）	81.7	40.7	29.9	59.7	135.3	23.8
Swin Encoder	Swin Encoder（w/o global features）	82.4	41.1	30.1	60.2	138.3	24.1
Swin Encoder	Swin Encoder（w/ Transformer）	82.2	40.2	29.8	59.6	133.5	23.3
MVCMFAF (本文)		83.2	41.6	30.4	60.5	140.6	24.4

新窗口打开| 下载CSV

消融实验模型主要分为以下2类. a) 基于双流CAMVCMFF模块的修改. 第1个模型为在CAMVCMFF模块中移除网格层特征，其余结构不变. 以此类推：第2个模型为在CAMVCMFF模块中移除区域层特征，第3个模型移除了所有CLIP跨模态特征，第4个模型仅移除CLIP跨模态特征中的CLIP文本特征，第5个模型仅移除CLIP跨模态特征中的CLIP视觉特征. b) 基于Swin Encoder的修改. 第6个模型为在Swin Encoder模块中移除全局特征，结构修改为W-MSA层、SW-MSA层和W-MSA层，这与PureT模型^[21]的编码器结构非常类似. 第7个模型为将Swin Encoder模块修改为采用3层普通的Transformer结构. 第8个模型为本文提出的原始方法，未作任何修改.

从表4可以看出，在去除各相应组件后，与原始模型相比，其他7个模型在各项指标上均出现了一定的下降. 其中CAMVCMFF（w/o clip features）性能下降得最多，CAMVCMFF（w/o clip-txt）次之. 这表明CLIP跨模态图像-文本特征对模型的性能影响最大，且在CLIP跨模态图像-文本特征中，CLIP文本特征的作用比CLIP视觉特征显著. 原因如下：使用的CLIP文本特征包含了当前图像在统一的CLIP多模态特征表示空间中，通过整体/局部图像向量检索得到的最邻近180个图像的特征. 每个图像特征通过与训练数据集中对应区域对象的短文本描述相关联，实现了视觉与文本模态的对齐，为图像标题的生成提供了丰富的语义线索. CLIP文本特征的本质作用是基于向量检索的文本增强. 此外，CAMVCMFF（w/o region features）的性能下降比较明显，表明区域层特征对模型的性能影响比较显著. CAMVCMFF（w/o clip-visual）模块中，由于去除了CLIP视觉特征，模型的性能出现一定的下降. 原因可能是CLIP视觉特征失去了充当全局特征的作用. 从图1可以看出，在模型架构上，CLIP视觉特征被叠加到了视图1~视图3的映射特征上，CLIP视觉特征具有全局特征的性质. 对于Swin Encoder模型来说，改用基本的Transformer架构，而非W-MSA和SW-MSA，使得系统性能出现下降，说明采用窗口注意力机制来编码Swin视觉特征，能够有效提升图像描述生成的性能. 在Swin Encoder模块中，使用全局特征能够在一定程度上提升模型的性能.

实验结果表明，提出的MVCMFAF模型使用CLIP跨模态特征、区域层特征，Swin Encoder使用SW-MSA层、W-MSA层和全局注意力特征，两者均能够有效地改善图像描述生成模型的性能.

5) 模型的计算复杂度、参数量及推理速度比较.

为了从复杂度、计算资源和时间消耗等方面对模型进行分析和比较，采用计算量、推理速度及参数量3个指标对4种模型进行对比. 其中，计算量和参数量的计算采用thop库（https://pypi.org/project/thop）来实现. 实验结果如表5所示. 其中，FLOPs为每秒浮点运算次数，N_p为参数量，t为推理时间.

表 5 MVCMFAF模型与其他模型在计算量、参数量和推理时间方面的比较

Tab.5 Comparison of computational complexity, parameter quantity and inference time between MVCMFAF model and other model

模型	FLOPs/10⁹	N_p/MB	t/ms
Xmodal-Ctx^[16]	127.614	35.439	137.107
DIFNet^[8]	137.412	28.395	98.244
PureT^[21]	882.301	224.201	238.937
MVCMFAF (本文)	137.461	175.769	446.157

新窗口打开| 下载CSV

从表5可以看出，在计算量方面，4个模型中Xmodal-Ctx 模型需要的计算量最少，DIFNet模型次之，提出的MVCMFAF模型基本与DIFNet模型持平，而与Xmodal-Ctx 模型相差不大. PureT模型的计算量达到882.3×10⁹，原因是该模型使用预训练Swin Transformer来提取图像的视觉特征，但采用在线处理（on-line）的方式，导致处理量很大. 本文尽管也使用Swin视觉特征，但采用不同的处理方式：对4个视图的特征提取全部采用离线（off-line）处理的方式. 采用该处理方式，有效降低了模型的计算量和参数量. 在线处理与离线处理各有优劣. 前者灵活性高，适用于数据或模型动态变化的场景，且无须预处理特征提取，但须在训练时重复计算图像特征. 后者则只须进行一次特征提取，能够显著降低训练与推理的计算开销、提升速度，但代价是增加了磁盘存储与I/O负担.

在参数量方面，DIFNet模型需要的计算量最少，Xmodal-Ctx模型次之. PureT模型和MVCMFAF模型的参数量接近或超过了200 MB. 原因如下：前2种模型的结构相对简单，导致参数量较低. PureT模型相对复杂，而且采用了在线处理视觉特征的方式，因此模型参数量大幅超过前2种模型. 为了充分利用多个视图的视觉特征，本文在基本的编码器-解码器架构上设计多个较复杂的模块，因此提出的MVCMFAF模型参数量大幅增加，但仍比PureT模型少约48 MB.

在推理速度方面，DIFNet最快，Xmodal-Ctx模型次之，PureT模型的推理时间约为239 ms，而本文提出的MVCMFAF模型的推理时间约为446 ms. 本文基于研究目标，设计较复杂的模型结构. 与当前的主流模型相比，该方法的推理速度较小.

本文模型在推理速度上虽然不及部分对比方法，但在图像描述生成任务的核心指标上取得了更优的性能. 对于该任务而言，这种以计算效率换取生成质量的设计权衡是合理且有效的. 后续可以考虑采用一些特殊的技术手段来提高模型的推理速度，如采用专门针对Transformer模型的KV Cache（key-value cache）技术，通过缓存自注意力机制中的键（Key）和值（Value）矩阵，避免冗余计算以提高推理速度.

4. 结　语

针对单一特征提取器造成视觉信息损失，制约模型性能提升的问题，本文提出新的基于多视图跨模态特征增强与融合的图像描述生成方法. 实验结果表明，提出的模型在衡量图像描述生成性能的多个指标上，明显优于现有的主要代表性研究方法. 下一步将考虑如何有效融合图像的分割特征与几何信息，设计层级化注意力机制.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision [C]//Proceedings of the International Conference on Machine Learning. Vienna: PMLR, 2021: 8748–8763.

[本文引用: 2]

[2]

LI J, LI D, XIONG C, et al. BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation [C]//Proceedings of the International Conference on Machine Learning. Baltimore: PMLR, 2022: 12888–12900.

[本文引用: 2]

[3]

李志欣, 魏海洋, 张灿龙, 等

图像描述生成研究进展

[J]. 计算机研究与发展, 2021, 58 (9): 1951- 1974

DOI:10.7544/issn1000-1239.2021.20200281 [本文引用: 1]

LI Zhixin, WEI Haiyang, ZHANG Canlong, et al

Research progress on image captioning

[J]. Journal of Computer Research and Development, 2021, 58 (9): 1951- 1974

DOI:10.7544/issn1000-1239.2021.20200281 [本文引用: 1]

[4]

XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention [C]//Proceedings of the International Conference on Machine Learning. Lille: JMLR, 2015: 2048–2057.

[本文引用: 7]

[5]

LU J, XIONG C, PARIKH D, et al. Knowing when to look: adaptive attention via a visual sentinel for image captioning [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3242–3250.

[本文引用: 2]

[6]

RENNIE S J, MARCHERET E, MROUEH Y, et al. Self-critical sequence training for image captioning [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 1179–1195.

[本文引用: 6]

[7]

JIANG H, MISRA I, ROHRBACH M, et al. In defense of grid features for visual question answering [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10264–10273.

[本文引用: 1]

[8]

WU M, ZHANG X, SUN X, et al. DIFNet: boosting visual information flow for image captioning [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 17999–18008.

[本文引用: 10]

[9]

HUANG L, WANG W, CHEN J, et al. Attention on attention for image captioning [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 4633–4642.

[本文引用: 6]

[10]

PAN Y, YAO T, LI Y, et al. X-linear attention networks for image captioning [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10968–10977.

[本文引用: 3]

[11]

CORNIA M, STEFANINI M, BARALDI L, et al. Meshed-memory transformer for image captioning [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10575–10584.

[本文引用: 4]

[12]

JI J, LUO Y, SUN X, et al

Improving image captioning by leveraging intra- and inter-layer global representation in transformer network

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35 (2): 1655- 1663

DOI:10.1609/aaai.v35i2.16258 [本文引用: 3]

[13]

ZHANG X, SUN X, LUO Y, et al. RSTNet: captioning with adaptive attention on visual and non-visual words [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 15460–15469.

[本文引用: 2]

[14]

LUO Y, JI J, SUN X, et al

Dual-level collaborative transformer for image captioning

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35 (3): 2286- 2293

[本文引用: 8]

[15]

LI X, YIN X, LI C, et al. Oscar: object-semantics aligned pre-training for vision-language tasks [C]//Proceedings of the 16th European Conference on Computer Vision. Cham: Springer, 2020: 121–137.

[16]

KUO C W, KIRA Z. Beyond a pre-trained object detector: cross-modal textual and visual context for image captioning [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 17948–17958.

[本文引用: 13]

[17]

KUO C W, KIRA Z. HAAV: hierarchical aggregation of augmented views for image captioning [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 11039–11049.

[本文引用: 4]

[18]

LIU Z, LIU J, MA F

Improving cross-modal alignment with synthetic pairs for text-only image captioning

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38 (4): 3864- 3872

DOI:10.1609/aaai.v38i4.28178 [本文引用: 2]

[19]

QIU L, NING S, HE X

Mining fine-grained image-text alignment for zero-shot captioning via text-only training

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38 (5): 4605- 4613

DOI:10.1609/aaai.v38i5.28260 [本文引用: 1]

[20]

LEE J R, SHIN Y, SON G, et al. Diffusion bridge: leveraging diffusion model to reduce the modality gap between text and vision for zero-shot image captioning [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2025: 4050–4059.

[本文引用: 2]

[21]

WANG Y, XU J, SUN Y

End-to-end transformer based model for image captioning

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36 (3): 2585- 2594

DOI:10.1609/aaai.v36i3.20160 [本文引用: 11]

[22]

ASHISH V, NOAM S, NIKI P, et al. Attention is all you need [C]// Annual Conference on Neural Information Processing Systems. Long Beach: NeurIPS Foundation, 2017: 5998–6008.

[本文引用: 3]

[23]

LIU Z, LIN Y, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 9992–10002.

[本文引用: 3]

[24]

XIONG Y, LIAO R, ZHAO H, et al. UPSNet: a unified panoptic segmentation network [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 8810–8818.

[本文引用: 1]

[25]

KRISHNA R, ZHU Y, GROTH O, et al

Visual genome: connecting language and vision using crowdsourced dense image annotations

[J]. International Journal of Computer Vision, 2017, 123 (1): 32- 73

DOI:10.1007/s11263-016-0981-7 [本文引用: 1]

[26]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]//Proceedings of the 13th European Conference on Computer Vision. Cham: Springer, 2014: 740–755.

[本文引用: 1]

[27]

KARPATHY A, LI F F

Deep visual-semantic alignments for generating image descriptions

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (4): 664- 676

DOI:10.1109/TPAMI.2016.2598339 [本文引用: 1]

[28]

PAPINENI K, ROUKOS S, WARD T, et al. Bleu: a method for automatic evaluation of machine translation [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia: ACL, 2002: 311–318.

[本文引用: 1]

[29]

LAVIE A, AGARWAL A. Meteor: an automatic metric for MT evaluation with high levels of correlation with human judgments [C]//Proceedings of the 2nd Workshop on Statistical Machine Translation. Prague: ACL, 2007: 228–231.

[本文引用: 1]

[30]

LIN C Y. ROUGE: a package for automatic evaluation of summaries [C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics. Barcelona: ACL, 2004.

[本文引用: 1]

[31]

VEDANTAM R, ZITNICK C L, PARIKH D. CIDEr: consensus-based image description evaluation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 4566–4575.

[本文引用: 1]

[32]

ANDERSON P, FERNANDO B, JOHNSON M, et al. SPICE: semantic propositional image caption evaluation [C]//Proceedings of the 14th European Conference on Computer Vision. Cham: Springer, 2016: 382–398.

[本文引用: 1]

[33]

刘茂福, 施琦, 聂礼强

基于视觉关联与上下文双注意力的图像描述生成方法

[J]. 软件学报, 2022, 33 (9): 3210- 3222

DOI:10.13328/j.cnki.jos.006623 [本文引用: 3]

LIU Maofu, SHI Qi, NIE Liqiang

Image captioning based on visual relevance and context dual attention

[J]. Journal of Software, 2022, 33 (9): 3210- 3222

DOI:10.13328/j.cnki.jos.006623 [本文引用: 3]

[34]

LI J, VO D M, SUGIMOTO A, et al. Evcap: retrieval-augmented image captioning with external visual-name memory for open-world comprehension [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 13733–13742.

[本文引用: 2]

[35]

WANG J, WANG W, WANG L, et al

Learning visual relationship and context-aware attention for image captioning

[J]. Pattern Recognition, 2020, 98: 107075

DOI:10.1016/j.patcog.2019.107075 [本文引用: 1]

[36]

李志欣, 魏海洋, 黄飞成, 等

结合视觉特征和场景语义的图像描述生成

[J]. 计算机学报, 2020, 43 (9): 1624- 1640

DOI:10.11897/SP.J.1016.2020.01624 [本文引用: 1]

LI Zhixin, WEI Haiyang, HUANG Feicheng, et al

Combine visual features and scene semantics for image captioning

[J]. Chinese Journal of Computers, 2020, 43 (9): 1624- 1640

DOI:10.11897/SP.J.1016.2020.01624 [本文引用: 1]

... 当前，多模态学习问题，如视觉语言模型已受到业界的广泛关注^[1-2]. 图像描述（image captioning）任务从给定的图像自动生成关于图像准确、流利的文本描述，该任务属于计算机视觉与自然语言处理交叉的研究领域，因此成为当前多模态学习研究的热点之一^[3]. 当前的图像描述研究主要采用2种类型的图像视觉特征：网格层特征（grid-level features）^[4-8]和区域层特征（region-level features）^[9-16]. 网格层特征主要采用基于预训练的卷积神经网络（convolutional neural network，CNN），如VGGNet^[4]或ResNet^[5-8]来提取图像的特征，但缺点是无法描述更高层次的图像语义信息，比如图像中的对象类别、对象位置及对象属性. 区域层特征采用基于预训练的图像对象检测方法，如Faster R-CNN来提取图像中的区域（对象）特征，克服了网格层特征存在的缺点. 随着多模态预训练模型的出现，如对比语言-图像预训练（contrastive language-image pre-training，CLIP）模型等^[1-2]，基于跨模态图像-文本特征的图像描述研究开始受到关注^[16-20]，并取得了很好的效果. ...

... [1-2]，基于跨模态图像-文本特征的图像描述研究开始受到关注^[16-20]，并取得了很好的效果. ...

... -2]，基于跨模态图像-文本特征的图像描述研究开始受到关注^[16-20]，并取得了很好的效果. ...

图像描述生成研究进展

2021

图像描述生成研究进展

2021

... [4]或ResNet^[5-8]来提取图像的特征，但缺点是无法描述更高层次的图像语义信息，比如图像中的对象类别、对象位置及对象属性. 区域层特征采用基于预训练的图像对象检测方法，如Faster R-CNN来提取图像中的区域（对象）特征，克服了网格层特征存在的缺点. 随着多模态预训练模型的出现，如对比语言-图像预训练（contrastive language-image pre-training，CLIP）模型等^[1-2]，基于跨模态图像-文本特征的图像描述研究开始受到关注^[16-20]，并取得了很好的效果. ...

... 早期基于编码器-解码器模型的图像描述研究主要集中在解码器结构的设计上^[4-6]，而往往将基于CNN的视觉特征提取器充当编码器使用. Xu等^[4] 设计基于RNN的编码器-解码器模型，在解码器端引入注意力机制，显著提升了图像描述生成的性能. Rennie等^[6]提出自批评序列训练（SCST）方法，使用强化学习中的策略梯度方法，直接对CIDEr指标进行优化，实验结果超过了之前最先进的方法. 以上这些代表性研究的一个共同特点是均采用网格层特征^[4-8]作为图像的视觉特征. 随着基于CNN的图像对象检测方法的发展，出现了一系列使用区域层特征作为图像视觉特征的图像描述研究^[9-16]. ...

... [4] 设计基于RNN的编码器-解码器模型，在解码器端引入注意力机制，显著提升了图像描述生成的性能. Rennie等^[6]提出自批评序列训练（SCST）方法，使用强化学习中的策略梯度方法，直接对CIDEr指标进行优化，实验结果超过了之前最先进的方法. 以上这些代表性研究的一个共同特点是均采用网格层特征^[4-8]作为图像的视觉特征. 随着基于CNN的图像对象检测方法的发展，出现了一系列使用区域层特征作为图像视觉特征的图像描述研究^[9-16]. ...

... [4-8]作为图像的视觉特征. 随着基于CNN的图像对象检测方法的发展，出现了一系列使用区域层特征作为图像视觉特征的图像描述研究^[9-16]. ...

... Comparison with other state-of-the-art model on Flickr30k dataset

Tab.3

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

从总体上看，提出的MVCMFAF模型优于现有的先进方法，该模型能够有效地提高图像描述系统生成的性能. 提出的方法采用专门设计的编码器-解码器架构，并引入4个视觉特征视图作为输入. 该设计旨在利用不同视图间的特征互补性，有效减少编码过程中的视觉信息损失，提升图像描述生成的总体质量. ...

... [4]66.919.918.5——Adaptive-Attention^[5]67.725.120.4—53.1A_R_L^[35]69.827.721.548.557.4IVAIC^[36]70.830.622.549.863.0VRCDA^[33]73.230.622.750.666.0MVCMFAF (本文)75.233.734.252.175.6

... Comparison with other state-of-the-art model on Flickr30k dataset

Tab.3

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

... [6]提出自批评序列训练（SCST）方法，使用强化学习中的策略梯度方法，直接对CIDEr指标进行优化，实验结果超过了之前最先进的方法. 以上这些代表性研究的一个共同特点是均采用网格层特征^[4-8]作为图像的视觉特征. 随着基于CNN的图像对象检测方法的发展，出现了一系列使用区域层特征作为图像视觉特征的图像描述研究^[9-16]. ...

... 为了验证提出方法的有效性，采用12种具有代表性的图像描述生成方法作为基线模型，与提出的MVCMFAF模型进行对比实验. 根据所采用解码器的不同，可以大致将图像描述生成方法分为以下2种类型. 1) 基于RNN的模型：SCST^[6]、AoANet^[9]、VRCDA^[33]. 2) 基于Transformer的模型：X-Transformer^[10]、

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... 遵循图像描述相关研究的标准做法^{[6,8-14,16-17,21]}，使用交叉熵（XE）损失函数对模型进行训练，采用强化学习策略对交叉熵损失下的最优模型进行基于CIDEr指标的最优化. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

Tab.2

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

3) 在Flickr30k数据集上的评估结果. ...

... 采用冻结的预训练ResNet^[7-8]模型来提取给定图像的网格层特征：

$ {\boldsymbol{V}}_{\mathrm{grid}}\in {\bf{R}}^{49\times 2048} $

. 其中，网格的数量为

$ 7\times 7 $

. 采用冻结的预训练Faster R-CNN^[11,16]模型来提取图像的区域特征：

$ {\boldsymbol{V}}_{\mathrm{reg}}\in {\bf{R}}^{50\times 2\;048} $

. 其中，识别的对象（区域）数量为50. 采用冻结的预训练Swin Transformer模型来提取Swin视觉特征，

$ {\boldsymbol{V}}_{\mathrm{Swin}}\in {\bf{R}}^{144\times 1\;536} $

. ...

... -8]来提取图像的特征，但缺点是无法描述更高层次的图像语义信息，比如图像中的对象类别、对象位置及对象属性. 区域层特征采用基于预训练的图像对象检测方法，如Faster R-CNN来提取图像中的区域（对象）特征，克服了网格层特征存在的缺点. 随着多模态预训练模型的出现，如对比语言-图像预训练（contrastive language-image pre-training，CLIP）模型等^[1-2]，基于跨模态图像-文本特征的图像描述研究开始受到关注^[16-20]，并取得了很好的效果. ...

... 当前也有一些研究尝试利用多个图像视觉特征协同来提高图像描述系统的性能^[8,14,16-17]. 如Wu等^[8]提出双信息流网络，融合了图像的网格层特征和分割特征^[24]. Luo等^[14] 探究使用网格层特征和区域层特征协同的图像描述方法. Kuo等^[16]采用结合区域层特征与跨模态图像-文本特征的方法进行图像描述生成. 此外，随着多模态预训练模型的广泛应用，出现了一些使用跨模态图像-文本特征进行图像描述生成的研究^{[16,18-20,25]}. ...

... [8]提出双信息流网络，融合了图像的网格层特征和分割特征^[24]. Luo等^[14] 探究使用网格层特征和区域层特征协同的图像描述方法. Kuo等^[16]采用结合区域层特征与跨模态图像-文本特征的方法进行图像描述生成. 此外，随着多模态预训练模型的广泛应用，出现了一些使用跨模态图像-文本特征进行图像描述生成的研究^{[16,18-20,25]}. ...

... 采用冻结的预训练ResNet^[7-8]模型来提取给定图像的网格层特征：

$ {\boldsymbol{V}}_{\mathrm{grid}}\in {\bf{R}}^{49\times 2048} $

. 其中，网格的数量为

$ 7\times 7 $

. 采用冻结的预训练Faster R-CNN^[11,16]模型来提取图像的区域特征：

$ {\boldsymbol{V}}_{\mathrm{reg}}\in {\bf{R}}^{50\times 2\;048} $

. 其中，识别的对象（区域）数量为50. 采用冻结的预训练Swin Transformer模型来提取Swin视觉特征，

$ {\boldsymbol{V}}_{\mathrm{Swin}}\in {\bf{R}}^{144\times 1\;536} $

. ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison of computational complexity, parameter quantity and inference time between MVCMFAF model and other model

Tab.5

模型	FLOPs/10⁹	N_p/MB	t/ms
Xmodal-Ctx^[16]	127.614	35.439	137.107
DIFNet^[8]	137.412	28.395	98.244
PureT^[21]	882.301	224.201	238.937
MVCMFAF (本文)	137.461	175.769	446.157

... 随着Transformer模型^[22]开始流行，近年来图像描述研究基本上都采用基于Transformer模型的架构^{[9-14,16-17,21]}. 为了解决Transformer模型的多头自注意力机制（MSA）计算复杂度高的问题， Swin Transformer模型^[23]引入窗口多头自注意力（W-MSA）机制和移动窗口多头自注意力（SW-MSA）机制，使得在保证模型具有良好图像视觉特征表示能力的前提下，极大地降低了Transformer模型带来的计算复杂度. 目前已有研究者^[21]利用Swin Transformer模型进行图像描述生成. ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

Tab.2

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

3) 在Flickr30k数据集上的评估结果. ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

Tab.2

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

3) 在Flickr30k数据集上的评估结果. ...

... 采用冻结的预训练ResNet^[7-8]模型来提取给定图像的网格层特征：

$ {\boldsymbol{V}}_{\mathrm{grid}}\in {\bf{R}}^{49\times 2048} $

. 其中，网格的数量为

$ 7\times 7 $

. 采用冻结的预训练Faster R-CNN^[11,16]模型来提取图像的区域特征：

$ {\boldsymbol{V}}_{\mathrm{reg}}\in {\bf{R}}^{50\times 2\;048} $

. 其中，识别的对象（区域）数量为50. 采用冻结的预训练Swin Transformer模型来提取Swin视觉特征，

$ {\boldsymbol{V}}_{\mathrm{Swin}}\in {\bf{R}}^{144\times 1\;536} $

. ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

Tab.2

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

3) 在Flickr30k数据集上的评估结果. ...

Improving image captioning by leveraging intra- and inter-layer global representation in transformer network

2021

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

Tab.2

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

3) 在Flickr30k数据集上的评估结果. ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

Dual-level collaborative transformer for image captioning

2021

... 尽管图像区域层特征表示方法普遍优于网格层特征方法，但仍然存在区域层特征可能无法完全覆盖图像的某些区域，导致局部视觉信息缺失的问题^{[14, 17, 21]}. 基于多模态预训练模型的图像描述研究尽管采用了统一的图像-文本特征表示，但受限于多模态模型的训练方法，图像特征与文本特征会存在一定的模态差距（modality gap）^[18-19]. 综上所述，由于单一的图像视觉特征提取方法本质上是有损压缩，不可避免地会损失一定程度的视觉信息. 研究如何充分利用不同视觉特征之间的互补性，对于图像描述研究具有重要意义. 为此，本文提出了一个新的基于多视图跨模态特征增强与融合（multiple views cross-modal feature augmentation and fusion, MVCMFAF）的图像描述生成方法，其动机为：尽可能融合来自不同视图的图像视觉特征，使得编码器能够利用不同视图间的互补性，协同生成多视图跨模态的视觉融合特征，减少编码过程中的视觉信息损失. 利用高效语言解码器进行图像视觉特征与文本特征对齐，生成更加丰富和准确的图像文本描述，从而显著提升图像描述系统的性能. ...

... [14] 探究使用网格层特征和区域层特征协同的图像描述方法. Kuo等^[16]采用结合区域层特征与跨模态图像-文本特征的方法进行图像描述生成. 此外，随着多模态预训练模型的广泛应用，出现了一些使用跨模态图像-文本特征进行图像描述生成的研究^{[16,18-20,25]}. ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

Tab.2

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

3) 在Flickr30k数据集上的评估结果. ...

... [16-20]，并取得了很好的效果. ...

... [16]采用结合区域层特征与跨模态图像-文本特征的方法进行图像描述生成. 此外，随着多模态预训练模型的广泛应用，出现了一些使用跨模态图像-文本特征进行图像描述生成的研究^{[16,18-20,25]}. ...

... [16,18-20,25]. ...

... 采用冻结的预训练ResNet^[7-8]模型来提取给定图像的网格层特征：

$ {\boldsymbol{V}}_{\mathrm{grid}}\in {\bf{R}}^{49\times 2048} $

. 其中，网格的数量为

$ 7\times 7 $

. 采用冻结的预训练Faster R-CNN^[11,16]模型来提取图像的区域特征：

$ {\boldsymbol{V}}_{\mathrm{reg}}\in {\bf{R}}^{50\times 2\;048} $

. 其中，识别的对象（区域）数量为50. 采用冻结的预训练Swin Transformer模型来提取Swin视觉特征，

$ {\boldsymbol{V}}_{\mathrm{Swin}}\in {\bf{R}}^{144\times 1\;536} $

. ...

... 遵循文献[16]的方法，对原始图像进行剪裁处理. 采用CLIP模型对裁剪后的子图像进行变换，得到各子图像的多模态特征向量. 在FAISS向量数据库中对该向量进行基于相似度的检索，得到关于原始图像增强的全局和局部文本特征表示： ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison of computational complexity, parameter quantity and inference time between MVCMFAF model and other model

Tab.5

模型	FLOPs/10⁹	N_p/MB	t/ms
Xmodal-Ctx^[16]	127.614	35.439	137.107
DIFNet^[8]	137.412	28.395	98.244
PureT^[21]	882.301	224.201	238.937
MVCMFAF (本文)	137.461	175.769	446.157

Improving cross-modal alignment with synthetic pairs for text-only image captioning

2024

Mining fine-grained image-text alignment for zero-shot captioning via text-only training

2024

End-to-end transformer based model for image captioning

2022

... [21]利用Swin Transformer模型进行图像描述生成. ...

... Swin视觉特征编码器用于编码特征主视图：Swin视觉特征. 如图1所示，该编码器包含3个核心组件： W-MSA层、SW-MSA层和交叉注意力（Cross-Att）层. 其中，Cross-Att层的原理如前所述，W-MSA^[21,23]层的处理过程可以表示为 ...

... SW-MSA^[21,23]层与W-MSA层的处理过程基本相同，区别如下： ...

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in ensemble-model setting %

Tab.2

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	35.4	27.1	56.6	117.5	—
AoANet^[9]	81.6	40.2	29.3	59.4	132.0	22.8
X-Transformer^[10]	81.7	40.7	29.9	59.7	135.3	23.8
M²Transformer^[11]	82.0	40.5	29.7	59.5	134.5	23.5
GET^[12]	82.1	40.6	29.8	59.6	135.1	23.8
DLCT^[14]	82.2	40.8	29.9	59.8	137.5	23.3
PureT^[21]	83.4	42.1	30.4	60.8	141.0	24.3
MVCMFAF (本文)	83.5	42.7	30.6	61.1	142.3	24.5

3) 在Flickr30k数据集上的评估结果. ...

... 消融实验模型主要分为以下2类. a) 基于双流CAMVCMFF模块的修改. 第1个模型为在CAMVCMFF模块中移除网格层特征，其余结构不变. 以此类推：第2个模型为在CAMVCMFF模块中移除区域层特征，第3个模型移除了所有CLIP跨模态特征，第4个模型仅移除CLIP跨模态特征中的CLIP文本特征，第5个模型仅移除CLIP跨模态特征中的CLIP视觉特征. b) 基于Swin Encoder的修改. 第6个模型为在Swin Encoder模块中移除全局特征，结构修改为W-MSA层、SW-MSA层和W-MSA层，这与PureT模型^[21]的编码器结构非常类似. 第7个模型为将Swin Encoder模块修改为采用3层普通的Transformer结构. 第8个模型为本文提出的原始方法，未作任何修改. ...

... Comparison of computational complexity, parameter quantity and inference time between MVCMFAF model and other model

Tab.5

模型	FLOPs/10⁹	N_p/MB	t/ms
Xmodal-Ctx^[16]	127.614	35.439	137.107
DIFNet^[8]	137.412	28.395	98.244
PureT^[21]	882.301	224.201	238.937
MVCMFAF (本文)	137.461	175.769	446.157

... CAMVCMFF模块使用Transformer模型^[22]作为基本结构，该模块的核心组件如下. ...

... Transformer模型采用多层堆叠的方式^[22]，在图1相应的框图边使用N*来表示. 以图1（b）的双流CAMVCMFF模块为例，第1次调用时，上部处理流stream-1第i层的处理过程可以表示为 ...

... SW-MSA^[21,23]层与W-MSA层的处理过程基本相同，区别如下： ...

Visual genome: connecting language and vision using crowdsourced dense image annotations

2017

... 与主流的研究方法类似，在MSCOCO 2014数据集^[26]上对提出的基于MVCMFAF的图像描述模型进行训练与评估，验证提出方法的有效性. 该数据集共包含123 287个图像数据，其中每个图像数据包含1个图像和5个手工标注的参考描述. 遵照Karpathy等^[27]提出的“Karpathy”split方法，对原始的MSCOCO 2014数据集进行处理，得到训练集、验证集和测试集3个子集，样本数量分别为113 287、5 000、5 000. ...

Deep visual-semantic alignments for generating image descriptions

2017

... 沿用多个相关研究的做法，采用5个基于自动评价的度量指标，评估图像描述的性能：BLEU-n^[28]、METEOR^[29]、ROUGE-L^[30]、CIDEr^[31]、SPICE^[32]等指标. ...

基于视觉关联与上下文双注意力的图像描述生成方法

2022

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on Flickr30k dataset

Tab.3

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

基于视觉关联与上下文双注意力的图像描述生成方法

2022

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

... Comparison with other state-of-the-art model on Flickr30k dataset

Tab.3

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

$ {{{\mathrm{M}}}}^{2} $

Transformer ^[11]、GET ^[12]、RSTNet ^[13]、DLCT ^[14]、Xmodal-Ctx^[16]、DIFNet^[8]、PureT^[21]、EVCap^[34]. 以上基线模型的实验结果均采用原始论文中所给出的数据. ...

... Comparison with other state-of-the-art model on MSCOCO test dataset in single-model setting %

Tab.1

模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr	SPICE
SCST^[6]	—	34.2	26.7	55.7	114.0	—
AoANet^[9]	80.2	38.9	29.2	58.8	129.8	22.4
X-Transformer^[10]	80.9	39.7	29.5	59.1	132.8	23.4
M²Transformer^[11]	80.8	39.1	29.2	58.6	131.2	22.6
GET^[12]	81.5	39.5	29.3	58.9	131.6	22.8
RSTNet^[13]	81.8	40.1	29.8	59.5	135.6	23.3
DLCT^[14]	81.4	39.8	29.5	59.1	133.8	23.0
Xmodal-Ctx^[16]	81.5	39.7	30.0	59.5	135.9	23.7
DIFNet^[8]	81.7	40.0	29.7	59.4	136.2	23.2
PureT^[21]	82.1	40.9	30.2	60.1	138.2	24.2
VRCDA^[33]	80.6	37.9	28.4	58.2	123.7.	21.8
EVCAP^[34]	—	41.5	31.2	—	140.1	24.7
MVCMFAF (本文)	83.2	41.6	30.4	60.5	140.6	24.4

1) 基于单一模型的评估结果. ...

Learning visual relationship and context-aware attention for image captioning

2020

... Comparison with other state-of-the-art model on Flickr30k dataset

Tab.3

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

结合视觉特征和场景语义的图像描述生成

2020

... Comparison with other state-of-the-art model on Flickr30k dataset

Tab.3

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

结合视觉特征和场景语义的图像描述生成

2020

... Comparison with other state-of-the-art model on Flickr30k dataset

Tab.3

%
模型	BLEU-1	BLEU-4	METEOR	ROUGE-L	CIDEr
Soft-Attention^[4]	66.7	19.1	18.5	—	—
Hard-Attention^[4]	66.9	19.9	18.5	—	—
Adaptive-Attention^[5]	67.7	25.1	20.4	—	53.1
A_R_L^[35]	69.8	27.7	21.5	48.5	57.4
IVAIC^[36]	70.8	30.6	22.5	49.8	63.0
VRCDA^[33]	73.2	30.6	22.7	50.6	66.0
MVCMFAF (本文)	75.2	33.7	34.2	52.1	75.6

〈

〉