浙江大学学报(工学版), 2025, 59(4): 787-794 doi: 10.3785/j.issn.1008-973X.2025.04.014

计算机技术与控制工程

基于跨模态级联扩散模型的图像描述方法

陈巧红,, 郭孟浩, 方贤,, 孙麒

浙江理工大学 计算机科学与技术学院,浙江 杭州 310018

Image captioning based on cross-modal cascaded diffusion model

CHEN Qiaohong,, GUO Menghao, FANG Xian,, SUN Qi

School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China

通讯作者: 方贤,男,讲师. orcid.org/0000-0001-5161-2574. E-mail:xianfang@zstu.edu.cn

收稿日期: 2024-01-18  

基金资助: 浙江省自然科学基金资助项目(LQ23F020021).

Received: 2024-01-18  

Fund supported: 浙江省自然科学基金资助项目(LQ23F020021).

作者简介 About authors

陈巧红(1978—),女,教授,从事计算机辅助设计及机器学习技术研究.orcid.org/0000-0003-0595-341X.E-mail:chen_lisa@zstu.edu.cn , E-mail:chen_lisa@zstu.edu.cn

摘要

现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法. 引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特征向量作为后续扩散模型的语义条件. 通过设计级联式的扩散模型逐步引入丰富的语义信息,确保生成的图像描述贴近整体语境. 增强文本扩散过程中的噪声计划以提升模型对文本信息的敏感性,充分训练模型以增强模型的整体性能. 实验结果表明,所提方法能够生成比传统图像描述生成方法更准确和丰富的文本描述. 所提方法在各项评价指标上均明显优于其他非自回归文本生成方法,展现了在图像描述任务中使用扩散模型的有效性和潜力.

关键词: 深度学习 ; 图像描述 ; 扩散模型 ; 多模态编码器 ; 级联结构

Abstract

Current text diffusion model methods are ineffective in controlling the diffusion process based on semantic conditions, and the convergence of the diffusion model training process is challenging. A non-autoregressive image captioning method was proposed based on a cross-modal cascaded diffusion model. A cross-modal semantic alignment module was introduced to align the semantic relationships between visual and text modalities, with the aligned semantic feature vectors serving as the semantic condition for the subsequent diffusion model. By designing a cascaded diffusion model, rich semantic information was gradually introduced to ensure that the generated image description closely aligns with the overall context. A noise schedule was enhanced during the text diffusion process to increase the model’s sensitivity to text information, and the model was fully trained to enhance the overall performance of the model. Experimental results show that the proposed method generates more accurate and rich text descriptions than traditional image captioning methods. The proposed method significantly outperforms other non-autoregressive text generation methods in various evaluation metrics, which showcases the effectiveness and potential of using diffusion models in the task of image captioning.

Keywords: deep learning ; image captioning ; diffusion model ; multi-model encoder ; cascaded structure

PDF (1612KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈巧红, 郭孟浩, 方贤, 孙麒. 基于跨模态级联扩散模型的图像描述方法. 浙江大学学报(工学版)[J], 2025, 59(4): 787-794 doi:10.3785/j.issn.1008-973X.2025.04.014

CHEN Qiaohong, GUO Menghao, FANG Xian, SUN Qi. Image captioning based on cross-modal cascaded diffusion model. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(4): 787-794 doi:10.3785/j.issn.1008-973X.2025.04.014

作为多模态任务的新兴分支,图像描述(image captioning)任务受到越来越多的关注[1-5]. 图像描述任务目的是生成自然句子用于描述图片内容. 受深度学习方法在机器翻译上的启发[6],大部分图像描述模型都采用编码器与解码器架构. 编码器负责提取图像的视觉特征,解码器负责通过视觉特征生成对应描述文本. 早期工作[1,7]将卷积神经网络(CNN)作为编码器去提取图片特征,再将循环神经网络(RNN)或长短时记忆网络(LSTM)作为生成模型产生描述. 为了更好地聚焦受关注的图像区域,Anderson等[8]采用目标检测器(如Fast-RCNN)提取图片特征,并提出自上而下的注意力机制. 刘茂福等[9]提出在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,并提出上下文双注意力机制捕捉更完整的语义信息.

受到如Transformer[10]和BERT[11]的语言模型启发,许多学者致力于研究基于Transformer的图像描述模型,以更好地捕捉图像特征和生成序列之间的关系. 例如,Huang等[12]引入可训练的先验来增强Transformer编码器中的注意机制,并引入网络结构来构建全连接. Pan等[13]将双线性池化集成到Transformer架构中,利用了空间和通道双线性注意分布. Cornia等[14]利用网格结构连接多层编码器和解码器,充分利用低层和高层特征. Wang等[15]将Swin Transformer运用到图像描述领域,引入预融合操作以增强多模态间的特征交互. 这类自回归方法仅支持单向的文本消息传递,通常依赖大量计算资源,计算复杂度与句子长度二次相关. 为了克服这一限制,学者开始关注使用非自回归的方法生成文本. 非自回归的方法能够实现双向文本消息传递,同时生成所有单词,加速处理过程,实现轻量化模型. 例如,Gao等[16]提出掩码非自回归解码,用于并行生成带有增强语义和多样性的标注. Guo等[17]提出的半自回归Transformer可以并行预测一组单词,并从左到右生成这些组,更好平衡了模型描述生成的速度和质量.

随着扩散模型[18-20]在图像生成领域上的成功应用,基于扩散模型的文本生成也成为新的研究方向. 与典型的一次性离散句子生成不同,连续扩散过程被视为参数化的马尔可夫链,逐渐向句子中引入高斯噪声. 通过学习每个逆向状态转移,可以从噪声增强的数据中还原原始句子数据,实现文本的生成. Chen等[21]提出将离散文本编码成二进制位的方法,利用自条件扩散模型生成标注. He等[22]提出以自然的方式转换离散标记,在离散标记上应用连续扩散,成功融合提取的图像特征用于扩散式文本生成. 大多数基于扩散模型的图像描述方法不但存在生成的文本不匹配输入图像,无法有效通过图像的语义条件进行控制以及单词重复或遗漏等问题;在扩散过程中,还存在由于噪声不足导致的训练不充分的问题. 本研究提出基于跨模态级联扩散模型的图像描述方法,引入跨模态语义对齐模块对输入图像视觉语义信息和文本语言信息进行映射对齐,对齐后的语义特征用于指导扩散模型每个逆向状态转移的学习;将级联的方式应用于扩散模型,实现文本的生成,通过加强扩散模型中的噪声计划、充分训练模型来增强语义的连贯性和内容的丰富性.

1. 模型设计

图1所示为跨模态级联扩散模型的整体架构. 将给定图像作为输入,图像描述模型生成描述序列$ S=\{{w}_{1},{w}_{2},\cdots ,{w}_{T}\},{w}_{T}\in D $其中D为词汇总数,T为序列长度. 具体来说,使用来自视觉Transformer模型(ViT)的[CLS]标记位置的输出特征,获取图像的全局特征表示;通过多模态编码器将视觉和语义模态对齐,并通过线性层进行映射. 在解码器端,采用扩散模型构建描述序列的生成,由于文本中的单词是离散数据,受Bit Diffusion[21]中处理方式的启发,将每个单词转换为n个二进制位. 在编码器端,构造跨模态语义对齐模块. 该模块从视觉编码器提取视觉特征,视觉特征通过多模态编码器以捕捉模态间的关系,促进视觉特征和文本特征的语义对齐. 对齐后的特征作为语义条件用于指导扩散模型. 在解码器端,构造级联的扩散模型. 每层扩散模型利用自条件和编码器端输出的多模态条件来学习. 为了实现更好的视觉与文本对齐和语言连贯性,这种级联结构通过在每层扩散模型中加入视觉特征指导扩散过程的方式来逐步增强输出的句子.

图 1

图 1   跨模态级联扩散模型的总体结构

Fig.1   Overall structure of cross-modal cascaded diffusion model


1.1. 跨模态语义对齐模块

对于图像描述模型来说,图像中的视觉对象完整、全面对描述的质量非常重要. 本研究利用ViT提取全面的视觉特征,设计跨模态语义对齐模块对视觉特征和标签文本特征进行模态对齐. 传统的Transformer和注意力机制在产生视觉对象词汇方面具有优势. 相比描述每个视觉区域特征之间的关系,跨模态语义对齐模块由多模态编码器和线性层构成,模块根据当前的文本特征去查询图像特征中进行查询,再通过线性层进行映射. 可以理解为该模块试图找到每张图片的名词视觉对象. 多模态编码器由图像Transformer和文本Transformer这2个模块组成,它们共享相同的自注意力层. 图像Transformer由典型的自注意力层、交叉注意力层和前馈层组成,负责与图像编码器进行交互,用于进行视觉特征提取. 通过一组可学习的查询嵌入输入图像Transformer,在自注意力层中与文本进行交互. 文本Transformer同时充当文本的编码器和解码器,仅包括自注意力层和前馈层. 在训练过程中,文本描述通过词嵌入处理后,进行自注意力的计算,随后与图像Transformer的交叉注意力层的输出进行拼接操作. 给定视觉特征V和初始化的查询参数,视觉-文本语义对齐模块的模态对齐公式为

$ {\boldsymbol{v}}={\mathrm{EC}}\left({\boldsymbol{I}}\right)\text{,} $

$ {\boldsymbol{v}}{'}={\mathrm{MEC}}\;(\bar{{\boldsymbol{v}}},C,E({\boldsymbol{T}}))\text{,} $

$ {{\boldsymbol{v}}}{{''}}=L\left({{\boldsymbol{v}}}{{'}}\right). $

式中:EC (·)为视觉特征编码器;${\boldsymbol{I}}{\text{为输入图像}} $;MEC (·)为多模态编码器;E (·)为词嵌入函数,它将独热编码映射到低维嵌入空间;$ \bar{\boldsymbol{v}} $为经过均值池化的图像特征,$ \bar{{\boldsymbol{v}}}={N}^{-1}\displaystyle\sum\nolimits _{n=1}^{N}{{\boldsymbol{v}}}_{n} $C为随机初始化查询参数;$ \boldsymbol{v}\boldsymbol{{'}}\boldsymbol{{'}} $为语义对齐后的特征向量;L (·)为线性编码. 对齐后的多模态特征作为扩散模型的输入,用于语义条件的控制.

1.2. 级联扩散模型

采用非自回归方法中的扩散模型范式实现双向文本信息传递,同时生成所有单词. 受到级联扩散模型在图像生成方面的成功应用启发[23],使用级联方式堆叠多个扩散模型. 如图2所示,每个扩散模型$ {f}_{i} $均在前一个扩散模型的基础上进行扩散,每层扩散模型接收上一层扩散模型的输出和语义对齐特征作为输入,将语义对齐特征作为语义条件控制扩散过程,并将每层生成结果和控制条件逐层传递. 级联结构能够逐步增强输出的句子,实现更好的视觉特征引导和语言连贯性. 级联的扩散过程表达式为

图 2

图 2   扩散模型的级联结构

Fig.2   Cascaded structure of diffusion model


$ F({{\boldsymbol{X}}}_{t},\gamma (t{'}),{\boldsymbol{v}}{'})=\prod\limits_{n=1}^{N}f_n({{\boldsymbol{X}}}_{t},\gamma \left({t}{{'}}\right),{{\boldsymbol{v}}}{''}). $

式中:N为级联的扩散模型的数量,$ {f}_{i} $(·)为单个扩散模型,$ {{\boldsymbol{X}}}_{t} $为用于生成文本的噪声序列,$ \gamma \left(t{'}\right) $为从0到1的单调递增函数.

1.2.1. 基于Transformer的扩散模型结构

图3所示,扩散模型分为正向过程和反向过程2个部分. 图中,$q({\boldsymbol{X}}_t|{\boldsymbol{X}}_{t-1}) $为正向扩散过程的条件概率分布;$p({\boldsymbol{X}}_{t-1}|{\boldsymbol{X}}_t, {\boldsymbol{I}}_{{\mathrm{img}}}) $为反向去噪过程的条件概率分布;$ {\boldsymbol{I}}_{{\mathrm{img}}} $为跨模态语义对齐模块输出,用于条件化扩散模型反向过程的图像特征,作为语义信息;w为原始文本序列. 正向过程是逐步添加噪声的过程,通过不断加入高斯噪声,使原本数据分布转化为简单的标准高斯分布. 反向过程是去噪的过程,从高斯分布中一步步去除高斯噪声,逐渐接近真实数据分布,达到文本生成的目的. 基于Transformer的编码器-解码器结构的扩散模型包括视觉编码器和文本解码器2个部分. 其中每个编码器都包含1个对多模态特征的自注意力层和1个前馈网络. 编码器第l层接收图像中语义对齐后的多模态特征$ {{\boldsymbol{v}}}{{''}} $进行编码,作为条件语义进行传递. 解码码器都包含1个对噪声序列的自注意力层、1个交叉注意力层和1个前馈网络. 解码器第l层的自注意力层在时间步t接受噪声序列$ {{\boldsymbol{X}}}_{t}=\left[{{\boldsymbol{x}}}_{0}^{t},{{\boldsymbol{x}}}_{1}^{t},\cdots,{{\boldsymbol{x}}}_{n}^{t}\right] $,随后通过交叉注意力层,结合编码后的多模态特征对噪声序列进行控制,最终生成图像描述. 每个扩散 Transformer结构的计算式为

图 3

图 3   扩散模型的正向过程和反向过程

Fig.3   forward process and reverse process of diffusion model


$ {\mathrm{MH}}\left({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}\right)={\mathrm{Concat}}\left({{\boldsymbol{h}}}_{1},\cdots ,{{\boldsymbol{h}}}_{n}\right){{\boldsymbol{W}}}^{O}, $

$ {{\boldsymbol{h}}}_{i}={\mathrm{Att}}\left({\boldsymbol{Q}}{{\boldsymbol{W}}}_{i}^{{\boldsymbol{Q}}},{\boldsymbol{K}}{{\boldsymbol{W}}}_{i}^{{\boldsymbol{K}}},{\boldsymbol{Q}}{{\boldsymbol{W}}}_{i}^{{\boldsymbol{V}}}\right), $

$ {\mathrm{Att}}\left({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}\right)={\mathrm{softmax}}\left(\frac{{\boldsymbol{Q}}{{\boldsymbol{K}}}^{{\mathrm{T}}}}{\sqrt{{d}_{k}}}\right){\boldsymbol{V}}, $

$ {V}{{'}}={\mathrm{LN}}\left({{\boldsymbol{v}}}{{''}}+\mathrm{F}\mathrm{F}\mathrm{N}\left(T({{\boldsymbol{v}}}{'''}\right)\right), $

$ T\left(X\right)={\mathrm{LN}}\left(X+\mathrm{M}\mathrm{H}\left(X,X,X\right)\right), $

$ O={\mathrm{FFN}}\left(\mathrm{L}\mathrm{N}\left({{\boldsymbol{X}}}_{t}+\mathrm{M}\mathrm{H}\left(T\left({{\boldsymbol{X}}}_{t}\right),V{'},V{'}\right)\right)\right). $

式中:MH为多头注意力层,Att为注意力层,softmax为激活函数,LN为层归一化,FFN为前馈神经网络,QKV均为输入特征矩阵,${\boldsymbol{h}}_{i} $为单头注意力输出,${\boldsymbol{W}}^O $为线性投影参数,${\boldsymbol{W}}^Q $${\boldsymbol{W}}^K $${\boldsymbol{W}}^V $均为注意力头参数,dk为缩放因子,X为作残差使用的输入特征.

1.2.2. 扩散模型正向过程

正向过程被定义为马尔可夫链,逐渐向句子数据${\boldsymbol{X}}_0 $添加噪声,得到一系列逐渐嘈杂的Xt,其中t从0到1.0,代表从最不嘈杂到最嘈杂. 为了缓解标准高斯噪声带来的不充分训练,对每个步骤中添加的噪声规模进行增强,对噪声规模进行放大,将正向过程$ q\left({{\boldsymbol{X}}}_{t}|{{\boldsymbol{X}}}_{t-1}\right) $的协方差矩阵从$ {\beta }_{t}\boldsymbol{E} $推广到$ P{\beta }_{t}{{{\boldsymbol{E}}}} $. 对于任意t ∈ [0, 1],从X0Xt的正向状态转移计算式为

$ q\left({{\boldsymbol{X}}}_{t}|{{\boldsymbol{X}}}_{t-1}\right)=N\left({{\boldsymbol{X}}}_{t};\sqrt{1-{\beta }_{t}}{{\boldsymbol{X}}}_{t-1},P{\beta }_{t}\boldsymbol{E}\right). $

式中:$ {\beta }_{t} $为在时间步t时添加的噪声水平,P为噪声的增强级别,${\boldsymbol{E}} $为单位矩阵.

1.2.3. 扩散模型反向过程

扩散模型的反向过程通过反向状态转换来实现:$ {{\boldsymbol{X}}}_{T}\to {{\boldsymbol{X}}}_{T-i }\to \cdots\to {\boldsymbol{X}}_{0} $,该过程实现从基于Transformer的扩散模型中生成与给定图像相关的句子. 反向过程采样一系列的潜在状态$ {{\boldsymbol{X}}}_{T} $,通过在每个$ {{\boldsymbol{X}}}_{T} $上迭代去噪函数f来估计$ {{\boldsymbol{X}}}_{0} $

$ {p}_{\theta }\left({{\boldsymbol{X}}}_{t-1}|{{\boldsymbol{X}}}_{t},{{\boldsymbol{I}}}_{{\mathrm{img}}}\right)= N\left({{\boldsymbol{X}}}_{t-1};{\mu }_{\theta }\left({{\boldsymbol{X}}}_{t},t\right),{\sum }_{\theta }\left({{\boldsymbol{X}}}_{t},t\right)\right). $

式中:$ {\mu }_{\theta }\left(\right) $$ {\displaystyle\sum }_{\theta }\left(\right) $分别为$ q\left({{\boldsymbol{X}}}_{t-1}|{{\boldsymbol{X}}}_{t}\right) $的预测均值和协方差,$ \theta $为模型参数.

1.3. 损失函数

训练图像描述模型通常使用交叉熵损失,

$ {L}_{\mathrm{X}\mathrm{E}}\left(\theta \right)=\sum _{t=1}^{T}\mathrm{l}\mathrm{g}\left({p}_{\theta }\left({y}_{t}^{*}|{y}_{1:T}^{*}\right)\right). $

式中:$y_t^*$为当前位置预测的序列值,$ {y}_{1:T}^{*} $ 为目标的真实序列值. 在扩散模型中,通过L2回归损失进行训练,重构X0,进行去噪处理:

$ \begin{split} {L}_{\mathrm{b}\mathrm{i}\mathrm{t}}=& {{E}}_{t\sim {U}\left(0,T\right),{\boldsymbol{\epsilon}}\sim {N}\left(\mathrm{0,1}\right)}\left|\right|f(\sqrt{\gamma \left(t\right)}{{\boldsymbol{X}}}_{0}+\\ & \sqrt{\left(1-\gamma \left(t\right)\right)}{\boldsymbol{\epsilon}} ,t)-{{\boldsymbol{X}}}_{0}{\left|\right|}^{2},\end{split} $

$ L={L}_{\mathrm{X}\mathrm{E}}+{L}_{\mathrm{b}\mathrm{i}\mathrm{t}}. $

式中:γ(t)为单调递增的函数.

2. 实验结果与分析

2.1. 数据集与评价指标介绍

将Microsoft COCO[24]和Flickr30k[25]作为基准数据集开展不同图像描述模型的性能比较实验. Microsoft COCO是图像描述任务最大的公共数据集,包含123 287张图片,其中82 783张图片用于训练,40 504张图片用于验证,每张图片有5个不同的描述. 在模型评估上,将Microsoft COCO按照Karpathy等[26]所提方法进行分割,训练、验证和测试阶段分别对应113 287、5 000和5 000张图片. Flickr30k是Flickr8k数据集的扩展,主要涵盖人类的日常活动和事件,包含158 915个句子描述和31 783张来自Flickr的图像. 数据集的每张图片都有5个参考描述. 为了确保与现有研究的公平比较,使用公开可获取的训练-测试集划分,训练、验证和测试阶段分别对应29 783、1 000和1000张图像. 使用评价指标:BLEU[27]、METEOR[28]、ROUGE[29]和CIDEr[30]公平地评估所生成描述的质量.

2.2. 实验细节

对每张图片,使用BLIP[31]中的ViT-L/14作为图像编码器,多模态编码器采用基于BERT预训练权重进行初始化,其中交叉注意力层参数的权重进行随机初始化,其他训练超参数遵循CLIP[32]中的配置. 在文本处理过程中,删除标点符号并将字母转换成小写,描述都被截断成20个单词,使用SpaPy工具包进行标记化处理. 在词嵌入操作过程中,将词汇表中的单词映射到实数向量空间,调整所有输入图像的大小,使短边和长边的最大尺寸分别为384和640. 每个扩散模型的编码器和解码器均由3个 Transformer层组成,每层包含8个注意力头和512个隐藏状态. 使用交叉熵损失和L2损失训练模型60个周期,将网络学习率固定在1.0×10−5. 参数优化使用Adam[33]优化器,描述语句生成采用集束搜索方式,束大小为5. 整个系统由PyTorch实现,所有实验都在2×Nvidia 4090 GPU上进行.

2.3. 消融实验

为了验证跨模态语义对齐模块的效果,评估该模块输出作为语义条件对扩散模型的控制作用,开展消融实验,结果如表1表2所示. 表中,跨模态语义对齐模块表示为SAM,多模态编码器表示为ME,级联扩散模型表示为CDM,对编码后的特征进行线性映射表示为Linear;B@1、B@4、MRC分别对应评估指标BLEU-1、BLEU-4、METEOR、ROUGE和CIDEr. 表1中基线模型(无SAM和CDM)使用经典扩散过程来训练单个扩散Transformer. 可以看出,添加模块的模型性能均较基线模型性能有所提升,其中跨模态语义对齐模块的作用效果最为显著. 由表2可以看出,相比直接使用图像特征或只使用多模态编码器但不使用线性层来映射的方法,语义对齐模块在CIDEr指标上有显著提升,表明语义对齐模块可以通过对齐视觉语义和文本语义来提高描述的质量,并且线性层的映射对性能的改进至关重要.

表 1   模型在2个数据集上的模块消融实验

Tab.1  Module ablation experiment of model in two datasets

SAMCDMMicrosoft COCOFlickr30k
B@1B@4MRCB@1B@4MRC
××77.634.527.556.5115.268.527.522.250.159.1
×78.934.827.556.8116.169.728.322.550.962.0
×80.038.228.357.8128.772.229.823.451.863.5
81.239.929.058.9133.874.531.223.953.265.4

新窗口打开| 下载CSV


表 2   跨模态语义对齐模块在2个数据集上的消融实验

Tab.2  Ablation experiment of cross-modal semantic alignment module in two datasets

MELinearMicrosoft COCOFlickr30k
B@1B@4MRCB@1B@4MRC
××78.934.827.556.8116.170.128.522.851.262.3
×80.537.728.257.3128.572.630.123.451.963.8
81.239.929.058.9133.874.531.223.953.265.4

新窗口打开| 下载CSV


比较级联扩散模型中不同级联层参数k,结果如表3所示. 由表可知,k对性能的影响较大,当k=3时,模型性能取得最优. 其中k=1时比k=3时,CIDEr度量低4.5. 如图4所示,为了更直观地展示级联层参数对效果的影响,对不同级联层参数的模型生成的描述结果进行可视化展示. 由图可知,随着k的增加,生成的描述质量相应提高,当k较低时,描述文本容易出现省略或重复的情况.

表 3   基于级联扩散模型的层参数选择实验

Tab.3  Selection experiment of layer parameter based on cascaded diffusion model

kB@1B@4MRC
180.438.328.858.6129.3
281.039.729.058.8132.9
381.239.929.058.9133.8
480.839.328.958.9132.5

新窗口打开| 下载CSV


图 4

图 4   扩散模型不同层参数的文本生成描述结果

Fig.4   Results of text generation by different layer parameters of diffusion model


研究扩散模型中噪声增强级别P的有效性,结果如表4所示,其中P=1,代表不对噪声计划进行增强. 由表可知,随着噪声水平的逐渐增强,模型性能呈递增趋势,在P=4时达到最优. 当P>4时,模型性能急剧下降. 如图5所示,观察不同噪声增强级别在扩散模型正向过程中对训练的影响,当P=1时,在正向过程q的大多数步骤中,简单的降噪任务通过在噪声预测标记可以获得很高的准确率Acc. 说明在噪声的添加后,分布仍接近原有空间,表明在这些步骤中模型训练不充分.

表 4   扩散模型的噪声增强级别选择实验

Tab.4  Selection experiment of noise enhancement level for diffusion model

PB@1B@4MRC
180.538.428.758.3129.5
280.738.728.858.5130.5
380.939.228.858.7132.3
481.239.929.058.9133.8
580.438.228.558.5128.9

新窗口打开| 下载CSV


图 5

图 5   不同噪声增强级别对准确率的影响

Fig.5   Impact of different noise enhancement levels on accuracy


2.4. 实验结果对比

在Microsoft COCO和Flickr30k数据集中,将所提模型与常见模型进行性能比较,结果如表5表6所示. 这些模型包括自回归方式的NBT[34]、SCST[35]、Updown[8]、RFNet[36]、GCN-LSTM[37]、ORT[38]、AoANet[12]、M2-Transformer[14]、X-Transformer[13]、RSTNet[39]、BLIP[31]和ConCap[40],非自回归方式的MNIC[16]、SATIC[20]、Bit-Diffusion[21]、DiffCap[22]和E2E[41]. 由表5可知,相比非自回归方法,所提方法的BLEU和CIDEr均为最优;相比自回归方法,2项指标都有显著提高. 由表6可知,所提模型在Flickr30k数据集上的各项指标均达到最优.

表 5   Microsoft COCO 数据集中不同图像描述模型的性能对比

Tab.5  Performance comparison of different image description models in Microsoft COCO dataset

模型类别模型B@1B@4MRC
自回归方法SCST[35]34.226.755.7114.0
UpDown[8]79.836.527.757.3120.1
RFNet[36]79.136.527.757.3121.9
GCN-LSTM[37]80.538.228.558.3127.6
ORT[38]80.538.628.758.4128.3
AoANet[12]80.238.929.258.8129.8
M2-Transformer[14]80.839.129.258.6131.2
X-Transformer[13]80.939.729.559.1133.8
RSTNet[39]81.139.329.458.8133.3
BLIP[31]39.7133.3
ConCap[40]40.530.9133.7
非自回归方法MNIC[16]75.430.927.555.6108.1
SATIC[20]80.637.928.6127.2
Bit-Diffusion[21]34.758.0115.0
DiffCap[22]31.626.557.0104.3
E2E[41]79.736.927.958.0122.6
本研究81.239.929.058.9133.8

新窗口打开| 下载CSV


表 6   Flickr30k 数据集中不同图像描述模型的性能对比

Tab.6  Performance comparison of different image description models in Flickr30k dataset

模型B@1B@4MC
Deep VS[26]57.315.715.324.7
Soft-Attention[2]66.719.118.5
Hard-Attention[2]66.919.918.5
Adaptive[42]67.725.120.453.1
NBT[34]69.027.121.757.5
Relation-Context[3]73.630.123.860.2
LSTNet[43]67.123.320.464.5
本研究74.531.223.965.4

新窗口打开| 下载CSV


比较不同图像描述模型在模型参数量NP和推理速度vd上的差异,结果如图6所示. 可以看出,所提模型的参数量最少,不仅在资源利用方面更加高效,而且降低了实验的复杂度;在推理速度方面,所提模型的优势明显,表现出更快的响应速度和更高的效率.

图 6

图 6   不同图像描述模型的参数量和推理速度

Fig.6   Parameter quantity and inference speed for different image description models


2.5. 定性分析

图7所示为本研究所提方法和Bit Diffusion在Microsoft COCO数据集上生成的描述示例对比. 可以看出,2种非自回归方法都能够在某种程度上生成与语义相关和语言连贯的描述. Bit Diffusion有时会生成具有单词缺失或重复的低质量描述(在图7(c)中关于“car”的缺失). 所提模型强化了视觉和文本的语义对齐,在扩散模型的生成过程中更好地通过视觉特征引导文本的生成,生成了更准确和描述性更强的描述. 此外,所提模型生成结果语义更加丰富,能够更好地描述图像中的关键信息.

图 7

图 7   不同非自回归方法在 Microsoft COCO 数据集上生成的图像描述

Fig.7   Image descriptions generated by different non-autoregressive methods in Microsoft COCO dataset


3. 结 论

本研究提出非自回归生成网络架构,用于图像描述任务,通过跨模态语义对齐模块将视觉特征和文本特征之间的语义对齐,以此作为文本扩散模型的语义条件. 所提模型能够有效处理复杂的输入,根据图像的语义信息对生成描述进行控制,提升图像描述的生成质量. 设计级联式的扩散模型结构用于生成文本,显著加快了生成速度且结果具有多样性. 针对文本扩散模型中噪声计划进行增强,解决了模型训练不充分的问题. 通过基线对比进行模型验证,在Microsoft COCO数据集上,所提模型在生成质量上超过传统的自回归方法,在推理速度上具有竞争力. 与其他的非自回归方法相比,所提模型的生成质量最优,且在生成速度上也表现出色,良好平衡了生成速度与生成质量. 然而,本研究在模型视觉特征提取环节,仍依赖额外的视觉编码器,导致在特征提取过程中计算资源消耗过大. 未来研究将聚焦于探索基于端到端的图像描述模型.

参考文献

VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 3156–3164.

[本文引用: 2]

XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention [C]// Proceedings of the 32nd International Conference on Machine Learning . Lille: [s. n.], 2015: 2048–2057.

[本文引用: 2]

陈巧红, 裴皓磊, 孙麒

基于视觉关系推理与上下文门控机制的图像描述

[J]. 浙江大学学报: 工学版, 2022, 56 (3): 542- 549

[本文引用: 1]

CHEN Qiaohong, PEI Haolei, SUN Qi

Image caption based on relational reasoning and context gate mechanism

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (3): 542- 549

[本文引用: 1]

王鑫, 宋永红, 张元林

基于显著性特征提取的图像描述算法

[J]. 自动化学报, 2022, 48 (3): 735- 746

WANG Xin, SONG Yonghong, ZHANG Yuanlin

Salient feature extraction mechanism for image captioning

[J]. Acta Automatica Sinica, 2022, 48 (3): 735- 746

卓亚琦, 魏家辉, 李志欣

基于双注意模型的图像描述生成方法研究

[J]. 电子学报, 2022, 50 (5): 1123- 1130

DOI:10.12263/DZXB.20210696      [本文引用: 1]

ZHUO Yaqi, WEI Jiahui, LI Zhixin

Research on image captioning based on double attention model

[J]. Acta Electronica Sinica, 2022, 50 (5): 1123- 1130

DOI:10.12263/DZXB.20210696      [本文引用: 1]

SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems . Montreal: ACM, 2014: 3104–3112.

[本文引用: 1]

MAO J, XU W, YANG Y, et al. Explain images with multimodal recurrent neural networks [EB/OL]. (2014–10–04)[ 2023–10–20]. https://arxiv.org/pdf/1410.1090.

[本文引用: 1]

ANDERSON P, HE X, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 6077–6086.

[本文引用: 3]

刘茂福, 施琦, 聂礼强

基于视觉关联与上下文双注意力的图像描述生成方法

[J]. 软件学报, 2022, 33 (9): 3210- 3222

[本文引用: 1]

LIU Maofu, SHI Qi, NIE Liqiang

Image captioning based on visual relevance and context dual attention

[J]. Journal of Software, 2022, 33 (9): 3210- 3222

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . [S. l.]: Curran Associates Inc. , 2017: 6000–6010.

[本文引用: 1]

DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019–05–24)[2023–10–20]. https://arxiv.org/pdf/1810.04805.

[本文引用: 1]

HUANG L, WANG W, CHEN J, et al. Attention on attention for image captioning [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 4634–4643.

[本文引用: 3]

PAN Y, YAO T, LI Y, et al. X-linear attention networks for image captioning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 10971–10980.

[本文引用: 3]

CORNIA M, STEFANINI M, BARALDI L, et al. Meshed-memory transformer for image captioning [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 10578–10587.

[本文引用: 3]

WANG Y, XU J, SUN Y

End-to-end transformer based model for image captioning

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36 (3): 2585- 2594

DOI:10.1609/aaai.v36i3.20160      [本文引用: 1]

GAO J, MENG X, WANG S, et al. Masked non-autoregressive image captioning [EB/OL]. (2019–06–03) [2023–10–20]. https://arxiv.org/pdf/1906.00717.

[本文引用: 3]

GUO L, LIU J, ZHU X, et al. Non-autoregressive image captioning with counterfactuals-critical multi-agent learning [C]// Proceedings of the 29th International Joint Conference on Artificial Intelligence . Yokohama: ACM, 2021: 767–773.

[本文引用: 1]

HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems . Vancouver: ACM, 2020: 6840–6851.

[本文引用: 1]

SONG J, MENG C, ERMON S. Denoising diffusion implicit models [C]// International Conference on Learning Representations . [S.l.]: ICLR, 2020: 1–20.

ZHOU Y, ZHANG Y, HU Z, et al. Semi-autoregressive transformer for image captioning [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops . Montreal: IEEE, 2021: 3139–3143.

[本文引用: 3]

CHEN T, ZHANG R, HINTON G. Analog bits: generating discrete data using diffusion models with self-conditioning [C]// International Conference on Learning Representations . [S.l.]: ICLR, 2023: 1–23.

[本文引用: 4]

HE Y, CAI Z, GAN X, et al. DiffCap: exploring continuous diffusion on image captioning [EB/OL]. (2023–05–20) [2023–10–20]. https://arxiv.org/pdf/2305.12144.

[本文引用: 3]

HO J, SAHARIA C, CHAN W, et al

Cascaded diffusion models for high fidelity image generation

[J]. Journal of Machine Learning Research, 2022, 23 (1): 2249- 2281

[本文引用: 1]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Computer Vision – ECCV 2014 . [S.l.]: Springer, 2014: 740–755.

[本文引用: 1]

PLUMMER B A, WANG L, CERVANTES C M, et al. Flickr30k entities: collecting region-to-phrase correspondences for richer image-to-sentence models [C]// Proceedings of the IEEE International Conference on Computer Vision . Santiago: IEEE, 2015: 2641–2649.

[本文引用: 1]

KARPATHY A, LI F F. Deep visual-semantic alignments for generating image descriptions [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 3128–3137.

[本文引用: 2]

PAPINENI K, ROUKOS S, WARD T, et al. BLEU: a method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics . Philadelphia: ACL, 2002: 311–318.

[本文引用: 1]

DENKOWSKI M, LAVIE A. Meteor 1.3: automatic metric for reliable optimization and evaluation of machine translation systems [C]// Proceedings of the Sixth Workshop on Statistical Machine Translation . Edinburgh: ACL, 2011: 85–91.

[本文引用: 1]

LIN CY. ROUGE: a package for automatic evaluation of summaries [C]// Text Summarization Branches Out . Barcelona: ACL, 2004: 74–81.

[本文引用: 1]

VEDANTAM R, ZITNICK C L, PARIKH D. CIDEr: consensus-based image description evaluation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Boston: IEEE, 2015: 4566–4575.

[本文引用: 1]

LI J, LI D, XIONG C, et al. BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation [C]// Proceedings of the International Conference on Machine Learning . [S. l.]: PMLR, 2022: 12888–12900.

[本文引用: 3]

RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision [C]// Proceedings of the International Conference on Machine Learning . [S. l.]: PMLR, 2021: 8748–8763.

[本文引用: 1]

KINGMA D P, BA J. ADAM: a method for stochastic optimization [EB/OL]. (2017–03–30)[2023–10–20]. https://arxiv.org/pdf/1412.6980.

[本文引用: 1]

LU J, YANG J, BATRA D, et al. Neural baby talk [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 7219–7228.

[本文引用: 2]

RENNIE S J, MARCHERET E, MROUEH Y, et al. Self-critical sequence training for image captioning [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 1179–1195.

[本文引用: 2]

JIANG W, MA L, JIANG Y G, et al. Recurrent fusion network for image captioning [C]// Computer Vision – ECCV 2018 . [S.l.]: Springer, 2018: 510–526.

[本文引用: 2]

YAO T, PAN Y, LI Y, et al. Exploring visual relationship for image captioning [C]// Computer Vision – ECCV 2018 . [S.l.]: Springer, 2018: 711–727.

[本文引用: 2]

HERDADE S, KAPPELER A, BOAKYE K, et al. Image captioning: transforming objects into words [EB/OL]. (2020–01–11)[2023–10–20]. https://arxiv.org/pdf/1906.05963.

[本文引用: 2]

ZHANG X, SUN X, LUO Y, et al. RSTNet: captioning with adaptive attention on visual and non-visual words [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 15465–15474.

[本文引用: 2]

WANG N, XIE J, WU J, et al

Controllable image captioning via prompting

[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37 (2): 2617- 2625

DOI:10.1609/aaai.v37i2.25360      [本文引用: 2]

YU H, LIU Y, QI B, et al. End-to-end non-autoregressive image captioning [C]// Proceedings of the ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing . Rhodes Island: IEEE, 2023: 1–5.

[本文引用: 2]

LU J, XIONG C, PARIKH D, et al. Knowing when to look: adaptive attention via a visual sentinel for image captioning [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Honolulu: IEEE, 2017: 375–383.

[本文引用: 1]

MA Y, JI J, SUN X, et al

Towards local visual modeling for image captioning

[J]. Pattern Recognition, 2023, 138: 109420

DOI:10.1016/j.patcog.2023.109420      [本文引用: 1]

/