基于生成对抗网络的文本两阶段生成高质量图像方法

doi:10.3785/j.issn.1008-973X.2024.04.003

基于生成对抗网络的文本两阶段生成高质量图像方法

曹寅^,, 秦俊平^,, 高彤, 马千里, 任家琪

1. 内蒙古工业大学数据科学与应用学院，内蒙古呼和浩特 010051

2. 内蒙古自治区基于大数据的软件服务工程技术研究中心，内蒙古呼和浩特 010000

3. 北京工业大学信息学部，北京 100124

Generative adversarial network based two-stage generation of high-quality images from text

CAO Yin^,, QIN Junping^,, GAO Tong, MA Qianli, REN Jiaqi

1. College of Data Science and Applications, Inner Mongolia University of Technology, Hohhot 010051, China

2. Inner Mongolia Autonomous Region Engineering Technology Research Center of Big Data Based Software Service, Hohhot 010000, China

3. Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China

通讯作者: 秦俊平，男，教授. orcid.org/0000-0002-6217-3519. E-mail：qinjunping30999@sina.com

收稿日期: 2023-05-22

基金资助:

国家自然科学基金资助项目（61962044）；内蒙古自治区自然科学基金资助项目（2019MS06005）；内蒙古自治区科技重大专项（2021ZD0015）；自治区直属高校基本科研业务费项目（JY20220327）.

Received: 2023-05-22

Fund supported:

作者简介 About authors

曹寅（1998—），男，硕士生，从事计算机视觉研究.orcid.org/0000-0002-8759-0888.E-mail：c1122335966@163.com , E-mail：c1122335966@163.com

摘要

为了解决传统文本生成图像方法生成图像质量差和文本描述与生成图像不一致问题，以多种损失函数为约束，提出深度融合注意力的生成对抗网络方法（DFA-GAN）. 采用两阶段图像生成，以单级生成对抗网络（GAN）为主干，将第一阶段生成的初始模糊图像输入第二阶段，对初始图像进行高质量再生成，以提升图像的生成质量. 在图像生成的第一阶段，设计视觉文本融合模块，深度融合文本特征与图像特征，将文本信息充分融合在不同尺度的图像采样过程中. 在图像生成的第二阶段，为了充分融合图像特征与文本描述词特征，提出以改进后的Vision Transformer为编码器的图像生成器.定量与定性实验结果表明，对比其他主流模型，所提方法提高了生成图像的质量，与文本描述更加符合.

关键词： 文字生成图像 ; 深度融合 ; 生成对抗网络（GAN） ; 多尺度特征融合 ; 语义一致性

Abstract

A generative adversarial network with deep fusion attention (DFA-GAN) was proposed, using multiple loss functions as constraints, to address the issues of poor image quality and inconsistency between text descriptions and generated images in traditional text-to-image generation methods. A two-stage image generation process was employed with a single-level generative adversarial network (GAN) as the backbone. An initial blurry image which was generated in the first stage was fed into the second stage, and high-quality image regeneration was achieved to enhance the overall image generation quality. During the first stage, a visual-text fusion module was designed to deeply integrate text features and image features, and text information was adequately fused during the image sampling process at different scales. In the second stage, an image generator with an improved Vision Transformer as the encoder was proposed to fully fuse image features with text description word features. Quantitative and qualitative experimental results showed that the proposed method outperformed other mainstream models in terms of image quality improvement and alignment with text descriptions.

Keywords： text-to-image ; deep fusion ; generative adversarial network(GAN) ; multi-scale feature fusion ; semantics consistency

PDF (7066KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

曹寅, 秦俊平, 高彤, 马千里, 任家琪. 基于生成对抗网络的文本两阶段生成高质量图像方法. 浙江大学学报(工学版)[J], 2024, 58(4): 674-683 doi:10.3785/j.issn.1008-973X.2024.04.003

CAO Yin, QIN Junping, GAO Tong, MA Qianli, REN Jiaqi. Generative adversarial network based two-stage generation of high-quality images from text. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(4): 674-683 doi:10.3785/j.issn.1008-973X.2024.04.003

生成对抗网络^[1]（generative adversarial networks，GAN）自问世以来，凭借其生成图像的真实性，将各个领域的生成类任务都带入快速发展时期. 文本生成图像方法在计算机辅助设计、辅助影视内容创作、图像编辑等领域的实用价值巨大，由此依据GAN改进的文本生成图像相关方法不断涌现^[2-5]. 为了确保从给定的文本描述中生成与语义一致的高质量图像，主流的文本生成图像方法^[2,6-8]以堆叠式的GAN结构作为主干，通过额外加入如循环一致性网络^[8]、注意力机制网络^[2]的模型来学习高维空间中的文本特征与图像特征.

尽管主流的文本生成图像方法取得了很多令人瞩目的成果，但仍然存在2个待解决的问题：1）堆叠式架构会导致网络中不同阶段的生成器相互纠缠，进而影响图像的生成质量；2）网络不能有效理解并融合文本特征和图像特征，导致生成图像与语义信息不一致. 有研究者使用以单级GAN为主干架构的模型去解决堆叠式架构生成图像质量低的问题，例如DF-GAN^[9]. 但这类模型无法同时融合句特征和词特征，降低了生成图像和文本描述的一致性. 现有模型大多通过简单拼接文本特征和图像特征来学习融合文本特征和图像特征之间的特征，由于文本信息无法最大程度地融入生成图像，导致生成的图像与文本描述不一致.

本研究提出深度融合注意力的生成对抗网络方法（generative adversarial network with deep fusion attention，DFA-GAN）；采用两阶段模型生成图像，分别为深度融合文本特征的图像生成阶段和注意力机制优化图像生成阶段. 2个阶段都以单级GAN为主干，将第一阶段生成的初始模糊图像输入第二阶段，对初始图像进行高质量再生成. 为了解决堆叠式架构不同生成器之间相互纠缠导致最终生成低质量图像问题，分别训练DFA-GAN的2个阶段网络，同时网络模型都以单级GAN为主干架构，避免生成简单拼凑效果的图像. 在第一阶段的网络中，提出视觉文本融合模块（visual-text fusion block，VTFBlock）深度融合文本特征与图像特征，并在不同尺度的图像采样过程中，充分融合文本信息. 为了优化第一阶段生成的模糊图像，在第二阶段中采用改进的Vision Transformer^[10]（ViT）对第一阶段的生成图像进行再编码，将ViT输出的图像特征与文本描述中的词特征融合，保证图像特征与文本特征在高维空间中保持语义一致. 使用ViT模型学习局部特征和全局特征之间的关联，不仅进行文本对应的图像区域优化，还进行图像整体优化，以确保DFA-GAN生成符合文本描述的高质量图像.

1. 相关工作

Reed等^[11]将GAN应用于文本生成图像任务提出的GAN-INT-CLS模型，引发基于GAN的文本生成图像方法的研究热潮. 在文本生成图像任务中，为了能够生成符合文本描述的高质量图像，不断有新的改进方法被提出，包括采用多层次体系嵌套GAN方法、加入注意力机制模型、利用循环一致性方法等. Zhang等^[7]采用多层次体系嵌套方法提出的StackGAN模型^[6]和StackGAN++模型提升了生成图像的分辨率，但由于没有深度的融合文本信息和图像信息，导致生成的图像与描述文本语义产生较大偏差，如图1（a）所示. AttnGAN模型^[2]提出将文本描述中的词特征和图像特征以交叉注意力编码的方式进行融合，该模型同样采用多层次体系嵌套GAN作为主干，除了第一层GAN网络用于融合文本整体特征外，其余嵌套的GAN网络都是利用图像特征与词特征的注意力权重将文本特征动态地融合到图像特征中. 在AttnGAN模型取得的显著成果下，研究者在AttnGAN模型的基础上不断提出改进. MirrorGAN模型^[8]的提出受了CycleGAN模型^[12]的启发，循环一致性方法被引入文本生成图像任务中，极大提升了生成图像的文本图像语义一致性. 贺小峰等^[13-15]提出的模型均以多层次体系嵌套GAN为主干，生成图像质量不高，如图1（b）所示.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 主流方法生成图像的问题

Fig.1 Problems with mainstream methods of generating images

DF-GAN模型以单级GAN为主干，由匹配感知梯度惩罚和单向输出组成的判别器使得生成图像能够又快又好地收敛到与文本匹配的真实数据上. 该模型能够深度融合文本图像块，帮助模型学习文本描述和图像之间的联系，以引导文本特征与图像特征融合. 由于单级GAN为主干，输入内容有限，DF-GAN模型不能同时关注整体文本信息与词级信息，导致生成图像与描述文本之间出现语义不一致的情况. Sheynin等^[16-17]采用扩散模型和自回归模型来执行文本生成图像任务，相较于基于GAN的文本生成图像方法，这2种模型在生成的图像方面有着显著能力，不仅文本与图像的匹配度高，而且生成图像的质量高. 由于基于GAN的生成方法具备训练时间短、模型规模小的特点，值得持续研究和改进.

2. 深度融合注意力的生成对抗网络

如图2所示，将文本输入DFA-GAN后，经由2个不同的阶段生成优质图像. 第一阶段（深度融合文本特征的图像生成阶段）通过输入（0，1）分布的噪声向量和句子特征向量${{\bf\textit{φ}}_{\mathrm{t}}}$，得到第一阶段生成图像. 将第一阶段的生成图像和词特征$ {{\bf\textit{φ}}_{\mathrm{w}}} $输入第二阶段（注意力机制优化图像生成阶段），得到最终优化后的生成图像.两阶段均须采用判别器判别监督.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 所提供方法的模型结构图

Fig.2 Model architecture diagram of proposed method

2.1. 深度融合文本特征的图像生成阶段

在基于GAN的通过文本描述生成图像的方法中，通常先将整个文本描述编码为特征向量，经过与图像特征向量简单的拼接进行生成图像^[3,18]，导致文本特征与图像特征没有充分的结合. DFA-GAN在深度融合文本特征的图像生成阶段将文本特征和图像特征进行充分融合，以生成语义一致的图像.

描述文本须进行预处理，文本编码器采用双向长短时记忆网络^[19]（bi-directional long short-term memory，Bi-LSTM）来提取${{\bf\textit{φ}}_{\mathrm{t}}}$和词特征向量. 将噪声z和${{\bf\textit{φ}}_{\mathrm{t}}}$输入上采样层，通过VTFBlock将文本特征与图像特征深度融合，使得图像特征能够充分学习文本特征，生成与文本语义一致的图像. 如图3所示，该阶段生成器中共有7个上采样层，每个上采样层之间包含1个VTFBlock. VTFBlock由3个仿射变换层和ReLU层堆叠拼接组成，在经过上采样层逐层提取不同尺度的图像特征后，通过仿射变换将文本特征条件充分与不同尺度的图像特征融合，使得模型能够学习到文本语义与图像之间的深层次联系. 将ReLU层穿插式地加入VTFBlock，目的是在仿射变换造成的文本与图像线性关联中带入非线性的变化，从而更好地拟合文本特征与图像特征，这样不仅扩大了文本语义的表示空间，而且提升了视觉特征的多样性.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 深度融合文本特征的图像生成阶段结构图

Fig.3 Architecture diagram for image generation stage of deep fusion of text features

将文本特征输入2个独立的多层感知机（multilayer perceptron，MLP），获得语言条件在图像特征上的缩放通道参数${\boldsymbol{\alpha }}$和位移参数${\boldsymbol{\beta}} $. 对于给定的输入图像特征Z，先使用缩放参数在图像特征的每一通道上进行缩放，再使用位移参数对图像特征的每一通道位移，表达式为

(1)$ {\boldsymbol{\alpha}} = {{{\mathrm{MLP}}} _1}({{\bf\textit{φ}}_{\mathrm{t}}}). $

(2)$ {\boldsymbol{\beta}} = {{{\mathrm{MLP}}} _2}({{\bf\textit{φ}}_{\mathrm{t}}}). $

(3)$ {{{\boldsymbol{Z}}}} = \left\{ {{{{\boldsymbol{z}}}}_i}\left| {{{{\boldsymbol{z}}}}_i} \in {{{\bf{R}}}^{{{B}} \times {{H}} \times {{W}}}} \right\};\; i = 1,2, \cdots ,{{C}} \right. . $

(4)$ {{{{\boldsymbol{x}}}}_i} = {{\boldsymbol{\alpha}} _i} \times {{{{\boldsymbol{z}}}}_i}+{{\boldsymbol{\beta}} _i};\;i = 1,2, \cdots ,{{C}}. $

式中：${{B}} \times {{H}} \times {{W}}$为输入图像特征张量数据，${{B}}$为批量大小，${{H}}$为输入图像特征的高度，${{W}}$为输入图像特征的宽度，${{C}}$为特征通道数. 对每一图像特征通道上$ {{{\boldsymbol{z}}}_i} $进行缩放$ {{\boldsymbol{\alpha}} _i} $和位移$ {{\boldsymbol{\beta}} _i} $，得到融合文本特征后的每一通道的图像特征$ {{{\boldsymbol{x}}}_i} $. 将每个通道下图像特征可视化，得到如图4所示的不同的特征图. 融合所有特征图可以看到，在不同尺度下图像特征结合文本特征逐渐学习符合文本描述的图像特征，生成更多的图像细节信息. 将融合了文本特征的图像特征输入一系列卷积层进行解码即可生成一阶段图像，再将一阶段生成图像输入判别器进行判别生成图像和真实图像，提升生成图像的质量与语义一致性.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 文本特征与图像特征的多尺度融合

Fig.4 Multi-scale fusion of text features and image features

2.2. 注意力机制优化图像生成阶段

经过第一阶段，文本特征与图像特征得以充分融合. 但是，第一阶段的图像仍然存在图像模糊、整体抽象以及生成图像与文本个别词语存在歧义等问题. 第二个阶段的主要任务是优化生成图像的质量，使生成的图像更符合文本的语义，并且更加真实.

第二阶段的输入为第一阶段生成的图像与词特征向量${{\timesibfont{\text{φ}}}_{\mathrm{w}}}$. 如图5所示，采用ViT去除原本网络模型中的多层感知器分类头，再将原本用于额外分类预测输出结果的向量去掉，作为该阶段生成器的编码器. 将第一阶段生成的图像送入ViT编码器解析，得到图像特征Y，表达式为

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 注意力机制优化图像生成阶段结构图

Fig.5 Architecture diagram for image generation stage of attention mechanism optimization

(5)$ {{{{{{\boldsymbol{y}}}}}}_0} = \left[ {{{{{{{\boldsymbol{x}}}}}}}_{\mathrm{p}}^1{{{\boldsymbol{E}}}};{{\boldsymbol{x}}}_{\mathrm{p}}^2{\boldsymbol{E}}; \cdots ;{{\boldsymbol{x}}}_{\mathrm{p}}^N{\boldsymbol{E}}} \right]+{{\boldsymbol{E}}_{{\mathrm{pos}}}}. $

(6)$ {{{\boldsymbol{y}}}_l' } = {\mathrm{MSA}}\;({\mathrm{LN}}\;({{{{\boldsymbol{y}}}}_{l - 1}}))+{{{{\boldsymbol{y}}}}_{l - 1}};\;l = 1,2, \cdots ,L. $

(7)$ {{{{\boldsymbol{y}}}}_l } = {\mathrm{MLP}}\;({\mathrm{LN}}\;({{{{{\boldsymbol{y}}}}}_l' }))+{{{{\boldsymbol{y}}}}_l' };\;l = 1,2, \cdots ,L. $

(8)$ {{{\boldsymbol{Y}}}} = {{{{\boldsymbol{y}}}}_1}+{{{{\boldsymbol{y}}}}_2}+{{{{\boldsymbol{y}}}}_3}+ \cdots +{{{{\boldsymbol{y}}}}_L}. $

式中：$ {\boldsymbol{E}} \in {{\bf{R}}^{{p^2} \times C \times K}} $为可训练的线性投影参数，$ {{\boldsymbol{E}}_{{\mathrm{pos}}}} \in {{\bf{R}}^{(N+1) \times K}} $为位置编码，$ {\mathrm{LN}}\;( \cdot ) $为层归一化函数. 将一阶段生成图像输入图像块线性投影层进行切块重塑，成为$N$个${p^2}$大小的图像块${{\boldsymbol{x}}_{\mathrm{p}}} \in {{\bf{R}}^{N \times ({P^2} \times C)}}$. 在Transformer结构^[20]中所有层都使用相同的潜在空间向量大小，为此将输入的图像块通过可训练的线性变换映射到K维向量空间中. ViT编码器由 L个Transformer编码器块组成，每个编码器块的输入$ {{{{\boldsymbol{y}}}}_{l - 1}} $就是上一个编码器块的输出，通过多头自注意力（multi-head self-attention，MSA）和MLP计算得到当前编码器块的输出$ {{{{\boldsymbol{y}}}}_l } $. 得到图像特征Y后，将词特征向量${{\bf\textit{φ}}_{\mathrm{w}}}$拼接至图像特征中，得到新的特征向量${{{\boldsymbol{Y}}'}}$，表达式为

(9)$ {{{\boldsymbol{Y}}'}} = {{{\boldsymbol{Y}}}}+{{\bf\textit{φ}}_{\mathrm{w}}}. $

将特征向量${{{\boldsymbol{Y}}'}}$输入一系列卷积解码得到第二阶段生成图像，再经过判别器鉴别图像真实性与文本一致性，以监督图像生成质量.

由于ViT较强的表示学习能力和优秀的可迁移性，使得第二阶段作为上游任务能够自动学习图像中的关键特征. 在处理图像过程中，通过自注意力机制和MSA机制，让网络同时关注局部信息和全局信息，避免了传统卷积神经网络只关注局部信息的处理方式. 第二阶段解决了传统利用堆叠结构方式生成图像出现的不同生成器之间相互纠缠的问题，同时关注词特征信息使得生成的图像在细节上与文本契合.

2.3. 优化损失函数

交替训练生成器和判别器，通过最小化深度融合文本特征的图像生成阶段和注意力机制优化图像生成阶段的生成器损失和判别器损失，得到符合文本条件的图像. DFA-GAN模型的损失函数分为第一阶段损失函数和第二阶段损失函数，每个阶段的损失函数又由生成器损失函数和判别器损失函数构成.

(10)$ L_G^1 = L_G^{{\mathrm{un}}}+L_G^{{\mathrm{con}}}+{\lambda _1}L_G^{{\mathrm{cls}}}, $

(11)$ L_D^1 = L_D^{{\mathrm{un}}}+L_D^{{\mathrm{con}}}+{\lambda _2}L_D^{{\mathrm{cls}}}. $

式中：$L_G^1$为第一阶段生成器损失函数，$L_D^1$为第一阶段判别器损失函数； $ L_G^{{\mathrm{un}}} $、$ L_D^{{\mathrm{un}}} $均为传统的GAN损失函数，作用是使生成图像更加真实；$ L_G^{{\mathrm{con}}} $、$ L_D^{{\mathrm{con}}} $均为条件生成对抗损失函数^[21]，作用是使生成图像更加贴合文本语义； $ L_G^{{\mathrm{cls}}} $、$ L_D^{{\mathrm{cls}}} $均为分类损失函数；$ {\lambda _1} $、$ {\lambda _2} $分别为分类损失在第一阶段生成器和判别器中的相应权重参数，增添分类损失的目的是监督文本属性存在于生成图像. 其中

(12)$ L_G^{{{\mathrm{un}}}} = - {E_{(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ) \sim {{\boldsymbol{p}}_G}}}\left[ {{{{\mathrm{lb}} }}\;(D(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ))} \right], $

(13)$ L_G^{{\mathrm{con}}} = - {E_{(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ) \sim {{\boldsymbol{p}}_G},(\varphi ) \sim {{\boldsymbol{p}}_{{\mathrm{d}}}}}}\left[ {{{{\mathrm{lb}}}}\;(D(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ,\varphi ))} \right], $

(14)$ \begin{split} L_D^{{{{\mathrm{un}}}}} = & - \frac{1}{2}{E_{({\boldsymbol{x}}) \sim {{\boldsymbol{p}}_{{\mathrm{d}}}}}}\left[ {{{{\mathrm{lb}} }}\;(D({\boldsymbol{x}}))} \right]-\\ & \frac{1}{2}{E_{(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ) \sim {{\boldsymbol{p}}_G}}}\left[ {{{{\mathrm{lb}} }}\;(1 - D(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ))} \right], \end{split} $

(15)$ \begin{split} L_D^{{\mathrm{con}}} =& - \frac{1}{2}{E_{({\boldsymbol{x}},\varphi ) \sim {{\boldsymbol{p}}_{{\mathrm{d}}}}}}\left[ {{{{\mathrm{lb}} }}\;(D({\boldsymbol{x}},\varphi ))} \right] -\\ & \frac{1}{2}{E_{(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ) \sim {{\boldsymbol{p}}_G},(\varphi ) \sim {{\boldsymbol{p}}_{{\mathrm{d}}}}}}\left[ {{{{\mathrm{lb}} }}\;(1 - D(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ,\varphi ))} \right], \end{split} $

(16)$ L_G^{{\mathrm{cls}}} = {E_{(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ) \sim {{\boldsymbol{p}}_G},(\varphi ) \sim {{\boldsymbol{p}}_{{\rm{d}}}}}}\left[ { - {{{\mathrm{lb}}}}\;(D(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ,\varphi ))} \right], $

(17)$ L_D^{{\mathrm{cls}}} = {E_{({{{{{\boldsymbol{x}}}},\varphi }}) \sim {{\boldsymbol{p}}_{{\mathrm{d}}}}}}\left[ { - {{{\mathrm{lb}} }}\;(D({\boldsymbol{x}},\varphi ))} \right]. $

式中：$ \overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} $为生成图像，$ {\boldsymbol{x}} $为真实图像，$ \varphi $为文本描述，P_G有服从生成图像概率分布，P_d为服从真实图像概率分布，G和D分别表示生成器和判别器，$ E[ \cdot ] $为期望运算. 为了确保生成的图像具有正确的属性，使生成器网络强制执行类似的损失函数. 在进行分类损失函数计算时未将额外属性引入标签作为输入，原因是这些信息已经包含在输入的图像文本对中. 调整第一阶段的判别器，通过添加额外的卷积层，确保生成的图像中包含一些重要的文本属性.

(18)$ L_G^2 = L_G^{{\mathrm{un}}}+L_G^{{\mathrm{con}}}+{\lambda _3}L_G^{{\mathrm{DAMSM}}}+{\lambda _4}L_G^{{\mathrm{f}}}， $

(19)$ L_D^2 = L_D^{{\mathrm{un}}}+L_D^{{\mathrm{con}}}. $

式中：$ L_G^2 $为第二阶段生成器损失函数，$ L_D^2 $为第二阶段判别器损失函数，$ L_G^{{\mathrm{DAMSM}}} $为深度注意力多模态相似度模型(deep attentional multimodal similarity model，DAMSM)损失函数^[2]，$ L_G^{{\mathrm{f}}} $为特征匹配损失函数，$ {\lambda _3} $、$ {\lambda _4} $分别为DAMSM损失和特征匹配损失在第二阶段生成器中的相应权重参数.

(20)$ L_G^{{\mathrm{f}}} = \left\| {\left. {{E_{({\boldsymbol{x}}) \sim {{\boldsymbol{p}}_{{\mathrm{d}}}}}}\left[ {D({{{\boldsymbol{x}}}})} \right] - {E_{({{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} }}) \sim {{\boldsymbol{p}}_G}}}\left[ {D(G({{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} }}))} \right]} \right\|} \right._2^2. $

在第二阶段生成器中加入$ L_G^{{\mathrm{f}}} $的目的是避免对抗生成网络在训练过程中出现的不稳定性，使生成器更好地捕捉中间层特征表示之间的相似性，帮助生成器生成更加真实、连贯的图像.

3. 实验与结果

3.1. 数据集

在CUB鸟类数据集^[22]和COCO多目标场景数据集^[23]上评估DFA-GAN模型. CUB数据集有11 788张包含200种鸟类的图像，每张鸟类图像有10句相对应的描述文本. 该数据集中的图像均为鸟类的特写图像，图像的目标单一，背景简单. COCO数据集包含80 000张用于训练的图像和40 000张用于测试的图像，每张图像都对应5个描述文本的句子. 在COCO数据集中平均每张图像包含3.5个类别和7.7个实例目标，图像大多场景复杂，图像的目标小且多.

3.2. 实验设置

采用Bi-LSTM作为文本编码器提取文本特征，从AttnGAN模型中获取Bi-LSTM的预训练参数. 设置$ {\lambda _1} $=0.5、$ {\lambda _2} $=4.0、$ {\lambda _3} $=5.0、$ {\lambda _4} $=2.0. 采用Adam优化器进行优化训练，根据双时间尺度更新原则，2个阶段的生成器学习率均设为0.000 1，第一阶段的判别器学习率设为0.000 5，第二阶段判别器学习率设为0.000 4. 在单个NVIDIA A100 32G GPU上进行训练，CUB数据集2个阶段的迭代次数分别为800、700；COCO数据集2个阶段迭代数分别为372、200.

3.3. 评价指标

采用初始分数^[24]（inception score，IS）、Fréchet初始距离^[25]（Fréchet inception distance, FID）以及R-precision^[2]RP来定性评估DFA-GAN模型的生成效果. IS通过计算生成图像的条件分布和边缘分布之间的Kullback-Leibler（KL）散度，来衡量图像的多样性和类别的一致性. IS的数值越大，表示生成图像的质量越高且更具多样性，表达式为

(21)$ {\mathrm{IS}} = \exp \;({E_{(\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} ) \sim {{\boldsymbol{p}}_G}}}[{D_{{\mathrm{KL}}}}(p(\sigma \left| {\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} } \right.)\left\| {p(\sigma )} \right.)]). $

式中：$ \sigma $为图像标签，$ p(\sigma \left| {\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} } \right.) $为条件分布，$ p(\sigma ) $为边缘分布，$ {D_{{\mathrm{KL}}}}( \cdot ) $为KL散度. FID的数值越小，表示合成图像越接近真实图像，表达式为

(22)$ \begin{split} {\mathrm{FID}} =& {\left\| {\left. {{{{{\boldsymbol{\mu}} }}} - {{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{\mu}} }} }}} \right\|} \right.^2}+ \\& {\mathrm{tr}}\left(\sum {{{\boldsymbol{x}}}} +\sum {{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} }}} - 2{\left(\sum {{{\boldsymbol{x}}}} \sum {{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} }}} \right)^{\frac{1}{2}}}\right). \end{split} $

式中：$ {{\boldsymbol{\mu }}} $、$ {\overset{\frown}{{{\boldsymbol{\mu}} }}} $分别为真实图像特征均值和生成图像的特征均值，$ \displaystyle\sum {{{\boldsymbol{x}}}} $、$ \displaystyle\sum {{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{{\boldsymbol{x}}} }}} $分别为真实图像的协方差矩阵和生成图像的协方差矩阵^[26].RP衡量生成图像与对应文本描述之间的生成准确率. 评估生成图像与文本描述是否对应，须将提取的图像特征和文本特征的检索结果进行排序. RP的数值越大，表示生成图像与给定文本描述越相关.

实验将在2个数据集中对比不同模型的图像生成效果. 为了计算IS和FID，从测试数据集中随机选择文本描述交由每个模型，生成分辨率为256×256的30 000张图像进行对比^[27].

3.4. 实验结果

如表1所示DFA-GAN模型在2个数据集上的表现都优于传统的文本生成图像方法. 第一阶段生成图像的IS数值已大于StackGAN模型、StackGAN++模型和AttnGAN模型的IS数值，仅比MirrorGAN模型低0.03. 经过第二阶段的训练后，最终的生成图像的IS比第一阶段的IS提升了约17.88%，比DF-GAN模型的提升了4.70%，比textStyleGAN模型^[28]的提升了11.72%. 相比已有的文本生成图像方法，DFA-GAN的IS并未有明显提升，本研究认为该网络在生成图像的真实性和多样性角度上与现有的基于GAN的文本生成图像方法基本一致. 对比CUB数据集的FID数值，DFA-GAN模型第二阶段比第一阶段的降低了约31.83%，比DF-GAN模型的降低了25.99%，比DM-GAN模型^[29]的降低了31.88%. 对比COCO数据集的FID数值，DFA-GAN模型第二阶段比第一阶段的生成图像降低了约23.60%，比DF-GAN模型的小0.15. 同样是充分融合文本与图像特征生成图像，相比改进DF-GAN方法的SSA-GAN^[31]和RAT-GAN^[32]，DFA-GAN在各项数值上更加优秀，RAT-GAN在COCO数据集上的FID比DFA-GAN模型的降低了4.57，本研究认为这由于RAT-GAN更注重学习相关的复杂图像特征，而DFA-GAN模型更注重整体图像的一致性导致的. 由表可以看出，DFA-GAN模型不仅第一阶段的生成图像评价指标评分较为优异，而且模型在第二阶段的指标评分较第一阶段的有大幅提升，证明DFA-GAN模型分为2个阶段训练是有效的. DFA-GAN模型在CUB数据集上的评价指标较在COCO数据集上的更优，本研究认为产生这种情况的原因是CUB数据集中的内容相比COCO数据集的更集中于少数几个类别. 对于多目标的复杂场景，DFA-GAN模型对于图像中多个目标的特征提取学习的力度不够，不能学习到文本对应图像内容更深层次、更细节的特征. 除了生成对抗网络方法中的模型，表中还有采用自回归和扩散的模型. 对比COCO数据集的FID数值，DFA-GAN比采用自回归模型的CogView2^[33]大1.47，比采用扩散模型的KNN-Diffusion^[16]大2.51. 数据结果表明，虽然采用自回归和扩散模型方法能够生成真实、符合文本描述的图像，但是DFA-GAN模型不仅体积更小，计算成本也更低，其参数总量相对于CogView2和KNN-Diffusion更少.

表 1 文本生成图像方法在2个数据集上的评价指标对比

Tab.1 Comparison of evaluation indexes of text-to-image generation methods in two datasets

模型	CUB		COCO
模型	IS	FID	FID
StackGAN^[6]	3.70	35.51	74.05
StackGAN++^[6]	3.84	—	—
AttnGAN^[2]	4.36	24.37	35.49
MirrorGAN^[8]	4.56	18.34	34.71
textStyleGAN^[28]	4.78	—	—
DM-GAN^[29]	4.75	16.09	32.64
SD-GAN^[30]	4.67	—	—
DF-GAN^[8]	5.10	14.81	19.32
SSA-GAN^[31]	5.17	15.61	19.37
RAT-GAN^[32]	5.36	13.91	14.60
CogView2^[33]	—	—	17.70
KNN-Diffusion^[16]	—	—	16.66
DFA-GAN-第一阶段	4.53	16.07	25.09
DFA-GAN-第二阶段	5.34	10.96	19.17

新窗口打开| 下载CSV

在CUB数据集上进行消融实验，将传统网络AttnGAN和DF-GAN分别与DFA-GAN第二阶段网络组合后与DFA-GAN进行对比，结果如表2所示. 与原网络相比，AttnGAN加入DFA-GAN第二阶段网络的IS数值增加了0.75，同样DF-GAN的IS指标也提升了0.22，进一步说明DFA-GAN第二阶段网络可以优化生成图像的质量. 对比RP的数值，DF-GAN在加入DFA-GAN第二网络后由原本的44.83提升至70.80. DFA-GAN的IS数值与传统网络的基本一致，但RP高于传统网络，本研究认为原因是该网络更关注文本图像一致性.

表 2 不同模型在CUB数据集上的消融实验

Tab.2 Ablation experiments of different models in CUB datasets

模型	IS	RP
AttnGAN	4.36	67.83
AttnGAN+DFA-GAN第二阶段	5.11	70.06
DF-GAN	5.10	44.83
DF-GAN+ DFA-GAN第二阶段	5.32	70.80
DFA-GAN	5.34	72.67

新窗口打开| 下载CSV

在CUB数据集上，将DFA-GAN模型生成图像结果与其他模型的生成图像结果进行定性对比，结果如图6所示. StackGAN++生成的图像在整体上可以模糊地看出文本描述的内容，有部分细节提升了纹理的效果，但整体生成效果比较差. AttnGAN模型和MirrorGAN模型生成图像的纹理细节得到增强，但是出现了在一张图像一部分十分模糊，另一部分十分清晰的情况，整体生成图像的质量不佳. 如图中MirrorGAN模型的第一行生成图像，以及StackGAN++模型第三行生成图像，生成的鸟头部比较清晰，但其他的部分目标边界与纹理生成的模糊，影响了整体生成的质量. DM-GAN和DF-GAN模型也没有保持与图像良好的语义一致性，在一些细节上出现文本与图像不匹配的情况. 比较而言，DFA-GAN模型生成的图像不仅轮廓更加清晰，而且生成的目标更加完整，整体生成图像比较细致，与文本语义保持了较高的一致性.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 不同模型在CUB数据集上的生成图像比较

Fig.6 Comparison of generated images of different models in CUB dataset

在COCO数据集上进行DFA-GAN模型与主流的方法的定性对比，结果如图7所示. 与在CUB数据集上训练生成图像比较，各类方法在COCO数据集上生成图像的质量整体都比较差，生成的图像仅能把握文本描述目标的大概轮廓和基础颜色. DFA-GAN模型在细节上也无法生成文本描述目标的细节，但在整体图像的轮廓与边界比主流模型的生成质量高. 本研究产认为这是由于COCO数据集中目标类别多，每一类别对应的数据数量较少，导致模型很难学习到每一类别的细节，又由于DFA-GAN模型分别训练2个阶段生成图像，使得DFA-GAN模型能够生成较好的拥有多目标复杂场景图像. 在不同数据集上与主流的文本生成图像方法比较的分析结果表明，DFA-GAN模型在整体图像的生成方面和在保持生成图像与文本语义一致方面均有优越的表现.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 不同模型在COCO数据集上的生成图像比较

Fig.7 Comparison of generated images of different models in COCO dataset

为了进一步验证DFA-GAN模型两阶段分别训练生成图像的必要性，在CUB数据集和COCO数据集上，分别对DFA-GAN模型第一阶段生成的图像和第二阶段生成的图像进行定性比较，结果如图8所示. 由于二阶段的优化细节，使得DFA-GAN模型最终生成的图像边界清晰，整体的纹理细节得到增强，证明DFA-GAN模型分2个阶段训练生成图像不仅有效，而且能够生成高质量的图像.

图 8

新窗口打开| 下载原图ZIP| 生成PPT

图 8 所提模型2个阶段在不同数据集上的生成图像比较

Fig.8 Comparison of generated images in two stages of proposed model in different datasets

4. 结　语

本研究提出基于生成对抗网络的语义一致文本合成高质量图像方法，并在该方法中提出采用2个阶段生成并优化图像：在深度融合文本特征的图像生成阶段，深层次、多尺度地融合文本信息生成图像；在注意力机制优化图像生成阶段，通过文本词的特征含义增强，进一步细粒度、全方位地优化整体生成的图像. 在开源的文本生成图像数据集CUB和COCO上进行对比实验，实验结果表明，相比现有的采用生成对抗网络方法，本研究所提方法能够通过文本生成更加优质且语义一致的图像. 所提方法还有待改进，如何进一步加强生成拥有复杂场景描述文字的图像，怎样生成拥有优质背景和细致目标的图像，计划在未来的研究中开展相关实验以提升方法的性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems . Cambridge: MIT Press, 2014: 2672–2680.