浙江大学学报(工学版), 2026, 60(6): 1213-1220 doi: 10.3785/j.issn.1008-973X.2026.06.008

计算机技术

基于生成对抗网络和坐标注意力机制的文本生成图像算法

李云红,, 张琪琪, 陈锦妮, 陈伟重, 苏雪平, 梁成名

西安工程大学 电子信息学院,陕西 西安 710048

Text-to-image generation algorithm based on generative adversarial network and coordinate attention mechanism

LI Yunhong,, ZHANG Qiqi, CHEN Jinni, CHEN Weichong, SU Xueping, LIANG Chengming

School of Electronics and Information, Xi’an Polytechnic University, Xi’an 710048, China

收稿日期: 2025-07-15  

基金资助: 国家自然科学基金青年基金资助项目(62403368);陕西省自然科学基础研究重点资助项目(2022JZ-35);陕西省自然科学基础研究资助项目(2024JCYBMS-455);陕西高校青年创新团队资助项目;西安市“科学家+工程师”团队项目(25KGYB00029).

Received: 2025-07-15  

Fund supported: 国家自然科学基金青年基金资助项目(62403368);陕西省自然科学基础研究重点资助项目(2022JZ-35);陕西省自然科学基础研究资助项目(2024JCYBMS-455);陕西高校青年创新团队资助项目;西安市“科学家+工程师”团队项目(25KGYB00029).

作者简介 About authors

李云红(1974—),女,教授,博士,从事人工智能、图像处理、信号与信息处理技术等研究.orcid.org/0000-0001-8080-1040.E-mail:hitliyunhong@163.com , E-mail:hitliyunhong@163.com

摘要

针对对抗网络生成的图像存在多样性差、总体质量不高的问题,提出基于坐标注意力机制和生成对抗网络的文本生成图像算法(CAT-GAN). 采用条件增强计算文本特征向量的均值和协方差矩阵,生成条件变量代替原高维文本特征,解决稀疏性问题. 将坐标注意力机制引入生成器网络的残差块中,构成结合坐标注意力机制的深度融合模块(CA-Block),在捕捉通道间特征长期依赖关系的同时,保留特征的精确位置,增强感兴趣对象的表示. 在鉴别器网络中引入空间重构单元,构成特征空间重构模块(SRU-Block). 通过权重分离冗余特征并重构,增强鉴别器对特征的表征能力. 通过CUB-200、Oxford-102 Flowers及COCO数据集,测试并验证模型. 实验结果表明,与StackGAN++、AttnGAN、DAE-GAN、DM-GAN、DT-GAN及DF-GAN等模型相比,所提模型(CAT-GAN)的IS和FID指标值均为最优,IS指标值分别达到5.13、4.10、31.81,FID指标值分别达到14.34、16.76、26.36. 所提模型具有更好的可视化效果,证明了所提方法的有效性.

关键词: 文本生成图像 ; 生成对抗网络(GAN) ; 条件增强 ; 坐标注意力机制 ; 仿射变换

Abstract

A text-to-image generation algorithm based on coordinate attention mechanism and generative adversarial network (CAT-GAN) was proposed in order to address the issue of poor diversity and low overall quality in the image generated by adversarial network. The conditional enhancement was used to calculate the mean and covariance matrix of the text feature vector, generating conditional variable to replace the original high-dimensional text feature and solve the sparsity problem. The coordinate attention mechanism was introduced into the residual block of the generator network to form a deep fusion module combined with the coordinate attention mechanism (CA-Block). The long-term dependency relationship of feature between channels can be captured while retaining the precise position of feature and enhancing the representation of the target object. The spatial reconstruction unit was introduced into the discriminator network to form a feature space reconstruction module (SRU-Block). Redundant feature was separated via weight assignment and reconstruction, enhancing the discriminator’s ability to represent feature. The model was tested and verified using the CUB-200, Oxford-102 Flowers and COCO dataset. The experimental results showed that the IS and FID index value of the proposed model (CAT-GAN) were the best compared with models such as StackGAN++, AttnGAN, DAE-GAN, DM-GAN, DT-GAN and DF-GAN. The IS index value reached 5.13, 4.10 and 31.81, and the FID index value reached 14.34, 16.76 and 26.36. The proposed model has better visualization effect, proving the effectiveness of the proposed method.

Keywords: text-to-image generation ; generative adversarial network (GAN) ; conditional augmentation ; coordinate attention mechanism ; affine transformation

PDF (5446KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李云红, 张琪琪, 陈锦妮, 陈伟重, 苏雪平, 梁成名. 基于生成对抗网络和坐标注意力机制的文本生成图像算法. 浙江大学学报(工学版)[J], 2026, 60(6): 1213-1220 doi:10.3785/j.issn.1008-973X.2026.06.008

LI Yunhong, ZHANG Qiqi, CHEN Jinni, CHEN Weichong, SU Xueping, LIANG Chengming. Text-to-image generation algorithm based on generative adversarial network and coordinate attention mechanism. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(6): 1213-1220 doi:10.3785/j.issn.1008-973X.2026.06.008

在文本生成图像领域,图像完整度、稳定性与多样性均是重要的评价指标[1-5]. 尽管该领域近年来发展迅速,但现有模型(如StackGAN[6]、AttnGAN[7]、DFGAN[8]、RATGAN[9]、ViewDiff[10]、NoiseCollage[11]等)在生成结果的多样性与整体质量上仍有提升空间,主要问题如下. 1)图像细节模糊,结构虽然合理,但色彩、质感与细节表现力不足,细节变化匮乏. 2)风格与内容单一,相同文本的描述生成结果高度相似,缺乏多样性与创造性. 3)细节丰富度不足,不同描述生成的图像在背景、颜色、形状、对象位置等整体与局部结构上趋于一致.

针对文本生成图像多样性差、质量不高的问题,提出基于生成对抗网络的坐标注意力机制文本生成图像算法. 通过条件增强计算协方差矩阵与特征均值,以低维条件变量替代原始高维特征. 在生成器残差块中融入坐标注意力机制,构建深度融合模块(CA-Block),捕捉通道依赖并保留位置信息,强化对象表示. 在鉴别器中引入空间重构单元,构成特征空间重构模块(SRU-Block),分离冗余特征并重构,抑制空间冗余,提升鉴别器的特征表征能力. 在输入层面,条件增强从文本语义分布采样,为生成注入多样性“种子”. 在生成层面,坐标注意力模块将随机性转化为丰富的空间布局与细节表达. 在判别层,空间重构单元通过分离冗余信息,强化关键特征表征,约束特征多样性,以保证模型的生成质量.

1. 模型架构与模块分析

1.1. 模型架构和条件增强

基于坐标注意力机制和生成对抗网络的文本生成图像算法(CAT-GAN)模型的结构如图1所示,包含生成器G与鉴别器D. G包含条件增强模块、深度融合模块及卷积层. D包含特征重构模块、单向输出判别器(One-Way Out)、梯度匹配惩罚[12]与卷积层. G负责生成虚假图像,D负责判别真伪. 单向输出判别器用于增强学习稳定性,并防止模式坍塌[13]. 梯度匹配惩罚作为正则手段,有效提升生成稳定性.

图 1

图 1   CAT-GAN的整体架构图

Fig.1   Overall architecture diagram of CAT-GAN


图1中,左侧虚线框标识部分为条件增强模块. 条件增强模型通过全连接层得到服从正态分布的均值$\mu({{\bf\textit{φ}}}_{\mathrm{t}} )$和协方差矩阵$\displaystyle \sum{{\bf\textit{φ}}}_{\mathrm{t}} $,从该正态分布中随机采样$ \boldsymbol{\varepsilon } $,得到附加条件变量$ {\hat{\boldsymbol{c}}}_{0} $.

$ {\hat {\boldsymbol{c}}_0} = \mu ({{\bf\textit{φ}} _{\mathrm{t}}}) +\displaystyle \sum {{{\bf\textit{φ}} _{\mathrm{t}}}\otimes {\boldsymbol{\varepsilon }} }. $

式中:$ \otimes $表示矩阵相乘. 使用$ {\hat{\boldsymbol{c}}}_{0} $替换原高维特征向量$ {{\bf\textit{φ}}}_{\mathrm{t}} $,一定程度上解决了文本稀疏性问题.

1.2. 结合坐标注意力机制的深度残差块(CA-Blocks)

引入坐标注意力机制(CA),CA机制通过融合位置信息与通道注意力,具体结构如图2 (a)所示. 假设特征图$ \boldsymbol{F}\in {\mathbf{R}}^{C\times H\times W} $为CA的输入,其中C为通道数,HW分别为特征图的高和宽. CA将二维全局池化分解为2个一维池化,通过$ 1 \times 1 $卷积进行融合,得到空间位置信息编码$ \boldsymbol{F}'\in {\mathbf{R}}^{(C/r)\times 1\times (H\text{+}W)} $,其中r为缩放因子. 将$ \boldsymbol{F}' $分解成2个不同的特征图,利用卷积与激活函数对其进行运算,得到特征图$ {\boldsymbol{G}}_{\rm{h}} $$ {\boldsymbol{G}}_{\rm{w}} $. 将特征图F$ {\boldsymbol{G}}_{\rm{h}} $$ {\boldsymbol{G}}_{\rm{w}} $利用元素乘法,得到增强的特征表示$ \boldsymbol{Y}'\in {\mathbf{R}}^{C\times H\times W} $

图 2

图 2   CA-Blocks结构图

Fig.2   Structure diagram of CA-Blocks


$ \boldsymbol{Y}'=\boldsymbol{F}\cdot {\boldsymbol{G}}_{{\mathrm{h}}}\cdot {\boldsymbol{G}}_{{\mathrm{w}}} . $

引入仿射变换(CA-Blocks). 具体结构如图2(b)所示,包含下采样层和CA-Block模块. 该算法通过在2个Affine仿射模块间添加ReLU层,将非线性引入图像融合中,扩展了条件表示空间,丰富了图像的视觉特性.

Affine仿射块包括2层多层感知器 (MLP). 1个MLP预测语言条件下的通道尺度参数$ \boldsymbol{\eta } $,另一个预测移位参数$ \boldsymbol{\theta } $,如下所示:

$\left. \begin{split} &\Delta {\boldsymbol{\eta}} = {{\mathrm{MLP}}_1}(\overline{{{\boldsymbol{e}}}}), \;\Delta {\boldsymbol{\theta}} = \text{MLP}_2(\overline{\boldsymbol{e}}); \\&\hat{{\boldsymbol{\eta}}} = {\boldsymbol{\eta}} + \Delta {\boldsymbol{\eta}},\;\hat{{\boldsymbol{\theta}}} = {\boldsymbol{\theta}} + \Delta {\boldsymbol{\theta}}.\end{split} \right\}$

式中:$\overline{\boldsymbol{e}} $为图像特征向量.

Affine仿射变换模块利用参数$ \boldsymbol{\eta } $对视觉特征图进行通道方向缩放操作,利用移动参数$ {\boldsymbol{\theta}} $在通道方向上进行移位操作,即

$ {\mathrm{AFF}}({\boldsymbol{x}}_{i}|\overline{\boldsymbol e} )={\boldsymbol{x}}_{i}{\boldsymbol{\eta }}+{{\theta }}_{i} . $

式中:$ {\boldsymbol{x}}_{i} $为视觉特征图的第i个信息,$ {{\theta }}_{i} $分别为视觉特征图第i通道的移位参数.

1.3. 特征空间重构模块(SRU-Block)

SRU-Block采用残差结构,包括卷积层(Conv)、批量归一化层(BN)、ReLU激活层及SRU特征重构单元,具体结构如图3所示. 为了利用特征的空间冗余性,引入空间重构单元(SRU)对信息丰富与匮乏的特征图进行分离与重构,通过组归一化(GN)度量特征图信息含量. 设输入中间特征图$ \boldsymbol{X}\in {\mathbf{R}}^{N\times C\times H\times W} $,其中N为批处理轴通道数,通过GN层处理得到$ {\boldsymbol{X}}_{\mathrm{out}} $.

图 3

图 3   特征空间重构模块(SRU-Block)

Fig.3   Feature space reconstruction module (SRU-Block)


$ {\boldsymbol{X}}_{\mathrm{out}}={\mathrm{GN}}(\boldsymbol{X})=\gamma \frac{\boldsymbol{X}-{\mu\cdot{\boldsymbol{1}} }}{\sqrt{{{\sigma }}^{2}+\alpha }}+\beta\cdot{\boldsymbol{1}} . $

式中:${\sigma } $${\mu } $分别为标准差和均值,$ \gamma $$ \beta $为仿射变换参数,$\alpha $为小的正数. 归一化权重$ {\boldsymbol{W}}_{\gamma }\in {\mathbf{R}}^{C} $体现不同特征图的重要性,

$ {{W}}_{\gamma i}=\dfrac{{\gamma }_{i}}{\displaystyle \sum\nolimits_{j=1}^{{C}}{\gamma }_{j}};\;i,j=1,2, \cdots, C . $

使用sigmoid函数映射$ {\boldsymbol{W}}_{\gamma } $,依据设定的阈值设置权重,得到信息丰富的权重$ {\boldsymbol{W}}_{1} $和信息少的权重$ {\boldsymbol{W}}_{2} $.

$ \boldsymbol{W}={\mathrm{Gate}}({\mathrm{Sigmoid}})({\boldsymbol{W}}_{\gamma }({\mathrm{GN}}(\boldsymbol{X}))) . $

将输入特征$ \boldsymbol{X} $分别与$ {\boldsymbol{W}}_{1} $$ {\boldsymbol{W}}_{2} $相乘,得到信息丰富的特征$ \boldsymbol{X}_{1}^{\mathrm{w}} $和信息较少的特征$ \boldsymbol{X}_{2}^{\mathrm{w}} $. 其中$ \boldsymbol{X}_{1}^{\mathrm{w}} $信息丰富且表现力强,而$ \boldsymbol{X}_{2}^{\mathrm{w}} $信息极少,被视为冗余. 为了减少空间冗余,采用Reconstruct操作,将信息多的特征与信息少的特征相加. Reconstruct过程可以表示为

$ \left. \begin{array}{l} \boldsymbol{X}_{1}^{\mathrm{w}}={\boldsymbol{W}}_{1}\otimes \boldsymbol{X},\\\boldsymbol{X}_{2}^{\mathrm{w}}={\boldsymbol{W}}_{2}\otimes \boldsymbol{X},\\\boldsymbol{X}_{11}^{\mathrm{w}}\otimes \boldsymbol{X}_{22}^{\mathrm{w}}={\boldsymbol{X}}^{{{\mathrm{w}}{1}}},\\\boldsymbol{X}_{21}^{\mathrm{w}}\otimes \boldsymbol{X}_{12}^{\mathrm{w}}={\boldsymbol{X}}^{{{\mathrm{w}}{2}}},\\{\boldsymbol{X}}^{{{\mathrm{w}1}}}\cup {\boldsymbol{X}}^{{{\mathrm{w}2}}}={\boldsymbol{X}}^{\mathrm{w}}.\end{array} \right\} $

式中:$ \otimes $为逐像素相乘,$ \cup $为逐像素相加.

2. 损失函数

CAT-GAN通过引入梯度惩罚机制,有效防止过拟合,提升图像的真实感与语义一致性.

$ {L}_{\mathrm{GP}}=k{E}_{\boldsymbol{x}\sim {{P}_{{\mathrm{r}}}}}{\left(\parallel {{\nabla }_{\boldsymbol{x}}}D(\boldsymbol{x}|\boldsymbol{s})\parallel +\parallel {{\nabla }_{\boldsymbol{s}}}D(\boldsymbol{x})\parallel \right)}^{p} . $

式中:$ {L}_{\mathrm{GP}} $为梯度惩罚损失,$ {P}_{\rm{r}} $表示文本与真实图像匹配时的数据分布,$ k $$ {P}_{\rm{r}} $为超参数,p为阶数. 网络训练使用铰链损失函数稳定过程,生成器的损失函数为

$ {L}_{\mathrm{G}}=-{E}_{{G}(\boldsymbol{z})\sim {{P}_{{\mathrm{g}}}}}[D(G(\boldsymbol{z}),\boldsymbol{s})] . $

式中:$ G(\boldsymbol{z}) $为生成的假图像,$ \boldsymbol{s} $为文本特征,$ \boldsymbol{z} $为噪声,$ {P}_{\rm{g}} $$ G(\boldsymbol{z}) $的数据分布. 鉴别器的损失为梯度惩罚损失和对抗损失. 对抗损失为

$ \begin{split} L_{\mathrm{D}}^{\mathrm{adv}}=&-{E}_{\boldsymbol{x}\sim P_{\mathrm{r}}}\left[\min\;\{ 0,-1+D(\boldsymbol{x},\boldsymbol{s})\}\right]-\\&\frac{1}{2} {E}_{{G}(\boldsymbol{z})\sim P_{\mathrm{g}}}\left[\min\; \{0,-1-D(G(\boldsymbol{z}),\boldsymbol{s})\}\right]-\\& \frac{1}{2}{E}_{\boldsymbol{x}\sim P_{\mathrm{mis}}}\left[\min\; \{0,-1-D(\boldsymbol{x},\boldsymbol{s})\}\right].\end{split} $

式中:$ \boldsymbol{x} $为真实图像,$ {P}_{{\mathrm{mis}}} $为不匹配文本的$ \boldsymbol{x} $的数据分布. 判别器的总损失函数为

$ L_{\mathrm{D}}=L_{\mathrm{D}}^{\mathrm{adv}}+L_{\mathrm{GP}}^{} . $

将式(9)代入式(12),可得

$ \begin{split} {L}_{\mathrm{D}}=&-{E}_{{{}_{x}}\sim {{P}_{\boldsymbol{x}}}}\left[\min\; \{0,-1+D(\boldsymbol{x},\boldsymbol{s})\}\right]-\\&\frac{1}{2} {E}_{\mathrm{G}(\boldsymbol{z})\sim {{P}_{\rm{g}}}}\left[\min\; \{0,-1-D(G(\boldsymbol{z}),\boldsymbol{s})\}\right] -\\&\frac{1}{2} {E}_{\boldsymbol{x}\sim P_{\mathrm{mis}}}\left[\min\; \{0,-1-D(\boldsymbol{x},\boldsymbol{s})\}\right] +\\& k{E}_{\boldsymbol{x}\sim {{P}_{\rm{r}}}}{(||{{\nabla }_{\boldsymbol{x}}}D(\boldsymbol{x},\boldsymbol{s})||+||{{\nabla }_{\boldsymbol{s}}}D(\boldsymbol{x},\boldsymbol{s})||)}^{p}\end{split}. $

3. 实验结果与分析

3.1. 实验环境及参数设置

CAT-GAN所采用的数据集为Caltech UCSD Birds-200(CUB-200)[14]、Oxford-102 Flowers[15]和COCO. 将CUB-200数据集分为8 855个训练集和2 933个测试集,将Oxford-102 Flowers数据集分为7 034个训练集和1 155个测试集,将COCO数据集分为80 000个训练集和40 000个测试集.

定量实验采用Inception Score(IS)[16]和Frechet Inception Distance(FID)[17]2个指标,评估产生的结果图. IS用于衡量图像质量与多样性,IS越高越好;FID用于衡量生成图像与真实图像的相似度,FID越低越好. 实验环境为Ubuntu20.04.5 LTS 64-bit系统,GPU为NVIDIA RTX3090 (2块),CUDA版本为11.3,CPU为i9-10900x,基于深度学习框架pytorch,编程语言为python3.8. CAT-GAN的实验参数设置见表1.

表 1   CAT-GAN实验的参数设定

Tab.1  Parameter setting for CAT-GAN experiment

参数数值
生成器的学习率Glr0.0001
判别器的学习率Dlr0.0003
批大小batch_size32
训练轮数epoch1200
k2
p7
优化器的一阶矩估计系数β10.04
优化器的二阶矩估计系数β20.8

新窗口打开| 下载CSV


3.2. 主观评价

图4所示为CAT-GAN生成的256×256分辨率的图像与其他模型的对比图. 如图4(a)、(b)所示为在CUB-200和Oxford-102数据集上的对比图. 图4中,第1行GT是原始图像,图像上方为文本描述,左侧为模型名称,右侧是对应生成的图像. 通过生成的图像发现,AttnGAN生成第1张图像,鸟的轮廓尾部有所缺失. 通过DM-GAN[18]生成的展翅高飞的鸟,缺乏局部细节,生成的第2张鸟的面部细节已经全部消失. DF-GAN生成的鸟和花的结构都很完整,总体质量不错,只有少量图像细节欠佳. 通过CAT-GAN生成的图像,无论是在主体的轮廓还是细节上,都优于所对比的模型.

图 4

图 4   CAT-GAN模型与其他模型生成的256×256分辨率的图像对比图

Fig.4   Comparison chart of 256×256-resolution image generated by CAT-GAN model and other models


图5~7所示为CAT-GAN模型在CUB-200、Oxford-102和COCO数据集上的图像多样性. 在图5所示的生成图像中,在符合文本语义描述的情况下,有的鸟挺直身体朝向右上方,有的鸟弓着身体看向左侧. 在图6所示的生成图像中,花的姿态各不相同,花的颜色鲜艳程度、数量、花蕊的大小以及花的背景都不相同. 在图7所示的生成图像中,可以根据给定文本描述在外观和结构上产生高质量结果,主要的实体均可以被较好地捕捉到. 结果表明,CAT-GAN能够根据文本生成主体姿态与背景多样且语义一致的图像,证明该模型具有准确的文本理解与强大的视觉合成能力.

图 5

图 5   CAT-GAN在CUB-200数据集上的图像多样性

Fig.5   Image diversity generated by CAT-GAN on CUB-200 dataset


图 6

图 6   CAT-GAN在Oxford-102数据集上的图像多样性

Fig.6   Image diversity generated by CAT-GAN on Oxford-102 dataset


图 7

图 7   CAT-GAN在COCO数据集上的图像多样性

Fig.7   Image diversity generated by CAT-GAN on COCO dataset


3.3. 客观评价

使用IS和FID指标,衡量生成图像的质量和多样性以及真实性. IS越高越好,FID越低越好. 从表2可以看出,在Oxford-102数据集上,CAT-GAN的IS为4.10,FID为16.76. 在CUB-200数据集上,CAT-GAN的IS和FID分别为5.13和14.34. 在COCO数据集上,CAT-GAN的IS和FID分别为31.81和26.36. 提出模型的IS和FID指标都优于对比模型.

表 2   不同方法评价指标的分析表

Tab.2  Analysis table of evaluation indicator for different method

方法Oxford-102CUB-200COCO
ISFIDISFIDISFID
AttnGAN[7]3.5724.654.3655.4025.8535.49
DF-GAN[8]3.8017.154.8614.8125.4528.92
ViewDiff[10]3.8616.344.9615.6925.59
NoiseCollage[11]3.9517.455.0317.3228.32
DM-GAN[18]3.4620.554.7516.0929.81
StackGAN++[19]3.2618.364.0415.5826.7327.03
DAE-GAN[20]3.9717.764.42
DT-GAN[21]4.8816.3526.3240.21
CAT-GAN4.1016.765.1314.3431.8126.36

新窗口打开| 下载CSV


3.4. 模块有效性的验证

为了验证CAT-GAN模型的有效性,以未添加条件增强(Ca)、仅使用一个坐标注意力残差块(CA-Blocks,简称CA)、不使用特征空间重构模块(SRU)的模型作为基线(Baseline),研究CA-Blocks(数量记为N)与SRU-Block(数量记为C)的最佳使用数量. 实验如表3所示,在单独使用Ca、CA和SRU模块后,CAT-GAN的IS和FID指标值均优于Baseline,证明了单个模块的有效性. 此外,当N = 8, C = 7时,CAT-GAN的IS和FID达到最优,可以在不显著增加计算负担的情况下,显著提升生成质量.

表 3   CAT-GAN在Oxford-102、CUB-200和COCO数据集上的消融实验结果

Tab.3  Ablation experiment result of CAT-GAN on Oxford-102, CUB-200 and COCO dataset

方法Oxford-102CUB-200COCO
ISFIDISFIDISFID
Baseline3.3124.323.3723.7125.1234.11
Baseline+Ca3.3723.823.4322.6824.9633.26
Baseline+CA,N = 13.4223.673.6522.3425.1633.01
Baseline+SRU,C = 13.3823.653.4622.5925.1032.89
Baseline+Ca+CA+SRU,N = 4,C = 33.5320.064.4818.4226.4529.36
Baseline+Ca+CA+SRU,N = 6,C = 53.7917.694.9716.1726.9627.13
Baseline+Ca+CA+SRU,N =8,C = 73.8216.925.2214.4327.3226.67
Baseline+Ca+CA+SRU,N = 10,C = 93.7817.644.9314.9426.8826.98

新窗口打开| 下载CSV


4. 结 语

针对文本生成图像总体质量低和多样性较差的问题,提出基于生成对抗网络的坐标注意力机制文本生成图像算法. 该方法引入条件增强、坐标注意力残差块和特征空间重构等技术,在Oxford-102、CUB-200和COCO数据集上取得了有效验证. 未来将聚焦于以下方向:采用深度可分离卷积重构位置编码路径,降低参数量;引入动态稀疏注意力机制,实现自适应关键区域的聚焦;使用自适应权重惩罚(ADA)替代MA-GP,增强训练稳定性.

参考文献

曹寅, 秦俊平, 马千里, 等

文本生成图像研究综述

[J]. 浙江大学学报: 工学版, 2024, 58 (2): 219- 238

[本文引用: 1]

CAO Yin, QIN Junping, MA Qianli, et al

Survey of text-to-image synthesis

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (2): 219- 238

[本文引用: 1]

李云红, 朱绵云, 任劼, 等

改进深度卷积生成式对抗网络的文本生成图像

[J]. 北京航空航天大学学报, 2023, 49 (8): 1875- 1883

DOI:10.13700/j.bh.1001-5965.2021.0588     

LI Yunhong, ZHU Mianyun, REN Jie, et al

Text-to-image synthesis based on modified deep convolutional generative adversarial network

[J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49 (8): 1875- 1883

DOI:10.13700/j.bh.1001-5965.2021.0588     

梁成名, 李云红, 李丽敏, 等

结合语义分割图的注意力机制文本生成图像

[J]. 空军工程大学学报, 2024, 25 (4): 118- 127

DOI:10.3969/j.issn.2097-1915.2024.04.016     

LIANG Chengming, LI Yunhong, LI Limin, et al

A semantic segmentation graph in combination with attention mechanism text generation images

[J]. Journal of Air Force Engineering University, 2024, 25 (4): 118- 127

DOI:10.3969/j.issn.2097-1915.2024.04.016     

李丰, 文益民

融合多尺度视觉和文本语义特征的图像描述生成算法

[J]. 山东大学学报: 工学版, 2025, 55 (3): 80- 87

DOI:10.6040/j.issn.1672-3961.0.2024.018     

LI Feng, WEN Yimin

Multi-scale visual and textual semantic feature fusion for image captioning

[J]. Journal of Shandong University: Engineering Science, 2025, 55 (3): 80- 87

DOI:10.6040/j.issn.1672-3961.0.2024.018     

周刚, 李捍东, 陈烨烨

基于对比学习的文本生成图像

[J]. 软件工程, 2025, 28 (2): 37- 41

[本文引用: 1]

ZHOU Gang, LI Handong, CHEN Yeye

Text-to-image generation based on contrastive learning

[J]. Software Engineering, 2025, 28 (2): 37- 41

[本文引用: 1]

ZHANG H, XU T, LI H, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 5908–5916.

[本文引用: 1]

XU T, ZHANG P, HUANG Q, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1316–1324.

[本文引用: 2]

TAO M, TANG H, WU F, et al. DF-GAN: a simple and effective baseline for text-to-image synthesis [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 16494–16504.

[本文引用: 2]

YE S, WANG H, TAN M, et al

Recurrent affine transformation for text-to-image synthesis

[J]. IEEE Transactions on Multimedia, 2024, 26: 462- 473

DOI:10.1109/TMM.2023.3266607      [本文引用: 1]

HÖLLEIN L, BOŽIČ A, MÜLLER N, et al. ViewDiff: 3D-consistent image generation with text-to-image models [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 5043–5052.

[本文引用: 2]

SHIRAKAWA T, UCHIDA S. NoiseCollage: a layout-aware text-to-image diffusion model based on noise cropping and merging [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 8921-8930.

[本文引用: 2]

GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs [C]//Advances in Neural Information Processing Systems. Long Beach: Curran Associates, Inc., 2017.

[本文引用: 1]

GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2014: 2672-2680.

[本文引用: 1]

WAH C, BRANSON S, WELINDER P, et al. The caltech-UCSD birds-200-2011 dataset [R]. Pasadena: California Institute of Technology, 2011.

[本文引用: 1]

NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes [C]//Proceedings of the 6th Indian Conference on Computer Vision, Graphics and Image Processing. Bhubaneswar: IEEE, 2009: 722–729.

[本文引用: 1]

SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs [C]// Proceedings of Advances in Neural Information Processing Systems. Barcelona: Curran Associates, Inc., 2016: 2234–2242.

[本文引用: 1]

HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium [C]//Proceedings of the Neural Information Processing Systems. Long Beach: Curran Associates, Inc., 2017.

[本文引用: 1]

ZHU M, PAN P, CHEN W, et al. DM-GAN: dynamic memory generative adversarial networks for text-to-image synthesis [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 5795–5803.

[本文引用: 2]

ZHANG H, XU T, LI H, et al

StackGAN: realistic image synthesis with stacked generative adversarial networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41 (8): 1947- 1962

DOI:10.1109/TPAMI.2018.2856256      [本文引用: 1]

RUAN S, ZHANG Y, ZHANG K, et al. DAE-GAN: dynamic aspect-aware GAN for text-to-image synthesis [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 13940–13949.

[本文引用: 1]

GU J, LI J, WANG Z, et al

DT-GAN: dual attention generative adversarial networks for text-to-image synthesis

[J]. IEEE Transactions on Image Processing, 2023, 32: 1507- 1520

[本文引用: 1]

/