<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 CAT-GAN的整体架构图

Fig.1 Overall architecture diagram of CAT-GAN

图1中，左侧虚线框标识部分为条件增强模块. 条件增强模型通过全连接层得到服从正态分布的均值$\mu({{\bf\textit{φ}}}_{\mathrm{t}} )$和协方差矩阵$\displaystyle \sum{{\bf\textit{φ}}}_{\mathrm{t}} $，从该正态分布中随机采样$ \boldsymbol{\varepsilon } $，得到附加条件变量$ {\hat{\boldsymbol{c}}}_{0} $.

(1)$ {\hat {\boldsymbol{c}}_0} = \mu ({{\bf\textit{φ}} _{\mathrm{t}}}) +\displaystyle \sum {{{\bf\textit{φ}} _{\mathrm{t}}}\otimes {\boldsymbol{\varepsilon }} }. $

式中：$ \otimes $表示矩阵相乘. 使用$ {\hat{\boldsymbol{c}}}_{0} $替换原高维特征向量$ {{\bf\textit{φ}}}_{\mathrm{t}} $，一定程度上解决了文本稀疏性问题.

1.2. 结合坐标注意力机制的深度残差块(CA-Blocks)

引入坐标注意力机制(CA)，CA机制通过融合位置信息与通道注意力，具体结构如图2 (a)所示. 假设特征图$ \boldsymbol{F}\in {\mathbf{R}}^{C\times H\times W} $为CA的输入，其中C为通道数，H和W分别为特征图的高和宽. CA将二维全局池化分解为2个一维池化，通过$ 1 \times 1 $卷积进行融合，得到空间位置信息编码$ \boldsymbol{F}'\in {\mathbf{R}}^{(C/r)\times 1\times (H\text{+}W)} $，其中r为缩放因子. 将$ \boldsymbol{F}' $分解成2个不同的特征图，利用卷积与激活函数对其进行运算，得到特征图$ {\boldsymbol{G}}_{\rm{h}} $和$ {\boldsymbol{G}}_{\rm{w}} $. 将特征图F与$ {\boldsymbol{G}}_{\rm{h}} $、$ {\boldsymbol{G}}_{\rm{w}} $利用元素乘法，得到增强的特征表示$ \boldsymbol{Y}'\in {\mathbf{R}}^{C\times H\times W} $，

图 2

图 2 CA-Blocks结构图

Fig.2 Structure diagram of CA-Blocks

(2)$ \boldsymbol{Y}'=\boldsymbol{F}\cdot {\boldsymbol{G}}_{{\mathrm{h}}}\cdot {\boldsymbol{G}}_{{\mathrm{w}}} . $

引入仿射变换(CA-Blocks). 具体结构如图2(b)所示，包含下采样层和CA-Block模块. 该算法通过在2个Affine仿射模块间添加ReLU层，将非线性引入图像融合中，扩展了条件表示空间，丰富了图像的视觉特性.

Affine仿射块包括2层多层感知器 (MLP). 1个MLP预测语言条件下的通道尺度参数$ \boldsymbol{\eta } $，另一个预测移位参数$ \boldsymbol{\theta } $，如下所示：

(3)$\left. \begin{split} &\Delta {\boldsymbol{\eta}} = {{\mathrm{MLP}}_1}(\overline{{{\boldsymbol{e}}}}), \;\Delta {\boldsymbol{\theta}} = \text{MLP}_2(\overline{\boldsymbol{e}}); \\&\hat{{\boldsymbol{\eta}}} = {\boldsymbol{\eta}} + \Delta {\boldsymbol{\eta}},\;\hat{{\boldsymbol{\theta}}} = {\boldsymbol{\theta}} + \Delta {\boldsymbol{\theta}}.\end{split} \right\}$

式中：$\overline{\boldsymbol{e}} $为图像特征向量.

Affine仿射变换模块利用参数$ \boldsymbol{\eta } $对视觉特征图进行通道方向缩放操作，利用移动参数$ {\boldsymbol{\theta}} $在通道方向上进行移位操作，即

(4)$ {\mathrm{AFF}}({\boldsymbol{x}}_{i}|\overline{\boldsymbol e} )={\boldsymbol{x}}_{i}{\boldsymbol{\eta }}+{{\theta }}_{i} . $

式中：$ {\boldsymbol{x}}_{i} $为视觉特征图的第i个信息，$ {{\theta }}_{i} $分别为视觉特征图第i通道的移位参数.

1.3. 特征空间重构模块(SRU-Block)

SRU-Block采用残差结构，包括卷积层（Conv）、批量归一化层（BN）、ReLU激活层及SRU特征重构单元，具体结构如图3所示. 为了利用特征的空间冗余性，引入空间重构单元（SRU）对信息丰富与匮乏的特征图进行分离与重构，通过组归一化（GN）度量特征图信息含量. 设输入中间特征图$ \boldsymbol{X}\in {\mathbf{R}}^{N\times C\times H\times W} $，其中N为批处理轴通道数，通过GN层处理得到$ {\boldsymbol{X}}_{\mathrm{out}} $.

图 3

图 3 特征空间重构模块(SRU-Block)

Fig.3 Feature space reconstruction module (SRU-Block)

(5)$ {\boldsymbol{X}}_{\mathrm{out}}={\mathrm{GN}}(\boldsymbol{X})=\gamma \frac{\boldsymbol{X}-{\mu\cdot{\boldsymbol{1}} }}{\sqrt{{{\sigma }}^{2}+\alpha }}+\beta\cdot{\boldsymbol{1}} . $

式中：${\sigma } $和${\mu } $分别为标准差和均值，$ \gamma $和$ \beta $为仿射变换参数，$\alpha $为小的正数. 归一化权重$ {\boldsymbol{W}}_{\gamma }\in {\mathbf{R}}^{C} $体现不同特征图的重要性，

(6)$ {{W}}_{\gamma i}=\dfrac{{\gamma }_{i}}{\displaystyle \sum\nolimits_{j=1}^{{C}}{\gamma }_{j}};\;i,j=1,2, \cdots, C . $

使用sigmoid函数映射$ {\boldsymbol{W}}_{\gamma } $，依据设定的阈值设置权重，得到信息丰富的权重$ {\boldsymbol{W}}_{1} $和信息少的权重$ {\boldsymbol{W}}_{2} $.

(7)$ \boldsymbol{W}={\mathrm{Gate}}({\mathrm{Sigmoid}})({\boldsymbol{W}}_{\gamma }({\mathrm{GN}}(\boldsymbol{X}))) . $

将输入特征$ \boldsymbol{X} $分别与$ {\boldsymbol{W}}_{1} $和$ {\boldsymbol{W}}_{2} $相乘，得到信息丰富的特征$ \boldsymbol{X}_{1}^{\mathrm{w}} $和信息较少的特征$ \boldsymbol{X}_{2}^{\mathrm{w}} $. 其中$ \boldsymbol{X}_{1}^{\mathrm{w}} $信息丰富且表现力强，而$ \boldsymbol{X}_{2}^{\mathrm{w}} $信息极少，被视为冗余. 为了减少空间冗余，采用Reconstruct操作，将信息多的特征与信息少的特征相加. Reconstruct过程可以表示为

(8)$ \left. \begin{array}{l} \boldsymbol{X}_{1}^{\mathrm{w}}={\boldsymbol{W}}_{1}\otimes \boldsymbol{X},\\\boldsymbol{X}_{2}^{\mathrm{w}}={\boldsymbol{W}}_{2}\otimes \boldsymbol{X},\\\boldsymbol{X}_{11}^{\mathrm{w}}\otimes \boldsymbol{X}_{22}^{\mathrm{w}}={\boldsymbol{X}}^{{{\mathrm{w}}{1}}},\\\boldsymbol{X}_{21}^{\mathrm{w}}\otimes \boldsymbol{X}_{12}^{\mathrm{w}}={\boldsymbol{X}}^{{{\mathrm{w}}{2}}},\\{\boldsymbol{X}}^{{{\mathrm{w}1}}}\cup {\boldsymbol{X}}^{{{\mathrm{w}2}}}={\boldsymbol{X}}^{\mathrm{w}}.\end{array} \right\} $

式中：$ \otimes $为逐像素相乘，$ \cup $为逐像素相加.

2. 损失函数

CAT-GAN通过引入梯度惩罚机制，有效防止过拟合，提升图像的真实感与语义一致性.

(9)$ {L}_{\mathrm{GP}}=k{E}_{\boldsymbol{x}\sim {{P}_{{\mathrm{r}}}}}{\left(\parallel {{\nabla }_{\boldsymbol{x}}}D(\boldsymbol{x}|\boldsymbol{s})\parallel +\parallel {{\nabla }_{\boldsymbol{s}}}D(\boldsymbol{x})\parallel \right)}^{p} . $

式中：$ {L}_{\mathrm{GP}} $为梯度惩罚损失，$ {P}_{\rm{r}} $表示文本与真实图像匹配时的数据分布，$ k $和$ {P}_{\rm{r}} $为超参数，p为阶数. 网络训练使用铰链损失函数稳定过程，生成器的损失函数为

(10)$ {L}_{\mathrm{G}}=-{E}_{{G}(\boldsymbol{z})\sim {{P}_{{\mathrm{g}}}}}[D(G(\boldsymbol{z}),\boldsymbol{s})] . $

式中：$ G(\boldsymbol{z}) $为生成的假图像，$ \boldsymbol{s} $为文本特征，$ \boldsymbol{z} $为噪声，$ {P}_{\rm{g}} $为$ G(\boldsymbol{z}) $的数据分布. 鉴别器的损失为梯度惩罚损失和对抗损失. 对抗损失为

(11)$ \begin{split} L_{\mathrm{D}}^{\mathrm{adv}}=&-{E}_{\boldsymbol{x}\sim P_{\mathrm{r}}}\left[\min\;\{ 0,-1+D(\boldsymbol{x},\boldsymbol{s})\}\right]-\\&\frac{1}{2} {E}_{{G}(\boldsymbol{z})\sim P_{\mathrm{g}}}\left[\min\; \{0,-1-D(G(\boldsymbol{z}),\boldsymbol{s})\}\right]-\\& \frac{1}{2}{E}_{\boldsymbol{x}\sim P_{\mathrm{mis}}}\left[\min\; \{0,-1-D(\boldsymbol{x},\boldsymbol{s})\}\right].\end{split} $

式中：$ \boldsymbol{x} $为真实图像，$ {P}_{{\mathrm{mis}}} $为不匹配文本的$ \boldsymbol{x} $的数据分布. 判别器的总损失函数为

(12)$ L_{\mathrm{D}}=L_{\mathrm{D}}^{\mathrm{adv}}+L_{\mathrm{GP}}^{} . $

将式(9)代入式(12)，可得

(13)$ \begin{split} {L}_{\mathrm{D}}=&-{E}_{{{}_{x}}\sim {{P}_{\boldsymbol{x}}}}\left[\min\; \{0,-1+D(\boldsymbol{x},\boldsymbol{s})\}\right]-\\&\frac{1}{2} {E}_{\mathrm{G}(\boldsymbol{z})\sim {{P}_{\rm{g}}}}\left[\min\; \{0,-1-D(G(\boldsymbol{z}),\boldsymbol{s})\}\right] -\\&\frac{1}{2} {E}_{\boldsymbol{x}\sim P_{\mathrm{mis}}}\left[\min\; \{0,-1-D(\boldsymbol{x},\boldsymbol{s})\}\right] +\\& k{E}_{\boldsymbol{x}\sim {{P}_{\rm{r}}}}{(||{{\nabla }_{\boldsymbol{x}}}D(\boldsymbol{x},\boldsymbol{s})||+||{{\nabla }_{\boldsymbol{s}}}D(\boldsymbol{x},\boldsymbol{s})||)}^{p}\end{split}. $

3. 实验结果与分析

3.1. 实验环境及参数设置

CAT-GAN所采用的数据集为Caltech UCSD Birds-200(CUB-200)^[14]、Oxford-102 Flowers^[15]和COCO. 将CUB-200数据集分为8 855个训练集和2 933个测试集，将Oxford-102 Flowers数据集分为7 034个训练集和1 155个测试集，将COCO数据集分为80 000个训练集和40 000个测试集.

定量实验采用Inception Score(IS)^[16]和Frechet Inception Distance(FID)^[17]2个指标，评估产生的结果图. IS用于衡量图像质量与多样性，IS越高越好；FID用于衡量生成图像与真实图像的相似度，FID越低越好. 实验环境为Ubuntu20.04.5 LTS 64-bit系统，GPU为NVIDIA RTX3090 (2块)，CUDA版本为11.3，CPU为i9-10900x，基于深度学习框架pytorch，编程语言为python3.8. CAT-GAN的实验参数设置见表1.

表 1 CAT-GAN实验的参数设定

Tab.1 Parameter setting for CAT-GAN experiment

参数	数值
生成器的学习率G_lr	0.0001
判别器的学习率D_lr	0.0003
批大小batch_size	32
训练轮数epoch	1200
k	2
p	7
优化器的一阶矩估计系数β₁	0.04
优化器的二阶矩估计系数β₂	0.8

新窗口打开| 下载CSV

3.2. 主观评价

如图4所示为CAT-GAN生成的256×256分辨率的图像与其他模型的对比图. 如图4(a)、(b)所示为在CUB-200和Oxford-102数据集上的对比图. 图4中，第1行GT是原始图像，图像上方为文本描述，左侧为模型名称，右侧是对应生成的图像. 通过生成的图像发现，AttnGAN生成第1张图像，鸟的轮廓尾部有所缺失. 通过DM-GAN^[18]生成的展翅高飞的鸟，缺乏局部细节，生成的第2张鸟的面部细节已经全部消失. DF-GAN生成的鸟和花的结构都很完整，总体质量不错，只有少量图像细节欠佳. 通过CAT-GAN生成的图像，无论是在主体的轮廓还是细节上，都优于所对比的模型.

图 4

图 4 CAT-GAN模型与其他模型生成的256×256分辨率的图像对比图

Fig.4 Comparison chart of 256×256-resolution image generated by CAT-GAN model and other models

如图5~7所示为CAT-GAN模型在CUB-200、Oxford-102和COCO数据集上的图像多样性. 在图5所示的生成图像中，在符合文本语义描述的情况下，有的鸟挺直身体朝向右上方，有的鸟弓着身体看向左侧. 在图6所示的生成图像中，花的姿态各不相同，花的颜色鲜艳程度、数量、花蕊的大小以及花的背景都不相同. 在图7所示的生成图像中，可以根据给定文本描述在外观和结构上产生高质量结果，主要的实体均可以被较好地捕捉到. 结果表明，CAT-GAN能够根据文本生成主体姿态与背景多样且语义一致的图像，证明该模型具有准确的文本理解与强大的视觉合成能力.

图 5

图 5 CAT-GAN在CUB-200数据集上的图像多样性

Fig.5 Image diversity generated by CAT-GAN on CUB-200 dataset

图 6

图 6 CAT-GAN在Oxford-102数据集上的图像多样性

Fig.6 Image diversity generated by CAT-GAN on Oxford-102 dataset

图 7

图 7 CAT-GAN在COCO数据集上的图像多样性

Fig.7 Image diversity generated by CAT-GAN on COCO dataset

3.3. 客观评价

使用IS和FID指标，衡量生成图像的质量和多样性以及真实性. IS越高越好，FID越低越好. 从表2可以看出，在Oxford-102数据集上，CAT-GAN的IS为4.10，FID为16.76. 在CUB-200数据集上，CAT-GAN的IS和FID分别为5.13和14.34. 在COCO数据集上，CAT-GAN的IS和FID分别为31.81和26.36. 提出模型的IS和FID指标都优于对比模型.

表 2 不同方法评价指标的分析表

Tab.2 Analysis table of evaluation indicator for different method

方法	Oxford-102		CUB-200		COCO
方法	IS	FID	IS	FID	IS	FID
AttnGAN^[7]	3.57	24.65	4.36	55.40	25.85	35.49
DF-GAN^[8]	3.80	17.15	4.86	14.81	25.45	28.92
ViewDiff^[10]	3.86	16.34	4.96	15.69	25.59	—
NoiseCollage^[11]	3.95	17.45	5.03	17.32	—	28.32
DM-GAN^[18]	3.46	20.55	4.75	16.09	29.81	—
StackGAN++^[19]	3.26	18.36	4.04	15.58	26.73	27.03
DAE-GAN^[20]	3.97	17.76	4.42	—	—	—
DT-GAN^[21]	—	—	4.88	16.35	26.32	40.21
CAT-GAN	4.10	16.76	5.13	14.34	31.81	26.36

新窗口打开| 下载CSV

3.4. 模块有效性的验证

为了验证CAT-GAN模型的有效性，以未添加条件增强（Ca）、仅使用一个坐标注意力残差块（CA-Blocks，简称CA）、不使用特征空间重构模块（SRU）的模型作为基线（Baseline），研究CA-Blocks（数量记为N）与SRU-Block（数量记为C）的最佳使用数量. 实验如表3所示，在单独使用Ca、CA和SRU模块后，CAT-GAN的IS和FID指标值均优于Baseline，证明了单个模块的有效性. 此外，当N = 8, C = 7时，CAT-GAN的IS和FID达到最优，可以在不显著增加计算负担的情况下，显著提升生成质量.

表 3 CAT-GAN在Oxford-102、CUB-200和COCO数据集上的消融实验结果

Tab.3 Ablation experiment result of CAT-GAN on Oxford-102, CUB-200 and COCO dataset

方法	Oxford-102		CUB-200		COCO
方法	IS	FID	IS	FID	IS	FID
Baseline	3.31	24.32	3.37	23.71	25.12	34.11
Baseline+Ca	3.37	23.82	3.43	22.68	24.96	33.26
Baseline+CA，N = 1	3.42	23.67	3.65	22.34	25.16	33.01
Baseline+SRU，C = 1	3.38	23.65	3.46	22.59	25.10	32.89
Baseline+Ca+CA+SRU，N = 4，C = 3	3.53	20.06	4.48	18.42	26.45	29.36
Baseline+Ca+CA+SRU，N = 6，C = 5	3.79	17.69	4.97	16.17	26.96	27.13
Baseline+Ca+CA+SRU，N =8，C = 7	3.82	16.92	5.22	14.43	27.32	26.67
Baseline+Ca+CA+SRU，N = 10，C = 9	3.78	17.64	4.93	14.94	26.88	26.98

新窗口打开| 下载CSV

4. 结　语

针对文本生成图像总体质量低和多样性较差的问题，提出基于生成对抗网络的坐标注意力机制文本生成图像算法. 该方法引入条件增强、坐标注意力残差块和特征空间重构等技术，在Oxford-102、CUB-200和COCO数据集上取得了有效验证. 未来将聚焦于以下方向：采用深度可分离卷积重构位置编码路径，降低参数量；引入动态稀疏注意力机制，实现自适应关键区域的聚焦；使用自适应权重惩罚（ADA）替代MA-GP，增强训练稳定性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

曹寅, 秦俊平, 马千里, 等

文本生成图像研究综述

[J]. 浙江大学学报: 工学版, 2024, 58 (2): 219- 238

CAO Yin, QIN Junping, MA Qianli, et al

Survey of text-to-image synthesis

[J]. Journal of Zhejiang University: Engineering Science, 2024, 58 (2): 219- 238

DOI:10.3969/j.issn.2097-1915.2024.04.016

[2]

李云红, 朱绵云, 任劼, 等

改进深度卷积生成式对抗网络的文本生成图像

[J]. 北京航空航天大学学报, 2023, 49 (8): 1875- 1883

DOI:10.13700/j.bh.1001-5965.2021.0588

LI Yunhong, ZHU Mianyun, REN Jie, et al

Text-to-image synthesis based on modified deep convolutional generative adversarial network

[J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49 (8): 1875- 1883

DOI:10.13700/j.bh.1001-5965.2021.0588

[3]

梁成名, 李云红, 李丽敏, 等

结合语义分割图的注意力机制文本生成图像

[J]. 空军工程大学学报, 2024, 25 (4): 118- 127

LIANG Chengming, LI Yunhong, LI Limin, et al

A semantic segmentation graph in combination with attention mechanism text generation images

[J]. Journal of Air Force Engineering University, 2024, 25 (4): 118- 127

DOI:10.3969/j.issn.2097-1915.2024.04.016

[4]

李丰, 文益民

融合多尺度视觉和文本语义特征的图像描述生成算法

[J]. 山东大学学报: 工学版, 2025, 55 (3): 80- 87

DOI:10.6040/j.issn.1672-3961.0.2024.018

LI Feng, WEN Yimin

Multi-scale visual and textual semantic feature fusion for image captioning

[J]. Journal of Shandong University: Engineering Science, 2025, 55 (3): 80- 87

DOI:10.6040/j.issn.1672-3961.0.2024.018

[5]

周刚, 李捍东, 陈烨烨

基于对比学习的文本生成图像

[J]. 软件工程, 2025, 28 (2): 37- 41

ZHOU Gang, LI Handong, CHEN Yeye

Text-to-image generation based on contrastive learning

[J]. Software Engineering, 2025, 28 (2): 37- 41

[6]

ZHANG H, XU T, LI H, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks [C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 5908–5916.

[7]

XU T, ZHANG P, HUANG Q, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1316–1324.

[8]

TAO M, TANG H, WU F, et al. DF-GAN: a simple and effective baseline for text-to-image synthesis [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 16494–16504.

[9]

YE S, WANG H, TAN M, et al

Recurrent affine transformation for text-to-image synthesis

[J]. IEEE Transactions on Multimedia, 2024, 26: 462- 473

DOI:10.1109/TMM.2023.3266607 [本文引用: 1]

[10]

HÖLLEIN L, BOŽIČ A, MÜLLER N, et al. ViewDiff: 3D-consistent image generation with text-to-image models [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 5043–5052.

[11]

SHIRAKAWA T, UCHIDA S. NoiseCollage: a layout-aware text-to-image diffusion model based on noise cropping and merging [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 8921-8930.

[12]

GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs [C]//Advances in Neural Information Processing Systems. Long Beach: Curran Associates, Inc., 2017.

[13]

GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]//Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2014: 2672-2680.

[14]

WAH C, BRANSON S, WELINDER P, et al. The caltech-UCSD birds-200-2011 dataset [R]. Pasadena: California Institute of Technology, 2011.

[15]

NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes [C]//Proceedings of the 6th Indian Conference on Computer Vision, Graphics and Image Processing. Bhubaneswar: IEEE, 2009: 722–729.

[16]

SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs [C]// Proceedings of Advances in Neural Information Processing Systems. Barcelona: Curran Associates, Inc., 2016: 2234–2242.

[17]

HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium [C]//Proceedings of the Neural Information Processing Systems. Long Beach: Curran Associates, Inc., 2017.

[18]

ZHU M, PAN P, CHEN W, et al. DM-GAN: dynamic memory generative adversarial networks for text-to-image synthesis [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 5795–5803.

[19]

ZHANG H, XU T, LI H, et al

StackGAN: realistic image synthesis with stacked generative adversarial networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41 (8): 1947- 1962

DOI:10.1109/TPAMI.2018.2856256 [本文引用: 1]

[20]

RUAN S, ZHANG Y, ZHANG K, et al. DAE-GAN: dynamic aspect-aware GAN for text-to-image synthesis [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 13940–13949.

[21]

GU J, LI J, WANG Z, et al

DT-GAN: dual attention generative adversarial networks for text-to-image synthesis

[J]. IEEE Transactions on Image Processing, 2023, 32: 1507- 1520