基于多模态语义信息的文本生成图像方法
Text-to-image generation method based on multimodal semantic information
收稿日期: 2025-01-23
| 基金资助: |
|
Received: 2025-01-23
| Fund supported: | 浙江省基础公益研究计划(LGG22F020027). |
作者简介 About authors
杨冰(1985—),女,副教授,博士,从事计算机视觉、机器学习研究.orcid.org/0000-0002-0585-0579.E-mail:
针对文本语义与图像语义不一致以及图像细节表现不足的问题,提出新的文本生成图像方法. 基于多模态语义信息建立鉴别依据,在文本语义基础上引入真实图像语义,以解决文本描述信息密度低的问题,有效缓解生成图像细节缺失或失真的现象. 在生成器中集成可变形卷积和星模块卷积,增强生成器表达能力,提高生成图像的细节表现和整体质量. 为了验证所提方法的有效性,在CUB数据集和COCO数据集上进行模型训练及评估. 与生成式对抗对比语言−图像预训练模型(GALIP)相比,所提方法在保证高效生成的同时,在细节表现、语义一致性及整体质量上具有显著优势.
关键词:
A new method was proposed to address text-image semantic inconsistencies and detail deficiencies in text-to-image generation. A discrimination mechanism was established that integrates real-image semantics with textual descriptions, mitigating text’s inherent information sparsity to alleviate detail omission or distortion in synthesized images. Deformable and star product convolutions were incorporated into a generator, enhancing the structural adaptability of the generator to improve fine-grained rendering and overall fidelity. To validate the effectiveness of the proposed method, model training and evaluation were conducted on the CUB and COCO datasets. Compared to generative adversarial networks trained with contrastive language-image pretraining (GALIP), the proposed method offers significant advantages in detail representation, semantic consistency, and overall image quality, while achieving efficient generation.
Keywords:
本文引用格式
杨冰, 周家辉, 姚金良, 向学勤.
YANG Bing, ZHOU Jiahui, YAO Jinliang, XIANG Xueqin.
文本生成图像旨在根据给定的自然语言生成语义对齐且高度真实的图像,是多模态学习领域的重要研究方向. 生成对抗网络(generative adversarial networks,GAN)[1]通过高效的对抗训练机制快速生成清晰、结构合理的图像,是文本生成图像的核心方法. GAN模型在生成高分辨率图像、处理复杂场景时,存在图像细节不足和多样性受限的问题,影响生成图像质量. 扩散模型(diffusion model)[2]因其生成高质量图像的能力成为研究热点,但其训练依赖大规模数据和复杂架构,且多步去噪过程导致推理时间显著延长,难以满足实时应用需求. 相比之下,GAN模型在图像生成速度上的优势明显,尤其在资源受限的场景下,能够以低计算成本高效生成图像. 此外,GAN模型的潜在空间平滑性和可解释性优于扩散模型,更适合条件控制和交互式图像编辑任务.
本研究聚焦于优化GAN模型结构,在保持高效生成速度的同时突破传统GAN生成质量的瓶颈,为实时生成和轻量化部署场景提供兼顾质量与效率的解决方案. 研究将针对2大核心挑战展开:1)在不牺牲推理速度的前提下,提高GAN模型的多样化表达能力和语义对齐能力;2)提升GAN模型的细节表现力,缩小与扩散模型的图像生成质量差距. 基于GAN的文本生成图像模型在语义表达方面面临挑战,生成器的潜在空间由于维度有限和特征提取能力不足,往往难以全面表达文本描述的复杂语义信息. MirrorGAN[3]利用反向网络和循环一致性损失约束语义对齐,DF-GAN[4]通过多次仿射学习机制和匹配感知损失增强生成图像对文本语义的全面表达能力. GALIP[5]结合对比语言-图像预训练模型(contrastive language-image pretraining,CLIP)[6]的多模态表达能力增强语义表达,并指导生成器生成全面贴合语义的图像. 本研究在GALIP生成器中加入星模块卷积(star product convolution, StarConv)[7],通过强化对非线性特征的提取能力来提升潜在空间表达能力,结合CLIP实现多样化生成. 为了提升生成图像细节表现,本研究将文本语义信息和真实图像语义信息引入鉴别器的训练过程中,通过多模态语义信息监督强化生成器的细节表现,使生成器在维持语义一致性的同时,显著提升与真实图像在细节层面的契合度;引入可变形卷积(deformable convolution)[8],通过自适应地调整卷积核的采样位置,有效增强模型处理细节信息的能力,使生成图像在细节表现上更加逼真.
本研究提出基于多模态语义信息的文本生成图像方法,相较于扩散模型通过多次迭代细化图像的生成机制,所提方法通过单次前向传播完成高质量生成,1)将真实图像语义信息引入鉴别器,在语义细节层面对生成器的优化提供精准的监督信号; 2)生成器采用可变形卷积,增强生成器对图像空间细节信息的感知和处理能力; 3)星模块卷积通过隐式高维映射提供强大的潜在空间表达能力,替代扩散模型的多步隐变量优化.
1. 相关工作
Reed等[9]以条件生成对抗网络(conditional GAN, CGAN)为基础,将文本嵌入作为条件输入生成器和判别器中,构建GAN-INT-CLS模型,验证了基于GAN实现文本生成图像的可行性. 基于GAN的文本生成图像研究由此拉开序幕. 为了提高生成图像的真实性以及文本语义一致性,一系列创新方法被提出. Zhang等[10]提出两阶段生成框架StackGAN,将复杂的图像生成任务分解为2步,大幅提升了生成图像的质量和分辨率,但StackGAN依赖初始生成图像质量且缺乏动态语义更新机制,无法将文本语义很好地融入生成图像. 在MirrorGAN中,文本-图像-文本循环一致性机制被提出. 该机制通过反向网络将生成图像映射回文本,并计算与原始输入文本之间的循环一致性损失,有助于增强模型对长文本和复杂语义的理解,提升文本描述与生成图像之间的全局语义一致性. DF-GAN摒弃多阶段生成,将生成任务整合为单一阶段,并构建深度融合文本图像块,通过仿射学习利用文本特征指导图像特征的生成与更新,使得图像特征在每一层生成过程中都与文本语义保持一致. 此外,DF-GAN中的匹配感知损失能够提升评估图像与文本一致性的能力. 针对模糊的文本语义信息与具体的图像信息的差异,Tan等[11]将分布正则化机制引入GAN并提出DR-GAN,通过最小化真实图像和生成图像之间的分布差异,使生成器生成的图像更像真实图像,有效地提升了生成图像的真实性. 此外,DR-GAN优化生成器和判别器的设计,使得模型在复杂场景下的生成稳定性显著提高. Ye等[12]提出的RAT-GAN引入递归仿射变换机制,通过形状一致的标准上下文向量统一控制各融合块,利用RNN连接上下文向量以捕获长期相关性. 该机制有效提升了生成器对文本语义的理解能力,优化了融合块的一致性控制和文本-图像对齐能力,确保生成图像在语义层面与输入文本高度匹配,并在多层融合结构中保持细节一致性.
预训练大模型(pre-trained large models,PLMs)通过大规模数据集和高效的预训练策略构建,具备强大的泛化能力,在多领域展现出巨大潜力. 备受关注的大型视觉语言模型 CLIP,通过对来自互联网的4.0×108组文本-图像对进行训练,实现了文本和图像数据之间的跨模态联合表示. 在文本到图像生成任务中,Zhou等[13]利用CLIP优秀的多模态语义空间对齐特性,提出无文本数据的文本到图像生成模型训练方案,通过从图像特征生成伪文本特征,消除了模型训练对文本条件的依赖. 该方法在标准文本到图像生成任务中已达到先进的水平,甚至优于大多数使用完整图文对训练的模型. Ramesh等[14]提出的两阶段模型引入CLIP图像嵌入的生成机制,通过先验模型生成CLIP图像嵌入,使用解码器生成对应图像. 通过CLIP明确生成图像表征,解码器生成具有语义和风格一致性的图像变体,有效控制非必要细节的变化. GALIP模型将CLIP与GAN相结合,充分利用CLIP的复杂场景理解能力和多样领域的泛化能力,基于CLIP构建鉴别器和生成器,实现对复杂场景的高效理解与高质量图像生成.
2. 基于多模态语义信息的文本生成图像方法
如图1所示为本研究所提方法的框架,它由生成器与鉴别器对组成. 生成器的输入为文本描述与高斯噪声:随机噪声经语义融合模块与CLIP文本编码器提取的文本条件信息深度融合,再通过上采样模块逐步生成高分辨率图像,文本条件在此过程中持续引导,确保语义一致性. 鉴别器通过CLIP图像编码器提取图像的视觉特征,并由特征提取块与语义对齐块联合处理文本、生成图像以及真实图像的多模态语义信息,以评估图像-文本匹配度和语义准确性. 鉴别器的判别信息反馈至生成器,从而优化图像质量和多模态一致性.
图 1
图 1 基于多模态语义信息的文本生成图像方法的框架图
Fig.1 Framework diagram of text-to-image generation method based on multimodal semantic information
2.1. 文本图像编码器
在文本生成图像领域,研究者通常借助预训练编码器对文本与图像数据进行编码. CLIP通过大规模图像-文本对的训练,使视觉概念和自然语言描述的建模能力显著提升. CLIP的文本编码器基于Transformer[15]架构,通过结合分词、嵌入、位置编码及多层自注意力机制,生成语义丰富且与视觉特征对齐的高维文本向量. 图像编码器采用Vision Transformer(ViT)[16]或ResNet结构[17],将图像分割为固定大小的视觉补丁(patches),将每个补丁嵌入为向量后输入Transformer模型,利用全局注意力机制捕获图像中远距离像素间的关系,使得图像编码器能够处理图片中的全局信息. 本研究选用CLIP的预训练文本编码器和图像编码器,旨在充分利用其在文本语义表达和视觉特征提取上的强大能力,提升生成模型在多模态任务中的表现.
2.2. 生成器结构
所提模型的生成器有2个输入:1)由文本编码器生成的句子向量,为生成图像提供语义信息;2)噪声向量,用以保证生成图像的多样性. 从高斯分布中采样随机噪声向量
为了更高效地融合图像和文本信息,并生成层次分明且富有细节的图像,在特征融合块后引入星模块卷积. 星模块卷积具有隐式映射至高维非线性特征空间的能力,能够捕捉复杂的跨模态交互关系,在紧凑的特征空间中刻画丰富的语义和视觉特征,使得文本到图像的生成质量和一致性提升. 星模块卷积由2个全局卷积和3个点卷积组成. 对于图像特征处理,1)通过深度卷积提取图像的全局信息,形成初步的特征表示
式中:
2.3. 可变形卷积
在生成模块中,初始的小尺寸图像特征通过图像生成块的上采样操作逐步提升分辨率,并通过卷积操作调整图像细节. 为了生成语义更连贯、结构更合理的图像,采用可变形卷积层对生成图像的细节进行精准调整. 图像上采样块由上采样操作、2个仿射运算和2个卷积操作依次交叠,在图像进行上采样之后,由仿射运算和卷积操作对图像特征进行调整. 在后3个上采样块中,选用可变形卷积替换普通卷积,可变形卷积可以自适应调整卷积核位置,使模型更加注重图像细节. 对于普通卷积,通过规则的采样网格对每个采样点的取值进行加权求和,生成新的特征表示;可变形卷积是在普通卷积的基础上,通过增加偏移量获得自适应的不规则但更合理的采样网格. 给定图像特征输入
式中:
图 2
可变形卷积学习偏移量,根据输入图像的特定结构或纹理动态调整采样位置,解决了普通卷积在长距离依赖和自适应空间聚合方面的限制,使得卷积核能够更精准地捕捉局部细节. 综上所述,将可变形卷积应用于图像上采样阶段,其自适应调整感受野的能力能显著增强复杂区域(如边缘、纹理)的细节还原,减少模糊现象,有效提升生成图像的细节表现力和真实性.
2.4. 鉴别器结构
为了给生成器提供更丰富的指导信号,引入真实图像作为判别条件,构建语义对齐鉴别器. 鉴别器由2个部分组成:1)只接收待鉴别的图像;2)同时处理生成图像和真实图像. 将输入图像传递至视觉编码器,以提取视觉特征信息. 为了充分发挥 ViT 视觉编码器在复杂场景理解的优势,设计多尺度特征提取机制,通过从浅层到深层逐层收集 CLIP 图像编码器生成的特征表征,构建多层次的视觉特征表示,捕捉场景中丰富的语义信息和细节特征. 本研究利用3个特征提取块对多尺度特征进行融合与优化. 每个特征提取块由2个卷积层组成,利用卷积操作对视觉特征进行深层次的信息挖掘和整合,捕捉更多细节与语义信息. 通过这一设计,特征提取模块能够高效整合来自不同层次的视觉编码器特征,为后续鉴别任务提供更具判别力的视觉表征. 视觉编码器提取生成图像与真实图像的 CLIP 图像特征并输入语义对齐块,获取在语义层面的对齐信息. 语义对齐模块通过强大的全局特征捕捉能力,深入对比分析生成图像和真实图像特征,实现精确的鉴别.
语义对齐块结构如图3所示. 待鉴别的图像输入CLIP-ViT视觉编码器,得到图像语义特征
图 3
式中:j 为第 j 层语义对齐块. 语义对齐操作通过对齐生成图像语义信息和真实图像语义信息,能够提供鉴别器对图像细节的细粒度判别能力. 通过引入真实图像的语义信息,鉴别器不仅能够对生成图像进行精准判别,还能够为生成器提供丰富的语义指导.本研究提出的鉴别器通过多模态语义对齐机制,在生成器训练过程中发挥双重作用:1)引导生成器生成贴合文本语义的图像;2)结合真实图像的细节特征对生成图像进行优化,显著提升生成图像的细节丰富度与真实感. 这种对齐机制能有效改善生成图像在语义一致性和细节表现上的不足,使生成结果更具视觉真实度.
2.5. 目标函数
为了让训练过程更稳定,生成更高质量的图像,构建多维度的损失函数,平衡生成图像的视觉质量、语义一致性以及与真实图像的相似度. 鉴别器目标函数为
生成器目标函数为
式中:
3. 模型性能验证实验
3.1. 数据集
3.2. 评估指标
弗雷歇初始距离(Fréchet inception distance, FID)[20]通过计算生成图像与真实图像在特征空间的均值和协方差矩阵距离,衡量视觉分布相似度. FID分数越低,代表生成图像越接近真实图像.
式中:
CLIPScore[21]是基于CLIP的评估指标,用于衡量生成图像和文本描述之间的语义一致性,广泛应用于图像生成、文本描述生成任务. 该评估指标将CLIP 模型的跨模态嵌入空间计算相似性作为图像和文本之间的对齐程度,表达式为
式中:
初始分数(inception score, IS)[22]使用预训练的Inception V3模型来计算条件分布(生成图像)和边缘分布(真实图像)之间的Kullback-Leibler(KL)散度,以评估图像的质量和多样性. IS 数值提升表示生成图像质量提高和多样性增强.
在CUB和COCO数据集中对比不同模型的图像生成效果. 为了计算FID、SCLIP和IS,从测试数据集中随机选择文本描述交由每个模型,生成分辨率为224×224的1 000张图像进行对比.
3.3. 训练细节
本研究所提模型基于 PyTorch 实现,文本编码器和图像编码器的参数均源于 CLIP. 模型在2个数据集上进行训练和测试,实验均在单块 NVIDIA 4090 GPU(24GB 显存)上完成. 设置批量大小为16,噪声向量的维数为100,生成图像的分辨率为 224×224. 选择CLIP 的 ViT-B/32 模型作为视觉编码器,在特征提取块中分别使用 CLIP-ViT 的第2、5和9层提取特征,以充分利用不同层次的视觉表征. 训练过程中采用Adam优化器,设置
3.4. 实验结果
为了评估所提模型的性能,在2个数据集上进行多指标对比实验,实验结果如表1所示. 与基线模型GALIP相比,所提模型在细粒度生成任务(数据集CUB)中,FID从10.08降低至9.56,IS从5.92提升至6.04,SCLIP从0.316 4提升至0.325 2;在复杂场景生成任务(数据集COCO)中,FID从5.85降低至5.62,IS从37.11提升至37.36,SCLIP从0.333 8提升至0.340 5. 这些定量结果表明,所提模型在生成高保真图像方面具有显著优势,在各项指标上均展现出比主流方法优越的性能.
表 1 不同模型在2个数据集上的评估指标对比
Tab.1
为了验证所提方法在图像生成速度方面的优势,将所提模型与当前主流的自回归模型和扩散模型进行性能比较. 实验评估指标采用零样本弗雷歇起始距离(zero-shot FID, ZS-FID),以量化生成图像的质量,结果如表2所示. 可以看出,所提方法在参数量np=0.3×109的情况下,单张图像生成时间tg=0.04 s,相较于自回归模型Make-a-scene[26]和扩散模型LDM[27],分别提升了约235倍和375倍;即使与结合扩散模型和GAN的混合模型UFOGen[28]相比,所提模型在生成速度上仍具有优势. 在生成质量方面,所提模型的ZS-FID得分为12.48,优于LDM和UFOGen. 实验结果进一步验证了本研究在生成对抗网络结构上的优化设计的有效性,所提模型仅需较少的参数量便可在更短的时间内生成高质量图像,为实时图像生成任务提供了有效且高效的解决方案.
表 2 不同模型在COCO数据集上的图像生成速度对比
Tab.2
| 模型 | 类型 | tg/s | np/109 | ZS-FID↓ |
| Make-a-scene | 自回归 | 9.40 | 8.0 | 11.84 |
| LDM | 扩散 | 15.00 | 1.5 | 12.63 |
| UFOGen | 扩散+GAN | 0.09 | 0.9 | 12.78 |
| 本研究 | GAN | 0.04 | 0.3 | 12.48 |
如图4所示,为了评估合成图像的视觉质量,在 CUB数据集上对比所提模型与 GALIP生成的图像. 在第4行,所提模型生成的图像精准还原“橘色鸟体、黑色翅膀以及少量白色特征”的文本描述,羽毛纹理清晰,在语义一致性和细节还原方面表现出色. 相比之下,GALIP生成的图像未能准确表现橘色身体及黑色羽毛带白色的特征,与真实图像的相似度较低. 对比第6行不同模型对黑色鸟类的生成结果,所提模型生成的图像不仅在语义上高度贴合文本描述,在细节处理上尤为细致,实现羽毛光泽度的物理逼真渲染. GALIP在细节处理上较为粗糙,尤其是在羽毛纹理和形态表现方面缺乏准确性. 综合来看,所提模型在语义一致性和细节还原能力方面均优于基线模型,生成图像更具真实感.
图 4
图 4 在CUB数据集上不同模型的文本生成图像对比
Fig.4 Text-to-image generation comparison of different models on CUB dataset
如图5所示为不同模型在 COCO 数据集上的图像生成结果. 可以看出,所提模型在多目标复杂场景下也展现出显著优势. 对比第1行图片所提模型生成的长颈鹿不仅在整体形态上贴近真实长颈鹿的姿态,还对花纹和纹理进行精细刻画,有效避免了图像大规模失真的情况;GALIP在该场景下生成的长颈鹿图像存在明显的失真现象. 对比第6行图片,所提模型准确刻画了抛棒球运动员的动态姿态,生成的人物形态自然流畅,未出现GALIP生成中常见的人物扭曲问题. 所提模型对场景中其他人物和物体的描绘同样细致真实,展现出较强的细节处理能力和场景理解能力. 综上所述,相比GALIP,所提模型不仅能够更准确地捕捉复杂场景中的细节和动态,还能生成更具真实和语义一致性的图像,在生成质量上具有显著优势.
图 5
图 5 在 COCO数据集上不同模型的文本生成图像对比
Fig.5 Text-to-image generation comparison of different models on COCO dataset
3.5. 消融实验
在2个数据集上设计单模块实验、双模块组合实验和全模块实验,系统性验证各模块对模型性能的独立贡献及协同作用. 如表3所示为消融实验结果,其中基线的指标数据来源于GALIP模型的运行结果. 3个核心改进模块包括:添加星模块卷积(为图像生成提供更多非线性)、添加可变形卷积(为图像生成提供细节处理能力)、构建语义对齐鉴别器. 可以看出,每个模块的引入均对模型性能的提升起积极作用. 在基线模型中引入星模块卷积后,数据集CUB的FID从10.08降至9.70,SCLIP从0.316 4升至0.318 4;数据集COCO的FID从5.85降至5.76,SCLIP从0.333 8升至0.335 2. 该结果表明,星模块卷积通过增强模型的非线性表达能力,有效提升了生成图像的真实性. 在上采样生成阶段进一步引入可变形卷积后,数据集CUB的FID从9.70降至9.68,SCLIP从0.318 4升至0.320 5;数据集COCO的FID从5.76降至5.69,SCLIP从0.335 2升至0.334 1. 该结果表明,可变形卷积通过增强模型对图像细节的建模能力,进一步提升了生成图像的质量. 在模型中引入语义对齐鉴别器后,数据集CUB的FID从9.68降至9.56,SCLIP从0.320 5升至0.325 9;数据集COCO的FID从5.69降至5.62,SCLIP从0.334 1升至0.340 5. 该结果表明,语义对齐鉴别器通过提供更强的语义监督信号,显著提升了生成图像的语义一致性和真实性.
表 3 基于多模态语义信息的文本生成图像方法的模块消融实验
Tab.3
| 基线 | 星模块卷积 | 可变形卷积 | 语义对齐鉴别器 | CUB数据集 | COCO数据集 | |||
| FID↓ | SCLIP↑ | FID↓ | SCLIP↑ | |||||
| √ | — | — | — | 10.08 | 5.85 | |||
| √ | √ | — | — | 9.70 | 5.76 | |||
| √ | — | √ | — | 9.89 | 5.80 | |||
| √ | — | — | √ | 9.97 | 5.72 | |||
| √ | √ | √ | — | 9.68 | 5.69 | |||
| √ | √ | — | √ | 9.62 | 5.65 | |||
| √ | — | √ | √ | 9.93 | 5.71 | |||
| √ | √ | √ | √ | 9.56 | 5.62 | |||
为了验证语义对齐鉴别器中语义对齐块数量对图像生成效果的影响,在实验中使用不同数量的语义对齐模块,分析由此引起的FID、SCLIP的数值变化,结果如表4 所示. 当语义对齐模块数量为3时,FID最低为9.97,SCLIP最高为0.319 1,表明生成图像的质量和语义一致性最佳;当模块数量超过 3 个时,生成图像的质量下降,这可能是模块过多导致模型过拟合引起的.
表 4 语义对齐鉴别器的消融实验结果
Tab.4
| 语义对齐块数量 | FID↓ | SCLIP↑ |
| 1 | 10.18 | |
| 2 | 10.03 | |
| 3 | 9.97 | |
| 4 | 10.05 |
扩散模型对输入句子很敏感,这种不稳定性使得用户不得不进行多次提示尝试才能获得满意的图像. 本研究所提模型继承了GAN的平滑潜在空间,可以随着文本的变化而逐渐平滑地变化. 如图6所示,在同一文本内容下,通过改变属性内容,生成图像对应的属性发生很平滑的改变,实现用户对图像风格化程度的细粒度控制.
图 6
图 6 在CUB数据集上的模型平滑潜在空间验证
Fig.6 Model’s smooth latent space validation on CUB dataset
4. 结 语
本研究提出高效的文本生成图像方法,通过改进GAN的网络结构,实现在保持毫秒级生成速度的同时,使生成图像的质量与当前主流扩散模型相当. 在生成器阶段,通过在文本特征融合过程中引入星模块卷积层,增强了生成器的非线性表征能力. 在图像上采样过程中,用可变形卷积替代普通卷积,使生成器在图像生成过程中精准地捕捉图像的细节特征. 鉴别器基于多模态语义信息构建判别依据,通过结合文本语义和真实图像语义,对生成图像进行综合鉴别. 利用空间注意力模块引导生成图像聚焦于关键细节语义,提高了鉴别的精准性和生成图像的语义一致性. 改进举措显著提升了生成图像的质量和真实性,使所提方法在细节处理上优于GAN模型,在与 GALIP的对比中表现更加出色. 所提方法在生成图像质量提升的情况下,并未显著增加生成时间. 量化指标和消融实验结果验证了针对GAN网络结构优化的有效性,进一步证明,改进策略能够显著提升生成图像的质量和细节表现力. 所提方法为对延迟敏感的应用场景(如实时交互)提供了有效的解决方案,显著降低了模型部署所需的计算资源与硬件成本. 受限于模型规模与预训练数据量,本研究在处理极端复杂场景与歧义文本时面临挑战. 后续研究工作将围绕引入如场景图的强先验知识以增强复杂场景构图能力,融合大型语言模型以深化语义理解展开,持续提升模型的性能与应用范围.
参考文献
DR-GAN: distribution regularization for text-to-image generation
[J].DOI:10.1109/TNNLS.2022.3165573 [本文引用: 1]
Recurrent affine transformation for text-to-image synthesis
[J].DOI:10.1109/TMM.2023.3266607 [本文引用: 1]
DMF-GAN: deep multimodal fusion generative adversarial networks for text-to-image synthesis
[J].DOI:10.1109/TMM.2024.3358086 [本文引用: 1]
SAW-GAN: multi-granularity text fusion generative adversarial networks for text-to-image generation
[J].DOI:10.1016/j.knosys.2024.111795 [本文引用: 1]
/
| 〈 |
|
〉 |

