[1]
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems . [S.l.]: MIT Press, 2014: 2672-2680.
[本文引用: 1]
[2]
王凯, 岳泊暄, 傅骏伟, 等 基于生成对抗网络的图像恢复与SLAM容错研究
[J]. 浙江大学学报: 工学版 , 2019 , 53 (1 ): 115 - 125
[本文引用: 1]
WANG Kai, YUE Bo-xuan, FU Jun-wei, et al Image restoration and fault tolerance of stereo SLAM based on generative adversarial net
[J]. Journal of Zhejiang University: Engineering Science , 2019 , 53 (1 ): 115 - 125
[本文引用: 1]
[3]
XU T, ZHANG P, HUANG Q, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 1316-1324.
[本文引用: 4]
[4]
LI B, QI X, LUKASIEWICZ T, et al. ManiGAN: text-guided image manipulation[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 7877-7886.
[本文引用: 1]
[5]
TAO M, TANG H, WU F, et al. DF-GAN: a simple and effective baseline for text-to-image synthesis[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 16494-16504.
[本文引用: 5]
[6]
HAN J, SHOEIBY M, PETERSSON L, et al. Dual contrastive learning for unsupervised image-to-image translation[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops . Nashville: IEEE, 2021: 746-755.
[本文引用: 1]
[7]
REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]// Proceedings of the 33rd International Conference on International Conference on Machine Learning . [S.l.]: JMLR, 2016: 49-58.
[本文引用: 1]
[8]
ZHANG H, XU T, LI H, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 5907-5915.
[本文引用: 1]
[9]
TAN H, LIU X, LI X, et al. Semantics-enhanced adversarial nets for text-to-image synthesis[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision . Seoul: IEEE, 2019: 10500-10509.
[本文引用: 2]
[10]
LIAO W, HU K, YANG M Y, et al. Text to image generation with semantic-spatial aware GAN[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 18166-18175.
[本文引用: 2]
[11]
YE S, LIU F, TAN M. Recurrent affine transformation for text-to-image synthesis [EB/OL]. (2022-04-01)[2022-12-01]. https://arxiv.org/pdf/2204.10482.pdf.
[本文引用: 2]
[12]
KUMARI N, ZHANG B, ZHANG R, et al. Multi-concept customization of text-to-image diffusion[C]// Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Vancouver: IEEE, 2023: 1931-1941.
[本文引用: 1]
[13]
QIAO T, ZHANG J, XU D, et al. MirrorGAN: learning text-to-image generation by redescription[C]// Proceedings of the 2019 Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 1505-1514.
[本文引用: 1]
[14]
YIN G, LIU B, SHENG L, et al. Semantics disentangling for text-to-image generation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 2322-2331.
[本文引用: 1]
[15]
YE H, YANG X, TAKAC M, et al. Improving text-to-image synthesis using contrastive learning [EB/OL]. (2021-07-01)[2022-12-01]. https://arxiv.org/pdf/2107.02423.pdf.
[本文引用: 3]
[16]
HE K, FAN H, WU Y, et al. Momentum contrast for unsupervised visual representation learning[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 9726-9735.
[本文引用: 1]
[17]
ZHU M, PAN P, CHEN W, et al. DM-GAN: dynamic memory generative adversarial networks for text-to-image synthesis[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Long Beach: IEEE, 2019: 5795-5803.
[本文引用: 2]
[18]
ZHANG H, KOH J Y, BALDRIDGE J, et al. Cross-modal contrastive learning for text-to-image generation[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Nashville: IEEE, 2021: 833-842.
[本文引用: 1]
[19]
CHEN Y, DAI X, LIU M, et al. Dynamic convolution: attention over convolution kernels[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 11027-11036.
[本文引用: 1]
[20]
SCHUSTER M, PALIWAL K K Bidirectional recurrent neural networks
[J]. IEEE Transactions on Signal Processing , 1997 , 45 (11 ): 2673 - 2681
DOI:10.1109/78.650093
[本文引用: 1]
[21]
RUSSAKOVSKY O, DENG J, SU H, et al Imagenet large scale visual recognition challenge
[J]. International Journal of Computer Vision , 2015 , 115 (3 ): 211 - 252
DOI:10.1007/s11263-015-0816-y
[本文引用: 1]
[22]
SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 2818-2826.
[本文引用: 1]
[23]
LIN TY, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]// Proceedings of the ECCV 2014 . [S.l.]: Springer, 2014: 740-755.
[本文引用: 1]
[24]
WAH C, BRANSON S, WELINDER P, et al. The caltech-ucsd birds-200-2011 dataset [R]. Pasadena: California Institute of Technology, 2011.
[本文引用: 1]
[25]
HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . Long Beach: Curran Associates, 2017: 6629–6640.
[本文引用: 1]
[26]
KINGMA D P, BA J L. ADAM: a method for stochastic optimization [EB/OL]. (2014-12-01)[2022-12-01]. https://arxiv.org/pdf/1412.6980.pdf.
[本文引用: 1]
[27]
HAN S C, LONG S, LUO S, et al. VICTR: visual information captured text representation for text-to-image multimodal tasks [EB/OL]. (2020-10-01)[2022-12-01]. https://arxiv.org/pdf/2010.03182.pdf.
[本文引用: 1]
[28]
HINZ T, HEINRICH S, WERMTER S. Semantic object accuracy for generative text-to-image synthesis [EB/OL]. (2019-10-01)[2022-12-01]. https://arxiv.org/pdf/1910.13321.pdf.
[本文引用: 1]
[29]
RUAN S, ZHANG Y, ZHANG K, et al. DAE-GAN: dynamic aspect-aware GAN for text-to-image synthesis[C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 13940-13949.
[本文引用: 1]
[30]
FENG F, NIU T, LI R, et al Modality disentangled discriminator for text-to-image synthesis
[J]. IEEE Transactions on Multimedia , 2022 , 24 : 2112 - 2124
DOI:10.1109/TMM.2021.3075997
[本文引用: 1]
[31]
PENG J, ZHOU Y, SUN X, et al Knowledge-driven generative adversarial network for text-to-image synthesis
[J]. IEEE Transactions on Multimedia , 2022 , 24 : 4356 - 4366
DOI:10.1109/TMM.2021.3116416
[本文引用: 1]
1
... 文本生成图像是根据给定英文句子生成符合句子语义的图像. 文本生成图像的方法大多基于生成对抗网络(generative adversarial networks, GAN)[1 ] . 生成对抗网络也用于图像恢复[2 ] 、图像增强和图像补全等领域. ...
基于生成对抗网络的图像恢复与SLAM容错研究
1
2019
... 文本生成图像是根据给定英文句子生成符合句子语义的图像. 文本生成图像的方法大多基于生成对抗网络(generative adversarial networks, GAN)[1 ] . 生成对抗网络也用于图像恢复[2 ] 、图像增强和图像补全等领域. ...
基于生成对抗网络的图像恢复与SLAM容错研究
1
2019
... 文本生成图像是根据给定英文句子生成符合句子语义的图像. 文本生成图像的方法大多基于生成对抗网络(generative adversarial networks, GAN)[1 ] . 生成对抗网络也用于图像恢复[2 ] 、图像增强和图像补全等领域. ...
4
... 文本生成图像任务需要先对文本进行编码,再根据编码生成图像. 如果仅使用单个句子提取的文本编码,可能会遗漏一些关键的细节描述,无法提供足够的语义信息来帮助生成对抗网络生成细节丰富的图像. 在AttnGAN[3 ] 中,引入单词信息来帮助生成器生成图像的不同子区域,通过使用更多的文本信息来更好地表示文本语义,帮助生成器生成高质量图像. ManiGAN[4 ] 的网络结构与AttnGAN类似,该模型能够挖掘单词信息实现图像编辑功能. DF-GAN[5 ] 通过串联多个文本图像融合块,将句子信息有效地融入图像特征. DF-GAN在只使用句子信息的情况下,生成图像的质量远远超过AttnGAN生成图像的质量,证明AttnGAN使用直接拼接的方式融合图像特征和单词信息并不能实现文本信息和视觉特征的深度融合. 在生成图像的过程中,合理地利用文本信息,使得文本信息能够更充分有效地融合进图像特征之中,是决定生成图像视觉真实性并且符合文本语义的关键因素. 因此,尽可能提供更多文本信息表示文本语义和把文本信息有效融入图像特征,是文本生成图像任务的2个关键因素. 本研究提出在DF-GAN中的文本图像融合块中合理的添加单词信息,在充分挖掘文本语义的同时,使单词信息能够有效地融入图像特征. 对比学习已经在计算机视觉许多领域得到广泛应用,例如图像转换[6 ] . 为了进一步促使生成图像和文本在潜在语义上保持一致,本研究将对比损失应用在真实图像与生成图像之间,减小相同语义图像对之间的距离,增大不同语义图像对之间的距离. 通过使生成图像更“像”真实图像的方式,促进生成图像符合文本语义. 为了更好使生成器根据给定文本动态地生成图像,本研究引入动态卷积. 由于不同语义文本对应的图像有很大差异,有必要根据输入文本动态生成图像. 动态卷积可以根据融入语义后的图像特征动态地调整多个卷积核的权重,使生成器间接的根据输入的文本信息动态地生成图像,进而提高生成图像的质量. ...
... 文本生成图像任务中的文本编码是将文本字符编码为具有视觉区分能力的向量,为接下来生成符合文本语义的图像提供条件. 文本编码器采用双向长短期记忆网络(LSTM)[20 ] ,一个隐藏层2个方向的连接作为1个单词的编码,最后一个隐藏层2个方向的连接作为当前句子的编码. 单句中所有单词编码为 ${\boldsymbol{e}} \in{{\bf{R }}^{D \times T}}$ ,句子编码为 ${\boldsymbol{s}} \in{{\bf{R }}^D}$ ,其中T 为句子中单词的个数,D 为单词或句子向量的维度. 图像编码器建立在ImageNet[21 ] 数据集预训练的Inception-V3[22 ] 基础上. 真实图像缩放为固定尺寸输入图像编码器,在最后一个平均池化层得到真实图像的编码 $ \bar{\boldsymbol{f }} \in{{\bf{R }}^{{\text{2 048}}}} $ ,在mixed_6e层得到图像子区域的编码 ${\boldsymbol{f }} \in{{\bf{R }}^{768 \times 289}}$ . 一幅图像的子区域数量为289,子区域的维度为768. 通过最小化DAMSM损失[3 ] 对图像编码器和文本编码器进行训练. 这样文本编码器生成的文本编码具有视觉区分能力,即能够区分具体颜色. 在生成对抗网络训练时,文本编码器和图像编码器参数固定,减小了生成对抗网络模型的参数量,降低了训练难度. ...
... 所提模型在pytorch上实现,文本编码器和图像编码器参数来自文献[3 ]. 模型在CUB和COCO的训练和测试都在单个NVIDIA V100 32G GPU上进行. 训练中使用 ${\; \beta _1}$ =0.0, ${\;\beta _{\text{2}}}$ =0.9的Adam优化器[26 ] . 设置式(8)中的η =0.1,式(9)中的η =0.5,式(10)中的K =8,batch=32. 在使用生成图像和生成图像的对比损失时,设置式(14)中系数权重为 ${\lambda _1}$ =0.1, $ {\lambda _{\text{2}}} $ =0.1, ${\lambda _3}$ =0.2. CUB的最终模型是在600~700次迭代时取得最小的FID数值的对应模型. COCO的最终模型是取第1次FID数值小于13的模型,迭代次数为219. ...
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
1
... 文本生成图像任务需要先对文本进行编码,再根据编码生成图像. 如果仅使用单个句子提取的文本编码,可能会遗漏一些关键的细节描述,无法提供足够的语义信息来帮助生成对抗网络生成细节丰富的图像. 在AttnGAN[3 ] 中,引入单词信息来帮助生成器生成图像的不同子区域,通过使用更多的文本信息来更好地表示文本语义,帮助生成器生成高质量图像. ManiGAN[4 ] 的网络结构与AttnGAN类似,该模型能够挖掘单词信息实现图像编辑功能. DF-GAN[5 ] 通过串联多个文本图像融合块,将句子信息有效地融入图像特征. DF-GAN在只使用句子信息的情况下,生成图像的质量远远超过AttnGAN生成图像的质量,证明AttnGAN使用直接拼接的方式融合图像特征和单词信息并不能实现文本信息和视觉特征的深度融合. 在生成图像的过程中,合理地利用文本信息,使得文本信息能够更充分有效地融合进图像特征之中,是决定生成图像视觉真实性并且符合文本语义的关键因素. 因此,尽可能提供更多文本信息表示文本语义和把文本信息有效融入图像特征,是文本生成图像任务的2个关键因素. 本研究提出在DF-GAN中的文本图像融合块中合理的添加单词信息,在充分挖掘文本语义的同时,使单词信息能够有效地融入图像特征. 对比学习已经在计算机视觉许多领域得到广泛应用,例如图像转换[6 ] . 为了进一步促使生成图像和文本在潜在语义上保持一致,本研究将对比损失应用在真实图像与生成图像之间,减小相同语义图像对之间的距离,增大不同语义图像对之间的距离. 通过使生成图像更“像”真实图像的方式,促进生成图像符合文本语义. 为了更好使生成器根据给定文本动态地生成图像,本研究引入动态卷积. 由于不同语义文本对应的图像有很大差异,有必要根据输入文本动态生成图像. 动态卷积可以根据融入语义后的图像特征动态地调整多个卷积核的权重,使生成器间接的根据输入的文本信息动态地生成图像,进而提高生成图像的质量. ...
5
... 文本生成图像任务需要先对文本进行编码,再根据编码生成图像. 如果仅使用单个句子提取的文本编码,可能会遗漏一些关键的细节描述,无法提供足够的语义信息来帮助生成对抗网络生成细节丰富的图像. 在AttnGAN[3 ] 中,引入单词信息来帮助生成器生成图像的不同子区域,通过使用更多的文本信息来更好地表示文本语义,帮助生成器生成高质量图像. ManiGAN[4 ] 的网络结构与AttnGAN类似,该模型能够挖掘单词信息实现图像编辑功能. DF-GAN[5 ] 通过串联多个文本图像融合块,将句子信息有效地融入图像特征. DF-GAN在只使用句子信息的情况下,生成图像的质量远远超过AttnGAN生成图像的质量,证明AttnGAN使用直接拼接的方式融合图像特征和单词信息并不能实现文本信息和视觉特征的深度融合. 在生成图像的过程中,合理地利用文本信息,使得文本信息能够更充分有效地融合进图像特征之中,是决定生成图像视觉真实性并且符合文本语义的关键因素. 因此,尽可能提供更多文本信息表示文本语义和把文本信息有效融入图像特征,是文本生成图像任务的2个关键因素. 本研究提出在DF-GAN中的文本图像融合块中合理的添加单词信息,在充分挖掘文本语义的同时,使单词信息能够有效地融入图像特征. 对比学习已经在计算机视觉许多领域得到广泛应用,例如图像转换[6 ] . 为了进一步促使生成图像和文本在潜在语义上保持一致,本研究将对比损失应用在真实图像与生成图像之间,减小相同语义图像对之间的距离,增大不同语义图像对之间的距离. 通过使生成图像更“像”真实图像的方式,促进生成图像符合文本语义. 为了更好使生成器根据给定文本动态地生成图像,本研究引入动态卷积. 由于不同语义文本对应的图像有很大差异,有必要根据输入文本动态生成图像. 动态卷积可以根据融入语义后的图像特征动态地调整多个卷积核的权重,使生成器间接的根据输入的文本信息动态地生成图像,进而提高生成图像的质量. ...
... 在DF-GAN提出之前,文本生成图像的网络结构大多采用类似StackGAN堆叠式结构. Tao等[5 ] 指出,堆叠式结构存在多个生成器,导致生成器之间存在纠缠,使得堆叠式架构为主干的网络生成的图像像是不同图像区域的简单组合. DF-GAN以简单的单阶段文本生成图像主干,可以直接生成高分辨率图像,解决了生成器之间的纠缠问题,使得生成图像更加自然. SSA-GAN[10 ] 在DF-GAN的基础上通过弱监督的方式使文本信息只影响生成图像中与文本相关的区域. RAT-GAN[11 ] 使用递归神经网络连接DF-GAN所有的融合块,降低了网络训练的难度. 以上基于单阶段主干的文本生成图像方法都只使用句子信息,没有在图像生成的过程中融入细粒度的单词信息. ...
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
... [
5 ]
GitHub 12.10 15.41 本研究 — 10.36 12.74 参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
... 参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
1
... 文本生成图像任务需要先对文本进行编码,再根据编码生成图像. 如果仅使用单个句子提取的文本编码,可能会遗漏一些关键的细节描述,无法提供足够的语义信息来帮助生成对抗网络生成细节丰富的图像. 在AttnGAN[3 ] 中,引入单词信息来帮助生成器生成图像的不同子区域,通过使用更多的文本信息来更好地表示文本语义,帮助生成器生成高质量图像. ManiGAN[4 ] 的网络结构与AttnGAN类似,该模型能够挖掘单词信息实现图像编辑功能. DF-GAN[5 ] 通过串联多个文本图像融合块,将句子信息有效地融入图像特征. DF-GAN在只使用句子信息的情况下,生成图像的质量远远超过AttnGAN生成图像的质量,证明AttnGAN使用直接拼接的方式融合图像特征和单词信息并不能实现文本信息和视觉特征的深度融合. 在生成图像的过程中,合理地利用文本信息,使得文本信息能够更充分有效地融合进图像特征之中,是决定生成图像视觉真实性并且符合文本语义的关键因素. 因此,尽可能提供更多文本信息表示文本语义和把文本信息有效融入图像特征,是文本生成图像任务的2个关键因素. 本研究提出在DF-GAN中的文本图像融合块中合理的添加单词信息,在充分挖掘文本语义的同时,使单词信息能够有效地融入图像特征. 对比学习已经在计算机视觉许多领域得到广泛应用,例如图像转换[6 ] . 为了进一步促使生成图像和文本在潜在语义上保持一致,本研究将对比损失应用在真实图像与生成图像之间,减小相同语义图像对之间的距离,增大不同语义图像对之间的距离. 通过使生成图像更“像”真实图像的方式,促进生成图像符合文本语义. 为了更好使生成器根据给定文本动态地生成图像,本研究引入动态卷积. 由于不同语义文本对应的图像有很大差异,有必要根据输入文本动态生成图像. 动态卷积可以根据融入语义后的图像特征动态地调整多个卷积核的权重,使生成器间接的根据输入的文本信息动态地生成图像,进而提高生成图像的质量. ...
1
... Reed等[7 ] 以GAN为基础框架,将字符信息转换为像素信息,根据字符文本生成合理的图像. 为了获得更高分辨率的图像,Zhang等[8 ] 提出StackGAN,使用堆叠结构把直接生成高分辨率图像的复杂过程进行分解. 第1阶段生成64×64低分辨率图像,第2阶段在第1阶段生成图像的基础上添加细节,生成具有视觉真实性的256×256高分辨率图像. 在AttnGAN中单词信息用来帮助生成器生成合理的图像,注意力机制关注与子区域最相关的单词来帮助生成器生成图像的不同子区域,实现了图像的细粒度生成. 相比于AttnGAN平等地“看待”句子中所有单词,SE-GAN[9 ] 抑制了视觉影响较小的单词(例如the、is),只关注对视觉影响较大的关键词,提高了生成器的训练效率. 后续基于GAN的文本生成图像模型很多都延续了这种堆叠结构,即包含多个生成器和多个判别器. ...
1
... Reed等[7 ] 以GAN为基础框架,将字符信息转换为像素信息,根据字符文本生成合理的图像. 为了获得更高分辨率的图像,Zhang等[8 ] 提出StackGAN,使用堆叠结构把直接生成高分辨率图像的复杂过程进行分解. 第1阶段生成64×64低分辨率图像,第2阶段在第1阶段生成图像的基础上添加细节,生成具有视觉真实性的256×256高分辨率图像. 在AttnGAN中单词信息用来帮助生成器生成合理的图像,注意力机制关注与子区域最相关的单词来帮助生成器生成图像的不同子区域,实现了图像的细粒度生成. 相比于AttnGAN平等地“看待”句子中所有单词,SE-GAN[9 ] 抑制了视觉影响较小的单词(例如the、is),只关注对视觉影响较大的关键词,提高了生成器的训练效率. 后续基于GAN的文本生成图像模型很多都延续了这种堆叠结构,即包含多个生成器和多个判别器. ...
2
... Reed等[7 ] 以GAN为基础框架,将字符信息转换为像素信息,根据字符文本生成合理的图像. 为了获得更高分辨率的图像,Zhang等[8 ] 提出StackGAN,使用堆叠结构把直接生成高分辨率图像的复杂过程进行分解. 第1阶段生成64×64低分辨率图像,第2阶段在第1阶段生成图像的基础上添加细节,生成具有视觉真实性的256×256高分辨率图像. 在AttnGAN中单词信息用来帮助生成器生成合理的图像,注意力机制关注与子区域最相关的单词来帮助生成器生成图像的不同子区域,实现了图像的细粒度生成. 相比于AttnGAN平等地“看待”句子中所有单词,SE-GAN[9 ] 抑制了视觉影响较小的单词(例如the、is),只关注对视觉影响较大的关键词,提高了生成器的训练效率. 后续基于GAN的文本生成图像模型很多都延续了这种堆叠结构,即包含多个生成器和多个判别器. ...
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
2
... 在DF-GAN提出之前,文本生成图像的网络结构大多采用类似StackGAN堆叠式结构. Tao等[5 ] 指出,堆叠式结构存在多个生成器,导致生成器之间存在纠缠,使得堆叠式架构为主干的网络生成的图像像是不同图像区域的简单组合. DF-GAN以简单的单阶段文本生成图像主干,可以直接生成高分辨率图像,解决了生成器之间的纠缠问题,使得生成图像更加自然. SSA-GAN[10 ] 在DF-GAN的基础上通过弱监督的方式使文本信息只影响生成图像中与文本相关的区域. RAT-GAN[11 ] 使用递归神经网络连接DF-GAN所有的融合块,降低了网络训练的难度. 以上基于单阶段主干的文本生成图像方法都只使用句子信息,没有在图像生成的过程中融入细粒度的单词信息. ...
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
2
... 在DF-GAN提出之前,文本生成图像的网络结构大多采用类似StackGAN堆叠式结构. Tao等[5 ] 指出,堆叠式结构存在多个生成器,导致生成器之间存在纠缠,使得堆叠式架构为主干的网络生成的图像像是不同图像区域的简单组合. DF-GAN以简单的单阶段文本生成图像主干,可以直接生成高分辨率图像,解决了生成器之间的纠缠问题,使得生成图像更加自然. SSA-GAN[10 ] 在DF-GAN的基础上通过弱监督的方式使文本信息只影响生成图像中与文本相关的区域. RAT-GAN[11 ] 使用递归神经网络连接DF-GAN所有的融合块,降低了网络训练的难度. 以上基于单阶段主干的文本生成图像方法都只使用句子信息,没有在图像生成的过程中融入细粒度的单词信息. ...
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
1
... 基于DF-GAN和AttnGAN的优点,本研究使用单阶段文本生成图像主干,合理地融入单词信息,进一步提高生成图像质量. 将扩散模型 (diffusion model)[12 ] 应用于文本生成图像任务,取得了一系列显著的效果,但扩散模型存在如训练时间长、训练代价高昂的问题. 因此,研究如何利用生成对抗网络实现文本生成图像,具有十分重要的现实意义. ...
1
... 文本生成图像任务是跨模态任务,并且文本信息和图像信息存在巨大差异,生成的图像既要保证视觉真实性,还要确保文本和图像在潜在语义上一致是困难的. 之前的工作通过一系列措施对文本生成图像这个跨模态任务进行优化,如MirrorGAN[13 ] 将生成图像重新编码为文本描述,文本语义重建损失被用来约束生成图像符合文本语义. SD-GAN[14 ] 通过暹罗结构(Siamese structure)生成同语义对应2个不同文本表达的图像,并在2个批量的生成图像之间添加对比损失,使生成图像更加符合文本语义. Ye等[15 ] 使用相同结构,并将更有效的NT-Xent[16 ] 作为对比损失加入AttnGAN和DMGAN[17 ] 中,获得了更符合文本语义的图像. Zhang等[18 ] 利用对比损失捕获模态间和模态内的对应关系,效果显著. 本研究将对比损失应用在所提网络结构中,并测试将对比损失应用在不同的对象上带来的效果,合理的选择作用对象来促进文本和生成图像在潜在语义上一致. ...
1
... 文本生成图像任务是跨模态任务,并且文本信息和图像信息存在巨大差异,生成的图像既要保证视觉真实性,还要确保文本和图像在潜在语义上一致是困难的. 之前的工作通过一系列措施对文本生成图像这个跨模态任务进行优化,如MirrorGAN[13 ] 将生成图像重新编码为文本描述,文本语义重建损失被用来约束生成图像符合文本语义. SD-GAN[14 ] 通过暹罗结构(Siamese structure)生成同语义对应2个不同文本表达的图像,并在2个批量的生成图像之间添加对比损失,使生成图像更加符合文本语义. Ye等[15 ] 使用相同结构,并将更有效的NT-Xent[16 ] 作为对比损失加入AttnGAN和DMGAN[17 ] 中,获得了更符合文本语义的图像. Zhang等[18 ] 利用对比损失捕获模态间和模态内的对应关系,效果显著. 本研究将对比损失应用在所提网络结构中,并测试将对比损失应用在不同的对象上带来的效果,合理的选择作用对象来促进文本和生成图像在潜在语义上一致. ...
3
... 文本生成图像任务是跨模态任务,并且文本信息和图像信息存在巨大差异,生成的图像既要保证视觉真实性,还要确保文本和图像在潜在语义上一致是困难的. 之前的工作通过一系列措施对文本生成图像这个跨模态任务进行优化,如MirrorGAN[13 ] 将生成图像重新编码为文本描述,文本语义重建损失被用来约束生成图像符合文本语义. SD-GAN[14 ] 通过暹罗结构(Siamese structure)生成同语义对应2个不同文本表达的图像,并在2个批量的生成图像之间添加对比损失,使生成图像更加符合文本语义. Ye等[15 ] 使用相同结构,并将更有效的NT-Xent[16 ] 作为对比损失加入AttnGAN和DMGAN[17 ] 中,获得了更符合文本语义的图像. Zhang等[18 ] 利用对比损失捕获模态间和模态内的对应关系,效果显著. 本研究将对比损失应用在所提网络结构中,并测试将对比损失应用在不同的对象上带来的效果,合理的选择作用对象来促进文本和生成图像在潜在语义上一致. ...
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
... 在基线模型融入单词信息的前提下,尝试在生成图像和生成图像之间应用对比损失代替生成图像和真实图像之间的对比损失,使用文献[15 ]提供的文本编码器和图像编码器参数,结果如表5 所示. 可以看出,在没有使用动态卷积的情况下达到了最好的FID最好,FID从10.98降到10.32. 在生成图像和生成图像之间添加对比损失要生成原来2倍的图像来计算对比损失,使得模型参数剧增并且训练时长加大,由表5 可知,此时模型性能提升有限,因此最终的模型中没有使用这种对比损失. ...
1
... 文本生成图像任务是跨模态任务,并且文本信息和图像信息存在巨大差异,生成的图像既要保证视觉真实性,还要确保文本和图像在潜在语义上一致是困难的. 之前的工作通过一系列措施对文本生成图像这个跨模态任务进行优化,如MirrorGAN[13 ] 将生成图像重新编码为文本描述,文本语义重建损失被用来约束生成图像符合文本语义. SD-GAN[14 ] 通过暹罗结构(Siamese structure)生成同语义对应2个不同文本表达的图像,并在2个批量的生成图像之间添加对比损失,使生成图像更加符合文本语义. Ye等[15 ] 使用相同结构,并将更有效的NT-Xent[16 ] 作为对比损失加入AttnGAN和DMGAN[17 ] 中,获得了更符合文本语义的图像. Zhang等[18 ] 利用对比损失捕获模态间和模态内的对应关系,效果显著. 本研究将对比损失应用在所提网络结构中,并测试将对比损失应用在不同的对象上带来的效果,合理的选择作用对象来促进文本和生成图像在潜在语义上一致. ...
2
... 文本生成图像任务是跨模态任务,并且文本信息和图像信息存在巨大差异,生成的图像既要保证视觉真实性,还要确保文本和图像在潜在语义上一致是困难的. 之前的工作通过一系列措施对文本生成图像这个跨模态任务进行优化,如MirrorGAN[13 ] 将生成图像重新编码为文本描述,文本语义重建损失被用来约束生成图像符合文本语义. SD-GAN[14 ] 通过暹罗结构(Siamese structure)生成同语义对应2个不同文本表达的图像,并在2个批量的生成图像之间添加对比损失,使生成图像更加符合文本语义. Ye等[15 ] 使用相同结构,并将更有效的NT-Xent[16 ] 作为对比损失加入AttnGAN和DMGAN[17 ] 中,获得了更符合文本语义的图像. Zhang等[18 ] 利用对比损失捕获模态间和模态内的对应关系,效果显著. 本研究将对比损失应用在所提网络结构中,并测试将对比损失应用在不同的对象上带来的效果,合理的选择作用对象来促进文本和生成图像在潜在语义上一致. ...
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
1
... 文本生成图像任务是跨模态任务,并且文本信息和图像信息存在巨大差异,生成的图像既要保证视觉真实性,还要确保文本和图像在潜在语义上一致是困难的. 之前的工作通过一系列措施对文本生成图像这个跨模态任务进行优化,如MirrorGAN[13 ] 将生成图像重新编码为文本描述,文本语义重建损失被用来约束生成图像符合文本语义. SD-GAN[14 ] 通过暹罗结构(Siamese structure)生成同语义对应2个不同文本表达的图像,并在2个批量的生成图像之间添加对比损失,使生成图像更加符合文本语义. Ye等[15 ] 使用相同结构,并将更有效的NT-Xent[16 ] 作为对比损失加入AttnGAN和DMGAN[17 ] 中,获得了更符合文本语义的图像. Zhang等[18 ] 利用对比损失捕获模态间和模态内的对应关系,效果显著. 本研究将对比损失应用在所提网络结构中,并测试将对比损失应用在不同的对象上带来的效果,合理的选择作用对象来促进文本和生成图像在潜在语义上一致. ...
1
... 相比于普通的卷积操作,动态卷积[19 ] 非线性地聚合不同卷积核,使得动态卷积具有比普通卷积更强的表现能力. 由于动态卷积在分类任务中的应用效果较好,本研究尝试将它应用到生成模型中,优化跨模态训练. ...
Bidirectional recurrent neural networks
1
1997
... 文本生成图像任务中的文本编码是将文本字符编码为具有视觉区分能力的向量,为接下来生成符合文本语义的图像提供条件. 文本编码器采用双向长短期记忆网络(LSTM)[20 ] ,一个隐藏层2个方向的连接作为1个单词的编码,最后一个隐藏层2个方向的连接作为当前句子的编码. 单句中所有单词编码为 ${\boldsymbol{e}} \in{{\bf{R }}^{D \times T}}$ ,句子编码为 ${\boldsymbol{s}} \in{{\bf{R }}^D}$ ,其中T 为句子中单词的个数,D 为单词或句子向量的维度. 图像编码器建立在ImageNet[21 ] 数据集预训练的Inception-V3[22 ] 基础上. 真实图像缩放为固定尺寸输入图像编码器,在最后一个平均池化层得到真实图像的编码 $ \bar{\boldsymbol{f }} \in{{\bf{R }}^{{\text{2 048}}}} $ ,在mixed_6e层得到图像子区域的编码 ${\boldsymbol{f }} \in{{\bf{R }}^{768 \times 289}}$ . 一幅图像的子区域数量为289,子区域的维度为768. 通过最小化DAMSM损失[3 ] 对图像编码器和文本编码器进行训练. 这样文本编码器生成的文本编码具有视觉区分能力,即能够区分具体颜色. 在生成对抗网络训练时,文本编码器和图像编码器参数固定,减小了生成对抗网络模型的参数量,降低了训练难度. ...
Imagenet large scale visual recognition challenge
1
2015
... 文本生成图像任务中的文本编码是将文本字符编码为具有视觉区分能力的向量,为接下来生成符合文本语义的图像提供条件. 文本编码器采用双向长短期记忆网络(LSTM)[20 ] ,一个隐藏层2个方向的连接作为1个单词的编码,最后一个隐藏层2个方向的连接作为当前句子的编码. 单句中所有单词编码为 ${\boldsymbol{e}} \in{{\bf{R }}^{D \times T}}$ ,句子编码为 ${\boldsymbol{s}} \in{{\bf{R }}^D}$ ,其中T 为句子中单词的个数,D 为单词或句子向量的维度. 图像编码器建立在ImageNet[21 ] 数据集预训练的Inception-V3[22 ] 基础上. 真实图像缩放为固定尺寸输入图像编码器,在最后一个平均池化层得到真实图像的编码 $ \bar{\boldsymbol{f }} \in{{\bf{R }}^{{\text{2 048}}}} $ ,在mixed_6e层得到图像子区域的编码 ${\boldsymbol{f }} \in{{\bf{R }}^{768 \times 289}}$ . 一幅图像的子区域数量为289,子区域的维度为768. 通过最小化DAMSM损失[3 ] 对图像编码器和文本编码器进行训练. 这样文本编码器生成的文本编码具有视觉区分能力,即能够区分具体颜色. 在生成对抗网络训练时,文本编码器和图像编码器参数固定,减小了生成对抗网络模型的参数量,降低了训练难度. ...
1
... 文本生成图像任务中的文本编码是将文本字符编码为具有视觉区分能力的向量,为接下来生成符合文本语义的图像提供条件. 文本编码器采用双向长短期记忆网络(LSTM)[20 ] ,一个隐藏层2个方向的连接作为1个单词的编码,最后一个隐藏层2个方向的连接作为当前句子的编码. 单句中所有单词编码为 ${\boldsymbol{e}} \in{{\bf{R }}^{D \times T}}$ ,句子编码为 ${\boldsymbol{s}} \in{{\bf{R }}^D}$ ,其中T 为句子中单词的个数,D 为单词或句子向量的维度. 图像编码器建立在ImageNet[21 ] 数据集预训练的Inception-V3[22 ] 基础上. 真实图像缩放为固定尺寸输入图像编码器,在最后一个平均池化层得到真实图像的编码 $ \bar{\boldsymbol{f }} \in{{\bf{R }}^{{\text{2 048}}}} $ ,在mixed_6e层得到图像子区域的编码 ${\boldsymbol{f }} \in{{\bf{R }}^{768 \times 289}}$ . 一幅图像的子区域数量为289,子区域的维度为768. 通过最小化DAMSM损失[3 ] 对图像编码器和文本编码器进行训练. 这样文本编码器生成的文本编码具有视觉区分能力,即能够区分具体颜色. 在生成对抗网络训练时,文本编码器和图像编码器参数固定,减小了生成对抗网络模型的参数量,降低了训练难度. ...
1
... 传统的卷积操作中,所有输入共享统一的卷积核参数,动态卷积则可以根据输入的不同,动态地聚合多个卷积核. 由于文本生成图像的数据集中有多种不同类型的图像,比如在数据集COCO[23 ] 中,有人物、风景和汽车等多种类型,不同类型图像之间差异很大,在进行卷积操作的时候,应根据融入文本信息后的图像特征的不同,动态地生成图像. 融入图像特征的文本信息不同,各个卷积核的权重也不同. 不同文本信息会得到不同的卷积核权重,实现在图像生成过程中根据文本信息动态生成图像,提高网络动态生成的能力. 在生成器中,本研究使用动态卷积代替传统的卷积操作. ...
1
... 采用Caltech-UCSD Birds 200-2011[24 ] (CUB)和2014版COCO来训练和测试提出的模型. CUB是只有鸟类图片的数据集. 数据集中共有200种鸟类的图像,其中训练集中包含150种8855幅图像,测试集中包含50种2933幅图像. 每幅图像对应10种语义相同但表达方式不同的英文句子. COCO中的图像具有更丰富的种类和更复杂的场景,共有171种图像类别,其中训练集包含8万幅图像,测试集包含4万幅图像. 每幅图像对应5种语义相同但表达方式不同的英文句子. ...
1
... 使用FID[25 ] 对生成图像的质量进行量化分析. 生成图像和真实图像可以分别看作2个分布,FID计算生成图像分布和真实图像分布之间的距离,更低的FID分数代表生成图像更加接近真实图像,即视觉真实并且符合文本语义. ...
1
... 所提模型在pytorch上实现,文本编码器和图像编码器参数来自文献[3 ]. 模型在CUB和COCO的训练和测试都在单个NVIDIA V100 32G GPU上进行. 训练中使用 ${\; \beta _1}$ =0.0, ${\;\beta _{\text{2}}}$ =0.9的Adam优化器[26 ] . 设置式(8)中的η =0.1,式(9)中的η =0.5,式(10)中的K =8,batch=32. 在使用生成图像和生成图像的对比损失时,设置式(14)中系数权重为 ${\lambda _1}$ =0.1, $ {\lambda _{\text{2}}} $ =0.1, ${\lambda _3}$ =0.2. CUB的最终模型是在600~700次迭代时取得最小的FID数值的对应模型. COCO的最终模型是取第1次FID数值小于13的模型,迭代次数为219. ...
1
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
1
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
1
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
Modality disentangled discriminator for text-to-image synthesis
1
2022
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...
Knowledge-driven generative adversarial network for text-to-image synthesis
1
2022
... Performance of FID scores compared with different models in CUB and COCO datasets
Tab.1 模型 来源 FID CUB COCO AttnGAN[3 ] CVPR18 23.98 35.49 DM-GAN[17 ] CVPR19 16.09 32.64 SE-GAN[9 ] ICCV19 18.17 32.28 VICTR[27 ] COLING20 — 32.37 OP-GAN[28 ] TPAMI20 — 25.80 DAE-GAN[29 ] ICCV21 15.19 28.12 CL[15 ] BMVC21 14.38 20.79 MDD[30 ] TMM21 15.76 24.30 KD-GAN[31 ] TMM21 13.89 23.92 DF-GAN[5 ] CVPR22 14.81 21.42 SSA-GAN[10 ] CVPR22 15.61 19.37 RAT-GAN[11 ] arXiv 13.91 14.60 DF-GAN (预训练)[5 ] GitHub 12.10 15.41 本研究 — 10.36 12.74
参考Tao等[5 ] 在GitHub上公布的模型,实验得到训练DF-GAN需要的epoch数量. 如表2 所示为在CUB和COCO训练的epoch数量n 和训练单个epoch的时间t . 相比DF-GAN,所提模型在单个epoch的训练时间有所增加,但从2个数据集训练的总时间来看,达到较高水平所需的总时间基本相同,训练时间没有明显增加. 在CUB上,所提方法需要的训练时间约为69.56 h,DF-GAN需要的训练时间约为96.24 h. 在COCO上,所提方法需要的训练时间约为226.30 h,DF-GAN需要的训练时间约为211.70 h. 当进行模型推理时,所提方法生成1幅图像的时间约为2 ms,与DF-GAN模型生成1幅图像的时间相当. ...