<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 提出方法的总体架构

Fig.1 Overall architecture of proposed method

判别器网络D主要包括全局判别器$ D_{\text{global}} $和局部判别器$ D_{\text{local}} $. 简单来说，D是一系列的卷积下采样过程，使用二维实例归一化来提高模型的泛化能力和鲁棒性，除最后一层为Sigmoid激活函数外，其他卷积层的激活函数均为LRelu.

将生成图F和真实卡通图C直接输入到全局判别器$ D_{\text{global}} $中，判别整张图像的风格化，同时反馈信息去提升生成器的生成能力. 除此之外，随机抽样小批量的生成图F和真实卡通图C，将其输入到局部分支模块，即LERM. 该模块将输入的图像先经过结构线提取网络进行线条的提取，再经过一系列的处理，输入到局部判别器$ D_{\text{local}} $中. $ D_{\text{local}} $反馈局部的边缘信息给生成器G，优化生成的边缘效果. 2个判别器对生成器共同形成促进效果，构成紧凑的图像卡通化的GAN架构.

2.2. CBAM_Resblock

由于风格化的结果没有显式地捕捉区域之间的差异，没有突出图像中的重要特征信息，受文献[23]的启发，注意力机制CBAM是轻量的通用模块，可以将该模块融入各种卷积神经网络中进行端到端的训练. 其中通道注意力用来聚焦图像中有意义的特征，通过对输入特征的空间维度进行压缩，有效地计算通道注意力. 空间注意力用来聚焦最具信息量的部分，该空间注意图编码了模型所需要关注或抑制的特定位置信息，这是对通道注意力的补充.

结合CBAM与残差块，构成通道空间注意力残差块（CBAM_Resblock），并置于生成器网络中来表达图像中的重要特征信息.

如图2所示，对输入的特征图$ {\boldsymbol{F}}_{\rm{e}} $分别进行全局最大池化和全局平均池化，将得到的2个一维向量送入MLP网络并相加，生成一维通道注意力$ {\boldsymbol{M}}_{\rm{c}} $.将$ {\boldsymbol{M}}_{\rm{c}}\left({\boldsymbol{F}}_{\rm{e}}\right) $与$ {\boldsymbol{F}}_{\rm{e}} $相乘，得到通道注意力调整后的特征图$ {\boldsymbol{F}}_{\rm{e}}' $，如下所示：

图 2

图 2 通道空间注意力残差块

Fig.2 CBAM_Resblock

(1)$ {\boldsymbol{F}}_{\rm{e}}' = {\boldsymbol{M}}_{\rm{c}}\left({\boldsymbol{F}}_{\rm{e}}\right) \otimes {\boldsymbol{F}}_{\rm{e}} . $

式中：$ \otimes $表示元素乘法. $ {\boldsymbol{F}}_{\rm{e}}' $按空间进行全局最大池化和全局平均池化，将得到的2个二维向量连接起来，进行卷积运算，产生二维空间注意力$ {\boldsymbol{M}}_{\rm{s}} $. 利用元素相乘进行自适应特征细化，得到最终的输出$ {\boldsymbol{F}}_{\rm{e}}'' $，如下所示：

(2)$ {\boldsymbol{F}}_{\rm{e}}'' = {\boldsymbol{M}}_{\rm{s}}\left({\boldsymbol{F}}_{\rm{e}}'\right) \otimes {\boldsymbol{F}}_{\rm{e}}' . $

将$ {\boldsymbol{F}}_{\rm{e}}'' $与$ {\boldsymbol{F}}_{\rm{e}} $相加，以充分利用图像特征. 在生成阶段，通过CBAM_Resblock构建内容和风格特征，捕捉区域之间的差异，突出图像中的重要特征信息.

2.3. 线提取区域处理模块(LERM)

LERM如图3所示，将小批量的卡通图像C和生成图像F作为LERM的输入，经过结构线提取网络提取图像线条. 将提取到的结果和该模块的输入图像进行匹配，利用提取到的线条来自适应地引导注意力到边缘分明的局部图像区域，提取相应的$ m $个图像块，如下所示：

图 3

图 3 线提取区域处理模块

Fig.3 Line extraction region processing module

(3)$ m = n\left(\left\lfloor {\frac{{h - d}}{s}} \right\rfloor +1\right)\left(\left\lfloor {\frac{{w - d}}{s}} \right\rfloor +1\right) . $

(4)$ \left\{ {c_{\mathrm{p}}^i,e_{\mathrm{p}}^i} \right\}_{i = 1}^m = {\mathrm{Extract}}\left(C \otimes L,d,s\right) . $

式中：$ h $和$ w $分别为训练图像的高度和宽度，$ n $为批量大小，$ d $和$ s $分别为滑动窗口相似补丁提取过程的补丁大小和步长，$ c_{\mathrm{p}}^i $和$ e_{\mathrm{p}}^i $分别为第$ i $个提取到的卡通图像C和线图L的图像块. 根据线条的强度信息排列出前$ k $个图像块. 为了避免颜色带来的干扰，将前$ k $个图像块的RGB模式转为灰度图模式，输入局部判别器$ D_{\text{local}} $进行对抗学习，加强对卡通纹理特征的捕捉.

在LERM模块设计结构线提取网络，它与通用的边缘检测方法不同:Canny边缘检测结果粗糙，会包含大量的冗余线条. 当卡通图像中的黑色边缘线的两侧均为亮色背景时，检测结果中会出现“双边缘现象”. 利用结构线网络提取到的线条清晰平滑，如图4所示. 如图4（a）~（c）分别为原图、Canny和结构线网络提取到的结果，其中图Ⅰ、图Ⅱ、图Ⅲ、图Ⅳ及图Ⅴ均取自卡通图像集C. 此处的结构线提取网络是下采样和上采样的过程，下采样利用常规卷积块提取图像特征，当下采样在较粗尺度上生成粗略结构线时，上采样再对图像特征进行卷积，从粗到细重建输出图像线条. 在对应的下采样和上采样层之间添加对称跳跃，以减少信息的丢失，保留输入图像的细节，输出更清晰、连贯的线条.

图 4

图 4 线条提取的比较

Fig.4 Comparison of line extraction

利用该模块，可以削弱冗余线条，使生成的卡通图像更接近真实的卡通效果. 此外，它能够高效捕捉图像边缘的局部特征，调整局部风格. 该模块用来补充全局分支，实现对图像边缘的优化，生成质量更好的风格图像.

2.4. 损失函数

通过内容、颜色重建及对抗性损失的共同约束，生成更好的卡通化图像. 总的损失函数$ L_{\text{total}} $如下：

(5)$ L_{\text{total}} = w_{\text{adv}}L_{\mathrm{adv}}\left(G,D\right)+ \\w_{\mathrm{con}}L_{\mathrm{con}}\left(G,D\right)+w_{\mathrm{col}}L_{\mathrm{col}}\left(G,D\right) .$

式中：$ L_{\text{con}} $为内容损失，$ w_{\text{con}} $为内容损失的权重，$ L_{\text{col}} $为颜色重建损失，$ w_{\text{col}} $为颜色重建损失的权重，$ L_{\text{adv}} $为对抗性损失，$ w_{\text{adv}} $为对抗性损失的权重. 通过最小化来形成对抗性训练框架，以优化整个网络.

在该架构中，为了保证输入图像和卡通化结果之间的内容一致性，采用Russakovsky等^[24]预先训练的VGG19^[25]作为感知网络，提取图像的高级语义特征. 内容损失为输入图像和生成图像的$ L_1 $损失，如下所示：

(6)$ L_{\mathrm{con}}\left(G,D\right) =E_{{\boldsymbol{r}}_{{{i}}}\sim R}\left[ \left\| {{\mathrm{VGG}}_{{l}}}\left({\boldsymbol{r}}_{{i}}\right) - {\mathrm{VGG}}_{{l}}\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) \right\|_{\mathrm{l}} \right] .$

式中：$ l $为特定的VGG层.

为了使图像的颜色重建效果更好，采用文献[11]的颜色重建损失$ L_{\text{col}}\left(G,D\right) $，将图像的颜色从RGB格式转换为YUV格式. 在该损失中，$ L_1 $损失被用于Y通道，Huber损失被用于U和V通道，如下所示：

(7)$ \begin{split} L_{\text{col}}\left(G,D\right) = & E_{{\boldsymbol{r}}_{{{i}}}\sim R}\left[ \left\| {Y\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) - Y\left({\boldsymbol{r}}_{{i}}\right)} \right\|_{\mathrm{l}}+\right. \\ &\left\| {U\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) - U\left({\boldsymbol{r}}_{{i}}\right)} \right\|_{\mathrm{H}}+ \left.\left\| {V\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) - V\left({\boldsymbol{r}}_{{i}}\right)} \right\|_{\mathrm{H}} \right] .\end{split} $

式中：$ Y\left({\boldsymbol{r}}_{{i}}\right) $、$ U\left({\boldsymbol{r}}_{{i}}\right) $、$ V\left({\boldsymbol{r}}_{{i}}\right) $分别为原图像$ {\boldsymbol{r}}_{{i}} $的3个通道.

全局判别器$ D_{\text{global}} $通过全局图像级分支捕获卡通图像的整体风格，其中$ L_{\text{global}}\left(G,D_{\text{global}}\right) $采用LSGAN^[26]的最小二乘损失，提高生成图像的质量和训练过程中的稳定性. 全局对抗性损失如下：

(8)$ \begin{split} & {L_{\text{global}}}\left(G, D_{\text {global }}\right)=E_{{{\boldsymbol{c}}_i} \sim C}\left[\left(D_{\text {global }}\left({\boldsymbol{c}}_i\right)-1\right)^2\right]+ \\& \quad E_{{{\boldsymbol{f}}_i} \sim F} \left[ \left( D_{{\mathrm{g l o b a l}}} \left({\boldsymbol{f}}_i\right) \right)^2 \right] + E_{{{\boldsymbol{f}}_i} \sim {\boldsymbol{F}}}\left[ \left(D_{\text {global }} \left({\boldsymbol{f}}_i\right) - 1 \right)^2\right] .\end{split} $

采用LSGAN，$ L_{\text{local}}\left(G,D_{\text{local}}\right) $通过局部对抗性学习分支学习局部卡通纹理模式，提升生成图像的局部风格化效果. 局部对抗性损失如下：

(9)$ \begin{split} {L_{\text{local}}}(G, D_{\text{local}} ) =\;&E_{C_\text {local }} \left[\frac{1}{k} \sum_{i=1}^k \left( {D_{\mathrm{local}}} \left( c_{\mathrm{p}}^i \right) - 1 \right)^2 \right] + \\& E_{F_\text {local }} \left[\frac{1}{k} \sum_{i=1}^k\left({D_{\mathrm{local}}}\left(f_{\mathrm{p}}^i\right)\right)^2\right]+ \\& E_{F_\text {local }} \left[ \frac{1}{k} \sum_{i=1}^k \left( {D_{\mathrm{local}}}\left(f_{\mathrm{p}}^i\right) - 1\right)^2 \right] .\end{split} $

式中：$ C_{\text{local}} $和$ F_{\text{local}} $分别为提取的真实卡通和生成卡通的前$ k $个图像块，$ c_{\mathrm{p}}^i $和$ f_{\mathrm{p}}^i $分别为提取的第$ i $个卡通图像块和生成图像块.

总的对抗性损失为

(10)${L_{\mathrm{adv}}}(G, D)={L_{\text{global}}}(G, D _{\text{global}})+\\{L_{\text{local}}}(G, \;{ D_{\mathrm{local}} }).$

3. 实验分析

3.1. 数据集和训练过程

训练数据包含真实世界的图像和卡通图像，测试数据只包括真实世界的图像. 所有的训练图像都被调整为256×256大小. 源域包含5568张训练图像和792张定量测试图像，它是从文献[6]的训练和定量测试集中选取的. 针对目标域训练数据，使用Makoto Shinkai、Mamoru Hosoda和Hayao 3个不同风格的卡通数据集. 由于不同的创作者有独特的创作风格，为了得到同种风格的一系列图片，从风格相同的电影中截取关键帧，得到4725、4099和4370个卡通图像，分别用于训练Makoto Shinkai、Mamoru Hosoda和Hayao风格模型.

由于GAN网络使用未配对的数据进行端到端训练，具有随机初始化和高度非线性的特点，出现优化陷入次优局部最小值的问题. Chen等^[7]提出生成器的预训练有助于加速GAN收敛，因此预训练10个轮次后，通过100个轮次训练模型，交替最小化损失，以优化生成器部分和判别器部分，学习率为$ 2 \times {10^{ - 4}} $. 在该阶段，设置各损失的权重为$ w_{\text{adv}} $=50，$ w_{\text{con}} $=5，$ w_{\text{col}} $=7，使用$ \beta_1 $=0.5、$ \beta_2 $=0.999的Adam优化器，训练批次为$ n $=8. 所有实验均在Tesla V100 GPU上开展.

3.2. 结果分析

图像1~18均来自源域，如图5所示为利用该方法生成的一些不同卡通风格的图像. 可知，利用提出的方法，能够产生高质量的风格化结果.

图 5

图 5 3种不同风格的转换

Fig.5 Three different style transformations

将本研究与先前的几种风格化工作进行比较，包括CycleGAN^[6]、CartoonGAN^[7]、SDP-GAN^[10]、White-box^[9]、AnimeGANv2^[11]、MS-CartoonGAN^[13]、CCPL^[4]及CAST^[5]. 在定性实验中，给出9种不同方法的生成图像及比较分析. 在定量实验中，使用Fréchet Inception distance（FID）^[27]计算源图像分布和目标图像分布之间的距离来评估性能. 在消融实验中，分别对损失函数和各组件进行实验对比及分析，验证本文方法的有效性.

3.2.1. 定性比较

利用定性实验得到的结果都是由Makoto Shinkai风格数据训练的. 如图6所示，CCPL、CAST得到的结果更偏向绘画的笔触风格，不同于卡通风格，不适合生成卡通图像. CycleGAN得到的卡通效果不明显，细节和颜色部分丢失. 如图7所示，通过图像8的钟表、图像9、10的植物及图像11的建筑，可得如下结论：CartoonGAN的风格化程度相对较弱，在生成的结果中局部卡通纹理不明显. 此外，CartoonGAN使用边缘平滑的卡通数据集，以便进行对抗性学习来提升边缘效果，但没有达到比较满意的结果. AnimeGANv2生成的卡通图像通常较暗，局部区域存在模糊和伪影. MS-CartoonGAN部分区域偏暗，颜色受到了损失. White-box实现了较好的图像卡通化，但色彩过渡不平滑. 利用以上方法达到了图像风格上的转换，但没有捕捉到图像的重点特征信息. SDP-GAN提升了卡通化效果，但内容和颜色都存在一定程度的丢失. 可以看出，本文方法通过减少不必要的伪影并在显著区域中保留重要的特征信息，生成了色彩鲜艳、表面光滑的生动卡通图像，达到了更佳的视觉效果.

图 6

图 6 图像风格化的对比

Fig.6 Comparison of image stylization

图 7

图 7 同一种风格的对比图

Fig.7 Comparison chart of same style

3.2.2. 定量比较

定量指标FID为真实样本和生成样本在特征空间上的距离. 利用Inception-v3^[28]网络来提取特征，使用高斯模型对特征空间进行建模，求解2个特征之间的距离. 利用这个距离来衡量真实图像和生成图像的相似程度，FID越小，则相似程度越高，即生成的图像更接近真实图像.

通过计算生成的图像和目标域图像之间的FID分数，确定生成的图像是否具有卡通图像的风格.与5种有代表性的方法进行定量评价比较，证明该方法的有效性，如表1所示.

表 1 生成图像和目标图像的FID值

Tab.1 FID values for generated image and target image

风格	FID
风格	CartoonGAN	White-box	SDP-GAN	AnimeGANv2	MS-CartoonGAN	本文方法
Shinkai	140.5	126.8	122.7	121.3	146.3	120.2
Hayao	166.6	154.6	125.6	144.4	140.8	123.0
Hosoda	163.2	155.3	136.6	141.5	160.1	133.7

新窗口打开| 下载CSV

如表1所示为CartoonGAN、White-box、SDP-GAN、AnimeGANv2、MS-CartoonGAN及该方法对3种风格的FID评分. 与其他5种方法相比，利用该方法生成的图像具有更小的FID值，证明利用该方法生成的结果与卡通图像更相似.

3.2.3. 消融实验

通过消融实验，研究该方法组件的作用. 所有结果都由Mamoru Hosoda风格的数据训练得到. 实验结果表明，各组件在该方法中发挥着重要作用.

图8中的模型A、模型B、模型C及模型F分别对应只有局部分支（无全局对抗性损失）、只有全局分支（无局部对抗性损失）、对颜色重建损失的消融以及整个模型的结果图像. 当去除全局分支时，可知模型A的相应结果没有表现出任何卡通风格. 这表明全局分支（全局对抗性损失）的作用是平衡整个图像的风格. 除此之外，移除了局部模块来验证线提取区域处理模块（局部对抗性损失）带来的边缘处理效果，可以发现模型B的边缘和颜色存在一定程度的丢失. 当去掉颜色重建损失时，模型C与输入图颜色相差较大，表明颜色重建损失对生成图的颜色重建起到一定的作用.

图 8

图 8 损失函数消融实验的对比图

Fig.8 Comparison chart of loss function ablation experiment

图9中的模型D、模型E及模型F分别对应没有注意力模块、Canny线条提取及整个模型的结果. 为了证明注意力模块的有效性，开展消融实验. 从Chattopadhay^[29]得到的注意力图可知，模型D的图像16中的人群、图像17的阶梯处及图像18的建筑都存在一定程度的细节丢失，颜色与输入图颜色相差较大，没有明显的风格化效果. 模型E和模型F比较了Canny和结构线提取对图像卡通化的作用. 结构线可以看作是卡通图像中的“骨架”，能够帮助实现更好的图像卡通化. 模型E中的线条表达较差，模型F的线条及整体风格化效果更好.

图 9

DOI:10.3778/j.issn.1002-8331.1407-0015 [本文引用: 1]

图 9 组件消融实验的对比图

Fig.9 Comparison chart of component ablation experiment

定量实验如表2所示. 可知，各组件的FID值小于模型F. 这表明在显著的卡通纹理局部区域上，自适应约束对抗性学习有助于增强卡通风格的渲染. 各组件的结合避免了之前数据预处理的需要. 各种损失函数的共同作用使得生成的图像更加生动.

表 2 消融实验的FID值

Tab.2 FID value of ablation experiment

序号	模型	FID
A	局部分支	177.3
B	全局分支	135.8
C	无颜色重建损失	135.0
D	无注意力模块	134.5
E	Canny	134.0
F	整个模型	133.7

新窗口打开| 下载CSV

4. 结　语

本文提出融合注意力机制和结构线提取的图像卡通化方法. 构建关注重要区域，保留内容细节的GAN架构，生成高质量的视觉效果图像. 设计与全局并行的线提取区域处理模块，以便对卡通纹理的边缘局部区域进行对抗性训练，实现对卡通纹理的学习. 通过大量的实验验证了该方法的有效性，与先前方法相比，提出方法取得了更好的卡通化效果. 未来可以考虑利用样式标签信息和多尺度投影判别器实现单模型多风格的图像卡通化，还可以考虑将该框架应用到其他计算机视觉处理领域中.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

梅洪, 陈昭炯

基于Mean Shift和FDoG的图像卡通化渲染

[J]. 计算机工程与应用, 2016, 52 (10): 213- 217

MEI Hong, CHEN Zhaojiong

Cartoonish rendering of images based on Mean Shift and FDoG

[J]. Computer Engineering and Applications, 2016, 52 (10): 213- 217

DOI:10.3778/j.issn.1002-8331.1407-0015 [本文引用: 1]

[2]

刘侠

基于OpencCV中Mean Shift的图像卡通化处理

[J]. 信息与电脑: 理论版, 2020, 32 (20): 54- 57

LIU Xia

Image cartoon processing based on Mean Shift in OpencCV

[J]. Information and Computer: Theory Edition, 2020, 32 (20): 54- 57

[3]

CANNY J

A computational approach to edge detection

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8 (6): 679- 698

DOI:10.1109/TPAMI.1986.4767851 [本文引用: 4]

[4]

WU Z, ZHU Z, DU J, et al. CCPL: contrastive coherence preserving loss for versatile style transfer [C]// 17th European Conference on Computer Vision . Cham: Springer, 2022: 189-206.

[5]

ZHANG Y, TANG F, DONG W, et al. Domain enhanced arbitrary image style transfer via contrastive learning [C]// ACM SIGGRAPH 2022 Conference Proceedings . Vancouver: ACM, 2022: 1-8.

[6]

ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2223-2232.

[本文引用: 3]

[7]

CHEN Y, LAI Y K, LIU Y J. Cartoongan: generative adversarial networks for photo cartoonization [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 9465-9474.

[本文引用: 3]

[8]

PĘŚKO M, SVYSTUN A, ANDRUSZKIEWICZ P, et al

Comixify: transform video into comics

[J]. Fundamenta Informaticae, 2019, 168 (2-4): 311- 333

DOI:10.3233/FI-2019-1834 [本文引用: 1]

[9]

WANG X, YU J. Learning to cartoonize using white-box cartoon representations [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 8090-8099.

[10]

LI R, WU C H, LIU S, et al

SDP-GAN: saliency detail preservation generative adversarial networks for high perceptual quality style transfer

[J]. IEEE Transactions on Image Processing, 2020, 30: 374- 385

[11]

CHEN J, LIU G, CHEN X. Animegan: a novel lightweight GAN for photo animation [C]// International Symposium on Intelligence Computation and Applications . Singapore: Springer, 2020: 242-256.

[本文引用: 3]

[12]

GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 2414-2423.

[13]

SHU Y, YI R, XIA M, et al

GAN-based multi-style photo cartoonization

[J]. IEEE Transactions on Visualization and Computer Graphics, 2021, 28 (10): 3376- 3390

[14]

DONG Y, TAN W, TAO D, et al

cartoonLossGAN: learning surface and coloring of images for cartoonization

[J]. IEEE Transactions on Image Processing, 2021, 31: 485- 498

[15]

GAO X, ZHANG Y, TIAN Y. Learning to incorporate texture saliency adaptive attention to image cartoonization [EB/OL]. (2022-08-02)[2023-06-01]. https://arxiv.org/abs/2208.01587.

[16]

KANG H, LEE S, CHUI C K

Flow-based image abstraction

[J]. IEEE Transactions on Visualization and Computer Graphics, 2008, 15 (1): 62- 76

DOI:10.1016/j.imavis.2005.05.010 [本文引用: 1]

[17]

WINNEMOELLER H, KYPRIANIDIS J E, OLSEN S C

XDoG: an extended difference-of-Gaussians compendium including advanced image stylization

[J]. Computers and Graphics, 2012, 36 (6): 740- 753

DOI:10.1016/j.cag.2012.03.004 [本文引用: 2]

[18]

SÝKORA D, BURIÁNEK J, ŽÁRA J

Segmentation of black and white cartoons

[J]. Image and Vision Computing, 2005, 23 (9): 767- 782

[19]

SÝKORA D, BURIÁNEK J, ŽÁRA J. Sketching cartoons by example [C]// Proceedings of Eurographics Workshop on Sketch Based Interfaces and Modeling . Schoten: Eurographics Association, 2005: 27-33.

[20]

ZHANG S H, CHEN T, ZHANG Y F, et al

Vectorizing cartoon animations

[J]. IEEE Transactions on Visualization and Computer Graphics, 2009, 15 (4): 618- 629

DOI:10.1109/TVCG.2009.9 [本文引用: 1]

[21]

LIU X, MAO X, YANG X, et al

Stereoscopizing cel animations

[J]. ACM Transactions on Graphics, 2013, 32 (6): 1- 10

[22]

LI C, LIU X, WONG T T

Deep extraction of manga structural lines

[J]. ACM Transactions on Graphics, 2017, 36 (4): 1- 12

[23]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision . Munich: Elsevier, 2018: 3-19.

[24]

RUSSAKOVSKY O, DENG J, SU H, et al

Imagenet large scale visual recognition challenge

[J]. International Journal of Computer Vision, 2015, 115 (3): 211- 252

DOI:10.1007/s11263-015-0816-y [本文引用: 1]

[25]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04)[2023-06-01]. https://arxiv.org/abs/1409.1556.

[26]

MAO X, LI Q, XIE H, et al. Least squares generative adversarial networks [C]// Proceedings of the IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2794-2802.

[27]

HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium [C]// Advances in Neural Information Processing Systems . Long Beach: MIT Press, 2017: 30.

[28]

SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 2818-2826.

[29]

CHATTOPADHAY A, SARKAR A, HOWLADER P, et al. Grad-CAM++: generalized gradient-based visual explanations for deep convolutional networks [C]// IEEE Winter Conference on Applications of Computer Vision . Nevada: IEEE, 2018: 839-847.