浙江大学学报(工学版), 2024, 58(8): 1728-1737 doi: 10.3785/j.issn.1008-973X.2024.08.019

计算机技术、控制工程

融合注意力机制和结构线提取的图像卡通化

李灿林,, 王新玥, 马利庄, 邵志文, 张文娇

1. 郑州轻工业大学 计算机与通信工程学院,河南 郑州 450000

2. 上海交通大学 计算机科学与工程系,上海 200240

3. 中国矿业大学 计算机科学与技术学院,江苏 徐州 221116

Image cartoonization incorporating attention mechanism and structural line extraction

LI Canlin,, WANG Xinyue, MA Lizhuang, SHAO Zhiwen, ZHANG Wenjiao

1. School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450000, China

2. Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China

3. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China

收稿日期: 2023-07-1  

基金资助: 国家自然科学基金资助项目(61972157,62106268);河南省科技攻关项目(242102211003);上海市科技创新行动计划人工智能科技支撑项目(21511101200);江苏省“双创博士”人才资助项目(JSSCBS20211220).

Received: 2023-07-1  

Fund supported: 国家自然科学基金资助项目(61972157,62106268);河南省科技攻关项目(242102211003);上海市科技创新行动计划人工智能科技支撑项目(21511101200);江苏省“双创博士”人才资助项目(JSSCBS20211220).

作者简介 About authors

李灿林(1976—),男,副教授,从事图像处理和计算机视觉的研究.orcid.org/0000-0003-0307-3910.E-mail:lcl_zju@aliyun.com , E-mail:lcl_zju@aliyun.com

摘要

为了解决图像卡通化没有突出表达图像中的重要特征信息及边缘处理不足的问题,提出融合注意力机制和结构线提取的图像卡通化方法. 构建融合注意力机制的生成器网络,通过空间和通道融合特征间的联系,从不同的特征中提取更加重要和丰富的图像信息. 为了更好地实现对卡通纹理的学习,设计与全局并行的线提取区域处理模块(LERM),以便对卡通纹理的边缘区域进行对抗性训练. 该方法不仅在重要区域和细节方面生成了高感知质量的卡通化图像,而且避免了内容和颜色的损失. 大量的实验结果表明,利用该方法取得了更好的卡通风格化效果,验证了该方法的有效性,.

关键词: 生成式对抗网络 ; 图像卡通化 ; 注意力机制 ; 结构线提取 ; 边缘检测

Abstract

An image cartoonization method that incorporated attention mechanism and structural line extraction was proposed in order to address the problem that image cartoonization does not highlight important feature information in the image and insufficient edge processing. The generator network with fused attention mechanism was constructed, which extracted more important and richer image information from different features by fusing the connections between features in space and channels. A line extraction region processing module (LERM) in parallel with the global one was designed to perform adversarial training on the edge regions of cartoon textures in order to better learn cartoon textures. This method not only generates cartoonish images with high perceptual quality in terms of important areas and details, but also avoids the loss of content and color. The extensive experimental results showed that the proposed method achieved better cartoonization, which validated the effectiveness of the method.

Keywords: generative adversarial network ; image cartoonization ; attention mechanism ; structural line extraction ; edge detection

PDF (5408KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李灿林, 王新玥, 马利庄, 邵志文, 张文娇. 融合注意力机制和结构线提取的图像卡通化. 浙江大学学报(工学版)[J], 2024, 58(8): 1728-1737 doi:10.3785/j.issn.1008-973X.2024.08.019

LI Canlin, WANG Xinyue, MA Lizhuang, SHAO Zhiwen, ZHANG Wenjiao. Image cartoonization incorporating attention mechanism and structural line extraction. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(8): 1728-1737 doi:10.3785/j.issn.1008-973X.2024.08.019

卡通制作是工作量很大的创作形式,仅依靠个人力量往往难以完成,创作者们需要利用各种资源来设计艺术性的视觉内容. 图像卡通化是将自然拍摄到的图片转化成卡通风格的图片,实际上是对图像的内容部分进行平滑处理,对边缘部分进行锐化处理,使得生成的图像更加光滑,边缘更加突出. 人们设计出将图片风格化为卡通样式的算法,有助于减轻创作者们的劳动量,可以节省大量的时间,以便他们能够专注更具创造性的工作,同时图像卡通化在图像编辑、图像去雾和语义分割等其他方面具有实用价值.

目前卡通化已经取得了很大的改进,但现有方法还存在一定的不足. 1)它们通常擅于处理图像内容相对均匀的情况,但它们难以捕捉重要特征区域的结构模式,即使每个单独的区域正确地风格化为目标样式,结构化区域中的细节损失和平滑区域中的伪影也是难以避免的. 2)对于卡通图像来说,清晰的边缘通常分布在局部区域,而不是整张图像,且边缘的像素占比不大. 在对抗性损失训练的过程中,清晰边缘的特征很容易被颜色、纹理这些更明显的全局特征忽视.

针对以上问题,本文提出融合注意力机制和结构线提取的图像卡通化方法,目的是生成高感知质量的卡通化结果. 构建融合注意力机制的生成对抗网络(GAN),在关注重要区域的同时,保留细节. 设计线提取区域处理模块(LERM),它可以指导训练网络独立学习高频纹理细节,避免颜色和亮度的干扰,优化边缘,生成更接近卡通效果的图像.

1. 相关工作

1.1. 风格迁移

风格迁移是将一张图片渲染为特定风格或特征的新图像的过程. 图像卡通化是风格迁移的一个方面,旨在从真实世界的照片中生成具有清晰边缘、平滑着色和相对简单纹理的卡通图像. 梅洪等[1]提出基于Mean Shift和FDoG的图像卡通化渲染技术. 利用Mean Shift对图像进行分割,对分割出的区域进行进一步处理,通过FDoG来提取连贯的图像边界,结合获得的2个结果并进行亮度量化. 最终结果的色彩不够明亮鲜艳,且分割出的区域不符合人类视觉特性. 刘侠[2]采用Mean Shift进行彩色图像分割,再使用Canny[3]算法提取原图边界轮廓,将分割图像与边界图像进行合并,得到新的图像,最后调整对比度形成色彩鲜明的卡通风格图像. 最终的卡通化效果不明显. Wu等[4]提出适用于局部补丁的对比一致性保持损失和简单协方差变换,有效地将内容特征的二阶统计量和风格特征对齐,更好地融合内容和风格特征. Zhang等[5]提出的框架由3个关键部分组成,即用于风格编码的多层投影仪、用于有效学习风格分布的领域增强模块以及用于图像风格转移的生成网络,实现任意图像风格化. 以上这2种方法不适合卡通图像的生成. 随着GAN的提出,研究者们提出很多基于GAN架构的图像转换方法. Zhu等[6]提出的CycleGAN是第一个不需要配对数据集就可以进行风格转换的GAN网络,它使用循环一致性损失来保证生成器的输出和原图内容之间的相似性,但输出图不具有明显的卡通效果. Chen等[7]提出第一个为图像卡通化设计的网络CartoonGAN,其中设计了新颖的边缘对抗性损失来引导生成器生成清晰的边缘,但卡通化效果不明显,生成的边缘和轮廓仍有不足. Pęśko等[8]在CartoonGAN上进行改进,解决了CartoonGAN中边线不够清晰和颜色不自然的问题,但生成的图像中会存在过度风格化的区域,令原始照片内容有损. Wang等[9]提出3种白盒卡通化的特征表示法:外观特征、结构特征及纹理特征,通过调整三者的权重,可以平衡最终生成的效果. Li等[10]引入显著性网络,它与生成器同时进行训练,该方法保留了重要显著区域的细节,提高了整体图像的感知质量,但在风格化过程中会丢失部分颜色和内容. Chen等[11]将风格纹理Gram[12]损失转移到GAN框架,提出3种提高视觉效果的损失,分别是灰度风格损失、颜色重建损失和灰度对抗性损失,以此来学习卡通纹理特征,但在纹理转移的过程中丢失了部分内容,生成的图像会存在局部模糊和伪影. Shu等[13]提出MS-CartoonGAN,它由一个公用编码器、多个解码器和多个判别器组成,其中多个判别器与多个解码器一一对应,用于判断输入图像是真实的还是生成的卡通图像;增加辅助分类器,帮助网络更好地学习到不同风格之间的区别,实现了不同风格的图像卡通化,但生成的图像部分区域偏暗,颜色丢失. Dong等[14]通过重用判别器的编码器部分建立紧凑的生成式对抗网络,提出新的卡通损失函数和初始化策略,提高了生成图像的质量. Gao等[15]采用单独的局部区域对抗学习分支,实现更好的边缘效果. 虽然边缘检测和滤波操作对边缘处理具有实质性的作用,但生成的图像含有大量的冗余线条,使得视觉效果杂乱.

1.2. 线条提取

目前,关于风格化的边缘处理常采用边缘检测方法,提出了许多边缘检测器[3,16-17],例如Canny[3]边缘检测器和基于流的高斯差分[16]. Winnemoeller等[17]提出的XDoG通过差分滤波可以得到更深刻的边缘线条,但很容易与高对比度的屏幕图案混淆. Sykora等[18-19]假定卡通图像中的装饰线都是颜色较深的实线,采用高斯拉普拉斯算子(LoG)提取闭合轮廓的方法定位线条,实现卡通图像矢量化. 它对卡通线条的假设前提过于严格,使得该方法无法区分边缘与装饰线,在应用于现代卡通图像时,将直接导致2个问题:对卡通图像线条的漏取和误取. Zhang等[20]提出将Canny[3]边缘检测器和Steger的链接算法合并,检测卡通动画中的装饰线. Liu等[21]提出通过利用自适应直方图均衡和中值滤波来提取边缘. Li等[22]提出新的数据驱动方法来识别卡通图像中的结构线,输出清晰、流畅的结构线. 卡通图像通常使用结构线来突出基本几何形状和关键特征,将物体的主要部分和关键特征串联在一起,使卡通图像更具易读性和可理解性,为后续的色彩和纹理表现提供指导和参考. 本文采用结构线提取的方法来优化边缘,实现图像卡通化.

2. 网络架构

提出融合注意力机制和结构线提取的图像卡通化的GAN框架,实现从源域到目标域的非配对图像转换. 该框架的目的是保留重要显著区域的细节及边缘的优化,提高生成图像的质量. 与普通的GAN框架一样,生成器G学习不同域之间的映射函数,判别器D旨在通过区分目标域图像和生成图像来优化生成器G. 在这个架构中,网络使用非成对的训练数据,$ R = \left\{ {{\boldsymbol{r}}_i\left| {i = } \right.1,2, \cdots ,N} \right\} $表示真实自然图像集,即源域,$ C = \left\{ {{\boldsymbol{c}}_i\left| i \right. = 1,2, \cdots ,M} \right\} $表示卡通图像集,即目标域,$ F = \left\{ {{\boldsymbol{f}}_i\left| {i = 1,2, \cdots ,{N^{}}} \right.} \right\} $表示生成的图像集.

2.1. 总体架构

图1所示,总体架构主要由两大部分构成,分别是全局分支(实线箭头)和局部分支(虚线箭头). 将真实图像R输入生成器G中,经过6个卷积块处理、层归一化及LRelu激活函数,以得到更深层次的特征. 设计4个CBAM_Resblock,用它去补充更加丰富的描述和注意力图,关注重点特征区域,以便构建内容和风格特征. 之后再经过6个卷积块、2个上采样及1个$ 1 \times 1 $的标准卷积、tanh非线性激活函数,最终输出风格化后的图像F.

图 1

图 1   提出方法的总体架构

Fig.1   Overall architecture of proposed method


判别器网络D主要包括全局判别器$ D_{\text{global}} $和局部判别器$ D_{\text{local}} $. 简单来说,D是一系列的卷积下采样过程,使用二维实例归一化来提高模型的泛化能力和鲁棒性,除最后一层为Sigmoid激活函数外,其他卷积层的激活函数均为LRelu.

将生成图F和真实卡通图C直接输入到全局判别器$ D_{\text{global}} $中,判别整张图像的风格化,同时反馈信息去提升生成器的生成能力. 除此之外,随机抽样小批量的生成图F和真实卡通图C,将其输入到局部分支模块,即LERM. 该模块将输入的图像先经过结构线提取网络进行线条的提取,再经过一系列的处理,输入到局部判别器$ D_{\text{local}} $中. $ D_{\text{local}} $反馈局部的边缘信息给生成器G,优化生成的边缘效果. 2个判别器对生成器共同形成促进效果,构成紧凑的图像卡通化的GAN架构.

2.2. CBAM_Resblock

由于风格化的结果没有显式地捕捉区域之间的差异,没有突出图像中的重要特征信息,受文献[23]的启发,注意力机制CBAM是轻量的通用模块,可以将该模块融入各种卷积神经网络中进行端到端的训练. 其中通道注意力用来聚焦图像中有意义的特征,通过对输入特征的空间维度进行压缩,有效地计算通道注意力. 空间注意力用来聚焦最具信息量的部分,该空间注意图编码了模型所需要关注或抑制的特定位置信息,这是对通道注意力的补充.

结合CBAM与残差块,构成通道空间注意力残差块(CBAM_Resblock),并置于生成器网络中来表达图像中的重要特征信息.

图2所示,对输入的特征图$ {\boldsymbol{F}}_{\rm{e}} $分别进行全局最大池化和全局平均池化,将得到的2个一维向量送入MLP网络并相加,生成一维通道注意力$ {\boldsymbol{M}}_{\rm{c}} $.$ {\boldsymbol{M}}_{\rm{c}}\left({\boldsymbol{F}}_{\rm{e}}\right) $$ {\boldsymbol{F}}_{\rm{e}} $相乘,得到通道注意力调整后的特征图$ {\boldsymbol{F}}_{\rm{e}}' $,如下所示:

图 2

图 2   通道空间注意力残差块

Fig.2   CBAM_Resblock


$ {\boldsymbol{F}}_{\rm{e}}' = {\boldsymbol{M}}_{\rm{c}}\left({\boldsymbol{F}}_{\rm{e}}\right) \otimes {\boldsymbol{F}}_{\rm{e}} . $

式中:$ \otimes $表示元素乘法. $ {\boldsymbol{F}}_{\rm{e}}' $按空间进行全局最大池化和全局平均池化,将得到的2个二维向量连接起来,进行卷积运算,产生二维空间注意力$ {\boldsymbol{M}}_{\rm{s}} $. 利用元素相乘进行自适应特征细化,得到最终的输出$ {\boldsymbol{F}}_{\rm{e}}'' $,如下所示:

$ {\boldsymbol{F}}_{\rm{e}}'' = {\boldsymbol{M}}_{\rm{s}}\left({\boldsymbol{F}}_{\rm{e}}'\right) \otimes {\boldsymbol{F}}_{\rm{e}}' . $

$ {\boldsymbol{F}}_{\rm{e}}'' $$ {\boldsymbol{F}}_{\rm{e}} $相加,以充分利用图像特征. 在生成阶段,通过CBAM_Resblock构建内容和风格特征,捕捉区域之间的差异,突出图像中的重要特征信息.

2.3. 线提取区域处理模块(LERM)

LERM如图3所示,将小批量的卡通图像C和生成图像F作为LERM的输入,经过结构线提取网络提取图像线条. 将提取到的结果和该模块的输入图像进行匹配,利用提取到的线条来自适应地引导注意力到边缘分明的局部图像区域,提取相应的$ m $个图像块,如下所示:

图 3

图 3   线提取区域处理模块

Fig.3   Line extraction region processing module


$ m = n\left(\left\lfloor {\frac{{h - d}}{s}} \right\rfloor +1\right)\left(\left\lfloor {\frac{{w - d}}{s}} \right\rfloor +1\right) . $

$ \left\{ {c_{\mathrm{p}}^i,e_{\mathrm{p}}^i} \right\}_{i = 1}^m = {\mathrm{Extract}}\left(C \otimes L,d,s\right) . $

式中:$ h $$ w $分别为训练图像的高度和宽度,$ n $为批量大小,$ d $$ s $分别为滑动窗口相似补丁提取过程的补丁大小和步长,$ c_{\mathrm{p}}^i $$ e_{\mathrm{p}}^i $分别为第$ i $个提取到的卡通图像C和线图L的图像块. 根据线条的强度信息排列出前$ k $个图像块. 为了避免颜色带来的干扰,将前$ k $个图像块的RGB模式转为灰度图模式,输入局部判别器$ D_{\text{local}} $进行对抗学习,加强对卡通纹理特征的捕捉.

在LERM模块设计结构线提取网络,它与通用的边缘检测方法不同:Canny边缘检测结果粗糙,会包含大量的冗余线条. 当卡通图像中的黑色边缘线的两侧均为亮色背景时,检测结果中会出现“双边缘现象”. 利用结构线网络提取到的线条清晰平滑,如图4所示. 如图4(a)~(c)分别为原图、Canny和结构线网络提取到的结果,其中图Ⅰ、图Ⅱ、图Ⅲ、图Ⅳ及图Ⅴ均取自卡通图像集C. 此处的结构线提取网络是下采样和上采样的过程,下采样利用常规卷积块提取图像特征,当下采样在较粗尺度上生成粗略结构线时,上采样再对图像特征进行卷积,从粗到细重建输出图像线条. 在对应的下采样和上采样层之间添加对称跳跃,以减少信息的丢失,保留输入图像的细节,输出更清晰、连贯的线条.

图 4

图 4   线条提取的比较

Fig.4   Comparison of line extraction


利用该模块,可以削弱冗余线条,使生成的卡通图像更接近真实的卡通效果. 此外,它能够高效捕捉图像边缘的局部特征,调整局部风格. 该模块用来补充全局分支,实现对图像边缘的优化,生成质量更好的风格图像.

2.4. 损失函数

通过内容、颜色重建及对抗性损失的共同约束,生成更好的卡通化图像. 总的损失函数$ L_{\text{total}} $如下:

$ L_{\text{total}} = w_{\text{adv}}L_{\mathrm{adv}}\left(G,D\right)+ \\w_{\mathrm{con}}L_{\mathrm{con}}\left(G,D\right)+w_{\mathrm{col}}L_{\mathrm{col}}\left(G,D\right) .$

式中:$ L_{\text{con}} $为内容损失,$ w_{\text{con}} $为内容损失的权重,$ L_{\text{col}} $为颜色重建损失,$ w_{\text{col}} $为颜色重建损失的权重,$ L_{\text{adv}} $为对抗性损失,$ w_{\text{adv}} $为对抗性损失的权重. 通过最小化来形成对抗性训练框架,以优化整个网络.

在该架构中,为了保证输入图像和卡通化结果之间的内容一致性,采用Russakovsky等[24]预先训练的VGG19[25]作为感知网络,提取图像的高级语义特征. 内容损失为输入图像和生成图像的$ L_1 $损失,如下所示:

$ L_{\mathrm{con}}\left(G,D\right) =E_{{\boldsymbol{r}}_{{{i}}}\sim R}\left[ \left\| {{\mathrm{VGG}}_{{l}}}\left({\boldsymbol{r}}_{{i}}\right) - {\mathrm{VGG}}_{{l}}\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) \right\|_{\mathrm{l}} \right] .$

式中:$ l $为特定的VGG层.

为了使图像的颜色重建效果更好,采用文献[11]的颜色重建损失$ L_{\text{col}}\left(G,D\right) $,将图像的颜色从RGB格式转换为YUV格式. 在该损失中,$ L_1 $损失被用于Y通道,Huber损失被用于UV通道,如下所示:

$ \begin{split} L_{\text{col}}\left(G,D\right) = & E_{{\boldsymbol{r}}_{{{i}}}\sim R}\left[ \left\| {Y\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) - Y\left({\boldsymbol{r}}_{{i}}\right)} \right\|_{\mathrm{l}}+\right. \\ &\left\| {U\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) - U\left({\boldsymbol{r}}_{{i}}\right)} \right\|_{\mathrm{H}}+ \left.\left\| {V\left(G\left({\boldsymbol{r}}_{{i}}\right)\right) - V\left({\boldsymbol{r}}_{{i}}\right)} \right\|_{\mathrm{H}} \right] .\end{split} $

式中:$ Y\left({\boldsymbol{r}}_{{i}}\right) $$ U\left({\boldsymbol{r}}_{{i}}\right) $$ V\left({\boldsymbol{r}}_{{i}}\right) $分别为原图像$ {\boldsymbol{r}}_{{i}} $的3个通道.

全局判别器$ D_{\text{global}} $通过全局图像级分支捕获卡通图像的整体风格,其中$ L_{\text{global}}\left(G,D_{\text{global}}\right) $采用LSGAN[26]的最小二乘损失,提高生成图像的质量和训练过程中的稳定性. 全局对抗性损失如下:

$ \begin{split} & {L_{\text{global}}}\left(G, D_{\text {global }}\right)=E_{{{\boldsymbol{c}}_i} \sim C}\left[\left(D_{\text {global }}\left({\boldsymbol{c}}_i\right)-1\right)^2\right]+ \\& \quad E_{{{\boldsymbol{f}}_i} \sim F} \left[ \left( D_{{\mathrm{g l o b a l}}} \left({\boldsymbol{f}}_i\right) \right)^2 \right] + E_{{{\boldsymbol{f}}_i} \sim {\boldsymbol{F}}}\left[ \left(D_{\text {global }} \left({\boldsymbol{f}}_i\right) - 1 \right)^2\right] .\end{split} $

采用LSGAN,$ L_{\text{local}}\left(G,D_{\text{local}}\right) $通过局部对抗性学习分支学习局部卡通纹理模式,提升生成图像的局部风格化效果. 局部对抗性损失如下:

$ \begin{split} {L_{\text{local}}}(G, D_{\text{local}} ) =\;&E_{C_\text {local }} \left[\frac{1}{k} \sum_{i=1}^k \left( {D_{\mathrm{local}}} \left( c_{\mathrm{p}}^i \right) - 1 \right)^2 \right] + \\& E_{F_\text {local }} \left[\frac{1}{k} \sum_{i=1}^k\left({D_{\mathrm{local}}}\left(f_{\mathrm{p}}^i\right)\right)^2\right]+ \\& E_{F_\text {local }} \left[ \frac{1}{k} \sum_{i=1}^k \left( {D_{\mathrm{local}}}\left(f_{\mathrm{p}}^i\right) - 1\right)^2 \right] .\end{split} $

式中:$ C_{\text{local}} $$ F_{\text{local}} $分别为提取的真实卡通和生成卡通的前$ k $个图像块,$ c_{\mathrm{p}}^i $$ f_{\mathrm{p}}^i $分别为提取的第$ i $个卡通图像块和生成图像块.

总的对抗性损失为

${L_{\mathrm{adv}}}(G, D)={L_{\text{global}}}(G, D _{\text{global}})+\\{L_{\text{local}}}(G, \;{ D_{\mathrm{local}} }).$

3. 实验分析

3.1. 数据集和训练过程

训练数据包含真实世界的图像和卡通图像,测试数据只包括真实世界的图像. 所有的训练图像都被调整为256×256大小. 源域包含5568张训练图像和792张定量测试图像,它是从文献[6]的训练和定量测试集中选取的. 针对目标域训练数据,使用Makoto Shinkai、Mamoru Hosoda和Hayao 3个不同风格的卡通数据集. 由于不同的创作者有独特的创作风格,为了得到同种风格的一系列图片,从风格相同的电影中截取关键帧,得到4725、4099和4370个卡通图像,分别用于训练Makoto Shinkai、Mamoru Hosoda和Hayao风格模型.

由于GAN网络使用未配对的数据进行端到端训练,具有随机初始化和高度非线性的特点,出现优化陷入次优局部最小值的问题. Chen等[7]提出生成器的预训练有助于加速GAN收敛,因此预训练10个轮次后,通过100个轮次训练模型,交替最小化损失,以优化生成器部分和判别器部分,学习率为$ 2 \times {10^{ - 4}} $. 在该阶段,设置各损失的权重为$ w_{\text{adv}} $=50,$ w_{\text{con}} $=5,$ w_{\text{col}} $=7,使用$ \beta_1 $=0.5、$ \beta_2 $=0.999的Adam优化器,训练批次为$ n $=8. 所有实验均在Tesla V100 GPU上开展.

3.2. 结果分析

图像1~18均来自源域,如图5所示为利用该方法生成的一些不同卡通风格的图像. 可知,利用提出的方法,能够产生高质量的风格化结果.

图 5

图 5   3种不同风格的转换

Fig.5   Three different style transformations


将本研究与先前的几种风格化工作进行比较,包括CycleGAN[6]、CartoonGAN[7]、SDP-GAN[10]、White-box[9]、AnimeGANv2[11]、MS-CartoonGAN[13]、CCPL[4]及CAST[5]. 在定性实验中,给出9种不同方法的生成图像及比较分析. 在定量实验中,使用Fréchet Inception distance(FID)[27]计算源图像分布和目标图像分布之间的距离来评估性能. 在消融实验中,分别对损失函数和各组件进行实验对比及分析,验证本文方法的有效性.

3.2.1. 定性比较

利用定性实验得到的结果都是由Makoto Shinkai风格数据训练的. 如图6所示,CCPL、CAST得到的结果更偏向绘画的笔触风格,不同于卡通风格,不适合生成卡通图像. CycleGAN得到的卡通效果不明显,细节和颜色部分丢失. 如图7所示,通过图像8的钟表、图像9、10的植物及图像11的建筑,可得如下结论:CartoonGAN的风格化程度相对较弱,在生成的结果中局部卡通纹理不明显. 此外,CartoonGAN使用边缘平滑的卡通数据集,以便进行对抗性学习来提升边缘效果,但没有达到比较满意的结果. AnimeGANv2生成的卡通图像通常较暗,局部区域存在模糊和伪影. MS-CartoonGAN部分区域偏暗,颜色受到了损失. White-box实现了较好的图像卡通化,但色彩过渡不平滑. 利用以上方法达到了图像风格上的转换,但没有捕捉到图像的重点特征信息. SDP-GAN提升了卡通化效果,但内容和颜色都存在一定程度的丢失. 可以看出,本文方法通过减少不必要的伪影并在显著区域中保留重要的特征信息,生成了色彩鲜艳、表面光滑的生动卡通图像,达到了更佳的视觉效果.

图 6

图 6   图像风格化的对比

Fig.6   Comparison of image stylization


图 7

图 7   同一种风格的对比图

Fig.7   Comparison chart of same style


3.2.2. 定量比较

定量指标FID为真实样本和生成样本在特征空间上的距离. 利用Inception-v3[28]网络来提取特征,使用高斯模型对特征空间进行建模,求解2个特征之间的距离. 利用这个距离来衡量真实图像和生成图像的相似程度,FID越小,则相似程度越高,即生成的图像更接近真实图像.

通过计算生成的图像和目标域图像之间的FID分数,确定生成的图像是否具有卡通图像的风格.与5种有代表性的方法进行定量评价比较,证明该方法的有效性,如表1所示.

表 1   生成图像和目标图像的FID值

Tab.1  FID values for generated image and target image

风格FID
CartoonGANWhite-boxSDP-GANAnimeGANv2MS-CartoonGAN本文方法
Shinkai140.5126.8122.7121.3146.3120.2
Hayao166.6154.6125.6144.4140.8123.0
Hosoda163.2155.3136.6141.5160.1133.7

新窗口打开| 下载CSV


表1所示为CartoonGAN、White-box、SDP-GAN、AnimeGANv2、MS-CartoonGAN及该方法对3种风格的FID评分. 与其他5种方法相比,利用该方法生成的图像具有更小的FID值,证明利用该方法生成的结果与卡通图像更相似.

3.2.3. 消融实验

通过消融实验,研究该方法组件的作用. 所有结果都由Mamoru Hosoda风格的数据训练得到. 实验结果表明,各组件在该方法中发挥着重要作用.

图8中的模型A、模型B、模型C及模型F分别对应只有局部分支(无全局对抗性损失)、只有全局分支(无局部对抗性损失)、对颜色重建损失的消融以及整个模型的结果图像. 当去除全局分支时,可知模型A的相应结果没有表现出任何卡通风格. 这表明全局分支(全局对抗性损失)的作用是平衡整个图像的风格. 除此之外,移除了局部模块来验证线提取区域处理模块(局部对抗性损失)带来的边缘处理效果,可以发现模型B的边缘和颜色存在一定程度的丢失. 当去掉颜色重建损失时,模型C与输入图颜色相差较大,表明颜色重建损失对生成图的颜色重建起到一定的作用.

图 8

图 8   损失函数消融实验的对比图

Fig.8   Comparison chart of loss function ablation experiment


图9中的模型D、模型E及模型F分别对应没有注意力模块、Canny线条提取及整个模型的结果. 为了证明注意力模块的有效性,开展消融实验. 从Chattopadhay[29]得到的注意力图可知,模型D的图像16中的人群、图像17的阶梯处及图像18的建筑都存在一定程度的细节丢失,颜色与输入图颜色相差较大,没有明显的风格化效果. 模型E和模型F比较了Canny和结构线提取对图像卡通化的作用. 结构线可以看作是卡通图像中的“骨架”,能够帮助实现更好的图像卡通化. 模型E中的线条表达较差,模型F的线条及整体风格化效果更好.

图 9

图 9   组件消融实验的对比图

Fig.9   Comparison chart of component ablation experiment


定量实验如表2所示. 可知,各组件的FID值小于模型F. 这表明在显著的卡通纹理局部区域上,自适应约束对抗性学习有助于增强卡通风格的渲染. 各组件的结合避免了之前数据预处理的需要. 各种损失函数的共同作用使得生成的图像更加生动.

表 2   消融实验的FID值

Tab.2  FID value of ablation experiment

序号模型FID
A局部分支177.3
B全局分支135.8
C无颜色重建损失135.0
D无注意力模块134.5
ECanny134.0
F整个模型133.7

新窗口打开| 下载CSV


4. 结 语

本文提出融合注意力机制和结构线提取的图像卡通化方法. 构建关注重要区域,保留内容细节的GAN架构,生成高质量的视觉效果图像. 设计与全局并行的线提取区域处理模块,以便对卡通纹理的边缘局部区域进行对抗性训练,实现对卡通纹理的学习. 通过大量的实验验证了该方法的有效性,与先前方法相比,提出方法取得了更好的卡通化效果. 未来可以考虑利用样式标签信息和多尺度投影判别器实现单模型多风格的图像卡通化,还可以考虑将该框架应用到其他计算机视觉处理领域中.

参考文献

梅洪, 陈昭炯

基于Mean Shift和FDoG的图像卡通化渲染

[J]. 计算机工程与应用, 2016, 52 (10): 213- 217

DOI:10.3778/j.issn.1002-8331.1407-0015      [本文引用: 1]

MEI Hong, CHEN Zhaojiong

Cartoonish rendering of images based on Mean Shift and FDoG

[J]. Computer Engineering and Applications, 2016, 52 (10): 213- 217

DOI:10.3778/j.issn.1002-8331.1407-0015      [本文引用: 1]

刘侠

基于OpencCV中Mean Shift的图像卡通化处理

[J]. 信息与电脑: 理论版, 2020, 32 (20): 54- 57

[本文引用: 1]

LIU Xia

Image cartoon processing based on Mean Shift in OpencCV

[J]. Information and Computer: Theory Edition, 2020, 32 (20): 54- 57

[本文引用: 1]

CANNY J

A computational approach to edge detection

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8 (6): 679- 698

DOI:10.1109/TPAMI.1986.4767851      [本文引用: 4]

WU Z, ZHU Z, DU J, et al. CCPL: contrastive coherence preserving loss for versatile style transfer [C]// 17th European Conference on Computer Vision . Cham: Springer, 2022: 189-206.

[本文引用: 2]

ZHANG Y, TANG F, DONG W, et al. Domain enhanced arbitrary image style transfer via contrastive learning [C]// ACM SIGGRAPH 2022 Conference Proceedings . Vancouver: ACM, 2022: 1-8.

[本文引用: 2]

ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2223-2232.

[本文引用: 3]

CHEN Y, LAI Y K, LIU Y J. Cartoongan: generative adversarial networks for photo cartoonization [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Salt Lake City: IEEE, 2018: 9465-9474.

[本文引用: 3]

PĘŚKO M, SVYSTUN A, ANDRUSZKIEWICZ P, et al

Comixify: transform video into comics

[J]. Fundamenta Informaticae, 2019, 168 (2-4): 311- 333

DOI:10.3233/FI-2019-1834      [本文引用: 1]

WANG X, YU J. Learning to cartoonize using white-box cartoon representations [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Seattle: IEEE, 2020: 8090-8099.

[本文引用: 2]

LI R, WU C H, LIU S, et al

SDP-GAN: saliency detail preservation generative adversarial networks for high perceptual quality style transfer

[J]. IEEE Transactions on Image Processing, 2020, 30: 374- 385

[本文引用: 2]

CHEN J, LIU G, CHEN X. Animegan: a novel lightweight GAN for photo animation [C]// International Symposium on Intelligence Computation and Applications . Singapore: Springer, 2020: 242-256.

[本文引用: 3]

GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 2414-2423.

[本文引用: 1]

SHU Y, YI R, XIA M, et al

GAN-based multi-style photo cartoonization

[J]. IEEE Transactions on Visualization and Computer Graphics, 2021, 28 (10): 3376- 3390

[本文引用: 2]

DONG Y, TAN W, TAO D, et al

cartoonLossGAN: learning surface and coloring of images for cartoonization

[J]. IEEE Transactions on Image Processing, 2021, 31: 485- 498

[本文引用: 1]

GAO X, ZHANG Y, TIAN Y. Learning to incorporate texture saliency adaptive attention to image cartoonization [EB/OL]. (2022-08-02)[2023-06-01]. https://arxiv.org/abs/2208.01587.

[本文引用: 1]

KANG H, LEE S, CHUI C K

Flow-based image abstraction

[J]. IEEE Transactions on Visualization and Computer Graphics, 2008, 15 (1): 62- 76

[本文引用: 2]

WINNEMOELLER H, KYPRIANIDIS J E, OLSEN S C

XDoG: an extended difference-of-Gaussians compendium including advanced image stylization

[J]. Computers and Graphics, 2012, 36 (6): 740- 753

DOI:10.1016/j.cag.2012.03.004      [本文引用: 2]

SÝKORA D, BURIÁNEK J, ŽÁRA J

Segmentation of black and white cartoons

[J]. Image and Vision Computing, 2005, 23 (9): 767- 782

DOI:10.1016/j.imavis.2005.05.010      [本文引用: 1]

SÝKORA D, BURIÁNEK J, ŽÁRA J. Sketching cartoons by example [C]// Proceedings of Eurographics Workshop on Sketch Based Interfaces and Modeling . Schoten: Eurographics Association, 2005: 27-33.

[本文引用: 1]

ZHANG S H, CHEN T, ZHANG Y F, et al

Vectorizing cartoon animations

[J]. IEEE Transactions on Visualization and Computer Graphics, 2009, 15 (4): 618- 629

DOI:10.1109/TVCG.2009.9      [本文引用: 1]

LIU X, MAO X, YANG X, et al

Stereoscopizing cel animations

[J]. ACM Transactions on Graphics, 2013, 32 (6): 1- 10

[本文引用: 1]

LI C, LIU X, WONG T T

Deep extraction of manga structural lines

[J]. ACM Transactions on Graphics, 2017, 36 (4): 1- 12

[本文引用: 1]

WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision . Munich: Elsevier, 2018: 3-19.

[本文引用: 1]

RUSSAKOVSKY O, DENG J, SU H, et al

Imagenet large scale visual recognition challenge

[J]. International Journal of Computer Vision, 2015, 115 (3): 211- 252

DOI:10.1007/s11263-015-0816-y      [本文引用: 1]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04)[2023-06-01]. https://arxiv.org/abs/1409.1556.

[本文引用: 1]

MAO X, LI Q, XIE H, et al. Least squares generative adversarial networks [C]// Proceedings of the IEEE International Conference on Computer Vision . Venice: IEEE, 2017: 2794-2802.

[本文引用: 1]

HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium [C]// Advances in Neural Information Processing Systems . Long Beach: MIT Press, 2017: 30.

[本文引用: 1]

SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition . Las Vegas: IEEE, 2016: 2818-2826.

[本文引用: 1]

CHATTOPADHAY A, SARKAR A, HOWLADER P, et al. Grad-CAM++: generalized gradient-based visual explanations for deep convolutional networks [C]// IEEE Winter Conference on Applications of Computer Vision . Nevada: IEEE, 2018: 839-847.

[本文引用: 1]

/