<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 zi2zi网络结构

Fig.1 zi2zi network structure

判别器(discriminator，D)判断输入图像是否真实，同时鉴别图像类别. 在网络训练过程中，期望生成器生成接近目标风格的字体图像，达到欺骗判别器的目的. 判别器能够判别生成的假字体图像，两者交替对抗训练，实现纳什平衡.

2. 改进的生成对抗网络

以zi2zi为基本网络模型，针对网络训练稳定性低、生成图像质量差、生成字体结构不清晰的问题，改进生成器与判别器的结构，设计新的损失函数. 改进后的网络整体结构如图2所示. 该网络包括内容编码器 $ {E_{\text{c}}} $、风格编码器 $ {E_{\text{s}}} $、解码器 $ {D_{\text{d}}} $、判别器 $ D $，内容编码器用来提取输入图像的内容特征 ${{{\boldsymbol{f}}}_{\text{c}}}$，风格编码器用来提取风格特征 ${{{\boldsymbol{f}}}_{\text{s}}}$. 将目标风格字体图像的标签 $ l $转换为one-hot编码 ${{{\boldsymbol{f}}}_{{l}}}$，如{“目标风格1”：0，“目标风格2”：1}编码为独热编码标签，表示不同风格的字体，并扩展到与内容和风格特征向量相同的维度.

图 2

图 2 改进后的网络整体框架

Fig.2 Overall framework of improved network

结合编码后的 $ l $及内容编码向量、风格编码向量，将三者拼接成向量 ${{\boldsymbol{f}}} = [{{{\boldsymbol{f}}}_{{l}}},{{{\boldsymbol{f}}}_{\text{c}}},{{{\boldsymbol{f}}}_{\text{s}}}]$，输入到解码器 $ {D_{\text{d}}} $中，经过解码得到生成图像. 判别器 $ D $的作用有以下2点：1）判断输入图像是虚假生成图像还是真实目标图像；2）判断图像的风格类别.

2.1. 生成器结构

生成器由内容编码器 $ {E_{\text{c}}} $、风格编码器 $ {E_{\text{s}}} $、解码器 $ {D_{\text{d}}} $组成. 内容编码器将256×256×1维度的输入图像映射到1×1×512维度的特征层空间，得到内容特征向量. zi2zi在内容编码模块中仅使用卷积提取特征，在特征提取过程中随着网络深度的增加，细节信息更容易丢失，提取不到图像较深层次的特征信息，生成的字体图像质量较差.

2.1.1. 残差单元

为了捕捉字体图像更多的局部特征，在内容编码器中加入残差单元，扩充卷积结构，形成卷积-残差交替模块. 内容编码器包括5层卷积层、5层卷积-残差交替编码结构，内容编码器的具体参数设置如表1所示. 卷积单元Conv-IN-LRelu表示Conv卷积操作、实例归一化( instance normalization，IN )、LRelu激活函数，卷积核为4，strides为步长，filters为卷积核数.

表 1 内容编码器的网络参数

Tab.1 Network parameters of content encoder

网络层类型	网络参数
卷积层	4×4 Conv, 64 filters, 2 strides
卷积单元层	4×4 Conv-IN-LRelu, 128 filters, 2 strides
卷积单元层	4×4 Conv-IN-LRelu, 256 filters, 2 strides
卷积单元层	4×4 Conv-IN-LRelu, 512 filters, 2 strides
卷积单元层	4×4 Conv-IN-LRelu, 512 filters, 2 strides
卷积单元层	4×4 Conv-IN-LRelu, 512 filters, 2 strides
残差单元层	Resnet Block 1×1 Conv, 512 filters,1stride
卷积单元层	4×4 Conv-IN-LRelu, 512 filters, 2 strides
残差单元层	Resnet Block 1×1 Conv, 512 filters, 1 stride
卷积层	4×4 Conv-LRelu, 512 filters, 2 strides

汉字笔画线条的粗细、长短、书写方向等局部细节信息影响汉字的字形与风格. 为了保存汉字细节的结构特征，减少参数量，使用1×1的卷积核，残差单元的结构如图3所示.

图 3

图 3 残差单元

Fig.3 Residual block

2.1.2. 上下文感知注意力模块

为了使得模型生成的字体图像风格与目标风格保持一致，本文算法中额外引入风格编码模块，该模块在训练过程中更多关注字体的风格样式. 风格编码器网络结构主要由6层卷积层和上下文感知注意力模块组成，上下文感知注意力模块如图4所示. 风格编码器的输入只进行卷积操作，卷积核为7，步长为1. 其他5层结构均为Conv卷积操作、实例归一化、Relu激活函数，卷积核为4，步长为2，卷积核数依次为64、128、256、256、256.

图 4

图 4 上下文感知注意力模块

Fig.4 Context-aware attention block

上下文感知注意力模块将最后1层卷积得到的特征图输入到自注意力网络( self attention, SA )，对特征图中的像素间结构建立联系，输出的新特征向量与原始特征进行像素加的操作，提高同一类别的紧凑性. 此时的特征图 ${{{\boldsymbol{s}}}_{\text{v}}}$能够建立全局关联性，包含全局上下文信息，不局限于当前感受野，而且包含其他区域的上下文信息，从而可以获取到与目标风格更相关的信息，增强全局特征的准确性.

为了增强特征图中不同区域的表征能力，自动感知上下文信息的特征权重，使用上下文向量 ${{{\boldsymbol{c}}}_{\text{v}}}$来衡量特征权重. 将特征向量 ${{{\boldsymbol{s}}}_{\text{v}}}$输入到单层神经网络NN，如下所示：

(1) $ {{{\boldsymbol{p}}}_{\text{v}}} = {{\rm{Tan}}}{\text{h}}\;({{\boldsymbol{w}}}{{{\boldsymbol{s}}}_{\text{v}}}+{{\boldsymbol{b}}}) . $

式中： ${{\boldsymbol{w}}}$和 ${{\boldsymbol{b}}}$分别为权重与偏置. 比较输出的 ${{{\boldsymbol{p}}}_{\text{v}}}$与可训练的随机初始化向量 ${{{\boldsymbol{c}}}_{\text{v}}}$，得到注意力向量，通过softmax层对上述结果归一化，得到最终的注意力得分，如下所示：

(2) $ {\beta _{\text{v}}} = {\text{softmax}}\; ({{\boldsymbol{p}}}_{\text{v}}^{\text{T}}{{{\boldsymbol{c}}}_{\text{v}}}) . $

通过像素乘操作，使得网络学习不同的特征权重. 将上下文注意力特征聚合到每一个位置上，得到上下文注意力特征作用于特征图的结果. 为了保留更多的空间细节信息，与原始特征图通过像素加操作进行不同层次的特征融合，得到特征向量 ${{{\boldsymbol{f}}}_{\rm{s}}}$. 风格编码器将256×256×1维度的输入图像映射到1×1×256维度的特征层空间，得到对应的风格特征向量.

解码器的输入只进行反卷积操作，中间每层卷积层的结构为Deconv-IN-Relu，Deconv表示反卷积，最后一层进行反卷积操作. 使用Tanh激活函数，解码器中的卷积核为4，步长为2，卷积核数依次为512、512、512、512、256、128、64、1.

考虑到生成的图像与内容编码器的输入图像的结构相似，解码器中使用跳跃连接，保留图像的不同尺度信息，将内容编码器中的不同特征层按照通道维度拼接到解码器对应的相同分辨率位置. 通过将底层信息连接到对应的解码器层，最大程度地保留图像的底层信息，减少解码过程中位置和结构特征信息的丢失.

2.2. 判别器的结构

在原始的zi2zi训练过程中，生成器与判别器的损失振荡比较明显，训练不稳定，判别器不能有效地指导生成器训练收敛. 在判别器中，将实例归一化替换为谱归一化层(spectral normalization，SN)，解决生成对抗网络训练不稳定的问题，加快模型收敛.

判别器的网络结构如图2(b)所示，由5层卷积层组成. 前4层结构由Conv-SN-Lrelu单元堆叠而成，其中卷积核为4，步长依次是2、2、2、1，卷积核数依次是64、128、256、512；最后一层为卷积核为4、步长为1的卷积操作.

2.3. 损失函数的设计

zi2zi网络损失函数包括对抗损失、像素损失、类别损失与一致性损失. 利用改进的网络模型，增加了边缘损失，提高了生成字体轮廓的清晰度. 对抗损失函数使得模型的生成结果尽可能与目标风格书法字逼近. 在训练过程中，判别器 $ D $与生成器 $ G $需要最小化对抗损失函数.

(3) $ L_{{\text{adv}}}^{{D}} = - {E_{{{\boldsymbol{m}}},{{\boldsymbol{y}}}}}[{D_{{\text{adv}}}}({{\boldsymbol{y}}})]+{E_{{\boldsymbol{m}}}}[{D_{{\text{adv}}}}(G({{\boldsymbol{m}}}))] , $

(4) $ L_{{\text{adv}}}^{{G}} = - {E_{{\boldsymbol{m}}}}[{D_{{\text{adv}}}}(G({{\boldsymbol{m}}}))] . $

式中： ${{\boldsymbol{m}}}$、 ${{\boldsymbol{y}}}$分别表示源风格与生成的风格字体图像.

像素级损失函数采用 $ {L_1} $范数计算图像之间的损失，如下所示：

(5) $ {L_{{{{L}}_{\text{1}}}}} = {E_{{{\boldsymbol{x}}} \in {p_{{\text{data}}}},{{\boldsymbol{m}}} \in {p_{{\text{input}}}}}}{\left\| {{{\boldsymbol{x}}} - G({{\boldsymbol{m}}})} \right\|_1} . $

式中： $ {p_{{\text{data}}}} $为目标图像域， $ {p_{{\text{input}}}} $为源风格输入图像域.

风格类别损失函数通过优化损失函数，使得生成汉字的类别一致.

(6) $ L_{{\text{style}}}^{\text{D}} = {E_{{{\boldsymbol{x}}},{{\boldsymbol{c}}}}}[ - \log _{2}({{\boldsymbol{c}}}|{{\boldsymbol{x}}})] , $

(7) $ L_{{\text{style}}}^{\text{G}} = {E_{{{\boldsymbol{m}}},{{\boldsymbol{c}}}}}[ - \log _{2}({{\boldsymbol{c}}}|G({{\boldsymbol{m}}},{{\boldsymbol{c}}}))] . $

式中： ${{\boldsymbol{x}}}$为目标风格图像， ${{\boldsymbol{c}}}$为风格类别标签.

内容一致损失通过对源图像和生成图像内容编码，计算两者一致性损失，避免信息丢失，使得解码器尽可能地恢复正确的汉字.

(8) $ {L_{{\text{const}}}} = {E_{{{\boldsymbol{m}}} \in {p_{{\text{input}}}},{{\boldsymbol{y}}} \in {p_{{\text{gener}}}}}}{\left\| {{\bf\textit{φ}} _{{\boldsymbol{m}}} - {{\bf\textit{φ}} _{{\boldsymbol{y}}}}} \right\|_{{\text{mse}}}} . $

式中： ${\bf\textit{φ}}$表示对源字体和生成字体编码， $ {p_{{\text{gener}}}} $为生成图像域.

与字体图像的背景及填充字体图像的像素相比，汉字边缘像素在决定汉字风格和语义信息时占有较大的比重，因此额外引入边缘损失来约束模型，生成更加清晰的轮廓. 利用Canny算子提取边缘特征，用 $ {L_1} $范数逐像素计算生成图像与真实图像的边缘像素：

(9) $ {L_{{\text{edge}}}} = {\left\| {C({{\boldsymbol{x}}}) - C({{\boldsymbol{y}}})} \right\|_1}. $

式中： $ C $为Canny算子.

最终生成器与判别器的目标损失函数如下所示：

(10) $ \begin{split} {L}_{\text{G}}=&{L}_{\text{adv}}^{\text{G}}+{\lambda }_{{\text{L}}_{\text{1}}}{L}_{{\text{L}}_{\text{1}}}^{\text{G}}+{\lambda }_{\text{style}}{L}_{\text{style}}^{\text{G}}+\\ &{\lambda }_{\text{const}}{L}_{\text{const}}^{}+{\lambda }_{\text{edge}}{L}_{\text{edge}\text{，}}^{} \end{split} $

(11) $ {L_{\text{D}}} = L_{{\text{adv}}}^{\text{D}}+{\lambda _{{\text{style}}}}L_{{\text{style}}}^{\text{D}} . $

式中： ${\lambda _{{{\text{L}}_{\text{1}}}}}、{\lambda _{{\text{style}}}}、{\lambda _{{\text{const}}}}、{\lambda _{{\text{edge}}}}$为对应损失函数的权重系数. 通过设置不同的权重来平衡不同损失函数在目标损失函数中的权重，经过多次实验依次设置为100、1、15、100.

3. 实验结果与分析

3.1. 实验环境

实验环境为Ubuntu 18.04 LTS 64-bit操作系统，显卡为NVIDIA RTX 3060，基于深度学习框架pytorch，编程语言为python3.8. 实验参数的设置如下：批处理大小batch size为16，迭代轮数为50，优化器为Adam优化器，参数 $ \;{\beta }_{1}=0.5，{\beta }_{2}=0.999 $. 初始学习率为0.001. 在训练过程中，判别器先训练，生成器通过判别器的反向传递更新参数，交替训练. 每迭代20轮学习率衰减为原始的一半，后面逐步衰减到0.000 2并不再变化.

3.2. 数据集

针对手写体生成图像，目前没有公开的数据集. 本文的目标风格图像为颜真卿楷书及赵孟頫行书风格的书法字体图像，从书法图像字库中爬虫获取，源风格字体为黑体，使用python中的Imagefont转换为字符图像. 训练样本数开始设置为1 000，样本量较少导致过拟合；后面逐渐增加训练样本数，提升了模型性能，解决了过拟合的问题，且当数据量为3 000~4 000时模型性能稳定. 随机选择4 413张颜真卿楷书作为训练图像，1 004张颜真卿楷书作为测试图像. 赵孟頫行书的训练图像为3 861张，测试图像为1 060张. 训练图像与测试图像中的汉字字符各不相同，数据集的样例如图5所示. 在实验中，数据集采用单通道图像，大小均为256像素×256像素.

图 5

图 5 自建的2种数据集样例

Fig.5 Self-built samples of two datasets

3.3. 评价指标

从主观和客观这2个方面对生成结果进行评价，其中客观评价指标包括峰值信噪比(peak signal-to-noise ratio, PSNR)、结构相似性(structural similarity index, SSIM)^[18]、感知相似性(learned perceptual image patch similarity, LPIPS)^[19]. 其中SSIM与PSNR越大表明生成效果越好，LPIPS越小，生成图像与目标图像越相似，更符合人类的视角.

3.4. 实验结果与分析

为了验证提出方法的有效性，设计消融实验，分析不同模块对实验结果的影响. 为了进一步比较改进算法的生成效果，选择CycleGAN、DenseNet CycleGAN、zi2zi、EMD^[20]、CalliGAN、LFFont、MXFont算法作为对比算法，比较不同算法的生成结果，验证不同源字体对改进算法生成效果的影响.

3.4.1. 消融实验

为了验证残差单元、风格编码分支及边缘损失的有效性，依次在基本模型中添加不同模块，不同模块生成颜真卿楷书、赵孟頫行书的结果分别如图6、7所示，对应的评价指标如表2、3所示. 图中，实线矩形框表示字体生成结构较差，虚线矩形框表示字体风格不佳，圆圈框表示书法字的边缘结构较差.

图 6

图 6 不同模块的消融实验（目标字体：颜真卿楷书）

Fig.6 Ablation experiments of different module (target font: Yan Zhenqing regular script)

图 7

图 7 不同模块的消融实验（目标字体：赵孟頫行书）

Fig.7 Ablation experiments of different module (target font: Zhao Mengfu running script)

表 2 消融实验的评价指标（目标字体：颜真卿楷书）

Tab.2 Evaluation index of ablation experiment (target font: Yan Zhenqing regular script)

网络模型	SSIM	PSNR/dB	LPIPS
zi2zi	0.6975	9.3097	0.2383
zi2zi+残差	0.7115	9.8567	0.2452
zi2zi+残差+风格编码	0.7394	10.8484	0.1842
zi2zi+残差+风格编码+边缘损失	0.7425	10.8228	0.1821

表 3 消融实验的评价指标（目标字体：赵孟頫行书）

Tab.3 Evaluation index of ablation experiment (target font: Zhao Mengfu running script)

网络模型	SSIM	PSNR/dB	LPIPS
zi2zi	0.6917	8.5425	0.2947
zi2zi+残差	0.6918	8.4810	0.2845
zi2zi+残差+风格编码	0.7607	10.8883	0.2177
zi2zi+残差+风格编码+边缘损失	0.7665	10.9052	0.2152

从图6可以看出，zi2zi生成字体存在笔画不连贯缺失、粘连，如“仄”、“宗”字笔画缺失，后3个字出现笔画粘连. 加入残差单元，生成字体的细节明显有所改善，减少了字体笔画缺失、模糊不清的情况，能够有效地提高模型的性能. 比较3、4行有无风格编码的生成结果可以看出，添加风格编码使得生成字体的风格特征更加接近目标风格，如“仄”、“旬”字. 边缘损失的对比结果如第4、5行所示，未使用边缘损失的笔画轮廓扭曲，如“仄”字的笔画“捺”、“旬”字的笔画“撇”、“英”字的笔画“捺”等. 第5行生成字体的结构更加完整. 笔画线条显得“遒劲有力”，笔画位置的关系更加准确，更加符合书法艺术字的特点. 实验结果表明，本文算法的不同模块对于提高生成效果是至关重要的.

比较表2的实验结果，依次在原有模型上使用不同的结构，评价指标有所提高. 与原始zi2zi相比，SSIM、PSNR分别提升了4.50%、1.51 dB，LPIPS降低了5.62%，证明能够提高模型性能.

从图7可以看出，原始模型生成的书法字笔画较粗，字体风格与目标风格相差较大. 笔画结构的错误较多，如“印”字不连贯，“炸”字粘连，“元”字出现多余的笔画. 残差单元能够减少笔画缺失、错连，如“印”、“元”字. 对比3、4行可以发现，加入风格编码，能够明显地改善字体的风格. 从表3可知，SSIM、PSNR分别提升了6.89%、2.41 dB，LPIPS降低了6.68%. 对比第4、5行的结果可以看出，边缘损失进一步提升了字体结构轮廓，验证了边缘损失的有效性. 表3的结果表明，利用本文算法中的不同结构，能够提升各项指标，与原始zi2zi相比，SSIM、PSNR分别提升了7.48%、2.36 dB，LPIPS降低了7.95%，模型性能有所提升.

3.4.2. 与其他算法的对比实验

利用本文算法与CycleGAN、DenseNet CycleGAN、zi2zi、EMD、CalliGAN、LFFont、MXFont算法生成颜真卿楷书、赵孟頫行书的结果分别如图8、9所示. 不同算法在同一实验平台中完成，采用相同的数据集及评价指标. 设置相同的初始参数与优化器，其中不同的是LFFont与MXFont算法使用不同的学习率训练生成器与判别器. 为了合理地评估算法的性能，在对比实验中保持原算法的参数设置，生成器的学习率设置为0.000 2，判别器的学习率设为0.000 8.

图 8

图 8 不同算法的生成结果（目标字体：颜真卿楷书）

Fig.8 Results generated by different algorithms (target font: Yan Zhenqing regular script)

图 9

图 9 不同算法的生成结果（目标字体：赵孟頫行书）

Fig.9 Results generated by different algorithms (target font: Zhao Mengfu running script)

图8中，CycleGAN和DenseNet CycleGAN算法的生成效果最差，完全没有学习到目标风格样式，甚至丢失字体的笔画结构，可读性差. 原始的zi2zi结构损坏，部分笔画存在扭曲的现象，同时笔画不连贯缺失，粘连的现象较严重. EMD方法具备内容编码与风格编码的结构设计，不同的是EMD在内容编码与风格编码时都只用普通的卷积结构去提取特征，生成的字体辨识度极低. CalliGAN生成的字体结构基本完整，可以学会目标字体的风格，但生成的字体图像模糊，产生较多的噪点，辨识度低，边缘结构不清晰. LFFont容易出现结构变形，如“用”、“胄”. MXFont生成的图像质量较高，但该模型的性能不稳定，部分字体结构丢失，如“崽”、“巡”. 利用本文算法缓解了笔画丢失的问题，生成的字体图像几乎没有变形，可读性高，字体的位置关系相对准确，分布一致，更加接近目标字体. 实验结果表明，本文算法的生成效果主观上优于其他7种算法.

与笔画较工整的楷书相比，行书字体形态丰富，书写更加灵活，结构更加不规则，因此生成任务更加困难. 图9中，CycleGAN和DenseNet CycleGAN生成的字体笔画丢失，辨识度低. 利用原始zi2zi算法生成的行书字体笔画粘连严重. EMD生成的字体难以辨认，丢失汉字结构和笔画细节的信息. CalliGAN生成的字体噪点较多，字体扭曲. LFFont容易出现结构丢失，如“圯”. MXFont生成的字体可识别性较高，但整体上笔画较粗，与目标风格字体有差距，利用本文算法生成的字体图像清晰，风格与目标字体最接近.

基于SSIM、PSNR和LPIPS评价指标分别对不同风格书法字的生成结果进行定量分析比较，评价结果如表4、5所示.

表 4 不同算法的评价指标（目标字体：颜真卿楷书）

Tab.4 Evaluation indexes of different algorithms (target font: Yan Zhenqing regular script)

算法	SSIM	PSNR/dB	LPIPS
CycleGAN	0.5492	7.2531	0.3300
DenseNet CycleGAN	0.4958	7.2698	0.3472
zi2zi	0.6728	9.0505	0.2289
EMD	0.5567	8.7037	0.3229
CalliGAN	0.6254	9.2908	0.2385
LFFont	0.6016	9.1077	0.2311
MXFont	0.6151	9.3029	0.2497
本文算法	0.7249	10.6253	0.1868

表4中，利用本文算法生成颜真卿楷书的SSIM、PSNR分别比zi2zi高5.21%、1.57 dB，LPIPS比zi2zi低4.21%，SSIM、PSNR指标均高于对比算法，LPIPS指标均低于对比算法. 表5中，利用本文算法生成赵孟頫行书的SSIM、PSNR分别比zi2zi高6.91%、1.76 dB，LPIPS比zi2zi低6.20%. 本文算法的3种评价指标均优于其他算法，证明了算法的可行性与可靠性.

表 5 不同算法的评价指标（目标字体：赵孟頫行书）

Tab.5 Evaluation indexes of different algorithms (target font: Zhao Mengfu running script)

算法	SSIM	PSNR/dB	LPIPS
CycleGAN	0.5617	7.1628	0.3712
DenseNet CycleGAN	0.5317	6.9037	0.3608
zi2zi	0.6348	7.7615	0.3223
EMD	0.5614	8.4337	0.3595
CalliGAN	0.5737	7.8590	0.3271
LFFont	0.5941	8.1400	0.3025
MXFont	0.6078	7.8666	0.3087
本文算法	0.7039	9.5221	0.2603

3.4.3. 不同源字体的生成结果

上述实验均以黑体作为源字体，为了验证不同源字体的生成效果，分别采用楷体与宋体作为源字体进行实验. 本文算法的生成效果如图10、11所示，评价指标如表6所示.

图 10

图 10 源字体为楷体的结果

Fig.10 Results of source font in simkai

图 11

图 11 源字体为宋体的结果

Fig.11 Results of source font in simsun

表 6 不同源字体生成目标字体的评价指标

Tab.6 Evaluation indexes of target font generated by different source fonts

源字体	目标字体	SSIM	PSNR/dB	LPIPS
楷体	楷书	0.7044	10.1207	0.1965
楷体	行书	0.6914	9.2937	0.2503
宋体	楷书	0.7153	10.4740	0.2042
宋体	行书	0.6971	9.5003	0.2495

图10、11中，利用本文算法生成的目标字体结构完整，细节鲜明，清晰度高，且风格与目标风格接近. 从表6可知，改变源字体，评价指标SSIM与LPIPS波动幅度不超过3%，PSNR不超过0.6 dB，证明了本文算法的鲁棒性与普适性.

3.4.4. 模型稳定性的分析

为了稳定模型训练，加速训练过程，在判别器中将实例归一化替换为谱归一化层. zi2zi算法与本文算法训练过程中的损失曲线变化如图12所示. 图中， $ I $为训练次数， $ {L_{\text{D}}} $、 $ {L_{\text{G}}} $分别为判别器损失与生成器损失. 相比于原始模型，本文算法的损失曲线更加稳定，振幅较小，收敛速度比原模型快.

图 12

图 12 训练过程的损失曲线图

Fig.12 Loss curves of training process

4. 结　语

本文提出基于改进生成对抗网络的书法字生成算法，有效提升了书法字的生成效果. 在网络结构设计中，以zi2zi为基础网络，通过设计编码器结构，增强了网络的特征提取能力；通过添加上下文感知注意力模块，显著提升了生成书法字的风格效果. 在模型训练中，设计损失函数进一步提升了生成字体的结构完整性，利用谱归一化增强了模型的训练稳定性. 通过自建2种不同书法字体的数据集，验证了本文算法的有效性. 实验结果表明，利用提出算法生成的字体细节清晰，结构完整，字体风格更加逼真，字体图像质量高. 利用本文方法生成的颜真卿楷书与赵孟頫行书的PSNR分别达到10.63、9.52 dB，SSIM分别达到0.724 9、0.703 9，LPIPS分别达到0.186 8、0.260 3，生成效果较对比算法有明显的提升. 本文算法生成的是单一风格字体，在接下来的研究工作中将优化模型，实现一对多风格的生成，增加模型的多样性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

程若然, 赵晓丽, 周浩军, 等

基于深度学习的中文字体风格转换研究综述

[J]. 浙江大学学报: 工学版, 2022, 56 (3): 510- 519

CHENG Ruo-ran, ZHAO Xiao-li, ZHOU Hao-jun, et al

Review of Chinese font style conversion based on deep learning

[J]. Journal of Zhejiang University: Engineering Science, 2022, 56 (3): 510- 519

DOI:10.3778/j.issn.1002-8331.2103-0297 [本文引用: 1]

[2]

曾锦山, 陈琪, 王明文

基于田字格变换的自监督汉字字体生成

[J]. 中国科学: 信息科学, 2022, 52 (1): 145- 159

ZENG Jin-shan, CHEN Qi, WANG Ming-wen

Self-supervised font generation of Chinese characters based on Tian Zige transformation

[J]. Science of China: Information Science, 2022, 52 (1): 145- 159

[3]

黄子君, 陈琪, 罗文兵

基于深度学习的汉字生成方法

[J]. 计算机工程与应用, 2021, 57 (17): 29- 36

HUANG Zi-jun, CHEN Qi, LUO Wen-bing

Chinese character generation method based on deep learning

[J]. Computer Engineering and Application, 2021, 57 (17): 29- 36

DOI:10.3778/j.issn.1002-8331.2103-0297 [本文引用: 1]

[4]

TIAN Y. Rewrite [CP/OL]. [2022-08-02]. https://github.com/kaonashi-tyc/Rewrite.

[5]

ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 2017: 5967-5976.

[6]

TIAN Y. Zi2zi [CP/OL]. [2022-08-02]. https://github.com/kaonashi-tyc/zi2zi.

[7]

JIANG Y, LIAN Z, TANG Y, et al. DCFont: an end-to-end deep Chinese font generation system [C]// SIGGRAPH Asia 2017 Technical Briefs. New York: ACM, 2017: 1-4.

[8]

CHANG B, ZHANG Q, PAN S, et al. Generating handwritten Chinese characters using CycleGAN [C]// 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018: 199-207.

[9]

ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2242-2251.

[10]

REN C, LYU S, ZHAN H, et al

SAFont: automatic font synthesis using self-attention mechanisms

[J]. Australia Journal of Intelligent Information Processing Systems, 2019, 16 (2): 19- 25

[11]

WU S J, YANG C Y, HSU J Y. CalliGAN: style and structure-aware Chinese calligraphy character generator [EB/OL]. (2020-05-26) [2022-08-02]. https://arxiv.org/abs/2005.12500.

[12]

PARK S, CHUN S, CHA J, et al. Few-shot font generation with localized style representations and factorization [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2021, 35(3): 2393-2402.

[13]

XIE Y, CHEN X, SUN L, et al. DGFont: deformable generative networks for unsupervised font generation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 5130-5140.

[14]

PARK S, CHUN S, CHA J, et al. Multiple heads are better than one: few-shot font generation with multiple localized experts [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 13900-13909.

[15]

KONG Y, LUO C, MA W, et al. Look closer to supervise better: one-shot font generation via component-based discriminator [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 13482-13491.

[16]

ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs [C]// Proceedings of the 34th International Conference on Machine Learning. Sydney: ACM, 2017, 70: 2642–2651.

[17]

TAIGMAN Y, POLYAK A, WOLF L. Unsupervised cross-domain image generation [EB/OL]. (2016-10-07) [2022-08-02]. https://arxiv.org/abs/1611.02200.

[18]

WANG Z, BOVIK A C, SHEIKH H R, et al

Image quality assessment: from error visibility to structural similarity

[J]. IEEE Transactions on Image Processing, 2004, 13 (4): 600- 612

DOI:10.1109/TIP.2003.819861 [本文引用: 1]

[19]

ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 2018: 586-595.

[20]

ZHANG Y, ZHANG Y, CAI W. Separating style and content for generalized style transfer [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 2018: 8447-8455.