浙江大学学报(工学版), 2025, 59(7): 1403-1410 doi: 10.3785/j.issn.1008-973X.2025.07.008

计算机技术与控制工程

面向风格扩散的共享特征学习算法

申锦琛,, 黄蕊, 蒋澈, 戚萌, 崔嘉,

1. 华南理工大学 亚热带建筑与城市科学全国重点实验室,广东 广州 510641

2. 山东师范大学 信息科学与工程学院,山东 济南 250358

3. 华南理工大学 设计学院,广东 广州 510006

Shared feature learning algorithm for style diffusion

SHEN Jinchen,, HUANG Rui, JIANG Che, QI Meng, CUI Jia,

1. State Key Laboratory of Subtropical Building and Urban Science, South China University of Technology, Guangzhou 510641, China

2. School of Information Science and Engineering, Shandong Normal University, Jinan 250358, China

3. School of Design, South China University of Technology, Guangzhou 510006, China

通讯作者: 崔嘉,男,副教授,硕导,博士. orcid.org/0000-0002-1631-0535. E-mail:cuijia1247@scut.edu.cn

收稿日期: 2024-06-25  

基金资助: 浙江大学计算机辅助设计与图形系统全国重点实验室开放课题(A2416);广州市哲学社会科学发展“十四五”规划项目(2024GZGJ17);中央高校基本科研业务费专项(2022ZYGXZR020);山东省自然科学基金联合基金资助项目(ZR2021LZL011).

Received: 2024-06-25  

Fund supported: 浙江大学计算机辅助设计与图形系统全国重点实验室开放课题(A2416);广州市哲学社会科学发展“十四五”规划项目(2024GZGJ17);中央高校基本科研业务费专项(2022ZYGXZR020);山东省自然科学基金联合基金资助项目(ZR2021LZL011).

作者简介 About authors

申锦琛(1999—),男,硕士生,从事图像风格分类研究.orcid.org/0009-0007-4789-9585.E-mail:202221055779@mail.scut.edu.cn , E-mail:202221055779@mail.scut.edu.cn

摘要

为了解决风格扩散问题,学习图像的主风格特征以提升风格分类的准确率. 借鉴风格的可迁移特性,提出非对称结构的钻石模型,将同类数据中可相互迁移的特征定义为风格类内共享特征,用来学习数据的主风格特征. 基于自动编码器结构提出由2个生成过程组成的钻石模型,第一个生成过程通过同类风格数据采样学习可迁移特征作为风格主特征(共享特征),降低子风格干扰;第二个生成过程通过重建损失保持图像主风格的连续. 由多任务学习框架同时优化共享特征学习和分类模型,实现基于主风格的类别特征学习. 在5个风格数据集(2个油画数据集、1个中国画数据集、1个建筑数据集和1个时尚数据集)中开展对比实验,与现有风格分类模型相比,所提模型的准确率提升了2~7个百分点,验证了模型的有效性和先进性.

关键词: 风格分类 ; 共享特征学习 ; 自动编码器 ; 风格特征 ; 风格迁移

Abstract

To address the problem of style diffusion, the principal style features of an image were learned to improve the accuracy of image style classification. The transferable nature of style was utilized, and an asymmetric diamond model was proposed, which defined transferable features within similar data as intra-class shared features to learn the dominant style of the data. A diamond model consisting of two-generation processes was introduced based on the autoencoder structure. In the first process, similar style data were sampled to learn transferable features as the dominant style features (shared features), thereby reducing sub-style interference. In the second process, reconstruction loss was applied to maintain the continuity of the image’s dominant style. Through a multi-task learning framework, shared feature learning and the classification model were optimized simultaneously to achieve category feature learning based on the dominant style. Comparative experiments were conducted on five style datasets (two oil painting datasets, one Chinese painting dataset, one architectural dataset, and one fashion dataset). Compared with existing approaches, the accuracy of the proposed model improved by 2 to 7 percentage points, which validated the effectiveness and advancement of the model.

Keywords: style classification ; shared feature learning ; autoencoder ; style features ; style transfer

PDF (1348KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

申锦琛, 黄蕊, 蒋澈, 戚萌, 崔嘉. 面向风格扩散的共享特征学习算法. 浙江大学学报(工学版)[J], 2025, 59(7): 1403-1410 doi:10.3785/j.issn.1008-973X.2025.07.008

SHEN Jinchen, HUANG Rui, JIANG Che, QI Meng, CUI Jia. Shared feature learning algorithm for style diffusion. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(7): 1403-1410 doi:10.3785/j.issn.1008-973X.2025.07.008

风格分类是根据可视化媒介(图像、油画、照片等)的风格特征进行类别预测. 风格既包括媒介的色调、纹理、构图等视觉特征,也指代抽象的艺术概念,如印象派、写实主义、巴洛克等. 图像风格分类方法可分为2种:单任务模式和多任务模式. 单任务模式用特征统计模型[1]和深度学习策略[2-3]提取具有区分度的风格描述因子. 这种方法主要依赖于特征学习的准确性,图像数据在弱风格区域会出现不同的子风格(风格扩散现象) [4],因此单任务模式受数据集影响较大. 多任务模型通过多模态特征表示图像的不同信息,例如属性预测[5]、子图识别[6]、艺术评论[7]和知识图谱[8-9]等,各种信息相互补充,可以有效地减缓风格扩散带来的影响,但高昂的额外标注成本影响方法的实际应用.

图像风格具有难以用语言描述但易于感知的特点[10]. 艺术家可以通过视觉作品表达个人特色,但难以用文字形式化描述. 因此,风格被认为是隐性知识[11],即使在同一类别中,不同作者的个人偏好也可能导致数据间的特征偏差,为风格分类任务带来较大挑战. 借鉴风格迁移研究[12],本研究提出面向风格扩散的共享特征学习框架. 假设来自相同类别的数据具有相同或相似的风格分类特点,将同类别中可相互迁移的特征定义为风格类内的共享特征,通过迁移学习主风格特征达到对不同风格的区分和辨别. 相同风格类别中的共享特征更易迁移(所需迭代次数更少),不同类别之间则较难. 本研究提出钻石模型,通过互逆的2个生成过程学习同类别数据的共享特征. 借鉴多任务模型,通过基于类别监督的方式同时优化风格分类模型和共享特征学习模型.

为了降低噪声导致的风格偏差影响,也为了提高主特征学习的鲁棒性,本研究在传统自编码器结构上提出结构非对称的钻石模型. 钻石模型由主风格特征迁移生成过程和主风格不变生成过程组成,可以堆叠使用或与其他预训练模型结合使用. 与传统降噪模型不同,钻石模型通过循环结构,无需预先定义噪声-风格数据对;与自编码器模型不同,钻石模型采用非对称结构,可以在保持主风格特征不变的情况下,减少子风格的干扰. 在5个主流数据集(2个油画数据集、1个中国画数据集、1个时尚数据集和1个建筑数据集)上将所提模型分别与基于预训练的CNN模型、风格降噪模型和风格迁移模型进行性能对比实验.

1. 相关工作

1.1. 基于特征学习的算法

特征学习方法[4]通过手工特征或核函数的方式提取通用图像描述因子〔常用图像特征提取方法包括HOG (histogram of oriented gradient, HOG)和LBP(local binary pattern, LBP)〕,再通过相似度计算来训练分类器(包括决策树、支持向量机、最近邻和其他统计算法),将风格数据分配到最合适的类别中. 色彩是最直观的风格信息特征,色彩矩、色调和色彩范围信息都可用于识别图像的风格[13]. Geng等[14]研究Lab、RGB和HSV等色彩空间,详细讨论它们的互补作用. Liu等[15]提出2种新的色彩距离算法: 修正色彩距离和色彩比率特征,用于预测肖像画的艺术流派. 除了色彩外,边缘信息也是表达风格信息的重要特征,通过边缘检测和形态学处理,可以捕捉绘画的笔触特征[16]. Cui等[17]从设计学角度提出的16个维度笔触特征增强了对家具风格识别的鲁棒性. 研究人员还使用复合特征表达风格信息. 杨冰等[18]将艺术领域中普遍认可的风格特征量化,通过计算图像与其他样本图像间的相似性系数,建立基于图像自相似性的复合特征,证明了艺术风格相似性的有效性. 谢秦秦等[19]通过将空间特征与底层特征串联融合为新的复合特征,提出基于多特征融合的油画分类算法. 钱文华等[20]将图像的颜色熵、分块熵和轮廓熵合并,构成信息熵作为图像特征,利用支持向量机训练艺术风格图像. 尽管核函数特征在指定数据集上表现良好,但受所选择特征因子和目标风格的制约,稳定性较差.

1.2. 基于深度学习的算法

得益于深度神经网络的优势和互联网带来的海量数据,深度学习方法在风格分类中的应用取得显著进展. 相比传统方法,深度模型能够从未经处理的风格数据中学习深层特征. 卷积神经网络[3]在艺术风格分类任务中越来越受到研究人员的关注,主要原因是它拥有知识迁移能力[21]. 研究人员通常使用ImageNet[22]和COCO[23]数据集的预训练模型,采用迁移学习策略进行模型微调以适应下游风格分类任务[24]. VGG[25]、Inception-V3[26]和DenseNet[27]等模型均可通过微调适应风格分类任务. Milani等[28]对上述模型在风格分类任务中的表现进行量化对比,由于可用于训练的图像数量有限,相较于从零开始训练的深度模型,预训练模型在风格分类任务中表现更好且计算成本更低. 为了减少同一风格类别中的风格偏差,Alirezazadeh等[29]提出加性余弦间隔损失函数(additive cosine margin loss, ACML)用于时尚风格识别. 为了解决风格扩散现象,Jiang等[4]提出堆叠去噪模型. 相似风格的图像判断具有模糊性(用户分类时容易出现混淆现象),某些风格概念抽象容易使用户主观判断不统一,这些问题会导致预训练模型的分类性能下降甚至模型崩溃.

1.3. 多任务分类模型

结合视觉风格和辅助信息的多任务模型逐渐引起研究人员关注. Strezoski等[30]提出多任务分类CNN模型,该模型在全连接层后设有多个输出层,分别用于预测艺术家、风格和流派等任务. GraphSAGE[9]使用图神经网络联合学习视觉和语义特征进行知识推理任务,同时使用CNN预测风格和设计相关属性. Yin等[31]提出基于稀疏编码的多任务共享参数模型. Bianco等[32]提出基于分辨率金字塔的多分支模型,用于分析粗略布局和详细构成. MCCFNet[14]使用区域加权池化层和3个色彩通道进行基于色彩特征的风格识别. ArtGAN[7]使用图卷积模型学习绘画数据和艺术评论,以完成风格分类. 尽管辅助数据提高了风格分类的准确性,但高昂的计算成本和额外负担限制了这些方法的实际应用.

2. 基于迁移的共享特征学习算法

2.1. 框架描述

设计师通过经验积累学习风格概念,利用比较法辨别风格[10]. 研究发现,单个图像(如油画)中通常包含1种主风格和多种不确定的子风格. 本研究定义这些子风格元素为风格噪声. 风格噪声使同类别图像之间出现特征偏差,给分类模型带来挑战. 风格迁移(neural style transfer, NST)研究表明,风格越相似,迁移越容易(迭代越少)[33-34]. 本研究将在同一风格类别中学习到的共享风格特征作为风格描述因子,降低风格扩散带来的干扰. 共享特征学习无需像NST工作那样提前准备配对数据,只需类别监督. 不同于风格降噪研究[4],风格共享特征学习无需指定主风格元素和子风格元素(即使专业设计人员也难以精准辨别),而是从迁移过程中提取风格共享特征. 除此之外,为了提高特征学习和分类模型的收敛性,本研究提出使用堆叠的钻石模型提取共享特征,原因是堆叠使用方式比其他模型融合策略表现更佳[35]. 在训练过程中使用共享损失和分类损失进行反向传播,整体框架如图1所示. 通过预训练模型(VGG或ResNet)提取特征后,风格数据送入钻石模型进行主风格特征学习. 经过钻石模型提取风格特征后,通过多层感知器进行特征映射,由SiLU[36]激活后进行风格类别推理.

图 1

图 1   共享特征学习框架

Fig.1   Shared feature learning framework


2.2. 可迁移的共享特征学习

$X$为具有概念风格的数据(图像或油画). $ {X_{\text{m}}} $为主要风格特征,$ {X_{\text{s}}} $为子风格. 风格分类任务面临如下挑战:1)主要风格特征难以表示,原因是不同风格的图像在视觉上具有很大的差异;2)子风格难以确定,导致抽象风格类别中存在不确定的风格干扰. 由于风格概念的模糊性,假定$X$${X_{\text{m}}}$${X_{\text{s}}}$是3个独立的随机变量,联合概率分布为$ P(X,{X_{\text{m}}},{X_{\text{s}}}) $,边缘分布为$P(X)$$P({X_{\text{m}}})$$P({X_{\text{s}}})$. ${X_{\text{L}}}$为风格概念标签. 在${X_{\text{s}}}$存在的前提下,使$ P(X,{X_{\text{m}}},{X_{\text{s}}}) $接近${X_{\text{L}}}$

$ P(X,{X_{\text{m}}},{X_{\text{s}}}) \mapsto {X_{\text{L}}}{\text{.}} $

$Y = f(X)$表示风格数据在潜在空间的特征向量学习过程,它将风格类型中的$X$,转变成同类别的风格数据$Y$,且保证$X \cap Y$趋向于${X_{\text{L}}}$. 在这种情况下,式(1)可以重新表述为生成模型:

$ P(X,Y,{X_{\text{s}}}) = P(Y)P(X|Y)P({X_{\text{s}}}|X). $

面向指定的${X_{\text{L}}}$$P(X|Y) = F_{P^{(WY+b)}} $$Y = f(X)$的逆过程,$P(X_{\text{s}}|X) = G_{P^{(WY+b)}}$是在该过程中通过对$P({X_{\text{s}}})$进行对数似然逼近的辅助过程. 上述定义的生成模型具有参数集$\theta (W,b)$. 学习相同风格概念中的共享特征存在于2个互逆的生成过程. 正向过程$T_{\text{f}}$: $X \to {X_{\text{s}}} \to Y$,表示为

$ P(X|Y) = {T_{\text{f}}}(X,Y|{X_{\text{s}}}). $

根据$P({X_{\text{s}}}|X)$和式(3),得到逆生成过程${T_{\text{b}}}$$Y \to X \to {X_{\text{s}}}$,表示为${T_{\text{b}}}(X,Y|{X_{\text{s}}})$. 由于$P({X_{\text{s}}})$代表的子风格的类别和数量难以确定,本研究通过拟合$P({X_{\text{s}}})$将风格特征推向主要风格标签${X_{\text{L}}}$,即主要采用主风格学习策略解决风格扩散问题:

$ \begin{split} H =& {H_\theta }({T_{\text{f}}},{T_{\text{b}}}) = \mathop {\max }\limits_\theta ( - {H_\theta }({T_{\text{f}}},{T_{\text{b}}}))= \\& \mathop {\max }\limits_\theta ({E_{{T_{\text{f}}}}}[\lg {T_{\text{b}}}]). \end{split} $

式中:$ {H_\theta } $${T_{\text{f}}}$${T_{\text{b}}}$的交叉熵最小化,$\theta $为训练参数. ${T_{\text{f}}}$${T_{\text{b}}}$过程都是通过风格迁移对$ P({X_{\text{s}}}) $进行拟合,因此对于$P({X_{\text{s}}})$的最大似然拟合相当于对${T_{\text{f}}}$${T_{\text{b}}}$的最小化交叉熵. $ {T_{\text{f}}}(X,Y|{X_{\text{s}}}) $$ {T_{\text{b}}}(X,Y|{X_{\text{s}}}) $为条件概率,且${T_{\text{f}}}$${T_{\text{b}}}$互为逆过程. 其中${T_{\text{f}}}$为通过将$X$特征向$Y$迁移最小化${X_{\text{s}}}$${T_{\text{b}}}$$ {T_{\text{f}}} $的逆过程,通过将$Y$$X$迁移继续逼近最小化${X_{\text{s}}}$的同时保持风格连续性;通过循环结构学习$X$$Y$所在类别的风格共享特征.

$ \lg \;({T_{\text{f}}}) = L({T_{\text{f}}},{T_{\text{b}}},{X_{\text{s}}})+{D_{{\text{KL}}}}({T_{\text{f}}}||{T_{\text{b}}}). $

在式(5)为真时[37]

$ \lg\; ({T_{\text{f}}}) $的下界. 可以明显看出,当$ {T_{\text{f}}}(X,Y|{X_{\text{s}}}) = {T_{\text{b}}}(X, Y|{X_{\text{s}}}) $时,KL散度DKL=0,即若${D_{{\text{KL}}}} = 0$,则$ \lg\; ({T_{\text{f}}}) $取得最小值. 本研究提出共享特征框架对同一风格数据中每对采样数据之间的共享特征进行学习,获得风格类别表征.

2.3. 钻石模型

为了解决风格偏差问题,许多研究采用降噪技术处理子风格差异. 堆叠自编码器[38]( stacked auto-encoders, SAE)重建输入向量,利用数据自身信息无监督地降噪. Vincent等[37]在SAE的基础上引入去噪自动编码器(denoising autoencoder, DAE),通过在训练阶段加入随机噪声使算法具有一定的抗噪性. Jiang等[4]提出风格集中的方法,通过使用输入数据重建具有更强风格特征的图像来学习主风格特征. 在降噪模型训练中,纯净数据与噪声数据对至关重要,但高质量数据对难获得. 如图2所示,本研究构建的钻石模型由风格迁移过程${T_{\text{f}}}$${T_{\text{b}}}$、归一化层、激活层和用于梯度保持的跳跃连接组成. 在${T_{\text{f}}}$中,特征向量通过归一化处理保持学习能力稳定;激活函数为SiLU;二维反卷积(ConvTranspose2D)层可以保持输入和输出维度相同. 在${T_{\text{f}}}$中,特征向量通过归一化处理保持学习能力的稳定;激活函数使用向量的维度不变. 与常规的编码-解码器不同,钻石模型不仅以重构为目的,因此2个迁移过程未采用对称结构. ${T_{\text{f}}}$输出的特征维度将大于输入维度,这样能够获取更多的底层风格特征; ${T_{\text{b}}}$将高维度特征迁移到较低维度,达到对主要风格特征提取的目的. ${T_{\text{f}}}$${T_{\text{b}}}$连接处维度较高,输入和输出维度较低,从外形看就像一颗横放的钻石,因此将该网络命名为钻石模型. 二维卷积(Conv2D)和ConvTranspose2D的数量根据计算负荷进行自适应调整. 一般来说,层数越深,收敛越慢. 钻石模型可以通过堆叠方式与其他模型联合应用.

图 2

图 2   钻石模型的网络结构

Fig.2   Network structure of diamond model


2.4. 损失函数

损失函数分成:1)共享损失$ {L_{\text{s}}} $,用于学习相同风格类别的共享特征;2)分类损失$ {L_{\text{c}}} $,确保钻石模型在特征学习时获得更好的分类精度. 共享特征学习框架通过比较相同风格的采样数据来学习共享特征. ${L_{\text{f}}}$为计算${T_{\text{f}}}$的输出和采样数据Gram矩阵[39]的L2范数损失. 在正向迁移过程中, ${L_{\text{f}}}$能够减小${T_{\text{f}}}$输出的Gram矩阵${\boldsymbol{T}}$与采样数据的Gram矩阵$ {\boldsymbol{A}} $的差异.

$ \mathop {\boldsymbol{G}}\nolimits_{i,j}^l = \sum\limits_k^{} {\mathop {\boldsymbol{F}}\nolimits_{ik}^l } \mathop {\boldsymbol{F}}\nolimits_{jk}^l ,$

$ {L_{\text{f}}} = \frac{1}{{4\mathop N\nolimits_l^2 \mathop M\nolimits_l^2 }}\sum\limits_{i,j}^{} {\mathop {({\boldsymbol{T}}}\nolimits_{i,j}^l } - \mathop {\boldsymbol{A}}\nolimits_{i,j}^l \mathop )\nolimits^2 . $

式中:NM分别为矩阵TA的规模尺度,l为矩阵层数. 式(6)为Gram矩阵计算式,计算每个通道$i$与每个通道$j$特征图的内积. ${L_{\text{b}}}$为对${T_{\text{b}}}$的输出和源数据Gram矩阵的L2范数损失. 在逆生成过程中,${L_{\text{b}}}$用于维持$ {T_{\text{b}}} $输出的Gram矩阵${\boldsymbol{B}}$与源数据Gram矩阵$ {\boldsymbol{O}} $的稳定.

$ {L_{\text{b}}} = \frac{1}{{4\mathop N\nolimits_l^2 \mathop M\nolimits_l^2 }}\sum\limits_{i,j}^{} {\mathop {({\boldsymbol{B}}}\nolimits_{i,j}^l } - \mathop {\boldsymbol{O}}\nolimits_{i,j}^l \mathop )\nolimits^2 . $

${L_{\text{f}}}$${L_{\text{b}}}$是互逆生成过程的损失函数. ${L_{\text{f}}}$通过最小化采样数据之间的迁移差异来降低子风格的干扰;为了避免在迁移过程中引入额外的图像扭曲,${L_{\text{b}}}$用来保持原风格特征的不变性,从而维持类别特征不变. 共享损失函数$ {L_{\text{s}}} $${L_{\text{f}}}$${L_{\text{b}}}$组成,

$ {L_{\text{s}}} = \alpha \times {L_{\text{f}}}+\beta \times {L_{\text{b}}}{\text{.}} $

式中:$\alpha $$\beta $均为超参数. 在分类损失中,采用交叉熵损失函数计算分类损失:

$ {L_{\text{c}}} = - \frac{1}{N}\sum\limits_{i = 1}^M {{X_{{\text{L}},i}}\lg \;(T_{\text{f}})} . $

由于$ {L_{\text{s}}} $较小,将$ {L_s} $${L_{\text{c}}}$相加作为最终的损失:

$ {L_{\text{t}}} = {L_{\text{s}}}+{L_{\text{c}}}{\text{.}} $

算法流程见算法1.

算法1  钻石模型输入:同一风格数据${X_n}$,最大迭代次数$T$输出:共享特征${F_i}$,模型参数${W_1},{W_2},{b_1},{b_2}$

1. 初始化:$t = 0$

2. repeat

3. 对数据${X_n}$样本进行随机排序

4. for $i = 1,2,\cdots,n$do

5. 选取样本${X_i}$并随机采样一个样本$X_k$

6. ${Z_i} = {T_{\text{f}}}({X_i}) \to {X_k}$,学习优化参数$\theta ({W_1},{b_1})$

7. ${F_i} = {T_{\text{b}}}({Z_i}) \to {X_i}$,学习优化参数$\theta ({W_2},{b_2})$

8. 根据式(11)计算并回传损失

9. end for

10. until $t = T$

3. 实验结果与分析

3.1. 风格数据集

在主流风格数据集上进行对比实验,包括油画风格数据集Painting91[40]、Pandora[41],中国画数据集[42](Chinese Painting),建筑风格数据集Arch,时尚风格数据集Fashion Style14[43]. 数据集图片示例如图3所示,数据统计信息如表1所示. 1)油画风格数据集根据艺术家所属派别进行标注. Painting91包含2 338张画作,涵盖13种风格标签. Pandora是用于识别艺术运动的绘画数据集,包含7 726张画作,涵盖12种风格标签. 2)Arch包含10 113张图像,涵盖25种风格标签. 它是从Google Images和Xu等[44]的原始数据集中抽取图像组成的混合数据集. 为了获得更好的图像质量,使用了多种数据增强方法. 3)Fashion Style14包含13 126张图像,涵盖14种风格标签,每种风格包含大约1 000张服装模特图像,反映了现代时尚风格的多样性和复杂性. 4)Chinese Painting是基于中国画数据集[42]随机采样扩充后的改进数据集. Chinese Painting是专门量化分析中国传统国画不同风格所引发情感的数据库. 本研究在原有数据集基础上,采用256×256的随机采样策略,每张图采样10张得到扩充数据库. 扩充后的数据集包含5 110张传统中国画,有5种风格标签,分别为气势美(1 110张)、清幽美(530张)、生机美(1 870张)、雅致美(1 030张)和萧瑟美(570张). 该数据库能够帮助研究人员理解国画的情感风格价值,为计算机视觉、风格、美学计算等领域的研究提供研究数据. 由于国画的意境和艺术表达的多样性,不同类别存在一定的风格交叉和重叠,尤其是清幽美与雅致美、生机美与气势美的区别较为微妙.

图 3

图 3   主流数据集图片示例

Fig.3   Image samples from dominant style dataset


表 1   主流风格数据集参数

Tab.1  Parameters of dominant style dataset

数据库领域图片总数风格标签总数
Painting91 (P91)油画2 33813
Pandora (Pan)油画7 72612
Chinese Painting (CP)国画5 1105
Arch建筑10 11325
Fashion Style14 (FS)时尚13 12614

新窗口打开| 下载CSV


3.2. 实验参数设置

实验环境:Ubuntu20.04,RTX-4090-24G,128 G内存,Pytorch架构. 采用预训练模型进行特征提取,共享风格特征学习模型堆叠使用6个钻石模型,通道数设置为 [128,128,256,256,512,512],步长设置为2,卷积核大小设置为2,正则化使用层归一化,激活函数为SiLU函数,学习率为0.01,优化器使用随机梯度下降(SGD). 风格分类模型使用2个线性层和ReLU激活函数,损失函数为交叉熵,优化器为Adam,学习率设置为1.0×10−5. 数据集按照8∶2的比例划分训练集和测试集,超参数$\alpha = 0.6$$\beta = 0.3$. 以准确率为评估指标,计算式为

$ {\text{ACC}} = \frac{{{\text{TP+TN}}}}{{{\text{TP+TN+FP+FN}}}}. $

式中:${\text{TP}}$为正确预测为正类的样本数,${\text{TN}}$为正确预测为负类的样本数,${\text{FP}}$为错误预测为正类的样本数,${\text{FN}}$为错误预测为负类的样本数.

考虑到堆叠钻石模型会导致昂贵的计算成本,仅使用简单的距离函数(L1范数、L2范数、KL散度、余弦相似度、点积相似度和Gram距离)衡量风格特征相似度. 如图4所示,在Painting91上进行2 000次迭代的预训练,结果表明Gram距离在500到1 900次迭代的准确率ACC高于其他曲线, 并且仍有潜在的增长趋势. L1范数计算向量在直角坐标系中的线性距离,与非线性的风格特征不符,计算效果最差. KL散度体现2个分布的总体相似度,涵盖内容和风格,因此计算效果较差. 对于余弦相似度和点积相似度来说,前者综合考虑方向和强度,后者仅考虑强度,因此二者风格分类的效果相差不大. 当特征向量不同维度间存在不同的重要程度时,L2范数往往是比较理想的损失函数计算方法,这也是当前被广泛采用的距离计算方法. Gram距离经常被用在风格迁移研究中,衡量风格相似度. 可以看到,在1阶段前,由于主风格提取不充分,准确率上升趋势较缓;在1~2阶段,由于收敛速度快,Gram距离和L2范数的准确率陡升;在2~3阶段,主风格迁移的学习使得各种距离函数的准确率都有较大提升;3阶段之后,准确率提升缓慢,接近局部最优值,但Gram距离仍具有较好的上升趋势. 本研究采用Gram距离作为损失距离计算方法.

图 4

图 4   距离度量的准确率比较

Fig.4   Accuracy comparison of distance metrics


3.3. 消融实验

为了验证钻石模型和损失函数中各模块的作用,进行2类消融实验:1)模型消融实验,验证钻石模型对风格特征提取的作用;损失函数消融实验,验证损失函数的作用.

在Painting91和Pandora上开展模型消融实验,对比不同模块的分类效果. 其中E[37]仅采用自动编码器进行特征提取;E-D采用基于重建的生成过程提取风格特征[4]$ {T_{\text{f}}} $+${T_{\text{f}}}$采用2组相同的对称结构生成模型进行风格特征提取;所提模型采用非对称的循环生成模型,在${T_{\text{f}}}$的重建阶段扩大特征维度,${T_{\text{b}}}$在特征压缩阶段进行特征压缩,结果如表2所示. E提取特征无法屏蔽子风格干扰,受风格扩散现象影响,准确率较低;E-D采用基于重建的方法可以轻微改善分类效果,但仍无法抑制子风格扩散;采用循环生成方式可以有效改善该问题,如$ {T_{\text{f}}} $+${T_{\text{f}}}$;所提模型由于在第一轮重建时扩大了特征维度,能够捕获更多的底层风格特征,在${T_{\text{b}}}$阶段通过逆迁移的方式保证了主风格一致性. 虽然主风格学习策略也会导致部分特征丢失,但实验结果显示,它对于分类效果具有明显的提升作用.

表 2   钻石模型的模块消融实验

Tab.2  Modular ablation experiments for diamond model

模块ACC/%
Painting91Pandora
E58.3546.64
E-D58.93 (+0.58)47.17 (+0.53)
${T_{\text{f}}}+{T_{\text{f}}}$63.07 (+4.14)51.39 (+4.75)
本研究67.78 (+9.43)56.68 (+10.04)

新窗口打开| 下载CSV


表3所示,对${L_{\text{f}}}$${L_{\text{b}}}$${L_{\text{s}}}$${L_{\text{t}}}$在Painting91和Pandora上进行损失函数消融实验. 可以看出,单独应用${L_{\text{f}}}$略好于${L_{\text{b}}}$,因此${L_{\text{f}}}$会比${L_{\text{b}}}$更快地学习共享特征. ${L_{\text{s}}}$准确率高于${L_{\text{f}}}$${L_{\text{b}}}$,表明${L_{\text{s}}}$可以更有效地在带有风格噪声的数据中学习共享特征. 为了验证${L_{\text{c}}}$的有效性,将仅使用${L_{\text{s}}}$和加入${L_{\text{c}}}$后的${L_{\text{t}}}$作为损失函数时的分类准确率进行对比,发现${L_{\text{t}}}$的准确率最高,证明本研究提出的损失函数可有效提升共享特征学习效果.

表 3   钻石模型的损失函数消融实验

Tab.3  Loss function ablation experiments for diamond model

${L_{\text{f}}}$${L_{\text{b}}}$${L_{\text{s}}}$${L_{\text{t}}}$ACC/%
Painting91Pandora
×××57.2250.88
×××57.0151.46
×××61.5954.94
×××64.2255.35

新窗口打开| 下载CSV


3.4. 定量实验

表4所示,将所提模型与3类风格分类方法进行对比. 1)预训练CNN模型:VGG16、VGG19、ResNet50[45]、ResNet101和Inception-V3. 在风格分类研究领域中,主流工作仍广泛采用VGG、ResNet和Inception预训练模型[28],研究发现,粗粒度的特征更有利于后续的风格特征学习. 本研究主要采用上述模型进行粗粒度特征提取. 2)降噪分类模型:DAE[46]、SCAE和SSCAE[4]. 3)新的风格分类算法:STSACLF[47]、MCCFNet[14]和DDS[17]. 本研究1为采用VGG16作为骨干网络结合本文方法的模型,本研究2为采用ResNet50作为骨干网络结合本文方法的模型. 第1类模型使用预训练模型提取图像特征,为了避免维度灾难,使用PCA将图像特征降为4 096维. 预训练模型效果受风格偏差影响较大,同类数据之间的偏差程度会直接影响分类的效果. 相比油画风格数据,建筑与时尚数据之间的偏差较小,由表可知,油画风格数据集的准确率明显低于建筑风格数据集和时尚风格数据集. 在第2类模型中,DAE依靠数据自身信息以无监督的方式去噪,效果较差. SCAE将风格划分成若干等级,使用输入数据重建风格更强的图像,增强了风格特征强度,分类性能获得一定提升. SSCAE采用堆叠SCAE的方式,进一步减少了风格噪声的影响,但在风格偏差较大的Pandora中效果提升不明显. 在第3类模型中,DDS利用设计特征来保持风格分类的稳定性,但无法提高准确率. MCCFNet为基于预训练模型DenseNet121的改进模型,在风格偏差较大的数据上效果明显下降. STSACLF使用风格迁移模型训练风格数据进行分类. 由于未对风格类内共享特征进行学习,在风格偏差较大的数据集中,分类准确率提升有限. 本研究使用预训练模型提取图像特征,堆叠多个钻石模型进行训练学习共享特征. 在5个数据集上均获得不同程度的性能提升(提升2~7个百分点). 实验发现,共享特征是对风格数据的主风格提取后获得的,当输入特征抽象等级较高时,将会损失部分主风格特征;当输入特征包含更多底层信息时,所提模型可以更好地提取可迁移的主风格特征,获得稳定的分类效果.

表 4   不同风格分类模型的性能对比

Tab.4  Performance comparison of different style classification models

模型ACC/%
P91PanCPArchFS
VGG1658.4249.7352.6761.4168.22
VGG1958.1146.4452.7760.1166.14
ResNet5064.9351.6557.0365.1271.13
ResNet10165.5052.6156.5366.4270.00
InceptionV353.4142.8355.8861.5262.70
DAE58.8248.7152.6658.5561.48
SCAE63.6548.6455.1659.6174.33
SSCAE64.0749.3855.6860.4875.02
DDS62.2152.3553.13
MCCFNet66.6051.3959.1066.1268.38
STSACLF60.4155.8058.5560.8164.47
本研究167.3956.6755.2765.5771.67
本研究269.1256.9859.4169.0377.17

新窗口打开| 下载CSV


4. 结 语

针对风格偏差对分类模型的影响,本研究将同风格内可相互迁移的特征定义为风格类内共享特征(主风格特征);共享特征用来表达相同风格的通用属性,缓解风格扩散带来的分类准确率降低问题. 提出钻石模型,以堆叠方式进行共享特征学习. 风格分类和共享风格特征学习模型同时以有监督方式进行优化,学习同类风格中的共享特征向量. 在5个公开风格数据集上的算法性能对比实验结果表明,与预训练CNN模型、降噪分类模型和最新风格分类算法相比,所提模型的分类准确率更高. 所提模型仍存在局限性. 1)钻石模型的堆叠使用虽然可以增加分类准确率,但会导致计算成本的增加,影响网络的运行速度. 在后续工作中将对钻石模型继续优化,进一步提高网络的运行速度. 2)风格扩散现象是由主风格与子风格高耦合导致,本研究主要通过钻石模型提取主风格特征,提取过程中难免丢失部分主风格信息,导致分类准确率不高. 子风格的分离会为风格类别提供额外信息,在后续工作中将进一步结合子风格分类策略提升风格分类准确性.

参考文献

WANG B, ZHANG S, ZHANG J, et al

Architectural style classification based on CNN and channel–spatial attention

[J]. Signal, Image and Video Processing, 2023, 17 (1): 99- 107

DOI:10.1007/s11760-022-02208-0      [本文引用: 1]

FU R, LI J, YANG C, et al

Image colour application rules of Shanghai style Chinese paintings based on machine learning algorithm

[J]. Engineering Applications of Artificial Intelligence, 2024, 132: 107903

DOI:10.1016/j.engappai.2024.107903      [本文引用: 1]

ZHAO R, LIU K. Research on painting image classification based on convolution neural network [C]// Proceedings of the Third International Conference on Artificial Intelligence and Computer Engineering. Wuhan: SPIE, 2023: 225.

[本文引用: 2]

JIANG S, SHAO M, JIA C, et al

Learning consensus representation for weak style classification

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40 (12): 2906- 2919

DOI:10.1109/TPAMI.2017.2771766      [本文引用: 7]

SHAJINI M, RAMANAN A

A knowledge-sharing semi-supervised approach for fashion clothes classification and attribute prediction

[J]. The Visual Computer, 2022, 38 (11): 3551- 3561

DOI:10.1007/s00371-021-02178-3      [本文引用: 1]

ZHANG H, LUO Y, ZHANG L, et al

Considering three elements of aesthetics: multi-task self-supervised feature learning for image style classification

[J]. Neurocomputing, 2023, 520: 262- 273

DOI:10.1016/j.neucom.2022.10.076      [本文引用: 1]

ZHAO W, ZHOU D, QIU X, et al

How to represent paintings: a painting classification using artistic comments

[J]. Sensors, 2021, 21 (6): 1940

DOI:10.3390/s21061940      [本文引用: 2]

CASTELLANO G, LELLA E, VESSIO G

Visual link retrieval and knowledge discovery in painting datasets

[J]. Multimedia Tools and Applications, 2021, 80 (5): 6599- 6616

DOI:10.1007/s11042-020-09995-z      [本文引用: 1]

EFTHYMIOU A, RUDINAC S, KACKOVIC M, et al. Graph neural networks for knowledge enhanced visual representation of paintings [EB/OL]. (2021–05–17)[2024–06–09]. https://arxiv.org/pdf/2105.08190.

[本文引用: 2]

STERMAN S, HUANG E, LIU V, et al. Interacting with literary style through computational tools [C]// Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. Honolulu: ACM, 2020: 1–12.

[本文引用: 2]

MITCHELL V W, HARVEY W S, WOOD G

Where does all the ‘know how’ go? The role of tacit knowledge in research impact

[J]. Higher Education Research and Development, 2022, 41 (5): 1664- 1678

DOI:10.1080/07294360.2021.1937066      [本文引用: 1]

CUI J, LIU Y Q, LU H J, et al

PortraitNET: photo-realistic portrait cartoon style transfer with self-supervised semantic supervision

[J]. Neurocomputing, 2021, 465: 114- 127

DOI:10.1016/j.neucom.2021.08.088      [本文引用: 1]

SUN M, ZHANG D, WANG Z, et al

Monte Carlo Convex Hull Model for classification of traditional Chinese paintings

[J]. Neurocomputing, 2016, 171: 788- 797

DOI:10.1016/j.neucom.2015.08.013      [本文引用: 1]

GENG J, ZHANG X, YAN Y, et al

MCCFNet: multi-channel color fusion network for cognitive classification of traditional Chinese paintings

[J]. Cognitive Computation, 2023, 15 (6): 2050- 2061

DOI:10.1007/s12559-023-10172-1      [本文引用: 3]

LIU S, YANG J, AGAIAN S S, et al

Novel features for art movement classification of portrait paintings

[J]. Image and Vision Computing, 2021, 108: 104121

DOI:10.1016/j.imavis.2021.104121      [本文引用: 1]

WANG Z, SUN M, HAN Y, et al

Supervised heterogeneous sparse feature selection for Chinese paintings classification

[J]. Journal of Computer-Aided Design and Computer Graphics, 2013, 25 (12): 1848- 1855

[本文引用: 1]

CUI J, ZANG M, LIU Z, et al

BIM product style classification and retrieval based on long-range style dependencies

[J]. Buildings, 2023, 13 (9): 2280

DOI:10.3390/buildings13092280      [本文引用: 2]

杨冰, 许端清, 杨鑫, 等

基于艺术风格相似性规则的绘画图像分类

[J]. 浙江大学学报: 工学版, 2013, 47 (8): 1486- 1492

[本文引用: 1]

YANG Bing, XU Duanqing, YANG Xin, et al

Painting image classification based on aesthetic style similarity rule

[J]. Journal of Zhejiang University: Engineering Science, 2013, 47 (8): 1486- 1492

[本文引用: 1]

谢秦秦, 何朗, 徐汝利

基于多特征融合的油画艺术风格分类

[J]. 计算机科学, 2023, 50 (3): 223- 230

DOI:10.11896/jsjkx.211200110      [本文引用: 1]

XIE Qinqin, HE Lang, XU Ruli

Classification of oil painting art style based on multi-feature fusion

[J]. Computer Science, 2023, 50 (3): 223- 230

DOI:10.11896/jsjkx.211200110      [本文引用: 1]

钱文华, 徐丹, 徐瑾, 等

基于信息熵的风格绘画分类研究

[J]. 图学学报, 2019, 40 (6): 991- 999

[本文引用: 1]

QIAN Wenhua, XU Dan, XU Jin, et al

Artistic paintings classification based on information entropy

[J]. Journal of Graphics, 2019, 40 (6): 991- 999

[本文引用: 1]

PAN S J, YANG Q

A survey on transfer learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22 (10): 1345- 1359

DOI:10.1109/TKDE.2009.191      [本文引用: 1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 2017, 60 (6): 84- 90

DOI:10.1145/3065386      [本文引用: 1]

LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Computer Vision – ECCV 2014. [S. l.]: Springer, 2014: 740–755.

[本文引用: 1]

CHAIB S, YAO H, GU Y, et al. Deep feature extraction and combination for remote sensing image classification based on pre-trained CNN models [C]// Proceedings of the Ninth International Conference on Digital Image Processing. Hong Kong: SPIE, 2017: 104203D.

[本文引用: 1]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015–04–10)[2024–06–09]. https://arxiv.org/pdf/1409.1556.

[本文引用: 1]

SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2818–2826.

[本文引用: 1]

HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2261–2269.

[本文引用: 1]

MILANI F, FRATERNALI P

A dataset and a convolutional model for iconography classification in paintings

[J]. Journal on Computing and Cultural Heritage, 2021, 14 (4): 1- 18

[本文引用: 2]

ALIREZAZADEH P, DORNAIKA F, MOUJAHID A

A deep learning loss based on additive cosine margin: application to fashion style and face recognition

[J]. Applied Soft Computing, 2022, 131: 109776

DOI:10.1016/j.asoc.2022.109776      [本文引用: 1]

STREZOSKI G, WORRING M. OmniArt: multi-task deep learning for artistic data analysis [EB/OL]. (2017–08–02)[2024–06–09]. https://arxiv.org/pdf/1708.00684.

[本文引用: 1]

YIN X C, YIN X, HUANG K, et al

Robust text detection in natural scene images

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36 (5): 970- 983

DOI:10.1109/TPAMI.2013.182      [本文引用: 1]

BIANCO S, MAZZINI D, NAPOLETANO P, et al

Multitask painting categorization by deep multibranch neural network

[J]. Expert Systems with Applications, 2019, 135: 90- 101

DOI:10.1016/j.eswa.2019.05.036      [本文引用: 1]

WANG Z, ZHAO L, XING W. StyleDiffusion: controllable disentangled style transfer via diffusion models [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 7643–7655.

[本文引用: 1]

CUI J, LIU G, JIA Z L, et al

Similar visual complexity analysis model based on subjective perception

[J]. IEEE Access, 2019, 7: 148873- 148881

DOI:10.1109/ACCESS.2019.2946695      [本文引用: 1]

MENIS-MASTROMICHALAKIS O, SOFOU N, STAMOU G. Deep ensemble art style recognition [C]// Proceedings of the International Joint Conference on Neural Networks. Glasgow: IEEE, 2020: 1–8.

[本文引用: 1]

ELFWING S, UCHIBE E, DOYA K

Sigmoid-weighted linear units for neural network function approximation in reinforcement learning

[J]. Neural Networks, 2018, 107: 3- 11

DOI:10.1016/j.neunet.2017.12.012      [本文引用: 1]

VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders [C]// Proceedings of the 25th International Conference on Machine Learning. Helsinki: ACM, 2008: 1096–1103.

[本文引用: 3]

BOURLARD H, KAMP Y

Auto-association by multilayer perceptrons and singular value decomposition

[J]. Biological Cybernetics, 1988, 59 (4): 291- 294

[本文引用: 1]

LI C, HARRISON B. StyleM: stylized metrics for image captioning built with contrastive N-grams [EB/OL]. (2022–01–04)[2024–06–09]. https://arxiv.org/pdf/2201.00975.

[本文引用: 1]

KHAN F S, BEIGPOUR S, VAN DE WEIJER J, et al

Painting-91: a large scale database for computational painting categorization

[J]. Machine Vision and Applications, 2014, 25 (6): 1385- 1397

DOI:10.1007/s00138-014-0621-6      [本文引用: 1]

FLOREA C, CONDOROVICI R, VERTAN C, et al. Pandora: description of a painting database for art movement recognition with baselines and perspectives [C]// Proceedings of the 24th European Signal Processing Conference. Budapest: IEEE, 2016: 918–922.

[本文引用: 1]

湛颖, 高妍, 谢凌云

中国国画情感—美感数据库

[J]. 中国图象图形学报, 2019, 24 (12): 2267- 2278

DOI:10.11834/jig.190102      [本文引用: 2]

ZHAN Ying, GAO Yan, XIE Lingyun

Database for emotion and aesthetic analysis of traditional Chinese paintings

[J]. Journal of Image and Graphics, 2019, 24 (12): 2267- 2278

DOI:10.11834/jig.190102      [本文引用: 2]

TAKAGI M, SIMO-SERRA E, IIZUKA S, et al. What makes a style: experimental analysis of fashion prediction [C]// Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice: IEEE, 2017: 2247–2253.

[本文引用: 1]

XU Z, TAO D, ZHANG Y, et al. Architectural style classification using multinomial latent logistic regression [C]// Computer Vision – ECCV 2014. [S. l.]: Springer, 2014: 600–615.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770–778.

[本文引用: 1]

VINCENT P, LAROCHELLE H, LAJOIE I, et al

Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion

[J]. Journal of Machine Learning Research, 2010, 11: 3371- 3408

[本文引用: 1]

VIJENDRAN M, LI F W, SHUM H P. Tackling data bias in painting classification with style transfer [EB/OL]. (2023–01–06) [2024–06–09]. https://arxiv.org/pdf/2301.02524.

[本文引用: 1]

/