浙江大学学报(工学版), 2022, 56(4): 754-763 doi: 10.3785/j.issn.1008-973X.2022.04.015

计算机技术、信息工程

基于自监督任务的多源无监督域适应法

吴兰,, 王涵, 李斌全, 李崇阳, 孔凡士

1. 河南工业大学 电气工程学院,河南 郑州 450001

2. 郑州铁路职业技术学院,河南 郑州 450001

Multi-source unsupervised domain adaption method based on self-supervised task

WU Lan,, WANG Han, LI Bin-quan, LI Chong-yang, KONG Fan-shi

1. School of Electrical Engineering, Henan University of Technology, Zhengzhou 450001, China

2. Zhengzhou Railway Vocational and Technical College, Zhengzhou 450001, China

收稿日期: 2021-06-1  

基金资助: 国家自然科学基金资助项目(61973103);河南省优秀青年科学基金资助项目;郑州市协同创新专项资助项目(21ZZXTCX01)

Received: 2021-06-1  

Fund supported: 国家自然科学基金资助项目(61973103);河南省优秀青年科学基金资助项目;郑州市协同创新专项资助项目(21ZZXTCX01)

作者简介 About authors

吴兰(1981—),女,教授,博士,从事深度学习的研究.orcid.org/0000-0002-2497-6556.E-mail:wulan@haut.edu.cn , E-mail:wulan@haut.edu.cn

摘要

针对多源聚合下同时对齐域不变特征较困难而造成分类精度不高的问题, 提出基于自监督任务的多源无监督域适应法. 该方法引入旋转、水平翻转和位置预测3个自监督辅助任务, 通过伪标签性、语义信息的一致性对无标签数据进行自适应的对齐优化. 构建新的优化损失函数, 减少多域公共类别的分类差异. 针对类别不均衡的问题, 基于少样本大权重的原则, 定义动态权重参数, 提高模型的分类性能. 在公开的Office-31、Office-Caltech10 2种基准数据集上, 与现有的主流方法进行实验对比. 实验结果表明, 在类别均衡、不均衡2种情况下, 分类精度最高可以提高6.8%.

关键词: 自监督任务 ; 类别不均衡 ; 语义信息 ; 权重 ; 域自适应

Abstract

A multi-source unsupervised domain adaptation method based on self-supervised tasks was proposed aiming at the problem of low classification accuracy due to the difficulty of simultaneously aligning domain-invariant features under multi-source aggregation. The method introduced three self-supervised auxiliary tasks of rotation, horizontal flip and position prediction, and performed adaption alignment optimization on unlabeled data through pseudo-labeling and consistency of semantic information. A new optimized loss was built, and the classification variance of multi-domain common classes was reduced. Dynamic weight parameters were defined to improve the classification performance of the model based on the principle of few samples and large weights for the problem of class-imbalance. Experiments were compared with the existing mainstream methods on the two benchmark data sets, Office-31 and Office-Caltech10. The experimental results show that the classification accuracy can be improved by up to 6.8% in the two cases of class balance and imbalance.

Keywords: self-supervised task ; class-imbalance ; semantic information ; weight ; domain adaptation

PDF (1267KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴兰, 王涵, 李斌全, 李崇阳, 孔凡士. 基于自监督任务的多源无监督域适应法. 浙江大学学报(工学版)[J], 2022, 56(4): 754-763 doi:10.3785/j.issn.1008-973X.2022.04.015

WU Lan, WANG Han, LI Bin-quan, LI Chong-yang, KONG Fan-shi. Multi-source unsupervised domain adaption method based on self-supervised task. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(4): 754-763 doi:10.3785/j.issn.1008-973X.2022.04.015

迁移学习可以用来改善机器学习领域中跨域任务上的模型性能[1],当目标域标签样本较少且质量不高时,可以使用包含大量标签数据的源域作为辅助信息去训练泛化能力较强的分类器. 迁移学习存在一大障碍——域间差异,域适应可以有效地缓解这一障碍. 域适应即缩小域间数据的分布差异,将源域分类器更好地推广到目标域,它可以应用在一维文本、二维图像、三维视频等方面. 大多数研究集中在二维图像领域(图像分类、目标检测、语义分割),因此本文所提出的方法重点围绕二维图像分类展开. 将域适应运用到图像分类时,按照源域个数,可以将域适应分为单源域适应和多源域适应.

在单源无监督域适应中,通过学习源和目标的域不变特征,将含有标签信息的单个源域分类器推广到无标签信息的目标域. 在单源的图像分类中,现有的域适应方法[2-6]大多获得了不错的分类精度. 在现实场景下的图像分类中,找到唯一适合的源域进行迁移是困难的,通常需要访问多个源域.

多源无监督域适应指通过学习多个源域的标签知识,得到关于目标域的标签信息. 目前,多数方法是将对抗思想引入多源图像分类中[7-9],有效地减少域间差异,提高分类精度. Xu等[7]提出深度网络,对抗多个源域之间的领域和类别迁移. Peng等[10]通过对齐每对源域和目标域,实现目标域中图像的分类[10-12]. Peng等[10]旨在通过动态调整特征分布矩,将从多个源域学习到的图像特征的标签迁移到未标记目标域. 最新的思想是结合联邦学习与域自适应,解决图像处理问题. Peng等[13]提出联邦域自适应方法,它旨在将不同源节点学习到的特征表示与目标节点的特征表示对齐. 尽管上述方法都在多源图像分类场景下取得了不菲的成果, 但是他们忽略了对无标签样本进行有效的学习,这可能会错过有关图像分类特征的重要信息. 此外, 他们没有对多源下类别不均衡的情况进行有效的分析.

本文提出基于自监督任务的多源无监督域适应法. 主要贡献如下.

1) 为了解决多源域聚合下提取域不变特征时较困难的问题, 本文提出基于自监督任务的多源无监督域适应新框架. 该框架包括公共特征提取器、自监督辅助任务、源域分类器3个部分. 在公共特征提取的基础上, 引入旋转、水平翻转和位置预测等自监督辅助任务, 充分挖掘无标签数据的内在信息, 以期在伪标签作用下实现无标签数据的对齐. 对有标签数据训练多源域分类器, 进行边界决策优化, 以减少各域公共类别分类的差异, 提高分类精度.

2) 为了对自监督任务训练以及源域分类器进行优化, 提出新的优化损失函数. 将噪声对比估计引入到多源场景中, 保持语义信息的一致性. 设置决策边界优化 函数,有效减少多分类器下的分类差异.

3)为了解决类别不均衡造成分类精度不高的问题, 基于少样本大权重的原则, 设置动态权重参数,有效平衡了样本,提高了目标域分类器的泛化能力.

1. 相关工作

机器学习中基本的学习方法有监督学习、半监督学习和无监督学习. 这3种学习方法最大的区别是模型在训练时是否需要人工标注的标签信息. 在监督学习中,含有大量标签信息的样本被用来训练网络模型,使其能够学习输入、输出之间标签的相关性. 在半监督学习中,通过使用大量的无标签样本和少量标签样本对网络进行训练. 在无监督学习中,样本均不含有标签,为了获得样本标签,需要大量的人力对数据进行标记,这是既耗时又昂贵的过程. 当使用无监督学习时, 模型利用没有标记的样本进行训练,在训练过程中能够对图像分类本身有很大的帮助,可以包含更多的语义特征,自监督学习因此被提出.

自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,可以学习到更多的语义特征. 给灰度图像上色[14-16], 将图像分块并根据中心一块去预测位置[17-18],提出对破坏的图像进行分类[19]、图像旋转[20]、图像修复[21]等大量的辅助任务,不断应用于二维图像处理. 在现实场景中,大多数方法没有利用自监督任务去解决多源无监督的问题. 为了解决域间数据分布差异造成迁移性能较差的问题, 在无标签数据上同时进行多个自监督辅助任务. 为了保持模型的高效性和分类的准确率,选择较易实现和高性能的3个自监督任务.

1)旋转预测:输入二维图像,每个图像进行旋转(0°、90°、180°和270°);任务是预测图像的旋转角度.

2)翻转预测:对二维图像进行水平翻转;任务是预测图像是否翻转.

3)位置预测:从二维图像中随机裁剪出一块补丁;任务是预测补丁位置.

在训练过程中, 数据须进行多个自监督任务. 为了能够对最终的目标域分类任务起促进作用,在源域和目标域上同时使用多个自监督任务,使它们具有更好的对齐效果, 不使用或使用较少的自监督任务不能达到理想的效果, 如图1所示. 图中, 实线为源域, 虚线为目标域, 黑色实线为分类器.

图 1

图 1   自监督任务的对齐效果图

Fig.1   Align renderings for self-supervised task


2. 基于自监督任务的多源无监督域自适应

2.1. 总体框架

在多源无监督域自适应的场景中, 将多个带有标签信息的源域数据表示为 $D_{\rm{s}}^j = \{ {\boldsymbol{x}}_{i,j}^{\rm{s}},{\boldsymbol{y}}_{i,j}^{\rm{s}}\}$,其中的无标签信息的数据可以表示为 $\bar{\boldsymbol{D}}_{\rm{s}}^j = \left\{ \bar{\boldsymbol{x}}_{i,j}^{\rm{s}} \right\}$. 目标域中的无标签数据表示为Dt={xt};源域和目标域中的无标签数据定义为 $D_{\rm{u}}^j = \left\{ {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right\} \cup \left\{ {{{\boldsymbol{x}}_{\rm{t}}}} \right\} = \left\{ {\boldsymbol{x}}_{i,j}^{\rm{u}}\right\}$. 公共特征提取器表示为F. 为了能够提取到更高质量的语义特征, 使用3个自监督任务: 旋转R、水平翻转F和位置预测L. 将经过各自监督任务转换 ${t}_k^j $后的源域和目标域数据分别表示为

$ {T}_{k,{\rm{s}}}^{j} = \left\{ {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),{\boldsymbol{y}}_i^j} \right\} , $

$ {T}_{k,{\rm{t}}}^{j} = \left\{ {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right),{\boldsymbol{y}}_i^j} \right\} . $

式中:k指3个自监督任务, ${\boldsymbol{y}}_i^j$表示样本经过自监督任务以后所得到的伪标签.

本文的整体框架如图2所示. 该框架具体是选取一个批次(batch)的源域标签数据,通过公共特征提取器进行各源域分类器训练. 选取相同批次(batch)的源域和目标域无标签数据,通过公共特征提取器之后进行自监督任务训练,使域之间能够对齐, 将源域分类器更好地推广到目标域. 将各源域分类边界进行优化后, 输出各分类器的最优结果,得到目标域的最终输出.

图 2

图 2   网络结构图

Fig.2   Network structure diagram


2.2. 源域分类器训练

在训练源域分类器时,将从公共特征提取器得到的各源域标签样本特征送入特定的线性层 $\varPhi _{\rm{s}}^j $,进行分类训练. 分类损失可以表示为

$ {\ell _{{\rm{cls}}}}\left( {D_{\rm{s}}^j;F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),\varPhi _{\rm{s}}^j} \right) = \sum\limits_{\left\{ {{\boldsymbol{x}}_{i,j}^{\rm{s}},{\boldsymbol{y}}_{i,j}^{\rm{s}}} \right\} \in D_{\rm{s}}^j} {L_{\rm{s}}^j} \left( {\varPhi _{\rm{s}}^j\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right)} \right),{\boldsymbol{y}}_{i,j}^{\rm{s}}} \right) . $

2.3. 基于自监督辅助任务的对齐

2.3.1. 特定于无标签数据的自监督任务对齐损失

为了使特征包含更多的语义信息,对齐域间特征分布并使得差异最小化,使用图像旋转、水平翻转、位置预测3个辅助自监督任务. 在每个自监督任务训练中,对源域和目标域的伪标签分类损失优化,保证2个域间的无标签数据能够沿着任务相关方向对齐. 2个损失函数分别表示为

$ {\ell _{\rm{s}}}\left( {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right);F,\varPhi _k^j} \right) = \sum\limits_{\left\{ {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),{\boldsymbol{y}}_i^j} \right\} \in T_{k,{\rm{s}}}^{j}} {L_{k,j}^{\rm{s}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) . $

$ {\ell _{\rm{t}}}\left( {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right);F,\varPhi _k^j} \right) = \sum\limits_{\left\{ {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right),{\boldsymbol{y}}_i^j} \right\} \in T_{k,{\rm{t}}}^{j}} {L_{k,j}^{\rm{t}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) . $

在自监督任务训练中,每对源域和目标域的自监督任务对齐损失函数可以表示为

$ \begin{split} & {\ell _{{\rm{s , t}}}}\left( {{t}_k^j\left( {\bar {{\boldsymbol{x}}}_{i,j}^{\rm{s}}} \right),{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right);F,\varPhi _k^j} \right) = \\ & \sum\limits_{\left\{ {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),{\boldsymbol{y}}_i^j} \right\} \in T_{k,{\rm{s}}}^j} {L_{k,j}^{\rm{s}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) + \\ & \sum\limits_{\left\{ {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right),{\boldsymbol{y}}_i^j} \right\} \in {T}_{k,{\rm{t}}}^{j}} {L_{k,j}^{\rm{t}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) . \end{split}$

式中: $\varPhi _k^j $表示第k个自监督任务的线性层.

2.3.2. 特定于自监督任务的语义一致损失

样本进行自监督任务训练的目的是无标签数据通过辅助任务学习有意义的图像语义信息. 这种信息应该是一致的, 但是许多辅助任务会导致原信息与转换后的信息不同. 为了鼓励转换前、后语义信息的一致性,保护相应的语义信息,受Misra等[22]的启发,采用噪声对比估计作为语义一致损失,对自监督任务进行优化. 自监督任务语义一致原理如图3所示.

图 3

图 3   自监督任务语义一致原理

Fig.3   Schematic diagram of semantic consistency of self-supervised tasks


将原始图像的特征表示为F( ${\boldsymbol{x}}_{i,j}^{\rm{u}} $),转换后的图像特征表示为F( ${t}_k^j ({\boldsymbol{x}}_{i,j}^{\rm{u}}))$ ,将一组样本中除去原始图像的其他图像视为负样本并表示为F( ${\boldsymbol{x}}_{i,j}^{\rm{o}} $),则噪声对比估计器的概率建模可以表示为

$ h(F({\boldsymbol{x}}_{i,j}^{\rm{u}}),F(t_k^j({\boldsymbol{x}}_{i,j}^{\rm{u}}))) = \frac{{\exp \;\left[ {\dfrac{{s\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right)}}{\tau }} \right]}}{{\exp \;\left[ {\dfrac{{s\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right)}}{\tau }} \right] + \displaystyle\sum\limits_{{\boldsymbol{x}}_{i,j}^{\rm{o}} \in {D_{\rm{N}}}} {\exp \;\left[ {\dfrac{{s\left( {F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right),F\left( {{\boldsymbol{x}}_{i,j}^{\rm{o}}} \right)} \right)}}{\tau }} \right]} }}. $

式中:s为测量2个特征表示之间的余弦相似性, τ为温度参数, DN为负样本集.

在训练过程中,自监督任务语义一致损失可以表示为

$ \begin{split} &{\ell _{{\rm{NCE}}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right) = \\ & - \lg \; \left[ {h\left( {{\varPhi _{\rm{u}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right),{\varPhi _{\rm{t}}}\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right)} \right] - \\ & \sum\limits_{{\boldsymbol{x}}_{i,j}^{\rm{o}} \in {D_{\rm{N}}}} {\lg \; \left[ {1 - h\left( {{\varPhi _{\rm{t}}}\left( {F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right),{\varPhi _{\rm{o}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{o}}} \right)} \right)} \right)} \right]} . \end{split}$

式中:ɸu为原始图像的线性层, ɸt为自监督任务转换后图像的线性层, ɸo为负样本的线性层.

2.4. 特定于源域分类器的对齐

各源域决策边界附近的目标样本更有可能被从源样本中学习的分类器错误分类, 由于分类器是在不同的源域上训练的, 它们在目标样本的预测上可能存在误差, 但事实上不同分类器预测的相同目标样本应该得到相同的预测. 为了减小分类差异,需要最小化所有分类器之间的差异. 域间差异损失可以表示为

$ \begin{split} &{\ell }_{{\rm{op}}}({\boldsymbol{x}}\text{;}F,{\varPhi }_{i},{\varPhi }_{j})= \frac{2}{{N\left( {N - 1} \right)}} \times \\\sum\limits_{a = 1}^N {\sum\limits_{j = a + 1}^N {} } &{\left\| {\frac{1}{m}\sum\limits_{{\boldsymbol{x}} \in D_{\rm{s}}^j} {{\varPhi _a}\left( {F\left( {\boldsymbol{x}} \right)} \right) - \frac{1}{n}\sum\limits_{{\boldsymbol{x}} \in D_{\rm{s}}^j} {{\varPhi _j}\left( {F\left( {\boldsymbol{x}} \right)} \right)} } } \right\|_2} . \end{split}$

式中:n为源域a的标签数据数量, m为源域j的标签数据数量, N为源域的个数.

2.5. 样本动态权重参数

现有的多源域自适应方法对于类别不均衡场景下的迁移讨论较少,训练所得的模型易忽略样本较少的类别,导致测试数据集上得到的目标域分类器泛化性能较差而影响分类精度. 基于少样本大权重的原则,提出动态样本权重参数的设置,可以达到平衡样本的效果,提高模型的迁移性能. 权重设置的原理如图4所示. 权重参数的公式可以表示为

$ {\omega _i} = n'/n_i . $

式中:n′为所有源域内样本类别数目的中值, ni为一个域内每个类别样本的数量.

图 4

图 4   类别不均衡下的迁移原理

Fig.4   Transfer principle under class-imbalance


2.6. 总体损失函数

使用的总体损失函数框架如图5所示.

图 5

图 5   总体损失函数框架图

Fig.5   Loss function relationship diagram


2.6.1. 多源框架下类别均衡时的损失函数

类别均衡下,当每对源域和目标域进行对齐优化时,总的损失函数包括:源分类损失、自监督任务对齐损失、自监督任务语义一致损失和域间差异损失(每对源域和目标域训练期间使用的损失函数相同). 总体损失函数可以表示为

$ \begin{split} &{\ell _{{\rm{all}}}} = \min \;\left\{{\ell _{{\rm{cls}}}}\left( {D_{\rm{s}}^j;F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),\varPhi _{\rm{s}}^j} \right) + \right. \\ &{\ell _{{\rm{s , t}}}}\left( {{t_k}\left( {\bar {\boldsymbol{x}}_i^{\rm{s}}} \right);F,\varPhi _k^j} \right) + {\ell _{{\rm{op}}}}\left( {{\boldsymbol{x}};F,{\varPhi _a},{\varPhi _j}} \right) + \\ & \left. {\ell _{{\rm{NCE}}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {{t_k}\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right) \right\} . \end{split}$

式中:aj表示不同的源域.

2.6.2. 多源框架下类别不均衡时的损失函数

类别不均衡下,为了有效平衡样本,在每对源域和目标域的训练过程中,添加权重参数以提高分类精度. 权重参数体现在每一个损失函数中,总体损失函数可以表示为

$\begin{split} &{\ell _{{\rm{all}}}} = \min \;\left\{{\omega _i}{\ell _{{\rm{cls}}}}\left( {D_{\rm{s}}^j;F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),\varPhi _{\rm{s}}^j} \right) + \right. \\ &{\omega _i}{\ell _{{\rm{s , t}}}}\left( {{t_k}\left( {\bar {\boldsymbol{x}}_i^{\rm{s}}} \right);F,\varPhi _k^j} \right) + {\omega _i}{\ell _{{\rm{op}}}}\left( {{\boldsymbol{x}};F,{\varPhi _a},{\varPhi _j}} \right) + \\ & \left. {\omega _i}{\ell _{{\rm{NCE}}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {{t_k}\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right) \right\} . \end{split}$

3. 实验结果及分析

3.1. 数据集和实验细节

实验数据: 采用Office-31数据集和Office-Caltech10数据集,验证所提模型的性能. 数据集样本实例如图6所示.

图 6

图 6   2种数据集的示例图

Fig.6   Example diagrams of two data sets


Office-31: 包括从3个不同领域收集的4 110幅图像, 分别是Amazon、Webcam和Dslr, 每个域均由31个类别组成, 分别包含2 817、795和498幅图像. 将3个域分别标记为A、W、D, 任意选其中2个为源域、1个为目标域进行实验. 为了实现无偏评估, 评估了所有3个迁移任务: AW-D,AD-W,DW-A.

Office-Caltech10:包含2 533张图片,分别有4个不同的领域:Amazon、Dslr、Webcam和Caltech,每个域由10个类别组成,分别包含958、157、295和1 123张图片. 将4个域分别标记为A、D、W和C, 任选其中3个为源域、1个为目标域进行实验. 为了实现无偏评估, 评估了所有4个迁移任务:ACW-D,ADC-W,DWC-A,AWD-C.

实验设置: 实验中使用Torch框架,利用ResNet提取图像特征,输入的图像大小均为224×224像素. 采用Adam优化器,一阶矩估计的指数衰减率β1设定为0.9,二阶矩估计的指数衰减率β2设定为0.999. 所有网络模型的权重采用xavier初始化. 在3种自监督任务训练的过程中,使用的初始学习率均为0.1.

从3个部分对模型性能进行分析. 1)与现有的主流方法进行分类精度对比分析. 在Office-31数据集中,从单源迁移、多源组合和多源迁移3个标准下与DAN[2]、ADDA[3]、RevGard[4]、JAN[5]、MCD[6]、DCTN[7]、MDAN[8]、MDDA[11]和M3SDA[10]等方法进行比较. 在Office-Caltech10数据集中,从多源组合和多源迁移2个标准下与DAN[2]、DCTN[7]、FADA[13]和M3SDA[10]等方法进行比较. 2)分析各部分损失函数对模型性能的影响. 为了对比差异更清晰,Office-31数据集取4个类别中的样本,Office-Caltech10数据集取3个类别中的样本,分别对域间差异损失、自监督任务训练、自监督任务损失及自监督任务语义一致损失重点分析. 3)在类别不均衡的条件下,保持2)中的样本类别个数,对每个类别中的样本量进行删改,对设置动态权重参数前、后的分类精度进行对比分析.

3.2. 实验结果和性能对比分析

3.2.1. 分类精度对比分析

为了验证所提模型的有效性,在Office-31和Office-Caltech10 2种数据集中与现有的主流方法在分类精度方面进行对比分析,实验结果如表12所示. 表中,A为分类精度,单源迁移指将单个源域的知识迁移到目标域,源域组合指的是将多个源域混合到一起向目标域进行迁移,多源迁移是现有的主流方法. 从表12可以看出,在几个标准中,单源迁移的精度最低,这是由于从单个源域中只能提取到有限的标签信息. 源域组合时,由于多个源域分布的差异不同,导致公共特征提取困难,造成迁移性能不高. 多源迁移的分类性能最高,其中本文方法取得了较好的分类结果.

表 1   Office-31数据集上的准确率比较分析

Tab.1  Comparison and analysis of accuracy on Office-31 data set

标准 方法 A/%
AW-D AD-W DW-A 平均值
单源迁移 DAN[2] 99.0 96.0 54.0 83.0
单源迁移 ADDA[3] 99.4 95.3 54.6 83.1
单源迁移 RevGrad[4] 99.2 96.4 53.4 83.0
源域组合 DAN[2] 98.8 96.2 54.9 83.3
源域组合 JAN[5] 99.4 95.9 54.6 83.3
源域组合 MCD[6] 99.5 96.2 54.4 83.4
源域组合 RevGrad[4] 98.8 96.2 54.6 83.2
多源迁移 DCTN[7] 99.6 96.9 54.9 83.8
多源迁移 M3SDA[10] 99.4 96.2 55.4 83.7
多源迁移 MDAN[8] 99.2 95.4 55.2 83.3
多源迁移 MDDA[11] 99.2 97.1 56.2 84.2
多源迁移 本文方法 99.6 97.2 56.4 84.4

新窗口打开| 下载CSV


在Office-31数据集中,W域与D域有较大的相似性,但它们与A域的差异性较大,因此前2组任务精度较高,第3组任务的分类性能较差. 本文方法在3组任务中精度有所提高,表明在自监督任务训练中,模型所获得的特征具有更高级的语义信息,为下一步域间对齐提供了有效的辅助信息.

在Office-Caltech10数据集中,W域、D域的样本量较少,A域、C域的样本量较多,样本量较多的域向样本量较少的域迁移时的准确率相对较高,故各个域向A域、C域迁移时的精度较低. 后2组任务中本文的分类精度相对低于M3SDA[10],2种算法均是基于ResNet实现,但M3SDA[10]使用的是ImageNet 预训练开发后的模型,即自然场景中的对象识别,优势在于拥有大量的预训练数据,故准确率相对较高. 在相同样本量的情况下,本文方法的分类精度比所有的主流方法高,表明本文的模型不仅能够提取到更高级的语义知识,促进域间对齐,而且利用域间差异损失减少了各源域间决策边界的分类差异,提高了分类器的泛化能力,取得了较好的分类结果.

表 2   Office-Caltech10数据集上的准确率比较分析

Tab.2  Comparison and analysis of accuracy on Office-Caltech10 data set

标准 方法 A/%
ADC-W ACW-D AWD-C DWC-A 平均值
源域组合 Source only 99.0 98.3 87.8 86.1 92.8
源域组合 DAN[2] 99.3 98.2 89.7 94.8 95.5
多源迁移 Source only 99.1 98.2 85.4 88.7 92.9
多源迁移 FADA[13] 88.1 87.1 88.7 84.2 87.1
多源迁移 DAN[2] 99.5 99.1 89.2 91.6 94.9
多源迁移 DCTN[7] 99.4 99.0 90.2 92.7 95.3
多源迁移 M3SDA[10] 99.4 99.2 91.5 94.1 96.1
多源迁移 本文方法 99.5 99.2 90.2 93.3 95.5

新窗口打开| 下载CSV


3.2.2. 各部分损失函数对分类性能影响分析

在Office-31和Office-Caltech10 2种数据集中,通过组合算法中不同部分的损失函数对模型进行优化,对比所得的分类精度,分析各部分损失函数对模型性能的影响,实验结果如图78所示. 图中,NO DIS表示模型中含有源域分类损失和自监督任务损失,NO S-T表示模型中含有源域分类损失和域间差异损失,ALL NO表示模型中仅含有源域分类损失,OUR表示模型中包含所有的损失函数. 从图78可以看出,当自监督任务损失与域间差异损失均不存在时,模型的迁移性能最差. 例如在AW-D这一组任务中,当与无域间差异损失比较时,本文算法的精度提高了4.4%,比无自监督任务对齐损失时高6.6%,比两者损失均无时高8.2%. 在DWC-A这一组任务中,当与无域间差异损失比较时,本文算法的精度提高了5.4%,比无自监督任务对齐损失时高6.4%,比两者损失均无时高7.5%. 自监督任务损失包含自监督任务对齐损失和自监督任务语义一致损失,无标签信息的源域和目标域样本通过自监督任务对齐损失对源域和目标域的对齐进行优化,自监督语义一致损失是对自监督任务本身进行优化,保证样本前、后语义的一致性. 域间差异损失优化了源域间公共类别的分类差异,提高了分类精度. 当缺少自监督任务损失和域间差异损失时,模型直接将源域分类器推广到目标域,没有对域间的对齐及分类器间的对齐进行优化,导致分类精度过低. 缺少自监督任务损失时的迁移性能相对低于缺少域间差异损失时的性能,表明自监督任务损失有效优化了域间特征的对齐效果,特征分布的差异减小. 图78中本文算法的精度最高,表明各部分损失函数的有效性,自监督任务损失和域间差异损失对模型具有良好的优化效果,不仅缩减了域间数据分布的差异,而且减少了源域决策边界的分类差异,提高了模型的迁移性能.

图 7

图 7   Office-31数据集中损失函数对模型性能的影响分析

Fig.7   Analysis of impact of loss function on model performance in Office-31 data set


图 8

图 8   Office-Caltech10数据集中损失函数对模型性能的影响

Fig.8   Analysis of impact of loss function on model performance in Office-Caltech10 data set


为了验证3个自监督任务对域间对齐的有效性,对无自监督任务对齐损失时的模型、无语义一致损失时的模型、不使用自监督任务训练的模型与本文所提模型的分类精度进行对比分析,结果如图9所示. 图中,NO NCE指的是模型不使用语义一致损失优化;NO S指的是模型不使用自监督任务对齐损失优化,NO Tasks指的是模型不使用自监督任务,直接将源域分类器推广到目标域. 从图9可以看出,不使用自监督任务时的模型分类效果最差,无自监督任务对齐损失时的模型分类精度效果次之. 若模型不使用自监督任务,则源域和目标域之间的数据分布保持原有状态,没有减小,源域分类器不适用于目标域,导致分类结果最差. 自监督任务对齐损失可以优化源域和目标域的对齐效果,减少域间隙,缺少该损失函数使得对齐效果较差,导致分类精度降低,表明自监督任务对齐损失的有效性. 语义一致损失是对自监督任务训练中数据特征前、后的语义一致性进行优化,有效地进行域间对齐,因此迁移性能相对于前者较高. 本文在优化对齐的同时,对自监督任务自身进行优化,提高了分类精度.

图 9

图 9   Office-31数据集中对自监督任务训练效果的分析

Fig.9   Analysis of training effects for self-supervised tasks in Office-31 data set


域间差异损失是为了减少源域间公共类别的分类差异,对各源域分类器进行对齐. 为了证明本文使用的函数的有效性,将多种距离函数作为域间差异损失,对比所得的分类精度,实验结果如图10所示. 选取L1损失、余弦相似性、KL散度和L2损失作为比较对象,L1为L1损失,cos为余弦相似性,kl为KL散度,L2为L2损失. 从图10可以看出,3种任务中,使用其他各项损失函数所得到的分类精度均低于L2损失优化后所得到的结果,表明使用L2损失对源域分类器对齐的有效性.

图 10

图 10   域间差异损失中各损失函数对分类精度影响

Fig.10   Effects of each loss function on classification accuracy in inter-domain difference loss


3.2.3. 类别不均衡实验分析

在Office-31和Office-Caltech10数据集上删改,构造出类别不均衡的条件,样本量如图1112所示. 图中,S为各样本量. 为了构造类别不均衡的场景,在样本量较多的类别中,对样本量进行删减. 在样本量较少的类别中,对所有样本进行复制,直接添加在当前类别中.

图 11

图 11   Office-31数据集中各源域间类别样本量的对比

Fig.11   Comparison of sample size of each source domain in Office-31 data set


图 12

图 12   Office-Caltech10数据集中各源域间类别样本量的对比

Fig.12   Comparison of sample size of each source domain in Office-Caltech10 data set


在Office-31数据集中,取每个域中的4个类别,对各类别的样本量进行调整,以构造出类别不均衡的条件. 在AD-W这一组任务中,类别1和类别2中的样本量比例为8∶1,类别3和类别4中的样本量比例为4∶1;在AW-D中,类别1和类别2中的样本量比例为8∶1,类别3和类别4中的样本量比例为2.5∶1. 在Office-Caltech10数据集中,取每个域中的3个类别,各类别的样本量调整如下. 在AWD-C这一组任务中,类别1的样本量比例为9∶3∶1,类别2的样本量比例为4∶1∶1,类别3的样本量比例为9∶3∶1. 在ADC-W这一组任务中,类别1的样本量比例为9∶1∶15,类别2的样本量比例为4∶1∶5,类别3的样本量比例为3∶1∶3. 在DWC-A这一组任务中,类别1的样本量比例为1∶3∶15,类别2的样本量比例为1∶1∶5,类别3的样本量比例为1∶3∶10. 在ACW-D这一组任务中,类别1的样本量比例为3∶5∶1,类别2的样本量比例为4∶5∶1,类别3的样本量比例为3∶3∶1.

根据每个域中不同类别中样本的数量,根据式(10)设置了样本特征的权重参数,在模型训练中对各样本特征添加权重参数. 权重设置如图1314所示. 图中,w为各样本权重. 从图11~14可以看出,在同一个域中,样本量比例较小的类别所设置的权重较大,样本数量比例较大的类别所设置的权重较小,可以达到平衡样本的效果,使得模型训练时对所有类别公平.

图 13

图 13   Office-31各样本权重设置图示

Fig.13   Figure of weight setting for each sample on Office-31


图 14

图 14   Office-Caltech10各样本权重设置图示

Fig.14   Figure of weight setting for each sample on Office-Caltech10


为了验证权重参数对平衡样本的有效性,对添加权重参数前、后模型的分类性能进行对比分析,分类精度如表34所示. 可以看出,在添加权重参数后,模型的分类精度有所提升. 在AD-W这一组任务中,添加权重参数后,精度提高了6.8%;在ADC-W这一组任务中,添加权重参数后,精度提高了8.2%. 由以上对比结果可知,在类别不均衡的条件下,当每对源域和目标域进行训练时,在样本量较少的类别中,会造成特征较少难以提取规律,数量较多的样本会被模型过度依赖而导致过拟合问题. 在多源场景中,由于各源域均存在类别不均衡的问题,造成训练适用于目标域的分类器更加困难. 当模型应用到目标域上时,模型的性能达不到理想效果. 在添加权重参数后,有效地平衡了各源域间的样本,使得模型对丰富类和稀有类更加公平, 解决了样本较少时难以提取特征规律的问题,提高了分类器的泛化能力,优化了模型的迁移性能.

表 3   不均衡样本下Office-31数据集上的精度对比分析

Tab.3  Comparison and analysis of accuracy on Office-31 data set under uneven samples

类型 A/%
AD-W AW-D DW-A 平均值
类别不均衡 81.0 82.6 42.4 68.7
类别不均衡(权重) 87.8 85.5 42.7 72.0

新窗口打开| 下载CSV


表 4   不均衡样本下Office-Caltech10数据集上的精度对比分析

Tab.4  Comparison and analysis of accuracy on Office-Caltech10 data set under uneven samples

类型 A/%
ADC-W DWC-A AWD-C ACW-D 平均值
类别不均衡 75.3 67.8 63.7 79.3 71.5
类别不均衡(权重) 83.5 76.4 67.3 83.0 77.6

新窗口打开| 下载CSV


4. 结 语

针对多源域聚合下提取域不变特征较困难以及忽略对无标签数据自身信息的学习的问题, 本文提出基于自监督任务的多源无监督域适应法. 本文对各源域标签数据分类器与无标签数据使用自监督任务进行联合训练,设计新的优化损失函数对训练过程进行有效的优化. 与多个主流方法进行对比, 本文方法都取得较好的结果, 证明了本文方法的可行性.

在未来的工作中, 可以引进新的自监督任务对无标签数据进行训练,以获得高级语义特征,有助于下一步的分类工作. 本文只探讨了闭集场景下的迁移,没有对其他现实场景进行讨论,可以将自监督任务与其他迁移机制联合使用,以解决更多场景下(开放集、闭集、部分集)的问题.

参考文献

沈宗礼, 余建波

基于迁移学习与深度森林的晶圆图缺陷识别

[J]. 浙江大学学报: 工学版, 2020, 54 (6): 1228- 1239

[本文引用: 1]

SHEN Zong-li, YU Jian-bo

Wafer map defect recognition based on transfer learning and deep forest

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (6): 1228- 1239

[本文引用: 1]

LONG M, CAO Y, WANG J, et al. Learning transferable features with deep adaptation networks [C]// International Conference on Machine Learning. Lille: [s. n.], 2015: 97-105.

[本文引用: 7]

TZENG E, HOFFMAN J, SAENKO K, et al. Adversarial discriminative domain adaptation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7167–7176.

[本文引用: 2]

GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by backpropagation [C]// International Conference on Machine Learning. Lille: PMLR, 2015: 1180–1189.

[本文引用: 3]

LONG M, ZHU H, WANG J, et al. Deep transfer learning with joint adaptation networks[C]// International Conference on Machine Learning. Sydney: PMLR, 2017: 2208–2217.

[本文引用: 2]

SAITO K, WATANABE K, USHIKU Y, et al. Maximum classifier discrepancy for unsupervi-sed domain adaptation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3723–3732.

[本文引用: 3]

XU R, CHEN Z, ZUO W, et al. Deep cockt-ail network: multi-source unsupervised domain adaptation with category shift [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3964–3973.

[本文引用: 6]

ZHAO H, ZHANG S, WU G. Adversarial multiple source domain adaptation [C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2018: 8568–8579.

[本文引用: 2]

李威, 王蒙. 基于渐进多源域迁移的无监督跨域目标检测[EB/OL]. (2020-03-20). http://kns.cnki.net/kcms/detail/11.2109.TP.20200320.1044.003.html.

[本文引用: 1]

LI Wei, WANG Meng. Unsupervised cross-domain object detection based on progressive multi-source transfer [EB/OL]. (2020-03-20). http://kns.cnki.net/kcms/detail/11.2109.TP.20200320.1044.003.html.

[本文引用: 1]

PENG X, BAI Q, XIA X, et al. Moment matching for multi-source domain adaptation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 1406–1415.

[本文引用: 9]

ZHAO S, WANG G, ZHANG S, et al. Multi-source distilling domain adaptation [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 1297–1298.

[本文引用: 2]

ZHU Y, ZHUANG F, WANG D. Aligning domain specific distribution and classifier for cross-domain classification from multiple sources [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii: AAAI, 2019: 5989–5996.

[本文引用: 1]

PENG X, HUANG Z, ZHU Y, et al. Federatedadversarial domain adaptation [C]// International Conference on Learning Representations. Addis Ababa: [s. n.], 2020.

[本文引用: 3]

ZHANG R, ISOLA P, ALEXEI A. Colorful image colorization [C]// European Conference on Computer Vision. Cham: Springer, 2016: 649–666.

[本文引用: 1]

GUSTAV L A, MICHAEL M, GREG O, et al. Learning representations for automatic colorization [C]// European Conference on Computer Vision. Amsterdam: [s. n.], 2016: 577–593.

CARL V, ABHINAV S, ALIREZA F, et al. Tracking emerges by colorizing videos [C]// Proceedings of the European Conference on Computer Vision. Munich: [s. n.], 2018: 391–408.

[本文引用: 1]

NOROOZI M, FAVARO P. Unsupervised learning of visual representations by solving jigsaw puzzles [C]// European Conference on Computer Vision. Amsterdam: [s. n.], 2016: 69–84.

[本文引用: 1]

CARL D, ABHINAV G, ALEXEI A. Unsupervised visual representation learning by conte-xt prediction [C]// Proceedings of the IEEE International Conference on Computer Vision. [S. l.]: IEEE, 2015: 1422–1430.

[本文引用: 1]

IMON J, PAOLO F. Self-supervised feature learning by learning to spot artifacts [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2733–2742.

[本文引用: 1]

SPYROS G, PRAVEER S, NIKOS K. Unsupervised representation learning by predicting image rotations [EB/OL].(2018-03-21). https://doi.org/10.48550/arXiv.1803.07728.

[本文引用: 1]

DEEPAK P, PHILIPP K, JEFF D, et al. Context encoders: feature learning by inpainting [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2536–2544.

[本文引用: 1]

MISRA I, MAATEN L. Self-supervised learning of pretext-invariant representations [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6707–6717.

[本文引用: 1]

/