<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 自监督任务的对齐效果图

Fig.1 Align renderings for self-supervised task

2. 基于自监督任务的多源无监督域自适应

2.1. 总体框架

在多源无监督域自适应的场景中, 将多个带有标签信息的源域数据表示为 $D_{\rm{s}}^j = \{ {\boldsymbol{x}}_{i,j}^{\rm{s}},{\boldsymbol{y}}_{i,j}^{\rm{s}}\}$，其中的无标签信息的数据可以表示为 $\bar{\boldsymbol{D}}_{\rm{s}}^j = \left\{ \bar{\boldsymbol{x}}_{i,j}^{\rm{s}} \right\}$. 目标域中的无标签数据表示为D_t={x_t}；源域和目标域中的无标签数据定义为 $D_{\rm{u}}^j = \left\{ {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right\} \cup \left\{ {{{\boldsymbol{x}}_{\rm{t}}}} \right\} = \left\{ {\boldsymbol{x}}_{i,j}^{\rm{u}}\right\}$. 公共特征提取器表示为F. 为了能够提取到更高质量的语义特征, 使用3个自监督任务: 旋转R、水平翻转F和位置预测L. 将经过各自监督任务转换 ${t}_k^j $后的源域和目标域数据分别表示为

(1) $ {T}_{k,{\rm{s}}}^{j} = \left\{ {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),{\boldsymbol{y}}_i^j} \right\} , $

(2) $ {T}_{k,{\rm{t}}}^{j} = \left\{ {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right),{\boldsymbol{y}}_i^j} \right\} . $

式中：k指3个自监督任务, ${\boldsymbol{y}}_i^j$表示样本经过自监督任务以后所得到的伪标签.

本文的整体框架如图2所示. 该框架具体是选取一个批次（batch）的源域标签数据，通过公共特征提取器进行各源域分类器训练. 选取相同批次（batch）的源域和目标域无标签数据，通过公共特征提取器之后进行自监督任务训练，使域之间能够对齐, 将源域分类器更好地推广到目标域. 将各源域分类边界进行优化后, 输出各分类器的最优结果，得到目标域的最终输出.

图 2

图 2 网络结构图

Fig.2 Network structure diagram

2.2. 源域分类器训练

在训练源域分类器时，将从公共特征提取器得到的各源域标签样本特征送入特定的线性层 $\varPhi _{\rm{s}}^j $，进行分类训练. 分类损失可以表示为

(3) $ {\ell _{{\rm{cls}}}}\left( {D_{\rm{s}}^j;F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),\varPhi _{\rm{s}}^j} \right) = \sum\limits_{\left\{ {{\boldsymbol{x}}_{i,j}^{\rm{s}},{\boldsymbol{y}}_{i,j}^{\rm{s}}} \right\} \in D_{\rm{s}}^j} {L_{\rm{s}}^j} \left( {\varPhi _{\rm{s}}^j\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right)} \right),{\boldsymbol{y}}_{i,j}^{\rm{s}}} \right) . $

2.3. 基于自监督辅助任务的对齐

2.3.1. 特定于无标签数据的自监督任务对齐损失

为了使特征包含更多的语义信息，对齐域间特征分布并使得差异最小化，使用图像旋转、水平翻转、位置预测3个辅助自监督任务. 在每个自监督任务训练中，对源域和目标域的伪标签分类损失优化，保证2个域间的无标签数据能够沿着任务相关方向对齐. 2个损失函数分别表示为

(4) $ {\ell _{\rm{s}}}\left( {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right);F,\varPhi _k^j} \right) = \sum\limits_{\left\{ {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),{\boldsymbol{y}}_i^j} \right\} \in T_{k,{\rm{s}}}^{j}} {L_{k,j}^{\rm{s}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) . $

(5) $ {\ell _{\rm{t}}}\left( {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right);F,\varPhi _k^j} \right) = \sum\limits_{\left\{ {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right),{\boldsymbol{y}}_i^j} \right\} \in T_{k,{\rm{t}}}^{j}} {L_{k,j}^{\rm{t}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) . $

在自监督任务训练中，每对源域和目标域的自监督任务对齐损失函数可以表示为

(6) $ \begin{split} & {\ell _{{\rm{s , t}}}}\left( {{t}_k^j\left( {\bar {{\boldsymbol{x}}}_{i,j}^{\rm{s}}} \right),{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right);F,\varPhi _k^j} \right) = \\ & \sum\limits_{\left\{ {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),{\boldsymbol{y}}_i^j} \right\} \in T_{k,{\rm{s}}}^j} {L_{k,j}^{\rm{s}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {\bar {\boldsymbol{x}}_{i,j}^{\rm{s}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) + \\ & \sum\limits_{\left\{ {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right),{\boldsymbol{y}}_i^j} \right\} \in {T}_{k,{\rm{t}}}^{j}} {L_{k,j}^{\rm{t}}} \left( {\varPhi _k^j\left( {{t}_k^j\left( {{{\boldsymbol{x}}_{\rm{t}}}} \right)} \right),{\boldsymbol{y}}_i^j} \right) . \end{split}$

式中： $\varPhi _k^j $表示第k个自监督任务的线性层.

2.3.2. 特定于自监督任务的语义一致损失

样本进行自监督任务训练的目的是无标签数据通过辅助任务学习有意义的图像语义信息. 这种信息应该是一致的, 但是许多辅助任务会导致原信息与转换后的信息不同. 为了鼓励转换前、后语义信息的一致性，保护相应的语义信息，受Misra等^[22]的启发，采用噪声对比估计作为语义一致损失，对自监督任务进行优化. 自监督任务语义一致原理如图3所示.

图 3

图 3 自监督任务语义一致原理

Fig.3 Schematic diagram of semantic consistency of self-supervised tasks

将原始图像的特征表示为F( ${\boldsymbol{x}}_{i,j}^{\rm{u}} $)，转换后的图像特征表示为F( ${t}_k^j ({\boldsymbol{x}}_{i,j}^{\rm{u}}))$ ，将一组样本中除去原始图像的其他图像视为负样本并表示为F( ${\boldsymbol{x}}_{i,j}^{\rm{o}} $)，则噪声对比估计器的概率建模可以表示为

(7) $ h(F({\boldsymbol{x}}_{i,j}^{\rm{u}}),F(t_k^j({\boldsymbol{x}}_{i,j}^{\rm{u}}))) = \frac{{\exp \;\left[ {\dfrac{{s\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right)}}{\tau }} \right]}}{{\exp \;\left[ {\dfrac{{s\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right)}}{\tau }} \right] + \displaystyle\sum\limits_{{\boldsymbol{x}}_{i,j}^{\rm{o}} \in {D_{\rm{N}}}} {\exp \;\left[ {\dfrac{{s\left( {F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right),F\left( {{\boldsymbol{x}}_{i,j}^{\rm{o}}} \right)} \right)}}{\tau }} \right]} }}. $

式中：s为测量2个特征表示之间的余弦相似性, τ为温度参数, D_N为负样本集.

在训练过程中，自监督任务语义一致损失可以表示为

(8) $ \begin{split} &{\ell _{{\rm{NCE}}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right) = \\ & - \lg \; \left[ {h\left( {{\varPhi _{\rm{u}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right),{\varPhi _{\rm{t}}}\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right)} \right] - \\ & \sum\limits_{{\boldsymbol{x}}_{i,j}^{\rm{o}} \in {D_{\rm{N}}}} {\lg \; \left[ {1 - h\left( {{\varPhi _{\rm{t}}}\left( {F\left( {t_k^j\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right),{\varPhi _{\rm{o}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{o}}} \right)} \right)} \right)} \right]} . \end{split}$

式中：ɸ_u为原始图像的线性层, ɸ_t为自监督任务转换后图像的线性层, ɸ_o为负样本的线性层.

2.4. 特定于源域分类器的对齐

各源域决策边界附近的目标样本更有可能被从源样本中学习的分类器错误分类, 由于分类器是在不同的源域上训练的, 它们在目标样本的预测上可能存在误差, 但事实上不同分类器预测的相同目标样本应该得到相同的预测. 为了减小分类差异，需要最小化所有分类器之间的差异. 域间差异损失可以表示为

(9) $ \begin{split} &{\ell }_{{\rm{op}}}({\boldsymbol{x}}\text{；}F,{\varPhi }_{i},{\varPhi }_{j})= \frac{2}{{N\left( {N - 1} \right)}} \times \\\sum\limits_{a = 1}^N {\sum\limits_{j = a + 1}^N {} } &{\left\| {\frac{1}{m}\sum\limits_{{\boldsymbol{x}} \in D_{\rm{s}}^j} {{\varPhi _a}\left( {F\left( {\boldsymbol{x}} \right)} \right) - \frac{1}{n}\sum\limits_{{\boldsymbol{x}} \in D_{\rm{s}}^j} {{\varPhi _j}\left( {F\left( {\boldsymbol{x}} \right)} \right)} } } \right\|_2} . \end{split}$

式中：n为源域a的标签数据数量, m为源域j的标签数据数量, N为源域的个数.

2.5. 样本动态权重参数

现有的多源域自适应方法对于类别不均衡场景下的迁移讨论较少，训练所得的模型易忽略样本较少的类别，导致测试数据集上得到的目标域分类器泛化性能较差而影响分类精度. 基于少样本大权重的原则，提出动态样本权重参数的设置，可以达到平衡样本的效果，提高模型的迁移性能. 权重设置的原理如图4所示. 权重参数的公式可以表示为

(10) $ {\omega _i} = n'/n_i . $

式中：n′为所有源域内样本类别数目的中值, n_i为一个域内每个类别样本的数量.

图 4

图 4 类别不均衡下的迁移原理

Fig.4 Transfer principle under class-imbalance

2.6. 总体损失函数

使用的总体损失函数框架如图5所示.

图 5

图 5 总体损失函数框架图

Fig.5 Loss function relationship diagram

2.6.1. 多源框架下类别均衡时的损失函数

类别均衡下，当每对源域和目标域进行对齐优化时，总的损失函数包括：源分类损失、自监督任务对齐损失、自监督任务语义一致损失和域间差异损失（每对源域和目标域训练期间使用的损失函数相同）. 总体损失函数可以表示为

(11) $ \begin{split} &{\ell _{{\rm{all}}}} = \min \;\left\{{\ell _{{\rm{cls}}}}\left( {D_{\rm{s}}^j;F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),\varPhi _{\rm{s}}^j} \right) + \right. \\ &{\ell _{{\rm{s , t}}}}\left( {{t_k}\left( {\bar {\boldsymbol{x}}_i^{\rm{s}}} \right);F,\varPhi _k^j} \right) + {\ell _{{\rm{op}}}}\left( {{\boldsymbol{x}};F,{\varPhi _a},{\varPhi _j}} \right) + \\ & \left. {\ell _{{\rm{NCE}}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {{t_k}\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right) \right\} . \end{split}$

式中：a、j表示不同的源域.

2.6.2. 多源框架下类别不均衡时的损失函数

类别不均衡下，为了有效平衡样本，在每对源域和目标域的训练过程中，添加权重参数以提高分类精度. 权重参数体现在每一个损失函数中，总体损失函数可以表示为

(12) $\begin{split} &{\ell _{{\rm{all}}}} = \min \;\left\{{\omega _i}{\ell _{{\rm{cls}}}}\left( {D_{\rm{s}}^j;F\left( {{\boldsymbol{x}}_{i,j}^{\rm{s}}} \right),\varPhi _{\rm{s}}^j} \right) + \right. \\ &{\omega _i}{\ell _{{\rm{s , t}}}}\left( {{t_k}\left( {\bar {\boldsymbol{x}}_i^{\rm{s}}} \right);F,\varPhi _k^j} \right) + {\omega _i}{\ell _{{\rm{op}}}}\left( {{\boldsymbol{x}};F,{\varPhi _a},{\varPhi _j}} \right) + \\ & \left. {\omega _i}{\ell _{{\rm{NCE}}}}\left( {F\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right),F\left( {{t_k}\left( {{\boldsymbol{x}}_{i,j}^{\rm{u}}} \right)} \right)} \right) \right\} . \end{split}$

3. 实验结果及分析

3.1. 数据集和实验细节

实验数据: 采用Office-31数据集和Office-Caltech10数据集，验证所提模型的性能. 数据集样本实例如图6所示.

图 6

图 6 2种数据集的示例图

Fig.6 Example diagrams of two data sets

Office-31: 包括从3个不同领域收集的4 110幅图像, 分别是Amazon、Webcam和Dslr, 每个域均由31个类别组成, 分别包含2 817、795和498幅图像. 将3个域分别标记为A、W、D, 任意选其中2个为源域、1个为目标域进行实验. 为了实现无偏评估, 评估了所有3个迁移任务: AW-D，AD-W，DW-A.

Office-Caltech10：包含2 533张图片，分别有4个不同的领域：Amazon、Dslr、Webcam和Caltech，每个域由10个类别组成，分别包含958、157、295和1 123张图片. 将4个域分别标记为A、D、W和C, 任选其中3个为源域、1个为目标域进行实验. 为了实现无偏评估, 评估了所有4个迁移任务：ACW-D，ADC-W，DWC-A，AWD-C.

实验设置: 实验中使用Torch框架，利用ResNet提取图像特征，输入的图像大小均为224×224像素. 采用Adam优化器，一阶矩估计的指数衰减率β₁设定为0.9，二阶矩估计的指数衰减率β₂设定为0.999. 所有网络模型的权重采用xavier初始化. 在3种自监督任务训练的过程中，使用的初始学习率均为0.1.

从3个部分对模型性能进行分析. 1）与现有的主流方法进行分类精度对比分析. 在Office-31数据集中，从单源迁移、多源组合和多源迁移3个标准下与DAN^[2]、ADDA^[3]、RevGard^[4]、JAN^[5]、MCD^[6]、DCTN^[7]、MDAN^[8]、MDDA^[11]和M³SDA^[10]等方法进行比较. 在Office-Caltech10数据集中，从多源组合和多源迁移2个标准下与DAN^[2]、DCTN^[7]、FADA^[13]和M³SDA^[10]等方法进行比较. 2）分析各部分损失函数对模型性能的影响. 为了对比差异更清晰，Office-31数据集取4个类别中的样本，Office-Caltech10数据集取3个类别中的样本，分别对域间差异损失、自监督任务训练、自监督任务损失及自监督任务语义一致损失重点分析. 3）在类别不均衡的条件下，保持2）中的样本类别个数，对每个类别中的样本量进行删改，对设置动态权重参数前、后的分类精度进行对比分析.

3.2. 实验结果和性能对比分析

3.2.1. 分类精度对比分析

为了验证所提模型的有效性，在Office-31和Office-Caltech10 2种数据集中与现有的主流方法在分类精度方面进行对比分析，实验结果如表1、2所示. 表中，A为分类精度，单源迁移指将单个源域的知识迁移到目标域，源域组合指的是将多个源域混合到一起向目标域进行迁移，多源迁移是现有的主流方法. 从表1、2可以看出，在几个标准中，单源迁移的精度最低，这是由于从单个源域中只能提取到有限的标签信息. 源域组合时，由于多个源域分布的差异不同，导致公共特征提取困难，造成迁移性能不高. 多源迁移的分类性能最高，其中本文方法取得了较好的分类结果.

表 1 Office-31数据集上的准确率比较分析

Tab.1 Comparison and analysis of accuracy on Office-31 data set

标准	方法	A/%
标准	方法	AW-D	AD-W	DW-A	平均值
单源迁移	DAN^[2]	99.0	96.0	54.0	83.0
单源迁移	ADDA^[3]	99.4	95.3	54.6	83.1
单源迁移	RevGrad^[4]	99.2	96.4	53.4	83.0
源域组合	DAN^[2]	98.8	96.2	54.9	83.3
源域组合	JAN^[5]	99.4	95.9	54.6	83.3
源域组合	MCD^[6]	99.5	96.2	54.4	83.4
源域组合	RevGrad^[4]	98.8	96.2	54.6	83.2
多源迁移	DCTN^[7]	99.6	96.9	54.9	83.8
多源迁移	M³SDA^[10]	99.4	96.2	55.4	83.7
多源迁移	MDAN^[8]	99.2	95.4	55.2	83.3
多源迁移	MDDA^[11]	99.2	97.1	56.2	84.2
多源迁移	本文方法	99.6	97.2	56.4	84.4

在Office-31数据集中，W域与D域有较大的相似性，但它们与A域的差异性较大，因此前2组任务精度较高，第3组任务的分类性能较差. 本文方法在3组任务中精度有所提高，表明在自监督任务训练中，模型所获得的特征具有更高级的语义信息，为下一步域间对齐提供了有效的辅助信息.

在Office-Caltech10数据集中，W域、D域的样本量较少，A域、C域的样本量较多，样本量较多的域向样本量较少的域迁移时的准确率相对较高，故各个域向A域、C域迁移时的精度较低. 后2组任务中本文的分类精度相对低于M³SDA^[10]，2种算法均是基于ResNet实现，但M³SDA^[10]使用的是ImageNet 预训练开发后的模型，即自然场景中的对象识别，优势在于拥有大量的预训练数据，故准确率相对较高. 在相同样本量的情况下，本文方法的分类精度比所有的主流方法高，表明本文的模型不仅能够提取到更高级的语义知识，促进域间对齐，而且利用域间差异损失减少了各源域间决策边界的分类差异，提高了分类器的泛化能力，取得了较好的分类结果.

表 2 Office-Caltech10数据集上的准确率比较分析

Tab.2 Comparison and analysis of accuracy on Office-Caltech10 data set

标准	方法	A/%
标准	方法	ADC-W	ACW-D	AWD-C	DWC-A	平均值
源域组合	Source only	99.0	98.3	87.8	86.1	92.8
源域组合	DAN^[2]	99.3	98.2	89.7	94.8	95.5
多源迁移	Source only	99.1	98.2	85.4	88.7	92.9
多源迁移	FADA^[13]	88.1	87.1	88.7	84.2	87.1
多源迁移	DAN^[2]	99.5	99.1	89.2	91.6	94.9
多源迁移	DCTN^[7]	99.4	99.0	90.2	92.7	95.3
多源迁移	M³SDA^[10]	99.4	99.2	91.5	94.1	96.1
多源迁移	本文方法	99.5	99.2	90.2	93.3	95.5

3.2.2. 各部分损失函数对分类性能影响分析

在Office-31和Office-Caltech10 2种数据集中，通过组合算法中不同部分的损失函数对模型进行优化，对比所得的分类精度，分析各部分损失函数对模型性能的影响，实验结果如图7、8所示. 图中，NO DIS表示模型中含有源域分类损失和自监督任务损失，NO S-T表示模型中含有源域分类损失和域间差异损失，ALL NO表示模型中仅含有源域分类损失，OUR表示模型中包含所有的损失函数. 从图7、8可以看出，当自监督任务损失与域间差异损失均不存在时，模型的迁移性能最差. 例如在AW-D这一组任务中，当与无域间差异损失比较时，本文算法的精度提高了4.4%，比无自监督任务对齐损失时高6.6%，比两者损失均无时高8.2%. 在DWC-A这一组任务中，当与无域间差异损失比较时，本文算法的精度提高了5.4%，比无自监督任务对齐损失时高6.4%，比两者损失均无时高7.5%. 自监督任务损失包含自监督任务对齐损失和自监督任务语义一致损失，无标签信息的源域和目标域样本通过自监督任务对齐损失对源域和目标域的对齐进行优化，自监督语义一致损失是对自监督任务本身进行优化，保证样本前、后语义的一致性. 域间差异损失优化了源域间公共类别的分类差异，提高了分类精度. 当缺少自监督任务损失和域间差异损失时，模型直接将源域分类器推广到目标域，没有对域间的对齐及分类器间的对齐进行优化，导致分类精度过低. 缺少自监督任务损失时的迁移性能相对低于缺少域间差异损失时的性能，表明自监督任务损失有效优化了域间特征的对齐效果，特征分布的差异减小. 图7、8中本文算法的精度最高，表明各部分损失函数的有效性，自监督任务损失和域间差异损失对模型具有良好的优化效果，不仅缩减了域间数据分布的差异，而且减少了源域决策边界的分类差异，提高了模型的迁移性能.

图 7

图 7 Office-31数据集中损失函数对模型性能的影响分析

Fig.7 Analysis of impact of loss function on model performance in Office-31 data set

图 8

图 8 Office-Caltech10数据集中损失函数对模型性能的影响

Fig.8 Analysis of impact of loss function on model performance in Office-Caltech10 data set

为了验证3个自监督任务对域间对齐的有效性，对无自监督任务对齐损失时的模型、无语义一致损失时的模型、不使用自监督任务训练的模型与本文所提模型的分类精度进行对比分析，结果如图9所示. 图中，NO NCE指的是模型不使用语义一致损失优化；NO S指的是模型不使用自监督任务对齐损失优化，NO Tasks指的是模型不使用自监督任务，直接将源域分类器推广到目标域. 从图9可以看出，不使用自监督任务时的模型分类效果最差，无自监督任务对齐损失时的模型分类精度效果次之. 若模型不使用自监督任务，则源域和目标域之间的数据分布保持原有状态，没有减小，源域分类器不适用于目标域，导致分类结果最差. 自监督任务对齐损失可以优化源域和目标域的对齐效果，减少域间隙，缺少该损失函数使得对齐效果较差，导致分类精度降低，表明自监督任务对齐损失的有效性. 语义一致损失是对自监督任务训练中数据特征前、后的语义一致性进行优化，有效地进行域间对齐，因此迁移性能相对于前者较高. 本文在优化对齐的同时，对自监督任务自身进行优化，提高了分类精度.

图 9

图 9 Office-31数据集中对自监督任务训练效果的分析

Fig.9 Analysis of training effects for self-supervised tasks in Office-31 data set

域间差异损失是为了减少源域间公共类别的分类差异，对各源域分类器进行对齐. 为了证明本文使用的函数的有效性，将多种距离函数作为域间差异损失，对比所得的分类精度，实验结果如图10所示. 选取L1损失、余弦相似性、KL散度和L2损失作为比较对象，L1为L1损失，cos为余弦相似性，kl为KL散度，L2为L2损失. 从图10可以看出，3种任务中，使用其他各项损失函数所得到的分类精度均低于L2损失优化后所得到的结果，表明使用L2损失对源域分类器对齐的有效性.

图 10

图 10 域间差异损失中各损失函数对分类精度影响

Fig.10 Effects of each loss function on classification accuracy in inter-domain difference loss

3.2.3. 类别不均衡实验分析

在Office-31和Office-Caltech10数据集上删改，构造出类别不均衡的条件，样本量如图11、12所示. 图中，S为各样本量. 为了构造类别不均衡的场景，在样本量较多的类别中，对样本量进行删减. 在样本量较少的类别中，对所有样本进行复制，直接添加在当前类别中.

图 11

图 11 Office-31数据集中各源域间类别样本量的对比

Fig.11 Comparison of sample size of each source domain in Office-31 data set

图 12

图 12 Office-Caltech10数据集中各源域间类别样本量的对比

Fig.12 Comparison of sample size of each source domain in Office-Caltech10 data set

在Office-31数据集中，取每个域中的4个类别，对各类别的样本量进行调整，以构造出类别不均衡的条件. 在AD-W这一组任务中，类别1和类别2中的样本量比例为8∶1，类别3和类别4中的样本量比例为4∶1；在AW-D中，类别1和类别2中的样本量比例为8∶1，类别3和类别4中的样本量比例为2.5∶1. 在Office-Caltech10数据集中，取每个域中的3个类别，各类别的样本量调整如下. 在AWD-C这一组任务中，类别1的样本量比例为9∶3∶1，类别2的样本量比例为4∶1∶1，类别3的样本量比例为9∶3∶1. 在ADC-W这一组任务中，类别1的样本量比例为9∶1∶15，类别2的样本量比例为4∶1∶5，类别3的样本量比例为3∶1∶3. 在DWC-A这一组任务中，类别1的样本量比例为1∶3∶15，类别2的样本量比例为1∶1∶5，类别3的样本量比例为1∶3∶10. 在ACW-D这一组任务中，类别1的样本量比例为3∶5∶1，类别2的样本量比例为4∶5∶1，类别3的样本量比例为3∶3∶1.

根据每个域中不同类别中样本的数量，根据式（10）设置了样本特征的权重参数，在模型训练中对各样本特征添加权重参数. 权重设置如图13、14所示. 图中，w为各样本权重. 从图11~14可以看出，在同一个域中，样本量比例较小的类别所设置的权重较大，样本数量比例较大的类别所设置的权重较小，可以达到平衡样本的效果，使得模型训练时对所有类别公平.

图 13

图 13 Office-31各样本权重设置图示

Fig.13 Figure of weight setting for each sample on Office-31

图 14

图 14 Office-Caltech10各样本权重设置图示

Fig.14 Figure of weight setting for each sample on Office-Caltech10

为了验证权重参数对平衡样本的有效性，对添加权重参数前、后模型的分类性能进行对比分析，分类精度如表3、4所示. 可以看出，在添加权重参数后，模型的分类精度有所提升. 在AD-W这一组任务中，添加权重参数后，精度提高了6.8%；在ADC-W这一组任务中，添加权重参数后，精度提高了8.2%. 由以上对比结果可知，在类别不均衡的条件下，当每对源域和目标域进行训练时，在样本量较少的类别中，会造成特征较少难以提取规律，数量较多的样本会被模型过度依赖而导致过拟合问题. 在多源场景中，由于各源域均存在类别不均衡的问题，造成训练适用于目标域的分类器更加困难. 当模型应用到目标域上时，模型的性能达不到理想效果. 在添加权重参数后，有效地平衡了各源域间的样本，使得模型对丰富类和稀有类更加公平, 解决了样本较少时难以提取特征规律的问题，提高了分类器的泛化能力，优化了模型的迁移性能.

表 3 不均衡样本下Office-31数据集上的精度对比分析

Tab.3 Comparison and analysis of accuracy on Office-31 data set under uneven samples

类型	A/%
类型	AD-W	AW-D	DW-A	平均值
类别不均衡	81.0	82.6	42.4	68.7
类别不均衡（权重）	87.8	85.5	42.7	72.0

表 4 不均衡样本下Office-Caltech10数据集上的精度对比分析

Tab.4 Comparison and analysis of accuracy on Office-Caltech10 data set under uneven samples

类型	A/%
类型	ADC-W	DWC-A	AWD-C	ACW-D	平均值
类别不均衡	75.3	67.8	63.7	79.3	71.5
类别不均衡（权重）	83.5	76.4	67.3	83.0	77.6

4. 结　语

针对多源域聚合下提取域不变特征较困难以及忽略对无标签数据自身信息的学习的问题, 本文提出基于自监督任务的多源无监督域适应法. 本文对各源域标签数据分类器与无标签数据使用自监督任务进行联合训练,设计新的优化损失函数对训练过程进行有效的优化. 与多个主流方法进行对比, 本文方法都取得较好的结果, 证明了本文方法的可行性.

在未来的工作中, 可以引进新的自监督任务对无标签数据进行训练，以获得高级语义特征，有助于下一步的分类工作. 本文只探讨了闭集场景下的迁移，没有对其他现实场景进行讨论，可以将自监督任务与其他迁移机制联合使用，以解决更多场景下（开放集、闭集、部分集）的问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

沈宗礼, 余建波

基于迁移学习与深度森林的晶圆图缺陷识别

[J]. 浙江大学学报: 工学版, 2020, 54 (6): 1228- 1239

SHEN Zong-li, YU Jian-bo

Wafer map defect recognition based on transfer learning and deep forest

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (6): 1228- 1239

[2]

LONG M, CAO Y, WANG J, et al. Learning transferable features with deep adaptation networks [C]// International Conference on Machine Learning. Lille: [s. n.], 2015: 97-105.

[本文引用: 7]

[3]

TZENG E, HOFFMAN J, SAENKO K, et al. Adversarial discriminative domain adaptation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7167–7176.

[4]

GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by backpropagation [C]// International Conference on Machine Learning. Lille: PMLR, 2015: 1180–1189.

[本文引用: 3]

[5]

LONG M, ZHU H, WANG J, et al. Deep transfer learning with joint adaptation networks[C]// International Conference on Machine Learning. Sydney: PMLR, 2017: 2208–2217.

[6]

SAITO K, WATANABE K, USHIKU Y, et al. Maximum classifier discrepancy for unsupervi-sed domain adaptation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3723–3732.

[本文引用: 3]

[7]

XU R, CHEN Z, ZUO W, et al. Deep cockt-ail network: multi-source unsupervised domain adaptation with category shift [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3964–3973.

[本文引用: 6]

[8]

ZHAO H, ZHANG S, WU G. Adversarial multiple source domain adaptation [C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2018: 8568–8579.

[9]

李威, 王蒙. 基于渐进多源域迁移的无监督跨域目标检测[EB/OL]. （2020-03-20）. http://kns.cnki.net/kcms/detail/11.2109.TP.20200320.1044.003.html.

LI Wei, WANG Meng. Unsupervised cross-domain object detection based on progressive multi-source transfer [EB/OL]. (2020-03-20). http://kns.cnki.net/kcms/detail/11.2109.TP.20200320.1044.003.html.

[10]

PENG X, BAI Q, XIA X, et al. Moment matching for multi-source domain adaptation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 1406–1415.

[本文引用: 9]

[11]

ZHAO S, WANG G, ZHANG S, et al. Multi-source distilling domain adaptation [C]// Proceedings of the AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 1297–1298.

[12]

ZHU Y, ZHUANG F, WANG D. Aligning domain specific distribution and classifier for cross-domain classification from multiple sources [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii: AAAI, 2019: 5989–5996.

[13]

PENG X, HUANG Z, ZHU Y, et al. Federatedadversarial domain adaptation [C]// International Conference on Learning Representations. Addis Ababa: [s. n.], 2020.

[本文引用: 3]

[14]

ZHANG R, ISOLA P, ALEXEI A. Colorful image colorization [C]// European Conference on Computer Vision. Cham: Springer, 2016: 649–666.

[15]

GUSTAV L A, MICHAEL M, GREG O, et al. Learning representations for automatic colorization [C]// European Conference on Computer Vision. Amsterdam: [s. n.], 2016: 577–593.

[16]

CARL V, ABHINAV S, ALIREZA F, et al. Tracking emerges by colorizing videos [C]// Proceedings of the European Conference on Computer Vision. Munich: [s. n.], 2018: 391–408.

[17]

NOROOZI M, FAVARO P. Unsupervised learning of visual representations by solving jigsaw puzzles [C]// European Conference on Computer Vision. Amsterdam: [s. n.], 2016: 69–84.

[18]

CARL D, ABHINAV G, ALEXEI A. Unsupervised visual representation learning by conte-xt prediction [C]// Proceedings of the IEEE International Conference on Computer Vision. [S. l.]: IEEE, 2015: 1422–1430.

[19]

IMON J, PAOLO F. Self-supervised feature learning by learning to spot artifacts [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2733–2742.

[20]

SPYROS G, PRAVEER S, NIKOS K. Unsupervised representation learning by predicting image rotations [EB/OL].(2018-03-21). https://doi.org/10.48550/arXiv.1803.07728.

[21]

DEEPAK P, PHILIPP K, JEFF D, et al. Context encoders: feature learning by inpainting [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2536–2544.

[22]

MISRA I, MAATEN L. Self-supervised learning of pretext-invariant representations [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6707–6717.