基于深度互学的多任务学习
Multi-task learning based on deep mutual learning
通讯作者:
收稿日期: 2025-07-17
| 基金资助: |
|
Received: 2025-07-17
| Fund supported: | 国家自然科学基金资助项目(62062024);贵州省科技计划资助项目(黔科合基础-ZK[2021]一般342);贵州省研究生教育教学改革重点项目(黔教合YJSJGKT[2021]018);贵州省教育厅自然科学研究资助项目(黔教技[2022]015);贵州省模式识别与智能系统重点实验室2022年度开放课题资助项目(GZMUKL[2022]KF03). |
作者简介 About authors
肖洪湖(1998—),男,硕士生,从事深度学习与多任务学习研究.orcid.org/0009-0007-0832-0091.E-mail:
针对多任务学习(MTL)中因泛化监督信号不稳健导致MTL过拟合的问题,提出多深度相互学习(MDML)算法. 在2个多任务网络的更新中引入模仿损失,将多任务学习建模为相互学习问题. 在2个多任务网络中引入模仿损失函数,通过任务输出来确定,对2个多任务网络中同一任务的不同输出进行对齐,得到模仿损失. MDML算法根据加权方案对传统监督学习损失与模仿损失进行损失融合,更新2个多任务网络. 在NYUv2和Cityscapes数据集上的实验结果表明,利用MDML算法,有效解决了多任务网络中泛化监督信号不稳健的问题,降低了多任务网络过拟合.
关键词:
A multi-depth mutual learning (MDML) algorithm was proposed to address the issue of overfitting in multi-task learning caused by unstable generalization supervision signal. The mimicry loss was introduced into the update of two multi-tasking networks, and the multi-task learning problem was formulated as a mutual learning problem. The mimicry loss function was introduced into the two multi-task networks. The mimicry loss function was determined by the task output, and the mimicry loss was obtained by aligning the output of the same task from the two multi-task networks. The conventional supervised learning loss and mimicry loss were combined according to the weighting scheme, and the two multi-task networks were updated by the MDML algorithm. The experimental result on the NYUv2 and Cityscapes dataset showed that the MDML algorithm effectively solved the issue of unstable generalization supervision signal in multi-task network, thereby reducing overfitting of multi-task network.
Keywords:
本文引用格式
肖洪湖, 黄成泉, 周训会, 董红来, 周丽华.
XIAO Honghu, HUANG Chengquan, ZHOU Xunhui, DONG Honglai, ZHOU Lihua.
在MTL训练过程中,泛化监督信号不稳健问题的原因有模型大小、任务之间存在的冲突和虚假相关特征. 针对MTL训练过程中泛化监督信号不稳健的问题,本文将应用在单任务设置中的DML扩展到多任务设置,提出多深度相互学习(multi-deep mutual learning, MDML)算法,其中任务之间的模仿损失不均衡. 在Cityscapes和NYUv2数据集上的实验表明,MDML算法的性能良好,可以有效降低多任务网络过拟合.
1. 多深度相互学习MDML
1.1. 经典MTL优化
经典的MTL通过同时训练一个共享模型实现多个任务的优化,每个任务有特定的损失函数,优化目标是对所有任务的损失函数进行组合并优化,以更新参数. 任务损失的加权方案通过静态预定义或动态地设置各个任务的损失权重,调控不同任务在所有任务中的影响力. Liu等[12]提出动态权重平均(dynamic weight average, DWA)的方法,通过考虑每个任务的损失变化率,随迭代次数变化得到平均任务权重. 在加权方案DWA中,将任务n的权重
Liu等[13]提出快速自适应多任务优化算法(fast adaptive multitask optimization, FAMO),利用历史损失来更新任务权重,确保所有任务的优化进度大致相同,避免计算所有任务梯度. 具体地,当给定任务损失
可得任务权重Logits值的更新式:
式中:
1.2. 相互学习
在深度学习和知识蒸馏的背景下,DML旨在学习得到规模小但功能强的DNN,它们从一批未训练的网络开始,同时学习解决任务. 具体地,给定2个网络
为了提高网络
1.3. 针对MTL的相互学习
为了在多任务网络的训练过程中学习稳健的泛化监督信号,MDML将单任务设置中的相互学习扩展到多任务. 具体地,MDML在计算多个任务传统监督学习损失的同时,计算2个多任务网络之间各个任务的模仿损失,促进2个多任务网络相互学习.
计算模仿损失的对齐函数,在类别和实例识别任务中使用单向或对称KL散度. 该对齐函数已经成功应用于部分工作中[17,20],用于强制每个学生网络的类别后验概率与其他学生网络的类别概率保持一致[17],或强制Dropout生成的不同子模型的输出分布[20]彼此一致. 在MTL中,由于不同任务具有不同的输出形式,具体地,语义分割输出是分类分布,深度估计是回归输出,表面法线估计输出是归一化的方向向量. 这表示不是所有任务的输出都适合用KL散度对齐,一般情况下,语义分割使用对称KL散度对齐,深度估计使用均方误差(mean squared error, MSE)函数对齐2个多任务网络的深度输出,表面法线估计使用余弦相似度衡量方向一致性. 图1给出MDML同时训练3个任务时的结构图.
图 1
MDML算法在第t次迭代训练中遵循的过程如下.
1)对于每个多任务网络
式中:
2)计算多任务网络的模仿损失. 2个网络
式中:B为批量大小,
否则(加权方案为FAMO),最终的损失函数
MDML算法的伪代码如下.
算法1 多深度相互学习(MDML)算法
输入:训练集x,N个标签集
初始化:将网络
重复:
1)
2)从数据集x中随机采样小批量样本
3)计算网络
4)计算网络
5)通过式(4)~(6)计算网络
直到:收敛
2. 实验及结果分析
在计算机视觉MTL的背景下,对提出的方法进行验证和研究,使用不同的多任务设置和真实世界数据集开展实验. 为了评估提出方法相对于其他方法的优劣,对几种对标算法开展相同的实验,包括加权方案DWA[12]、FAMO[13]以及蒸馏驱动多任务优化方法OKD[16]. 根据相互学习的特点,受到OTW的启发,提出MLW方案. 为了对不同方案进行比较,考虑到训练过程的随机性,所有实验都使用5个不同的随机种子重复5次,对独立使用加权方案DWA(或FAMO、OTW)的网络进行实验,实验结果用Independent表示. 为了评估最佳方法与其他方法之间的差异是否具有统计学意义,对每个指标结果使用配对样本的t检验进行检验,所有定量结果均以平均值±标准偏差的形式呈现.
2.1. 数据集、任务和网络架构
2.2. 训练细节和评估指标
参照文献[12]的训练方法进行实验. 利用所提MDML方法,采用从头开始进行训练和使用ResNet-18和ResNet-34进行训练的方式,因此当MDML从头开始进行训练时,按照文献[27]进行网络随机初始化. MDML采用Adam算法[28],批大小为4. 为了保证网络收敛,当采用ResNet-18和ResNet-34进行训练时训练轮次设置为130,当采用从头开始训练的方式时训练轮次设置为200. 对传统监督学习损失和模仿损失进行分析,将分割、深度和法线的模仿损失权重分别设置为0.000 1、10和10. 全局学习率
与文献[12]一致,语义分割评估指标采用平均交并联(mIoU)和像素精度(pAcc),深度估计指标采用绝对误差(abs)和相对误差(rel),表面法线估计指标采用平均角偏差(Mean)和中值角偏差(Median).
2.3. 实验结果
为了验证MDML算法的实际性能,从头开始训练网络Net 1和Net 2,在数据集Cityscapes和NYUv2上对不同方法进行实验,结果如表1、2所示. 其中,语义分割指标结果越大越好,深度估计指标结果越小越好,表面法线估计指标结果越小越好. 使用预训练网络Net 1和Net 2,在数据集NYUv2上对不同方法进行实验,结果如表3所示. 表1~3中,粗体表示每个加权方案中每个评估指标平均值的最佳结果,星号(*或**)表示最佳结果与其他结果之间的差异是否具有统计学意义,其中*表示p < 0.05,**表示p < 0.01. 加权方案OTW&MLW表示当使用对比方法OKD时采用加权方案OTW,当使用MDML算法时采用提出的加权方案MLW.
表 1 各方法用从头开始训练网络Net 1和Net 2在数据集Cityscapes上的结果
Tab.1
| 加权方案 | 方法 | 网络 | 语义分割 | 深度估计 | |||
| mIoU/% | pAcc/% | abs | rel/% | ||||
| DWA | Independent | Net 1 | 72.70±0.11 | 92.75±0.04 | |||
| Net 2 | 73.33±0.12 | 92.98±0.04 | |||||
| MDML | Net 1 | **75.16±0.16 | **93.65±0.05 | ||||
| Net 1 | 74.96±0.12 | 93.62±0.03 | |||||
| MDML | Net 2 | 74.93±0.33 | 93.64±0.08 | ||||
| Net 2 | 74.82±0.35 | 93.64±0.08 | |||||
| FAMO | Independent | Net 1 | 74.48±0.19 | 93.25±0.06 | |||
| Net 2 | 74.46±0.21 | 93.25±0.06 | |||||
| MDML | Net 1 | 75.10±0.17 | 93.65±0.18 | ||||
| Net 1 | 75.25±0.14 | 93.73±0.06 | |||||
| MDML | Net 2 | 75.11±0.14 | 93.73±0.08 | ||||
| Net 2 | **75.31±0.29 | *93.74±0.13 | |||||
| OTW&MLW | Independent (OKD) | Net 1 | 72.62±0.35 | 92.63±0.14 | |||
| Net 2 | 73.17±0.25 | 92.91±0.21 | |||||
| MDML | Net 1 | **75.14±0.24 | 93.67±0.04 | ||||
| Net 1 | 75.07±0.21 | 93.65±0.06 | |||||
| MDML | Net 2 | 75.00±0.15 | 93.66±0.04 | ||||
| Net 2 | 75.02±0.13 | **93.68±0.02 | |||||
表 2 各方法用从头开始训练网络Net 1和Net 2在数据集NYUv2上的结果
Tab.2
| 加权方案 | 方法 | 网络 | 语义分割 | 深度估计 | 表面法线估计 | |||||
| mIoU/% | pAcc/% | abs | rel/% | Mean | Median | |||||
| DWA | Independent | Net 1 | 31.23±0.14 | 57.55±0.03 | 31.90±0.07 | 25.91±0.05 | ||||
| Net 2 | 31.35±0.12 | 57.59±0.05 | 31.95±0.06 | 25.87±0.09 | ||||||
| MDML | Net 1 | 36.50±0.26 | 62.41±0.13 | ** | 28.96±0.05 | 24.25±0.07 | ||||
| Net 1 | **36.51±0.25 | **62.50±0.01 | ** | **28.91±0.09 | **24.22±0.12 | |||||
| MDML | Net 2 | 35.48±0.35 | 61.58±0.08 | 29.49±0.12 | 24.88±0.07 | |||||
| Net 2 | 35.53±0.28 | 61.61±0.09 | 29.41±0.07 | 24.78±0.07 | ||||||
| FAMO | Independent | Net 1 | 32.41±0.21 | 58.82±0.02 | 30.06±0.04 | 23.41±0.09 | ||||
| Net 2 | 33.03±0.28 | 59.42±0.01 | 29.86±0.08 | 22.90±0.06 | ||||||
| MDML | Net 1 | 36.46±0.25 | 62.61±0.06 | 27.57±0.07 | 22.25±0.07 | |||||
| Net 1 | **36.88±0.25 | **62.96±0.02 | ** | ** | **27.44±0.06 | **22.04±0.07 | ||||
| MDML | Net 2 | 34.17±0.31 | 60.87±0.18 | 28.52±0.04 | 23.44±0.06 | |||||
| Net 2 | 34.32±0.24 | 61.03±0.19 | 28.53±0.08 | 23.47±0.09 | ||||||
| OTW&MLW | Independent (OKD) | Net 1 | 30.94±0.14 | 57.04±0.17 | 31.24±0.05 | 24.92±0.05 | ||||
| Net 2 | 31.23±0.27 | 57.50±0.07 | 30.63±0.08 | *23.96±0.06 | ||||||
| MDML | Net 1 | 36.38±0.38 | 62.41±0.16 | ** | 28.85±0.06 | 24.11±0.05 | ||||
| Net 1 | **36.40±0.43 | **62.42±0.12 | ** | **28.84±0.09 | 24.10±0.07 | |||||
| MDML | Net 2 | 35.27±0.25 | 61.63±0.19 | 29.46±0.06 | 24.83±0.08 | |||||
| Net 2 | 35.61±0.29 | 61.79±0.14 | 29.51±0.03 | 24.86±0.09 | ||||||
表 3 各方法用预训练网络Net 1和Net 2在数据集NYUv2上的结果
Tab.3
| 加权方案 | 方法 | 网络 | 语义分割 | 深度估计 | 表面法线估计 | |||||
| mIoU/% | pAcc/% | abs | rel/% | Mean | Median | |||||
| DWA | Independent | Net 1 | 47.54±0.25 | 70.84±0.09 | 26.02±0.02 | 19.58±0.04 | ||||
| Net 2 | 50.83±0.23 | 73.65±0.09 | 24.52±0.03 | *18.06±0.05 | ||||||
| MDML | Net 1 | 51.40±0.15 | 74.04±0.15 | 25.02±0.06 | 20.16±0.02 | |||||
| Net 1 | 51.09±0.24 | 73.77±0.14 | 25.03±0.07 | 20.12±0.06 | ||||||
| MDML | Net 2 | 53.19±0.27 | 75.03±0.15 | 24.30±0.08 | 19.50±0.03 | |||||
| Net 2 | **53.24±0.25 | **75.23±0.15 | ** | ** | **24.26±0.02 | 19.49±0.08 | ||||
| FAMO | Independent | Net 1 | 47.35±0.36 | 70.62±0.04 | 25.09±0.09 | 18.36±0.07 | ||||
| Net 2 | 51.12±0.31 | 73.73±0.16 | 23.46±0.03 | *16.88±0.04 | ||||||
| MDML | Net 1 | 51.30±0.22 | 73.82±0.12 | 23.64±0.08 | 18.21±0.02 | |||||
| Net 1 | 51.18±0.31 | 73.91±0.09 | 23.59±0.08 | 18.12±0.09 | ||||||
| MDML | Net 2 | 53.37±0.29 | **75.45±0.16 | ** | 22.64±0.04 | 17.25±0.06 | ||||
| Net 2 | **53.67±0.25 | 75.42±0.18 | ** | **22.62±0.02 | 17.20±0.02 | |||||
| OTW&MLW | Independent (OKD) | Net 1 | 47.87±0.32 | 71.17±0.12 | 24.52±0.08 | 17.64±0.09 | ||||
| Net 2 | 52.01±0.19 | 74.35±0.12 | **22.84±0.05 | **16.18±0.06 | ||||||
| MDML | Net 1 | 51.32±0.27 | 73.98±0.14 | 24.96±0.07 | 20.11±0.03 | |||||
| Net 1 | 51.31±0.19 | 74.02±0.05 | 24.93±0.05 | 20.03±0.08 | ||||||
| MDML | Net 2 | **53.59±0.27 | **75.49±0.15 | ** | ** | 24.12±0.07 | 19.09±0.05 | |||
| Net 2 | 53.29±0.31 | 75.44±0.14 | 24.15±0.07 | 19.32±0.02 | ||||||
图 2
图 2 MDML算法和OKD算法在各项任务上的训练损失和测试损失变化结果
Fig.2 Variation result of training loss and testing loss for MDML algorithm and OKD algorithm on different task
从表1可知,在3种梯度冲突解决方案中,MDML在数据集Cityscapes上开展语义分割任务能够取得更好的结果,且最好的结果与其他结果之间的差异具有统计学意义. 在深度估计任务上,最好的结果与其他结果之间差异不大. 造成这些结果的原因可能如下. 1)任务本身的复杂度与信息需求不同,语义分割任务要求模型学习到类别相关的高层语义信息,而深度估计任务更多依赖低层次的边缘、纹理、梯度变化等. 2)Cityscapes数据集的场景规则性强,深度估计分布规律相对稳定,模型容易记住或拟合这种分布.
从表2可知,MDML在从头开始训练网络上获得最优的性能. 与使用加权方案DWA或FAMO的网络进行对比,MDML在所有任务中明显优于对比方法Independent,且最优结果与其他结果之间的差异具有统计学意义. 在使用加权方案OTW&MLW的网络中,MDML在语义分割任务和深度估计任务上的性能优于对比方法OKD. OKD在网络Net 1和Net 2上获得的结果差异不大. 当采用从头开始训练网络Net 1和Net 2的方式时,MDML在Net 1上获得的结果明显优于Net 2上的结果.
从表3可以看出,MDML在使用加权方案DWA和FAMO时取得最优的结果. 对于语义分割任务和深度估计任务,最优结果都在MDML(Net 2)上取得,这与使用从头开始训练网络的方式不同(最优结果在MDML(Net 1)上获得). 对于表面法线任务,指标Mean和Median在OKD(Net 2)上获得最优结果. 从表2可以看出,指标Median在加权方案OTW&MLW上的最优结果是在Independent(Net 2)上获得. 造成这些结果的原因可能如下. 1)MDML使用从头开始训练网络的方式更有效. 2)OKD将分割、深度和表面法线的蒸馏损失权重分别设为1、1和2,预训练的单任务网络(教师网络)为OKD(学生网络)提供了更多支持. 与从头开始训练网络的方式相比,使用预训练网络时所有方法的整体性能都有所提升,如加权方案FAMO在Independent(Net 1)上的mIoU平均提高了46.09%,abs平均提高了17.21%,Mean平均提高了16.53%,这说明预训练网络的使用对各学习任务有影响.
为了说明各比较方法的模型复杂度,表4给出表2、3中各个方法的平均每轮训练时间ttr与总参数量Np. 其中,MDML(Net 1&Net 1)和MDML(Net 2&Net 2)分别表示MDML算法在网络架构Net 1和Net 2上所得的模型. 从表4可知,在使用加权方案DWA和FAMO的从头开始训练网络和预训练网络中,MDML总参数量是相应Independent总参数量的2倍,但MDML平均每轮训练时间小于Independent平均每轮训练时间的2倍. 在使用加权方案OTW&MLW的从头开始训练网络和预训练网络中,MDML平均每轮训练时间和总参数量均优于Independent(OKD). 这表明所提MDML算法具有较低的模型复杂度.
表 4 各方法在NYUv2数据集上的模型复杂度比较
Tab.4
| 加权方案 | 方法 | 网络 | 从头开始训练网络 | 预训练网络 | |||
| ttr/s | Np/106 | ttr/s | Np/106 | ||||
| DWA | Independent | Net 1 | 13.83 | 96.69 | 16.34 | 96.69 | |
| Net 2 | 17.18 | 135.25 | 19.05 | 135.25 | |||
| MDML | Net 1&Net 1 | 24.47 | 193.38 | 22.99 | 193.38 | ||
| MDML | Net 2&Net 2 | 28.74 | 270.50 | 22.76 | 270.50 | ||
| FAMO | Independent | Net 1 | 17.51 | 96.69 | 16.05 | 96.69 | |
| Net 2 | 20.81 | 135.25 | 21.45 | 135.25 | |||
| MDML | Net 1&Net 1 | 26.87 | 193.38 | 26.03 | 193.38 | ||
| MDML | Net 2&Net 2 | 32.98 | 270.50 | 35.70 | 270.50 | ||
| OTW&MLW | Independent(OKD) | Net 1 | 38.02 | 200.99 | 36.89 | 200.99 | |
| Net 2 | 51.48 | 316.67 | 51.24 | 316.67 | |||
| MDML | Net 1&Net 1 | 21.33 | 193.38 | 24.94 | 193.38 | ||
| MDML | Net 2&Net 2 | 16.10 | 270.50 | 22.44 | 270.50 | ||
2.4. 有效性分析
从图2可以看出,在语义分割任务上,利用OKD算法,可以很好地拟合训练数据,训练损失接近0,但对测试数据的拟合效果不佳,测试损失较大,训练损失与测试损失的差值较大. 在深度估计任务和表面法线估计任务上,利用OKD算法,可以较好地拟合训练数据和测试数据,训练损失和测试损失较小,但训练损失与测试损失的差值较大. 在3个任务上,利用MDML算法,可以很好地拟合训练数据和测试数据,训练损失与测试损失的差值较小. 实验结果表明,所提MDML方法较OKD方法具有更好的泛化性能. 这是因为所提MDML方法不是简单地寻找最小的训练损失,而是寻找具有稳健的泛化监督信号的参数更新,最终使训练损失与测试损失趋于一致.
3. 结 语
提出MDML算法,旨在多任务网络训练中为每个任务学习稳健的泛化监督信号. MDML算法引入模仿损失函数,将单个任务的相互学习扩展到多个任务的相互学习,解决了线上知识蒸馏OKD需要一定数量的单任务网络作为教师网络进行训练的问题. 在具有多种场景的多任务计算机视觉真实数据集NYUv2和Cityscapes上的实验结果表明, MDML算法能够获得稳健的泛化监督信号的参数更新,从而具有稳健的泛化性能. 未来研究将重点探索不同网络之间的相互学习.
参考文献
面向图像分类的双域特征联合网络
[J].
Two-domain feature association networks for image classification
[J].
基于CNN和Efficient Transformer的多尺度遥感图像语义分割算法
[J].DOI:10.3785/j.issn.1008-973X.2025.04.013 [本文引用: 1]
Semantic segmentation algorithm for multiscale remote sensing images based on CNN and Efficient Transformer
[J].DOI:10.3785/j.issn.1008-973X.2025.04.013 [本文引用: 1]
基于时空特征增强的单目标跟踪算法
[J].DOI:10.3785/j.issn.1008-973X.2025.11.021 [本文引用: 1]
Single object tracking algorithm based on spatio-temporal feature enhancement
[J].DOI:10.3785/j.issn.1008-973X.2025.11.021 [本文引用: 1]
SelfVIO: self-supervised deep monocular visual–inertial odometry and depth estimation
[J].DOI:10.1016/j.neunet.2022.03.005 [本文引用: 1]
Multiscale deep learning for detection and recognition: a comprehensive survey
[J].DOI:10.1109/TNNLS.2024.3389454 [本文引用: 1]
A survey on multi-task learning
[J].DOI:10.1109/TKDE.2021.3070203 [本文引用: 1]
DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs
[J].DOI:10.1109/tpami.2017.2699184 [本文引用: 2]
/
| 〈 |
|
〉 |

