浙江大学学报(工学版), 2026, 60(6): 1231-1239 doi: 10.3785/j.issn.1008-973X.2026.06.010

计算机技术

基于深度互学的多任务学习

肖洪湖,, 黄成泉,, 周训会, 董红来, 周丽华

1. 贵州民族大学 数据科学与信息工程学院,贵州 贵阳 550025

2. 贵州民族大学 工程技术人才实践训练中心,贵州 贵阳 550025

3. 贵州民族大学 贵州省模式识别与智能系统重点实验室,贵州 贵阳 550025

Multi-task learning based on deep mutual learning

XIAO Honghu,, HUANG Chengquan,, ZHOU Xunhui, DONG Honglai, ZHOU Lihua

1. School of Data Science and Information Engineering, Guizhou Minzu University, Guiyang 550025, China

2. Engineering Training Center, Guizhou Minzu University, Guiyang 550025, China

3. Key Laboratory of Pattern Recognition and Intelligent Systems of Guizhou Province, Guizhou Minzu University, Guiyang 550025, China

通讯作者: 黄成泉,男,教授. orcid.org/0000-0001-5057-7527. E-mail:hcq@gzmu.edu.cn

收稿日期: 2025-07-17  

基金资助: 国家自然科学基金资助项目(62062024);贵州省科技计划资助项目(黔科合基础-ZK[2021]一般342);贵州省研究生教育教学改革重点项目(黔教合YJSJGKT [2021]018);贵州省教育厅自然科学研究资助项目(黔教技[2022]015);贵州省模式识别与智能系统重点实验室2022年度开放课题资助项目(GZMUKL[2022]KF03).

Received: 2025-07-17  

Fund supported: 国家自然科学基金资助项目(62062024);贵州省科技计划资助项目(黔科合基础-ZK[2021]一般342);贵州省研究生教育教学改革重点项目(黔教合YJSJGKT[2021]018);贵州省教育厅自然科学研究资助项目(黔教技[2022]015);贵州省模式识别与智能系统重点实验室2022年度开放课题资助项目(GZMUKL[2022]KF03).

作者简介 About authors

肖洪湖(1998—),男,硕士生,从事深度学习与多任务学习研究.orcid.org/0009-0007-0832-0091.E-mail:2143821719@qq.com , E-mail:2143821719@qq.com

摘要

针对多任务学习(MTL)中因泛化监督信号不稳健导致MTL过拟合的问题,提出多深度相互学习(MDML)算法. 在2个多任务网络的更新中引入模仿损失,将多任务学习建模为相互学习问题. 在2个多任务网络中引入模仿损失函数,通过任务输出来确定,对2个多任务网络中同一任务的不同输出进行对齐,得到模仿损失. MDML算法根据加权方案对传统监督学习损失与模仿损失进行损失融合,更新2个多任务网络. 在NYUv2和Cityscapes数据集上的实验结果表明,利用MDML算法,有效解决了多任务网络中泛化监督信号不稳健的问题,降低了多任务网络过拟合.

关键词: 多深度相互学习 ; 多任务学习 ; 相互学习 ; 模仿损失 ; 泛化监督信号

Abstract

A multi-depth mutual learning (MDML) algorithm was proposed to address the issue of overfitting in multi-task learning caused by unstable generalization supervision signal. The mimicry loss was introduced into the update of two multi-tasking networks, and the multi-task learning problem was formulated as a mutual learning problem. The mimicry loss function was introduced into the two multi-task networks. The mimicry loss function was determined by the task output, and the mimicry loss was obtained by aligning the output of the same task from the two multi-task networks. The conventional supervised learning loss and mimicry loss were combined according to the weighting scheme, and the two multi-task networks were updated by the MDML algorithm. The experimental result on the NYUv2 and Cityscapes dataset showed that the MDML algorithm effectively solved the issue of unstable generalization supervision signal in multi-task network, thereby reducing overfitting of multi-task network.

Keywords: multi-depth mutual learning ; multi-task learning ; mutual learning ; mimicry loss ; generalized supervised signal

PDF (892KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

肖洪湖, 黄成泉, 周训会, 董红来, 周丽华. 基于深度互学的多任务学习. 浙江大学学报(工学版)[J], 2026, 60(6): 1231-1239 doi:10.3785/j.issn.1008-973X.2026.06.010

XIAO Honghu, HUANG Chengquan, ZHOU Xunhui, DONG Honglai, ZHOU Lihua. Multi-task learning based on deep mutual learning. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(6): 1231-1239 doi:10.3785/j.issn.1008-973X.2026.06.010

深度神经网络(deep neural network, DNN)已成为解决众多计算机视觉问题的主要技术,一般情况下,DNN被训练来解决单个特定任务,例如图像分类[1]、图像分割[2]或目标跟踪[3]. 在现实世界中,通常会面临几个不是孤立的且密切相关的任务[4-5]. 在这种情况下,可以使用多任务学习(multi task learning, MTL)方法[6]来利用任务之间的相互关系,允许在训练数据不足的情况下[7-8]获得相似甚至更好的性能.

在简单实施MTL后,由于一些深层原因(如任务之间存在冲突,多任务网络训练过程中泛化监督信号不稳健),导致模型过拟合[7,9]. 在MTL中,若任务之间的相关性弱[10]或存在冲突,则将导致在多任务网络训练过程中泛化监督信号不稳健. 此外,导致多任务网络训练过程中泛化监督信号不稳健的因素还包括模型大小和虚假相关特征(导致模型在训练集上表现良好,但在测试集上性能显著下降). 现有的MTL方法大多着力于解决任务之间存在的冲突,主要有任务损失的加权方案[11-13]、梯度操纵[14-15]和蒸馏驱动多任务优化[9,16].

在图像识别领域,深度相互学习[17](deep mutual learning, DML)及其衍生方法[18]强调多网络间的对等协作与信息共享. Zhang等[17]指出,每个网络从不同的初始条件开始学习不同的表示,因此它们对下一个最有可能的类的概率估计结果不同. DML根据每个训练实例的同类找出并匹配其他最有可能的类,在网络训练过程中增加每个学生网络的后验熵,提供持续且稳健的泛化监督信号,有助于它们收敛到更鲁棒的最小值,从而更好地泛化到测试数据.

在MTL训练过程中,泛化监督信号不稳健问题的原因有模型大小、任务之间存在的冲突和虚假相关特征. 针对MTL训练过程中泛化监督信号不稳健的问题,本文将应用在单任务设置中的DML扩展到多任务设置,提出多深度相互学习(multi-deep mutual learning, MDML)算法,其中任务之间的模仿损失不均衡. 在Cityscapes和NYUv2数据集上的实验表明,MDML算法的性能良好,可以有效降低多任务网络过拟合.

1. 多深度相互学习MDML

1.1. 经典MTL优化

经典的MTL通过同时训练一个共享模型实现多个任务的优化,每个任务有特定的损失函数,优化目标是对所有任务的损失函数进行组合并优化,以更新参数. 任务损失的加权方案通过静态预定义或动态地设置各个任务的损失权重,调控不同任务在所有任务中的影响力. Liu等[12]提出动态权重平均(dynamic weight average, DWA)的方法,通过考虑每个任务的损失变化率,随迭代次数变化得到平均任务权重. 在加权方案DWA中,将任务n的权重$ {\lambda }_{n} $定义为

$ {\lambda }_{n}(t)=N\frac{\exp \left(\dfrac{{w}_{n}(t-1)}{{T}}\right)}{\displaystyle \sum\limits_{h=1}^{N}\exp \left(\dfrac{{w}_{h}(t-1)}{{T}}\right)},{w}_{n}(t-1)=\dfrac{L_{\mathrm{C}}^{n}(t-1)}{L_{\mathrm{C}}^{n}(t-2)}. $

式中:$ {\lambda }_{n}(t) $为第t次迭代时任务n的损失权重,N为任务数量,T为控制任务权重的温度[19]$ {w}_{n}(\cdot ) $为(0,$ \infty $)范围内传统监督学习损失的相对下降率,$ L_{\text{C}}^{n}(t) $为第t次迭代时任务n的传统监督学习损失. 在加权方案DWA中,T按照文献[12]取1.0.

Liu等[13]提出快速自适应多任务优化算法(fast adaptive multitask optimization, FAMO),利用历史损失来更新任务权重,确保所有任务的优化进度大致相同,避免计算所有任务梯度. 具体地,当给定任务损失$ \{{l}_{n}\}_{n=1}^{N} $、学习率$ \alpha $、默认衰减率$ \gamma $=0.001和任务权重Logits值$ {{\boldsymbol{d}}}$时,计算${\boldsymbol{z}}\left( t \right) = {\rm{Softmax }}\left( {{\boldsymbol{d}}\left( {{t}} \right)} \right) $,例如

可得任务权重Logits值的更新式:

$ \left.\begin{aligned} & {{\boldsymbol{d}}}(t+1)={{\boldsymbol{d}}}(t)-\alpha ({{\boldsymbol{\delta}} }(t)+\gamma {{\boldsymbol{d}}}(t)),\\&{{\boldsymbol{\delta}} }(t)= {\left[\begin{array}{c}{\nabla }^{\rm{T}}{z}_{1}(t){{\boldsymbol{d}}}(t)\\\vdots \\{\nabla }^{\rm{T}}{z}_{N}(t){{\boldsymbol{d}}}(t)\end{array}\right]}^{{{}^{\rm{T}}}}\left[\begin{array}{c}\ln {{l}}_{1}(t)-\ln {l}_{1}(t+1)\\\vdots \\\ln {{l}}_{N}(t)-\ln {l}_{N}(t+1)\end{array}\right]\text{.}\end{aligned} \right\}$

式中:$ {{\boldsymbol{d}}}(t+1) $为第t+1次迭代时的任务权重Logits值,$ {l}_{n}(t) $为第t次迭代时任务n的总损失.

1.2. 相互学习

在深度学习和知识蒸馏的背景下,DML旨在学习得到规模小但功能强的DNN,它们从一批未训练的网络开始,同时学习解决任务. 具体地,给定2个网络$ {{\boldsymbol{\theta}} }_{1} $$ {{\boldsymbol{\theta}} }_{2} $,每个网络接受2个损失函数的训练:一个是传统监督学习损失$ {L}_{\mathrm{C}1} $$ {L}_{\mathrm{C}2} $,另一个是模仿损失$ {D}_{{\mathrm{KL}}}({p}_{2}\parallel {p}_{1}) $$ {D}_{{\mathrm{KL}}}({p}_{1}\parallel {p}_{2}) $,模仿损失将每个学生网络的类别后验概率与其他学生网络的类别概率保持一致.

为了提高网络$ {{\boldsymbol{\theta}} }_{1} $在测试集上的泛化性能,Zhang等[17]提出使用另一个对等网络$ {{\boldsymbol{\theta}} }_{2} $,以后验概率$ {p}_{2} $的形式提供训练经验. 在类别任务上,网络$ {{\boldsymbol{\theta}} }_{1} $$ {{\boldsymbol{\theta}} }_{2} $的总体损失函数可以由传统监督学习损失与模仿损失求和$ {L}_{\mathrm{C}1}+{D}_{\rm{KL}}({p}_{2}\parallel {p}_{1}) $$ {L}_{\mathrm{C}2}+{D}_{\rm{KL}}({p}_{1}\parallel {p}_{2}) $得到. 其中,$ {D}_{\rm{KL}}({p}_{2}\parallel {p}_{1}) $$ {D}_{\rm{KL}}({p}_{1}\parallel {p}_{2}) $分别为网络$ {{\boldsymbol{\theta}} }_{1} $$ {{\boldsymbol{\theta}} }_{2} $之间的单向Kullback Leibler(KL)散度,用以量化2个网络预测$ {p}_{1} $$ {p}_{2} $的匹配度.

1.3. 针对MTL的相互学习

为了在多任务网络的训练过程中学习稳健的泛化监督信号,MDML将单任务设置中的相互学习扩展到多任务. 具体地,MDML在计算多个任务传统监督学习损失的同时,计算2个多任务网络之间各个任务的模仿损失,促进2个多任务网络相互学习.

计算模仿损失的对齐函数,在类别和实例识别任务中使用单向或对称KL散度. 该对齐函数已经成功应用于部分工作中[17,20],用于强制每个学生网络的类别后验概率与其他学生网络的类别概率保持一致[17],或强制Dropout生成的不同子模型的输出分布[20]彼此一致. 在MTL中,由于不同任务具有不同的输出形式,具体地,语义分割输出是分类分布,深度估计是回归输出,表面法线估计输出是归一化的方向向量. 这表示不是所有任务的输出都适合用KL散度对齐,一般情况下,语义分割使用对称KL散度对齐,深度估计使用均方误差(mean squared error, MSE)函数对齐2个多任务网络的深度输出,表面法线估计使用余弦相似度衡量方向一致性. 图1给出MDML同时训练3个任务时的结构图.

图 1

图 1   多深度相互学习算法的结构图

Fig.1   Structure of multi-deep mutual learning algorithm


MDML算法在第t次迭代训练中遵循的过程如下.

1)对于每个多任务网络$ {\boldsymbol{\theta}} $和任务n,计算2个多任务网络$ {{\boldsymbol{\theta}} }_{1} $$ {{\boldsymbol{\theta}} }_{2} $的传统监督学习损失集$ \{L_{{\mathrm{C}}{1}}^{n}(t)\}_{n=1}^{N} $$ \{L_{{\mathrm{C}}{2}}^{n}(t)\}_{n=1}^{N} $. 除使用加权方案DWA和FAMO之外,还使用相互学习权重(mutual learning weighting, MLW)解决MTL中的梯度冲突问题. 受线上知识蒸馏(online knowledge distillation, OKD)方法[16]中线上任务权重(online task weighting, OTW)的启发,将任务加权用于多任务网络$ {{\boldsymbol{\theta}} }_{1} $$ {{\boldsymbol{\theta}} }_{2} $的同时学习过程,可以使2个网络同时使用任务特定损失的线性组合进行训练. 假设迭代t时多任务网络$ {{\boldsymbol{\theta}} }_{1} $$ {{\boldsymbol{\theta}} }_{2} $的第n个任务的传统监督学习损失为$ L_{{\mathrm{C}}{1}}^{n}(t) $$ L_{{\mathrm{C}}{2}}^{n}(t) $,第n个任务在迭代t时的任务权重MLW可以由网络$ {{\boldsymbol{\theta}} }_{1} $$ {{\boldsymbol{\theta}} }_{2} $损失之比的温度尺度Softmax函数定义,即MLW定义为

$ {\lambda }_{n}(t)=N\frac{\exp \left(\dfrac{m_{t}^{n}}{{T}}\right)}{\displaystyle \sum\limits_{h=1}^{N}\exp \left(\dfrac{m_{t}^{h}}{{T}}\right)},\;m_{t}^{n}=\max \left\{\dfrac{L_{{\mathrm{C}}{1}}^{n}(t)}{L_{{\mathrm{C}}{2}}^{n}(t)},\dfrac{L_{{\mathrm{C}}{2}}^{n}(t)}{L_{{\mathrm{C}}{1}}^{n}(t)}\right\}. $

式中:$ m_{t}^{n} $为第t次迭代时第n个任务在2个网络上的最大损失比. 在加权方案MLW中,T取0.1.

2)计算多任务网络的模仿损失. 2个网络$ {{\boldsymbol{\theta }}}_{1} $$ {{\boldsymbol{\theta}} }_{2} $在语义分割任务$ L_{\mathrm{M}}^{1}(t) $、深度估计任务$ L_{\mathrm{M}}^{2}(t) $和表面法线估计任务$ L_{\mathrm{M}}^{3}(t) $上的模仿损失定义为

$ \begin{split} L_{\mathrm{M}}^{1}(t)=&\frac{1}{B}\sum\limits_{i=1}^{B}\Bigg\{\frac{1}{2}\Big[{D}_{\rm{KL}}(P_{2}^{1}(y_{i}^{1}|{x}_{i})\parallel P_{1}^{1}(y_{i}^{1}|{x}_{i}))+\\& {D}_{\rm{KL}}(P_{1}^{1}(y_{i}^{1}|{x}_{i})\parallel P_{2}^{1}(y_{i}^{1}|{x}_{i}))\Big]\Bigg\},\end{split} $

$ L_{\mathrm{M}}^{2}(t)=\frac{1}{B}\sum\limits_{i=1}^{B}\left[P_{2}^{2}(y_{i}^{2}|{x}_{i})-P_{1}^{2}(y_{i}^{2}|{x}_{i})\right]^{2},$

$ \begin{split}L_{\mathrm{M}}^{3}(t)=&1-\frac{1}{B}\sum\limits_{i=1}^{B}\cos \_ \mathrm{sim}_{i}=\\&1-\frac{1}{B}\sum\limits_{i=1}^{B}\frac{{\boldsymbol{P}}_{2}^{3}(y_{i}^{3}|{x}_{i})\cdot {\boldsymbol{P}}_{1}^{3}(y_{i}^{3}|{x}_{i})}{\left\|{\boldsymbol{P}}_{2}^{3}(y_{i}^{3}|{x}_{i})\right\| \left\|{\boldsymbol{P}}_{1}^{3}(y_{i}^{3}|{x}_{i})\right\|}.\end{split} $

式中:B为批量大小,$\{ P_1^n\} _{n = 1}^2 $$\{ P_2^n\} _{n = 1}^2 $分别为2个多任务网络的语义分割任务输出和深度估计任务输出,${\boldsymbol{P}}_1^3 $$ {\boldsymbol{P}}_2^3$为2个多任务网络的表面法线估计任务输出,$ \cos \_ {{\mathrm{sim}}}_{i} $为余弦相似度函数,$ \left|\left|\cdot \right|\right| $为向量的范数. 语义分割任务$ L_{\mathrm{M}}^{1}(t) $使用对称KL散度来对齐2个网络在语义分割任务上的输出,深度估计任务$ L_{\mathrm{M}}^{2}(t) $使用MSE函数来对齐2个网络的深度输出,表面法线估计任务$ L_{\mathrm{M}}^{3}(t) $使用余弦相似度来衡量2个网络的输出. 随着训练不断演进,获得的3个任务的模仿损失均越小越好,考虑到任务损失与模仿损失(或是不同任务之间的模仿损失)的量级差异,需要在模仿损失上加以适当的权重$ {\mu }_{n} $来平衡上述2种情况. 若通过加权方案DWA或MLW来解决任务之间存在的冲突,则最终的损失函数可由$ L_{{\mathrm{C}}{j}}^{n} $$ L_{\mathrm{M}}^{n} $的线性组合得到:

$ {{L}}_{{{\theta }_{j}}}(t)=\sum\limits_{n=1}^{N}\left[{\lambda }_{n}(t)L_{{\mathrm{C}}{j}}^{n}(t)+{\mu }_{n}L_{\mathrm{M}}^{n}(t)\right]. $

否则(加权方案为FAMO),最终的损失函数$ {l}_{n}(t) $可由$ L_{\mathrm{C}}^{n}(t) $与加权后的$ L_{\mathrm{M}}^{n}\text{(}t\text{)} $组合得到,$ {l}_{n}(t)=L_{\mathrm{C}}^{n}(t)+ {\mu }_{n}L_{\mathrm{M}}^{n}(t) $.

MDML算法的伪代码如下.

算法1 多深度相互学习(MDML)算法

输入:训练集xN个标签集$ \{{\boldsymbol{y}}_{n}\}_{n=1}^{N} $,全局学习率$ \eta $.

初始化:将网络$ {{\boldsymbol{\theta}} }_{j} $(j取1和2)初始化为不同条件,设置迭代次数t = 0.

重复:

1)$ t $ = $ t $+1

2)从数据集x中随机采样小批量样本$ \{{x}_{i}\}_{i=1}^{B} $.

3)计算网络$ {{\boldsymbol{\theta}} }_{j} $N个任务输出.

4)计算网络$ {{\boldsymbol{\theta}} }_{j} $的传统监督学习损失集$ \{L_{{\mathrm{C}}{j}}^{n}(t)\}_{n=1}^{N} $.

5)通过式(4)~(6)计算网络$ {{\boldsymbol{\theta}} }_{j} $的模仿损失集$ \{L_{\mathrm{M}}^{n}(t)\}_{n=1}^{N} $. 若加权方案是DWA或MLW,则用式(1)(或式(3))、(7)计算总损失$ {{L}}_{{{{\boldsymbol{\theta}} }_{j}}} $,并用式(8)更新$ {{\boldsymbol{\theta}} }_{j} $;否则(加权方案FAMO),采用式(2)更新任务权重Logits值,并用式(9)更新$ {{\boldsymbol{\theta}} }_{j} $.

$ {{\boldsymbol{\theta}} }_{j}(t+1)\leftarrow {{\boldsymbol{\theta}} }_{j}(t)+\eta \frac{\partial {{L}}_{{{{\boldsymbol{\theta}} }_{j}}}(t)}{\partial {{\boldsymbol{\theta}} }_{j}(t)}. $

$\left.\begin{split} &{{\boldsymbol{\theta}} }_{j}(t+1)\leftarrow {{\boldsymbol{\theta}} }_{j}(t)-\eta \sum\limits_{n=1}^{N}\left(c(t)\frac{{z}_{n}(t)}{{l}_{n}(t)}\right)\nabla {l}_{n}(t),\\ &c(t)={\left(\sum\limits_{n=1}^{N}\frac{{z}_{n}(t)}{{l}_{n}(t)}\right)}^{-1}.\end{split} \right\}$

直到:收敛

2. 实验及结果分析

在计算机视觉MTL的背景下,对提出的方法进行验证和研究,使用不同的多任务设置和真实世界数据集开展实验. 为了评估提出方法相对于其他方法的优劣,对几种对标算法开展相同的实验,包括加权方案DWA[12]、FAMO[13]以及蒸馏驱动多任务优化方法OKD[16]. 根据相互学习的特点,受到OTW的启发,提出MLW方案. 为了对不同方案进行比较,考虑到训练过程的随机性,所有实验都使用5个不同的随机种子重复5次,对独立使用加权方案DWA(或FAMO、OTW)的网络进行实验,实验结果用Independent表示. 为了评估最佳方法与其他方法之间的差异是否具有统计学意义,对每个指标结果使用配对样本的t检验进行检验,所有定量结果均以平均值±标准偏差的形式呈现.

2.1. 数据集、任务和网络架构

在NYUv2[21]和Cityscapes[22]2个公共数据集上,对提出的方法进行评估. NYUv2数据集专注于室内场景理解,提供由语义分割、单目深度估计和表面法线估计组成的多任务场景. Cityscapes数据集是城市场景理解领域的标准数据集之一,具有高分辨率的图像和精细的语义标注,适合多种计算机视觉任务,该数据集用于评估语义分割(7个标签)和单目深度估计2个任务的性能.

为了排除DNN类型对实验的干扰,使用DeepLab[23-24]作为任务特定网络. 所提MDML方法是由2个未经训练的学生网络开始训练,后续需要观察MDML在预训练网络上的效果. 对于多任务网络主干,采用从头开始训练的方式进行训练,使用在ImageNet[25]数据集上预训练所得的残差网络ResNet-18和ResNet-34[26]进行训练.

DeepLabV3[24]网络是对DeepLabV2[23]网络的改进,核心思想是利用空洞卷积增强感受野,通过多尺度特征融合提升语义分割的效果. 为了便于描述,将DeepLabV3与残差网络ResNet-18和ResNet-34的结合分别用Net 1(DeeplabV3-18)和Net 2(DeeplabV3-34)表示.

2.2. 训练细节和评估指标

参照文献[12]的训练方法进行实验. 利用所提MDML方法,采用从头开始进行训练和使用ResNet-18和ResNet-34进行训练的方式,因此当MDML从头开始进行训练时,按照文献[27]进行网络随机初始化. MDML采用Adam算法[28],批大小为4. 为了保证网络收敛,当采用ResNet-18和ResNet-34进行训练时训练轮次设置为130,当采用从头开始训练的方式时训练轮次设置为200. 对传统监督学习损失和模仿损失进行分析,将分割、深度和法线的模仿损失权重分别设置为0.000 1、10和10. 全局学习率$ \eta $参照文献[12,13,16]取为10−4,以保证模型训练的公平性.

与文献[12]一致,语义分割评估指标采用平均交并联(mIoU)和像素精度(pAcc),深度估计指标采用绝对误差(abs)和相对误差(rel),表面法线估计指标采用平均角偏差(Mean)和中值角偏差(Median).

2.3. 实验结果

为了验证MDML算法的实际性能,从头开始训练网络Net 1和Net 2,在数据集Cityscapes和NYUv2上对不同方法进行实验,结果如表12所示. 其中,语义分割指标结果越大越好,深度估计指标结果越小越好,表面法线估计指标结果越小越好. 使用预训练网络Net 1和Net 2,在数据集NYUv2上对不同方法进行实验,结果如表3所示. 表1~3中,粗体表示每个加权方案中每个评估指标平均值的最佳结果,星号(*或**)表示最佳结果与其他结果之间的差异是否具有统计学意义,其中*表示p < 0.05,**表示p < 0.01. 加权方案OTW&MLW表示当使用对比方法OKD时采用加权方案OTW,当使用MDML算法时采用提出的加权方案MLW.

表 1   各方法用从头开始训练网络Net 1和Net 2在数据集Cityscapes上的结果

Tab.1  Result with network Net 1 and Net 2 trained from scratch on Cityscapes dataset for different methods

加权方案方法网络语义分割深度估计
mIoU/%pAcc/%absrel/%
DWAIndependentNet 172.70±0.1192.75±0.040.0158±0.00319.8475±0.0017
Net 273.33±0.1292.98±0.040.0156±0.001210.9579±0.0012
MDMLNet 1**75.16±0.16**93.65±0.050.0157±0.00169.3845±0.0017
Net 174.96±0.1293.62±0.030.0158±0.00189.6220±0.013
MDMLNet 274.93±0.3393.64±0.080.0156±0.00229.9440±0.0013
Net 274.82±0.3593.64±0.080.0157±0.00249.9031±0.0018
FAMOIndependentNet 174.48±0.1993.25±0.060.0149±0.00128.5942±0.0017
Net 274.46±0.2193.25±0.060.0149±0.001410.8209±0.0018
MDMLNet 175.10±0.1793.65±0.180.0152±0.00138.6379±0.0013
Net 175.25±0.1493.73±0.060.0150±0.00118.4862±0.0017
MDMLNet 275.11±0.1493.73±0.080.0148±0.00158.8535±0.0018
Net 2**75.31±0.29*93.74±0.130.0150±0.00138.5065±0.0015
OTW&MLWIndependent (OKD)Net 172.62±0.3592.63±0.140.0154±0.00118.7886±0.0016
Net 273.17±0.2592.91±0.210.0152±0.000210.0187±0.0017
MDMLNet 1**75.14±0.2493.67±0.040.0157±0.00128.8345±0.0012
Net 175.07±0.2193.65±0.060.0157±0.00118.8424±0.0014
MDMLNet 275.00±0.1593.66±0.040.0157±0.00119.7004±0.0016
Net 275.02±0.13**93.68±0.020.0155±0.00129.8319±0.0023

新窗口打开| 下载CSV


表 2   各方法用从头开始训练网络Net 1和Net 2在数据集NYUv2上的结果

Tab.2  Result with network Net 1 and Net 2 trained from scratch on NYUv2 dataset for different methods

加权方案方法网络语义分割深度估计表面法线估计
mIoU/%pAcc/%absrel/%MeanMedian
DWAIndependentNet 131.23±0.1457.55±0.030.6479±0.00180.2472±0.001631.90±0.0725.91±0.05
Net 231.35±0.1257.59±0.050.6580±0.00140.2522±0.002131.95±0.0625.87±0.09
MDMLNet 136.50±0.2662.41±0.130.5780±0.0016**0.2184±0.001828.96±0.0524.25±0.07
Net 1**36.51±0.25**62.50±0.01**0.5757±0.00140.2201±0.0017**28.91±0.09**24.22±0.12
MDMLNet 235.48±0.3561.58±0.080.5822±0.00240.2208±0.001229.49±0.1224.88±0.07
Net 235.53±0.2861.61±0.090.5804±0.00240.2226±0.001529.41±0.0724.78±0.07
FAMOIndependentNet 132.41±0.2158.82±0.020.6364±0.00320.2473±0.001430.06±0.0423.41±0.09
Net 233.03±0.2859.42±0.010.6481±0.00340.2493±0.001629.86±0.0822.90±0.06
MDMLNet 136.46±0.2562.61±0.060.5733±0.00160.2149±0.001927.57±0.0722.25±0.07
Net 1**36.88±0.25**62.96±0.02**0.5693±0.0018**0.2148±0.0021**27.44±0.06**22.04±0.07
MDMLNet 234.17±0.3160.87±0.180.5849±0.00170.2216±0.001828.52±0.0423.44±0.06
Net 234.32±0.2461.03±0.190.5903±0.00180.2236±0.001928.53±0.0823.47±0.09
OTW&MLWIndependent (OKD)Net 130.94±0.1457.04±0.170.6336±0.00190.2458±0.002231.24±0.0524.92±0.05
Net 231.23±0.2757.50±0.070.6439±0.00130.2494±0.001930.63±0.08*23.96±0.06
MDMLNet 136.38±0.3862.41±0.16**0.5740±0.00270.2197±0.001528.85±0.0624.11±0.05
Net 1**36.40±0.43**62.42±0.120.5795±0.0028**0.2194±0.0015**28.84±0.0924.10±0.07
MDMLNet 235.27±0.2561.63±0.190.5851±0.00260.2216±0.001229.46±0.0624.83±0.08
Net 235.61±0.2961.79±0.140.5819±0.00450.2229±0.001329.51±0.0324.86±0.09

新窗口打开| 下载CSV


表 3   各方法用预训练网络Net 1和Net 2在数据集NYUv2上的结果

Tab.3  Result of pre-trained network Net 1 and Net 2 on NYUv2 dataset for different methods

加权方案方法网络语义分割深度估计表面法线估计
mIoU/%pAcc/%absrel/%MeanMedian
DWAIndependentNet 147.54±0.2570.84±0.090.5198±0.00230.1987±0.001426.02±0.0219.58±0.04
Net 250.83±0.2373.65±0.090.5113±0.00250.1933±0.001924.52±0.03*18.06±0.05
MDMLNet 151.40±0.1574.04±0.150.4726±0.00210.1720±0.001125.02±0.0620.16±0.02
Net 151.09±0.2473.77±0.140.4739±0.00280.1722±0.00225.03±0.0720.12±0.06
MDMLNet 253.19±0.2775.03±0.150.4658±0.00270.1682±0.001624.30±0.0819.50±0.03
Net 2**53.24±0.25**75.23±0.15**0.4611±0.0027**0.1666±0.0022**24.26±0.0219.49±0.08
FAMOIndependentNet 147.35±0.3670.62±0.040.5269±0.00150.1988±0.002525.09±0.0918.36±0.07
Net 251.12±0.3173.73±0.160.5186±0.00120.1925±0.001523.46±0.03*16.88±0.04
MDMLNet 151.30±0.2273.82±0.120.4765±0.00160.1719±0.001723.64±0.0818.21±0.02
Net 151.18±0.3173.91±0.090.4783±0.00160.1731±0.001223.59±0.0818.12±0.09
MDMLNet 253.37±0.29**75.45±0.16**0.4690±0.00120.1678±0.002222.64±0.0417.25±0.06
Net 2**53.67±0.2575.42±0.180.4738±0.0017**0.1672±0.0018**22.62±0.0217.20±0.02
OTW&MLWIndependent (OKD)Net 147.87±0.3271.17±0.120.5115±0.00150.1961±0.001224.52±0.0817.64±0.09
Net 252.01±0.1974.35±0.120.5044±0.00190.1894±0.0016**22.84±0.05**16.18±0.06
MDMLNet 151.32±0.2773.98±0.140.4838±0.00120.1751±0.001524.96±0.0720.11±0.03
Net 151.31±0.1974.02±0.050.4773±0.00170.1736±0.001124.93±0.0520.03±0.08
MDMLNet 2**53.59±0.27**75.49±0.15**0.4563±0.0019**0.1651±0.001324.12±0.0719.09±0.05
Net 253.29±0.3175.44±0.140.4589±0.00170.1682±0.001524.15±0.0719.32±0.02

新窗口打开| 下载CSV


图 2

图 2   MDML算法和OKD算法在各项任务上的训练损失和测试损失变化结果

Fig.2   Variation result of training loss and testing loss for MDML algorithm and OKD algorithm on different task


表1可知,在3种梯度冲突解决方案中,MDML在数据集Cityscapes上开展语义分割任务能够取得更好的结果,且最好的结果与其他结果之间的差异具有统计学意义. 在深度估计任务上,最好的结果与其他结果之间差异不大. 造成这些结果的原因可能如下. 1)任务本身的复杂度与信息需求不同,语义分割任务要求模型学习到类别相关的高层语义信息,而深度估计任务更多依赖低层次的边缘、纹理、梯度变化等. 2)Cityscapes数据集的场景规则性强,深度估计分布规律相对稳定,模型容易记住或拟合这种分布.

表2可知,MDML在从头开始训练网络上获得最优的性能. 与使用加权方案DWA或FAMO的网络进行对比,MDML在所有任务中明显优于对比方法Independent,且最优结果与其他结果之间的差异具有统计学意义. 在使用加权方案OTW&MLW的网络中,MDML在语义分割任务和深度估计任务上的性能优于对比方法OKD. OKD在网络Net 1和Net 2上获得的结果差异不大. 当采用从头开始训练网络Net 1和Net 2的方式时,MDML在Net 1上获得的结果明显优于Net 2上的结果.

表3可以看出,MDML在使用加权方案DWA和FAMO时取得最优的结果. 对于语义分割任务和深度估计任务,最优结果都在MDML(Net 2)上取得,这与使用从头开始训练网络的方式不同(最优结果在MDML(Net 1)上获得). 对于表面法线任务,指标Mean和Median在OKD(Net 2)上获得最优结果. 从表2可以看出,指标Median在加权方案OTW&MLW上的最优结果是在Independent(Net 2)上获得. 造成这些结果的原因可能如下. 1)MDML使用从头开始训练网络的方式更有效. 2)OKD将分割、深度和表面法线的蒸馏损失权重分别设为1、1和2,预训练的单任务网络(教师网络)为OKD(学生网络)提供了更多支持. 与从头开始训练网络的方式相比,使用预训练网络时所有方法的整体性能都有所提升,如加权方案FAMO在Independent(Net 1)上的mIoU平均提高了46.09%,abs平均提高了17.21%,Mean平均提高了16.53%,这说明预训练网络的使用对各学习任务有影响.

为了说明各比较方法的模型复杂度,表4给出表23中各个方法的平均每轮训练时间ttr与总参数量Np. 其中,MDML(Net 1&Net 1)和MDML(Net 2&Net 2)分别表示MDML算法在网络架构Net 1和Net 2上所得的模型. 从表4可知,在使用加权方案DWA和FAMO的从头开始训练网络和预训练网络中,MDML总参数量是相应Independent总参数量的2倍,但MDML平均每轮训练时间小于Independent平均每轮训练时间的2倍. 在使用加权方案OTW&MLW的从头开始训练网络和预训练网络中,MDML平均每轮训练时间和总参数量均优于Independent(OKD). 这表明所提MDML算法具有较低的模型复杂度.

表 4   各方法在NYUv2数据集上的模型复杂度比较

Tab.4  Comparisons of model complexity of different methods on NYUv2 dataset

加权方案方法网络从头开始训练网络预训练网络
ttr/sNp/106ttr/sNp/106
DWAIndependentNet 113.8396.6916.3496.69
Net 217.18135.2519.05135.25
MDMLNet 1&Net 124.47193.3822.99193.38
MDMLNet 2&Net 228.74270.5022.76270.50
FAMOIndependentNet 117.5196.6916.0596.69
Net 220.81135.2521.45135.25
MDMLNet 1&Net 126.87193.3826.03193.38
MDMLNet 2&Net 232.98270.5035.70270.50
OTW&MLWIndependent(OKD)Net 138.02200.9936.89200.99
Net 251.48316.6751.24316.67
MDMLNet 1&Net 121.33193.3824.94193.38
MDMLNet 2&Net 216.10270.5022.44270.50

新窗口打开| 下载CSV


2.4. 有效性分析

使用不同的DNN参数设置,可以得到较好的训练效果,但某些参数的设置可使参数值扰动不会急剧改变网络性能[29]. 在从头开始训练网络和预训练网络上,比较MDML算法(本节用加权方案MLW)和OKD算法在3个任务上的训练损失和测试损失的变化,实验结果如图2所示. 其中,LTLV为3个任务上的训练损失和测试损失,$L_{\mathrm{seg}} $$ {L}_{\mathrm{dep}} $$ {L}_{\mathrm{nor}} $分别为在语义分割任务、深度估计任务和表面法线估计任务上的损失函数.

图2可以看出,在语义分割任务上,利用OKD算法,可以很好地拟合训练数据,训练损失接近0,但对测试数据的拟合效果不佳,测试损失较大,训练损失与测试损失的差值较大. 在深度估计任务和表面法线估计任务上,利用OKD算法,可以较好地拟合训练数据和测试数据,训练损失和测试损失较小,但训练损失与测试损失的差值较大. 在3个任务上,利用MDML算法,可以很好地拟合训练数据和测试数据,训练损失与测试损失的差值较小. 实验结果表明,所提MDML方法较OKD方法具有更好的泛化性能. 这是因为所提MDML方法不是简单地寻找最小的训练损失,而是寻找具有稳健的泛化监督信号的参数更新,最终使训练损失与测试损失趋于一致.

3. 结 语

提出MDML算法,旨在多任务网络训练中为每个任务学习稳健的泛化监督信号. MDML算法引入模仿损失函数,将单个任务的相互学习扩展到多个任务的相互学习,解决了线上知识蒸馏OKD需要一定数量的单任务网络作为教师网络进行训练的问题. 在具有多种场景的多任务计算机视觉真实数据集NYUv2和Cityscapes上的实验结果表明, MDML算法能够获得稳健的泛化监督信号的参数更新,从而具有稳健的泛化性能. 未来研究将重点探索不同网络之间的相互学习.

参考文献

袁姮, 于东琪, 高原

面向图像分类的双域特征联合网络

[J]. 模式识别与人工智能, 2025, 38 (4): 325- 340

[本文引用: 1]

YUAN Heng, YU Dongqi, GAO Yuan

Two-domain feature association networks for image classification

[J]. Pattern Recognition and Artificial Intelligence, 2025, 38 (4): 325- 340

[本文引用: 1]

张振利, 胡新凯, 李凡, 等

基于CNN和Efficient Transformer的多尺度遥感图像语义分割算法

[J]. 浙江大学学报: 工学版, 2025, 59 (4): 778- 786

DOI:10.3785/j.issn.1008-973X.2025.04.013      [本文引用: 1]

ZHANG Zhenli, HU Xinkai, LI Fan, et al

Semantic segmentation algorithm for multiscale remote sensing images based on CNN and Efficient Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (4): 778- 786

DOI:10.3785/j.issn.1008-973X.2025.04.013      [本文引用: 1]

顾磊, 夏楠, 江佳鸿, 等

基于时空特征增强的单目标跟踪算法

[J]. 浙江大学学报: 工学版, 2025, 59 (11): 2418- 2429

DOI:10.3785/j.issn.1008-973X.2025.11.021      [本文引用: 1]

GU Lei, XIA Nan, JIANG Jiahong, et al

Single object tracking algorithm based on spatio-temporal feature enhancement

[J]. Journal of Zhejiang University: Engineering Science, 2025, 59 (11): 2418- 2429

DOI:10.3785/j.issn.1008-973X.2025.11.021      [本文引用: 1]

ALMALIOGLU Y, TURAN M, SAPUTRA M R U, et al

SelfVIO: self-supervised deep monocular visual–inertial odometry and depth estimation

[J]. Neural Networks, 2022, 150: 119- 136

DOI:10.1016/j.neunet.2022.03.005      [本文引用: 1]

JIAO L, WANG M, LIU X, et al

Multiscale deep learning for detection and recognition: a comprehensive survey

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2025, 36 (4): 5900- 5920

DOI:10.1109/TNNLS.2024.3389454      [本文引用: 1]

ZHANG Y, YANG Q

A survey on multi-task learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34 (12): 5586- 5609

DOI:10.1109/TKDE.2021.3070203      [本文引用: 1]

HAURUM J B, MADADI M, ESCALERA S, et al. Multi-task classification of sewer pipe defects and properties using a cross-task graph neural network decoder [C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2022: 2806–2817.

[本文引用: 2]

STANDLEY T, ZAMIR A, CHEN D, et al. Which tasks should be learned together in multi-task learning? [C]// International Conference on Machine Learning. [S. l.]: PMLR, 2020: 9120–9132.

[本文引用: 1]

LI W H, BILEN H. Knowledge distillation for multi-task learning [C]//European Conference on Computer Vision. Cham: Springer, 2020: 163–176.

[本文引用: 2]

HU Z, ZHAO Z, YI X, et al. Improving multi-task generalization via regularizing spurious correlation [C]// Advances in Neural Information Processing Systems. New Orleans: MIT Press, 2022: 11450-11466.

[本文引用: 1]

GUO M, HAQUE A, HUANG D A, et al. Dynamic task prioritization for multitask learning [C]// European Conference on Computer Vision. Cham: Springer, 2018: 270–287.

[本文引用: 1]

LIU S, JOHNS E, DAVISON A J. End-to-end multi-task learning with attention [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 1871–1880.

[本文引用: 6]

LIU B, FENG Y, STONE P, et al. FAMO: fast adaptive multitask optimization [C]// Advances in Neural Information Processing Systems. New Orleans: MIT Press, 2023: 57226–57243.

[本文引用: 4]

YU T, KUMAR S, GUPTA A, et al. Gradient surgery for multi-task learning [C]//Advances in Neural Information Processing Systems. Vancouver: MIT Press, 2020, 33: 5824–5836.

[本文引用: 1]

LIU B, LIU X, JIN X, et al. Conflict-averse gradient descent for multi-task learning [C]// Advances in Neural Information Processing Systems. [S. l.]: MIT Press, 2021, 34: 18878–18890.

[本文引用: 1]

JACOB G M, AGARWAL V, STENGER B. Online knowledge distillation for multi-task learning [C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2023: 2359–2368.

[本文引用: 4]

ZHANG Y, XIANG T, HOSPEDALES T M, et al. Deep mutual learning [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4320–4328.

[本文引用: 5]

FAN D, JAGGI M, MENDLER-DÜNNER C. Collaborative learning via prediction consensus [C]// Advances in Neural Information Processing Systems. New Orleans: MIT Press, 2023: 1988–2009.

[本文引用: 1]

HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network [EB/OL]. (2015-03-09)[2025-05-24]. https://arxiv.org/abs/1503.02531.

[本文引用: 1]

LIANG X, WU L, LI J, et al. R-drop: regularized dropout for neural networks [C]// Advances in Neural Information Processing Systems. [S. l.]: MIT Press, 2021, 34: 10890–10905.

[本文引用: 2]

SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGBD images [C]// European Conference on Computer Vision. Florence: Springer, 2012: 746–760.

[本文引用: 1]

CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 3213–3223.

[本文引用: 1]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al

DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40 (4): 834- 848

DOI:10.1109/tpami.2017.2699184      [本文引用: 2]

CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-12-05)[2025-05-24]. https://arxiv.org/abs/1706.05587.

[本文引用: 2]

DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248–255.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770–778.

[本文引用: 1]

HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2016: 1026–1034.

[本文引用: 1]

KINGMA D P, BA J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30)[2025-05-24]. https://arxiv.org/abs/1412.6980.

[本文引用: 1]

KWON J, KIM J, PARK H, et al. ASAM: adaptive sharpness-aware minimization for scale-invariant learning of deep neural networks [C]// International Conference on Machine Learning. [S. l.]: PMLR, 2021: 5905–5914.

[本文引用: 1]

/