浙江大学学报(工学版), 2022, 56(3): 503-509 doi: 10.3785/j.issn.1008-973X.2022.03.009

计算机与控制工程

适用于目标检测的上下文感知知识蒸馏网络

褚晶辉,, 史李栋, 井佩光, 吕卫,

天津大学 电气自动化与信息工程学院,天津 300072

Context-aware knowledge distillation network for object detection

CHU Jing-hui,, SHI Li-dong, JING Pei-guang, LV Wei,

School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China

通讯作者: 吕卫,男,副教授. orcid.org/0000-0002-6566-775X. E-mail: luwei@tju.edu.cn

收稿日期: 2021-09-7  

基金资助: 天津市科技计划项目(18ZXJMTG00020);天津市自然科学基金资助项目(20JCQNJC01210)

Received: 2021-09-7  

Fund supported: 天津市科技计划项目(18ZXJMTG00020);天津市自然科学基金资助项目(20JCQNJC01210)

作者简介 About authors

褚晶辉(1969—),女,副教授,从事计算机视觉方向研究.orcid.org/0000-0001-7926-8824.E-mail:cjh@tju.edu.cn , E-mail:cjh@tju.edu.cn

摘要

针对现有应用于目标检测的知识蒸馏方法难以利用目标周围上下文区域的特征信息,提出适用于目标检测的上下文感知知识蒸馏网络(CAKD Net)方法.该方法能充分利用被检测目标的上下文信息,同时沿空间域和通道域进行信息感知,消除教师网络和学生网络的差异. 该方法包括基于上下文感知的区域提纯模块(CARM)和自适应通道注意力模块(ACAM). CARM利用上下文信息,自适应生成显著性区域的细粒度掩膜,准确消除教师网络和学生网络各自特征响应在该区域的差异;ACAM引入空间−通道注意力机制,进一步优化目标函数,提高学生网络的性能. 实验结果表明,所提方法对模型检测精确率提升超过2.9%.

关键词: 知识蒸馏 ; 通道注意力 ; 模型轻量化 ; 目标检测 ; 深度学习

Abstract

A context-aware knowledge distillation network (CAKD Net) method for object detection was proposed, aiming at the current methods of knowledge distillation for the task of object detection were difficult to use feature information of the surrounding context region of the detection object. The context information of the object was fully used, and the gap between the teacher network and the student network were eliminated by performing information perception along the spatial domain and channel domain simultaneously. A context-aware region modified module (CARM) and an adaptive channel attention module (ACAM) were included in CAKD Net. The context information was used to adaptively form a fine-grained mask of the salient region, and the difference of feature response of the teacher network and student network were precisely eliminated in the region of CARM. A novel spatial-channel attention was used to further optimize the objective function, thereby the performance of the student network was improved in ACAM. Experimental results show that the proposed algorithm improves the mean average precision by more than 2.9%.

Keywords: knowledge distillation ; channel attention ; model compression ; object detection ; deep learning

PDF (927KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

褚晶辉, 史李栋, 井佩光, 吕卫. 适用于目标检测的上下文感知知识蒸馏网络. 浙江大学学报(工学版)[J], 2022, 56(3): 503-509 doi:10.3785/j.issn.1008-973X.2022.03.009

CHU Jing-hui, SHI Li-dong, JING Pei-guang, LV Wei. Context-aware knowledge distillation network for object detection. Journal of Zhejiang University(Engineering Science)[J], 2022, 56(3): 503-509 doi:10.3785/j.issn.1008-973X.2022.03.009

深度卷积神经网络(convolutional neural networks,CNN)以其突出的性能被广泛应用在目标检测任务上[1-3],然而庞大的模型参数和沉重的计算负担严重限制目标检测算法在移动机器人、车载摄像头边缘设备上的应用. 随着深度学习技术的发展,采用知识蒸馏(knowledge distillation,KD)技术对模型进行压缩,可以实现知识迁移与网络精简. 在人工智能逐步从理论研究走向大规模应用的背景下,如何利用知识蒸馏进行有效模型压缩已成为倍受关注且具有挑战性的研究热点.

知识蒸馏最早是针对分类任务提出并广泛应用的,该方法以较小的精度损失为代价,将较大的教师模型的知识传递给较小的学生模型,通过最小化教师模型和学生模型间的差异性,使小模型具备良好的性能[4-8]. 广义上,这种差异性表现为教师模型和学生模型在表征能力上的鸿沟,包含结构、数值、特征等多种差异. 因为目标检测任务需要在准确定位的基础上进行分类,所以当把知识蒸馏直接应用于目标检测任务上时,目标区域的差异性会被淹没在过多的非目标区域中,使得优化目标被掩盖,模型难以收敛,传统知识蒸馏方法不再行之有效. 因此,确定优化目标成为知识蒸馏在目标检测任务上应用的关键.

在应用于目标检测的知识蒸馏方法中,Romero等[9]提出将教师网络和学生网络在高层特征响应上的差异作为优化目标的方法,通过最小化2种特征响应的差异,成功将知识蒸馏应用在目标检测任务上. 在此基础上,Wang等[10]考虑到内在位置的差异,利用锚框在空间域上约束教师网络和学生网络特征响应的范围,将内在位置差异作为优化目标,提升知识蒸馏的效率,显著提高目标检测效率. 然而,上述方法均忽略通道域差异,并且在生成待优化差异目标时,空间域上使用大尺度矩形边界框,不能很好地匹配被检测目标的通道特性及位置形状,导致学生网络在学习过程中仍然包含大量非目标区域的干扰.

为了更好地提纯目标检测任务中知识蒸馏的优化目标,本研究综合考虑被检测目标的上下文信息与高级语义特征生成的通道信息,提出适用于目标检测的新型上下文感知知识蒸馏网络(context-aware knowledge distillation network,CAKD Net),并设计新颖的损失函数,提高知识蒸馏的效率. CAKD Net由基于上下文感知的区域提纯模块(context-aware region modified module,CARM)和自适应通道注意力模块(adaptive channel attention module,ACAM)组成. CARM可以根据被检测目标自适应地提取出匹配目标形状的细粒度区域,从空间域上有效约束优化目标,去除非目标区域的干扰;ACAM利用自注意力机制将空间上的差异性转换到通道域进行交互,形成新的空间−通道注意力,从通道域优化知识蒸馏的目标函数.

1. CAKD Net

图1所示为CAKD Net的概况. 图中,将待检测的图片数据同时输入教师网络和学生网络进行前向传播,经过CARM和ACAM的处理后生成新的目标函数用于学生网络的反向传播,通过不断优化该目标函数提升学生网络的性能.

图 1

图 1   适用于目标检测的上下文感知知识蒸馏网络概况图

Fig.1   Overview of context-aware knowledge distillation network


1.1. 基于上下文感知的区域提纯模块

基于锚框的检测器的知识蒸馏方法大多数使用区域候选网络(region proposal network,RPN)生成的边界框来限定优化目标. RPN是基于锚框的检测器的重要组成部分,它为后续的检测任务和分类任务生成粗略的候选区域[11-12]. 事实上,这种粗粒度的候选区域是由矩形或多个矩形组成的,包含大量的背景区域,不能反映被检测目标的真实形状. 检测网络从这样冗杂的特征中捕捉被检测目标时,准确性较低. 因此,仅通过区域候选网络生成的候选区域,约束教师网络和学生网络在特征响应上的差异很难提高知识蒸馏的效率.

图2所示,为了从空间上更加明确地定位到优化区域,CARM根据被检测目标自适应地提取匹配目标形状的细粒度区域. 该模块在RPN产生的粗粒度候选区域的基础上,将粗粒度候选区域中与真实标签交并比(intersection over union,IoU)小于阈值的部分视为噪声区域,并对候选区域进行二值化得到预处理掩膜,将预处理掩膜映射到教师网络对应的特征图上,提取自适应细粒度掩膜. 其中IoU阈值参照文献[10]设置为0.5. 自适应细粒度掩膜提取步骤如下. 1)对预处理掩膜R进行填充操作,减少由于预处理造成的检测目标的边缘信息损失. 2)使用特征图的最大值减去特征图本身,将其结果称为注意力图M,由此可获得以特征图最大值为山谷的等高线图,使得后续步骤尽可能不受输入图像亮度的影响,并采用拉普拉斯算子L对注意力图进行锐化. 3)引入真实标签,引导对检测目标的准确定位,循环利用分水岭算子将锐化后的注意力图划分为n个独立的区域块,直到n与真实标签中检测目标的数量N保持一致. 4)通过滤波器f对分割结果进行滤波,提取出自适应的细粒度掩膜:

图 2

图 2   基于上下文感知的区域提纯模块结构图

Fig.2   Structure diagram of context-aware region modified module


$ {a}_{ij}=\left\{\begin{array}{cc}1,\;\;\; {d}_{ij}^{\mathrm{{'}}}\geqslant \rho \text{Max}\left(\boldsymbol{M}\right)\text{;}\\ 0,\;\;\; {d}_{ij}^{\mathrm{{'}}} < \rho \text{Max}\left(\boldsymbol{M}\right).\end{array}\right. $

式中: $ {a}_{ij} $为自适应细粒度掩膜上第i行第j列的对应值, ${d}_{ij}^{{'}}$为分割结果图上第i行第j列的对应值, $ \;\rho $为滤波器f的阈值,经实验比较设置为0.25. 该模块的具体算法伪代码如算法1所示.

算法1   基于上下文感知的区域提纯算法

输入:预处理掩膜 $\boldsymbol{R}$,分水岭算子 $ G $

  输出:自适应细粒度掩膜 $\boldsymbol{A}$

  1. ${\boldsymbol{R}}^{\mathit{'}}=\mathrm{L}\mathrm{i}\mathrm{n}\mathrm{e}\mathrm{a}\mathrm{r}\left(\boldsymbol{R}\right)$;

  2. $\boldsymbol{M}=\mathrm{M}\mathrm{a}\mathrm{x}\left({\boldsymbol{R}}^{\mathit{'}}\right)-{\boldsymbol{R}}^{\mathit{'}}$;

  3. ${\boldsymbol{M}}^{\mathit{'}}=\mathrm{L}\mathrm{a}\mathrm{p}\mathrm{l}\mathrm{a}\mathrm{c}\mathrm{i}\mathrm{a}\mathrm{n}\left(\boldsymbol{M}\right)$;

  4. while ${q} < \mathrm{M}\mathrm{a}\mathrm{x}\left(\boldsymbol{M}\mathrm{'}\right)$ or $ n\ne N $ do;

  5. for $ {d}_{ij} $ in ${\boldsymbol{M}}^{\mathit{'}}$;

  6. if $ {d}_{ij}\leqslant q $ then;

  7. $ {d}_{ij}=0 $;

  8. end;

  9. $n=G\left({\boldsymbol{M}}^{\mathit{'}}\right)$ ;

  10. $q=q+1$;

  11. end;

  12. $\boldsymbol{A}=f\left(G\right({\boldsymbol{M}}^{\mathit{'}}\left)\right)$ .

1.2. 自适应通道注意力模块

注意力机制在提高各种计算机视觉任务的性能方面发挥关键的作用[12-14]. 以往的知识蒸馏方法大多数是将最小化教师网络和学生网络空间分布间的差异性作为优化目标,忽略不同通道贡献度的区别. 受自注意力蒸馏(self attention distillation,SAD)[15]的启发,本研究利用自注意力机制,将空间上的差异性转换到通道域进行交互,从通道域优化知识蒸馏的目标函数. ACAM的结构如图3所示. 图中, ${\boldsymbol{f}}_{i}^{\mathrm{S}}$为学生网络末层输出的特征图, ${\boldsymbol{f}}_{i-1}^{\mathrm{S}}\mathrm{为}{\boldsymbol{f}}_{i}^{\mathrm{S}}$相邻层输出的特征图, ${\boldsymbol{f}}^{\mathrm{T}}$为教师网络末层输出的特征图, ${\boldsymbol{f}}_{i}^{\mathrm{S}}$${\boldsymbol{f}}_{i-1}^{\mathrm{S}}$${\boldsymbol{f}}^{\mathrm{T}}$的维度均为 $ C\times W\times H $,其中 ${C}$为通道数, ${W}$$ H $分别为特征图的高度、宽度.

图 3

图 3   自适应通道注意力模块结构图

Fig.3   Structure diagram of adaptive channel attention module


具体来说,相邻层的注意力图间的差异包含丰富的上下文信息,这些上下文信息蕴含检测目标的位置和粗略轮廓[15]. 本研究使用相邻层特征图间的差异作为相应通道的特征表示,用全局平均池化层将这种空间上的差异转换到通道域,这样既消除了空间域中背景噪声的干扰,又有利于通道域交互运算. 使用1×1卷积运算和非线性激活函数ReLu完成交互操作:

$ {\beta }_{c}=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{u}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{G}\mathrm{A}\mathrm{P}\left({\boldsymbol{f}}_{i,c}^{\mathrm{S}}-{\boldsymbol{f}}_{i-1,c}^{\mathrm{S}}\right)\right)\right), {c}\in (0,\mathrm{C}).$

式中: $\;{\beta }_{c}$为通道c的注意力值, ${\boldsymbol{f}}_{i,c}^{\mathrm{S}}$${\boldsymbol{f}}_{i-1,c}^{\mathrm{S}}$分别为 ${\boldsymbol{f}}_{i}^{\mathrm{S}}$${\boldsymbol{f}}_{i-1}^{\mathrm{S}}$在第c通道的特征响应. Conv、GAP分别为卷积操作和全局平均池化操作. 将权重 $\;{\beta }_{c}$归一化以扩大不同通道权值之间的差距:

$ \hat{{\mathrm{\beta }}_{\mathrm{c}}}=\mathrm{N}\mathrm{o}\mathrm{r}\mathrm{m}\left(\;{\mathrm{\beta }}_{\mathrm{c}}\right). $

此时得到通道注意力权值 $\; {\hat{\beta }}_{c}$,其将用于从通道域优化知识蒸馏的目标函数.

1.3. 目标函数

为了有效地融合CARM和ACAM,设计新的知识蒸馏的目标函数,以更精确地消除教师模型和学生模型在表征能力上的鸿沟,提高知识蒸馏的效率.

知识蒸馏的目标是通过训练学生网络使学生网络最后一层的高层特征 ${\boldsymbol{f}}^{\mathrm{S}}$和教师网络最后一层的高层特征 ${\boldsymbol{f}}^{\mathrm{T}}$间的差异最小化. 引入CARM所提取出的自适应的细粒度掩膜,此时目标函数可以表示为

$ {L}_{\mathrm{D}\mathrm{i}\mathrm{s}}=\frac{1}{2{N}_{{{{\rm{A}}}}}}{\left\|{\boldsymbol{f}}_{{{A}}}^{\mathrm{T}}-{\boldsymbol{f}}_{{{A}}}^{\mathrm{S}}\right\|}^{2}. $

式中: $ {N}_{A} $为自适应的细粒度掩膜占据的像素数量, ${\boldsymbol{f}}_{A}^{\mathrm{T}}$${\boldsymbol{f}}_{A}^{\mathrm{S}}$分别为自适应细粒度掩膜映射在高层特征 ${\boldsymbol{f}}^{\mathrm{T}}$${\boldsymbol{f}}^{\mathrm{S}}$上的特征响应. 引入通道注意力的权重 $\; {\hat{\beta }}_{c}$,此时目标函数演变为

$ {\hat{L}}_{\mathrm{D}\mathrm{i}\mathrm{s}}=\frac{1}{2{N}_{{\mathrm{A}}}}{\sum }_{c=0}^{C}\;{\hat{\beta }}_{c}\left\| {\left. {{\boldsymbol{f}}_{{{A}},c}^{\rm{T}} - {\boldsymbol{f}}_{{{A}},c}^{\rm{S}}} \right\|} \right.^{2}. $

式中:C为特征图的通道数, $\;\hat{{\beta }_{c}}$为特征图中第c通道的通道注意力权值, ${\boldsymbol{f}}_{A,c}^{\mathrm{T}}$为特征 ${\boldsymbol{f}}^{\mathrm{T}}$在自适应的细粒度掩膜区域第c通道的特征响应. 总体的目标函数可以表示为

$ L={L}_{\mathrm{o}\mathrm{r}\mathrm{i}\mathrm{g}\mathrm{i}\mathrm{n}}+{\hat{L}}_{\mathrm{D}\mathrm{i}\mathrm{s}}. $

式中: $ {L}_{\mathrm{o}\mathrm{r}\mathrm{i}\mathrm{g}\mathrm{i}\mathrm{n}} $为目标检测任务中广泛使用的目标函数.

2. 实验结果与分析

2.1. 实验设置

为了评估CAKD Net的性能,选择具有代表性的基于锚框的检测器Faster R-CNN作为检测器框架,采用2个经典的教师−学生网络VGG16-VGG11、ResNet101-ResNet50作为骨干网络,在2个典型的目标检测数据集VOC07、KITTI上进行实验[16-17]. 实验在训练阶段采用所提出的知识蒸馏方法对学生模型进行训练,在测试阶段由学生模型独自进行前向推理.

数据集VOC07涵盖日常场景中20个常见的类别,依据Faster R-CNN的训练模式,合并VOC07训练验证集进行训练,并在VOC07测试集上评估所提方法的性能[11]. KITTI是具有挑战性的现实世界基准数据集,根据文献[18],将KITTI数据集拆分为训练集和验证集,进行模型训练及测试.

实验在Ubuntu操作系统下进行,使用RTX2080Ti进行加速计算,每组实验训练12 个epoch. 采用在IoU阈值为0.5时每类的标准平均精确率(average precision,AP)和所有类别的平均精确率(mean average precision,mAP)作为评价指标.

2.2. 有效性实验结果与分析

为了验证所提出方法的有效性,分别使用VGG16-VGG11、ResNet101-ResNet50作为教师−学生网络. 如表1所示为使用VGG16-VGG11作为教师−学生网络的实验结果. 表中,VGG11(学生)为使用传统方式直接使用训练集对简单网络进行训练得到的模型;VGG16(教师)为使用传统方式直接使用训练集对复杂网络进行训练得到的模型;VGG11(本研究方法)为使用所提出的知识蒸馏算法对简单网络进行训练得到的模型. 可以看出,在优化所提出的差异目标后,学生网络VGG11的mAP获得8.9 %的增益,达到教师网络VGG16的mAP的97.3 %,学生网络VGG11的整体性能得到显著提升. 具体来说,由于使用CARM生成的自适应细粒度掩膜,对于结构复杂的类别(如飞机和自行车),学生网络检测准确率甚至高于教师网络. 此外,对于结构简单的类别,检测性能也得到明显提升. 如表2所示为使用ResNet101-ResNet50作为教师−学生网络的实验结果. 可以看出,学生网络ResNet50的mAP同样得到3.3 %的提升. 实验结果表明,所提方法能明显改善直筒型网络VGG11和残差型网络ResNet50的性能. 需要说明,为了便于实验结果的展示,表12只提供了部分VOC数据集的实验结果.

表 1   VGG16-VGG11作为教师−学生网络在 VOC07 测试集上的实验结果

Tab.1  Experiment results of VGG16-VGG11 as teacher student network on VOC07 test set %

模型 mAP AP
Aeroplane Bike Bird Boat Bus Chair Table Mbike Person Train
VGG16(教师) 70.4 70.9 78.0 67.8 55.1 79.6 48.7 63.5 74.5 77.0 76.0
VGG11(学生) 59.6 67.3 71.4 56.6 44.3 68.8 37.7 51.6 70.0 71.9 62.9
VGG11(本研究方法) 68.5 74.4 77.6 65.3 55.6 77.4 46.2 63.4 76.8 76.3 75.0

新窗口打开| 下载CSV


表 2   ResNet101-ResNet50作为教师−学生网络在 VOC07 测试集上的实验结果

Tab.2  Experiment results of ResNet101-ResNet50 as teacher student network on VOC07 test set %

模型 mAP AP
Aeroplane Bike Bird Boat Bus Chair Table Mbike Person Train
ResNet101(教师) 74.4 77.8 78.9 77.5 63.2 79.2 54.5 68.7 77.8 78.6 78.8
ResNet50(学生) 69.1 68.9 79.0 67.0 54.1 78.6 49.7 62.6 72.5 77.2 75.0
ResNet50(本研究方法) 72.4 75.8 79.0 71.7 58.1 80.8 51.5 69.1 77.8 78.3 81.5

新窗口打开| 下载CSV


表3所示为KITTI数据集的实验结果,在研究方法下所有学生网络的mAP都超过3.6 %,其中基于VGG11的Faster-RCNN达到与教师网络几乎相同的检测精度. 综上所述,CAKD Net方法可以在2个典型数据集上提高具有不同主干网络的基于锚框的检测器性能.

表 3   在 KITTI 测试集上使用 Faster R-CNN 检测器的实验结果

Tab.3  Experimental results of Faster R-CNN detector on KITTI test set

%
模型 mAP AP
Car Cyclist Pedestrian
ResNet101(教师) 63.4 78.5 54.6 57.1
ResNet50(学生) 52.5 77.7 35.4 44.2
ResNet50(本研究方法) 56.4 79.3 38.2 51.7
VGG16(教师) 62.6 79.3 52.1 56.4
VGG11(学生) 58.7 77.7 45.4 53.1
VGG11(本研究方法) 62.3 79.8 50.1 57.0

新窗口打开| 下载CSV


2.3. 消融实验结果与分析

为了更好地验证所提出的方法,使用基于Faster-RCNN的教师网络和学生网络进一步在KITTI数据集上实施消融实验并进行分析. 设计消融实验进一步验证所提出方法中CARM和ACAM的贡献. 采用不同CARM和ACAM组合的消融实验结果如表4所示. 表中,“×”表示模型中未加入对应模块,“√”表示模型中加入对应模块. 消融实验的结果证明了CARM和ACAM的有效性. 在CARM中应考虑滤波器的阈值 $\;\rho$,如表5所示为针对 $\;\rho$选取进行的实验:使用VGG16-VGG11作为教师−学生网络在KITTI数据集上进行实验,实验参数设置与有效性验证实验保持一致,每组实验仅改变滤波器阈值以确定最优值. 实验结果表明,当 $\; \rho$=0.25时,知识蒸馏的效率达到最佳.

表 4   在 KITTI测试集上使用 Faster R-CNN 检测器进行消融实验的结果

Tab.4  Results of ablation experiments using Faster R-CNN detector on KITTI test set

组号 CARM ACAM mAP/%
1 × × 58.7
2 × 62.0
3 × 60.7
4 62.3

新窗口打开| 下载CSV


表 5   不同滤波器阈值的实验结果

Tab.5  Experimental results of different filter thresholds

组号 $ \rho $ mAP/% 组号 $\rho $ mAP/%
1 0 61.6 3 0.50 61.9
2 0.25 62.3 4 0.75 61.7

新窗口打开| 下载CSV


2.4. 对比实验结果与分析

使用基于Faster-RCNN的教师网络和学生网络在VOC07数据集上与其他目标检测知识蒸馏方法进行对比实验并分析,其中教师网络使用ResNet101骨干网络,学生网络使用ResNet50骨干网络.

在此基础上,设计对比实验,分别采用FitNets[9]、DOD[10]、Task[19]、LD[20]等目标检测知识蒸馏方法和CAKD Net使用VOC07数据集进行测试. 由于Task在模型的不同位置使用知识蒸馏,为了与本研究保持一致,Task在表中的数据为仅骨干网络使用知识蒸馏的实验结果,对比实验结果如表6所示. 为了更好地展示所提方法的改进,将部分方法的优化目标区域可视化呈现如图4所示. 图4(b) 为FitNets方法通过使用全部高层特征间的差异作为优化目标,包含非目标区域的大量噪声;图4(c) 为DOD方法在FitNets的基础上进行改进,使用与检测目标相关联的细粒度特征作为优化目标,这种细粒度特征的提取无法准确定位目标的RPN网络,仍然覆盖大量无关的背景区域. Task在图4(c) 的基础上使用高斯掩膜加强前景区域的信息比重,弱化背景区域的干扰,仍然沿用图4(c) 中提取出的区域. LD通过模仿教师网络生成的目标框来加强目标边缘,未对特征图模仿. 图4(d) 为所提方法的优化目标可视化图. 实验结果表明,CARM生成的细粒度区域能准确定位检测目标的位置,且更好地与被检测目标形状吻合,使得优化目标更加明确,有效地提升了学生网络的检测性能. 此外,表6将Hinton[5]、CD[21]加入对比,Hinton利用学生网络学习教师网络分类结果的概率分布,CD在知识蒸馏中加入通道权重的学习并加强对教师网络正确分类结果的学习. 但这2种方法侧重于分类,应用到目标检测任务时没有很好地加强学生网络对于检测能力的知识蒸馏效果. 实验结果证明了CAKD Net对目标检测任务的适用性.

表 6   在 VOC07 数据集上使用 Faster R-CNN 检测器进行对比实验的结果

Tab.6  Results of comparative experiments using Faster R-CNN detector on VOC07 test set

模型 mAP/%
Hinton CD FitNets DOD Task LD CAKD Net
教师 74.4 74.4 74.4 74.4 74.4 74.4 74.4
学生 69.1 69.1 69.1 69.1 70.0 69.1 69.1
蒸馏后 69.7 70.1 69.3 72.0 72.4 70.3 72.4

新窗口打开| 下载CSV


图 4

图 4   不同知识蒸馏方法优化目标的可视图

Fig.4   Visual diagram of optimization objectives of different methods


2.5. 普适性实验结果与分析

ACAM将空间域的信息转换到通道域加强对优化目标的约束,是即插即用的模块. 为了验证该模块的普适性,将该注意力策略应用到其他知识蒸馏方法中,结果如表7所示. 值得注意的是,当ACAM应用于目标检测的知识蒸馏中时,在多种方法中均有效提升了知识蒸馏的效率.

表 7   自适应通道注意力模块的普适性验证实验结果

Tab.7  Experiment results of universality verification of adaptive channel attention module

组号 模型 ACAM mAP
1 FitNets × 59.0%
2 FitNets 59.7%
3 DOD × 60.7%
4 DOD 61.4%

新窗口打开| 下载CSV


3. 结 语

提出CAKD Net,通过同时沿空间域和通道域进行信息感知,改进知识蒸馏在目标检测任务中的优化目标,进一步提升知识蒸馏方法的效率. 实验结果表明,该方法在通用目标检测数据集上的知识蒸馏效果较好,所提出的ACAM能够独立于特定的方法来增强知识蒸馏的效率,对于其他蒸馏方法有较好的适应效果. 所提方法只针对骨干网络进行性能提升,如何对目标检测网络中其他结构进行性能提升有待进一步研究.

参考文献

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 1]

张彦楠, 黄小红, 马严, 等

基于深度学习的录音文本分类方法

[J]. 浙江大学学报:工学版, 2020, 54 (7): 1264- 1271

ZHANG Yan-nan, HUANG Xiao-hong, MA Yan, et al

Method with recording text classification based on deep learning

[J]. Journal of Zhejiang University: Engineering Science, 2020, 54 (7): 1264- 1271

洪炎佳, 孟铁豹, 黎浩江, 等

多模态多维信息融合的鼻咽癌MR图像肿瘤深度分割方法

[J]. 浙江大学学报:工学版, 2020, 54 (3): 566- 573

[本文引用: 1]

HONG Yan-jia, MENG Tie-bao, LI Hao-jiang, et al

Deep segmentation method of tumor boundaries from MR images of patients with nasopharyngeal carcinoma using multi-modality and multi-dimension fusion

[J]. Journal of Zhejiang University:Engineering Science, 2020, 54 (3): 566- 573

[本文引用: 1]

TIAN Y, KRISHNAN D, ISOLA P. Contrastive representation distillation [EB/OL]. [2021-09-07]. https://arxiv.org/pdf/1910.10699v2.pdf.

[本文引用: 1]

HINTON G, VINVALS O, DEAN J

Distilling the knowledge in a neural network

[J]. Computer Science, 2015, 14 (7): 38- 39

[本文引用: 1]

CHEN G, CHOI W, YU X, et al. Learning efficient object detection models with knowledge distillation [C]// Proceedings of the Annual Conference on Neural Information Processing Systems. Long Beach: [s. n.], 2017: 742–751.

TAN X, REN Y, HE D, et al. Multilingual neural machine translation with knowledge distillation [EB/OL]. [2021-09-07]. https://arxiv.org/pdf/1902.10461v3.pdf.

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2021-09-07]. https://arxiv.org/pdf/1409.1556.pdf.

[本文引用: 1]

ROMERO A, BALLAS N, KAHOU S E, et al. FitNets: hints for thin deep nets [C]// Proceedings of the International Conference on Learning Representations. San Diego: [s.n.], 2015: 1–13.

[本文引用: 2]

WANG T, YUAN L, ZHANG X, et al. Distilling object detectors with fine-grained feature imitation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 4928–4937.

[本文引用: 3]

REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [EB/OL]. [2021-09-07]. https://arxiv.org/pdf/1506.01497.pdf.

[本文引用: 2]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[本文引用: 2]

JIE H, LI S, GANG S, et al

Squeeze-and-excitation networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42 (8): 2011- 2023

DOI:10.1109/TPAMI.2019.2913372     

WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles: IEEE, 2020: 11531–11539.

[本文引用: 1]

HOU Y, MA Z, LIU C, et al. Learning lightweight lane detection CNNs by self attention distillation [C]// Proceedings of the IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 1013-1021.

[本文引用: 2]

EVERINGHAM M, ESLAMI S M A, VAN GOOL L, et al

The pascal visual object classes challenge: a retrospective

[J]. International Journal of Computer Vision, 2015, 111 (1): 98- 136

DOI:10.1007/s11263-014-0733-5      [本文引用: 1]

GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 3354-3361.

[本文引用: 1]

MAO J, XIAO T, JIANG Y, et al. What can help pedestrian detection? [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3127-3136.

[本文引用: 1]

SUN R, TANG F, ZHANG X, et al. Distilling object detectors with task adaptive regularization [EB/OL]. [2021-09-07]. https://arxiv.org/pdf/2006.13108.pdf.

[本文引用: 1]

ZHENG Z, YE R, WANG P, et al. Localization distillation for object detection [EB/OL]. [2021-09-07]. https://arxiv.org/pdf/2102.12252v3.pdf.

[本文引用: 1]

ZHOU Z, ZHUGE C, GUAN X, et al. Channel distillation: channel-wise attention for knowledge distillation [EB/OL]. [2021-09-07]. https://arxiv.org/pdf/2006.01683v1.pdf.

[本文引用: 1]

/