适用于目标检测的上下文感知知识蒸馏网络
Context-aware knowledge distillation network for object detection
通讯作者:
收稿日期: 2021-09-7
基金资助: |
|
Received: 2021-09-7
Fund supported: | 天津市科技计划项目(18ZXJMTG00020);天津市自然科学基金资助项目(20JCQNJC01210) |
作者简介 About authors
褚晶辉(1969—),女,副教授,从事计算机视觉方向研究.orcid.org/0000-0001-7926-8824.E-mail:
针对现有应用于目标检测的知识蒸馏方法难以利用目标周围上下文区域的特征信息,提出适用于目标检测的上下文感知知识蒸馏网络(CAKD Net)方法.该方法能充分利用被检测目标的上下文信息,同时沿空间域和通道域进行信息感知,消除教师网络和学生网络的差异. 该方法包括基于上下文感知的区域提纯模块(CARM)和自适应通道注意力模块(ACAM). CARM利用上下文信息,自适应生成显著性区域的细粒度掩膜,准确消除教师网络和学生网络各自特征响应在该区域的差异;ACAM引入空间−通道注意力机制,进一步优化目标函数,提高学生网络的性能. 实验结果表明,所提方法对模型检测精确率提升超过2.9%.
关键词:
A context-aware knowledge distillation network (CAKD Net) method for object detection was proposed, aiming at the current methods of knowledge distillation for the task of object detection were difficult to use feature information of the surrounding context region of the detection object. The context information of the object was fully used, and the gap between the teacher network and the student network were eliminated by performing information perception along the spatial domain and channel domain simultaneously. A context-aware region modified module (CARM) and an adaptive channel attention module (ACAM) were included in CAKD Net. The context information was used to adaptively form a fine-grained mask of the salient region, and the difference of feature response of the teacher network and student network were precisely eliminated in the region of CARM. A novel spatial-channel attention was used to further optimize the objective function, thereby the performance of the student network was improved in ACAM. Experimental results show that the proposed algorithm improves the mean average precision by more than 2.9%.
Keywords:
本文引用格式
褚晶辉, 史李栋, 井佩光, 吕卫.
CHU Jing-hui, SHI Li-dong, JING Pei-guang, LV Wei.
为了更好地提纯目标检测任务中知识蒸馏的优化目标,本研究综合考虑被检测目标的上下文信息与高级语义特征生成的通道信息,提出适用于目标检测的新型上下文感知知识蒸馏网络(context-aware knowledge distillation network,CAKD Net),并设计新颖的损失函数,提高知识蒸馏的效率. CAKD Net由基于上下文感知的区域提纯模块(context-aware region modified module,CARM)和自适应通道注意力模块(adaptive channel attention module,ACAM)组成. CARM可以根据被检测目标自适应地提取出匹配目标形状的细粒度区域,从空间域上有效约束优化目标,去除非目标区域的干扰;ACAM利用自注意力机制将空间上的差异性转换到通道域进行交互,形成新的空间−通道注意力,从通道域优化知识蒸馏的目标函数.
1. CAKD Net
如图1所示为CAKD Net的概况. 图中,将待检测的图片数据同时输入教师网络和学生网络进行前向传播,经过CARM和ACAM的处理后生成新的目标函数用于学生网络的反向传播,通过不断优化该目标函数提升学生网络的性能.
图 1
图 1 适用于目标检测的上下文感知知识蒸馏网络概况图
Fig.1 Overview of context-aware knowledge distillation network
1.1. 基于上下文感知的区域提纯模块
如图2所示,为了从空间上更加明确地定位到优化区域,CARM根据被检测目标自适应地提取匹配目标形状的细粒度区域. 该模块在RPN产生的粗粒度候选区域的基础上,将粗粒度候选区域中与真实标签交并比(intersection over union,IoU)小于阈值的部分视为噪声区域,并对候选区域进行二值化得到预处理掩膜,将预处理掩膜映射到教师网络对应的特征图上,提取自适应细粒度掩膜. 其中IoU阈值参照文献[10]设置为0.5. 自适应细粒度掩膜提取步骤如下. 1)对预处理掩膜R进行填充操作,减少由于预处理造成的检测目标的边缘信息损失. 2)使用特征图的最大值减去特征图本身,将其结果称为注意力图M,由此可获得以特征图最大值为山谷的等高线图,使得后续步骤尽可能不受输入图像亮度的影响,并采用拉普拉斯算子L对注意力图进行锐化. 3)引入真实标签,引导对检测目标的准确定位,循环利用分水岭算子将锐化后的注意力图划分为n个独立的区域块,直到n与真实标签中检测目标的数量N保持一致. 4)通过滤波器f对分割结果进行滤波,提取出自适应的细粒度掩膜:
图 2
图 2 基于上下文感知的区域提纯模块结构图
Fig.2 Structure diagram of context-aware region modified module
式中:
算法1 基于上下文感知的区域提纯算法
输入:预处理掩膜
输出:自适应细粒度掩膜
1.
2.
3.
4. while
5. for
6. if
7.
8. end;
9.
10.
11. end;
12.
1.2. 自适应通道注意力模块
注意力机制在提高各种计算机视觉任务的性能方面发挥关键的作用[12-14]. 以往的知识蒸馏方法大多数是将最小化教师网络和学生网络空间分布间的差异性作为优化目标,忽略不同通道贡献度的区别. 受自注意力蒸馏(self attention distillation,SAD)[15]的启发,本研究利用自注意力机制,将空间上的差异性转换到通道域进行交互,从通道域优化知识蒸馏的目标函数. ACAM的结构如图3所示. 图中,
图 3
图 3 自适应通道注意力模块结构图
Fig.3 Structure diagram of adaptive channel attention module
具体来说,相邻层的注意力图间的差异包含丰富的上下文信息,这些上下文信息蕴含检测目标的位置和粗略轮廓[15]. 本研究使用相邻层特征图间的差异作为相应通道的特征表示,用全局平均池化层将这种空间上的差异转换到通道域,这样既消除了空间域中背景噪声的干扰,又有利于通道域交互运算. 使用1×1卷积运算和非线性激活函数ReLu完成交互操作:
式中:
此时得到通道注意力权值
1.3. 目标函数
为了有效地融合CARM和ACAM,设计新的知识蒸馏的目标函数,以更精确地消除教师模型和学生模型在表征能力上的鸿沟,提高知识蒸馏的效率.
知识蒸馏的目标是通过训练学生网络使学生网络最后一层的高层特征
式中:
式中:C为特征图的通道数,
式中:
2. 实验结果与分析
2.1. 实验设置
实验在Ubuntu操作系统下进行,使用RTX2080Ti进行加速计算,每组实验训练12 个epoch. 采用在IoU阈值为0.5时每类的标准平均精确率(average precision,AP)和所有类别的平均精确率(mean average precision,mAP)作为评价指标.
2.2. 有效性实验结果与分析
为了验证所提出方法的有效性,分别使用VGG16-VGG11、ResNet101-ResNet50作为教师−学生网络. 如表1所示为使用VGG16-VGG11作为教师−学生网络的实验结果. 表中,VGG11(学生)为使用传统方式直接使用训练集对简单网络进行训练得到的模型;VGG16(教师)为使用传统方式直接使用训练集对复杂网络进行训练得到的模型;VGG11(本研究方法)为使用所提出的知识蒸馏算法对简单网络进行训练得到的模型. 可以看出,在优化所提出的差异目标后,学生网络VGG11的mAP获得8.9 %的增益,达到教师网络VGG16的mAP的97.3 %,学生网络VGG11的整体性能得到显著提升. 具体来说,由于使用CARM生成的自适应细粒度掩膜,对于结构复杂的类别(如飞机和自行车),学生网络检测准确率甚至高于教师网络. 此外,对于结构简单的类别,检测性能也得到明显提升. 如表2所示为使用ResNet101-ResNet50作为教师−学生网络的实验结果. 可以看出,学生网络ResNet50的mAP同样得到3.3 %的提升. 实验结果表明,所提方法能明显改善直筒型网络VGG11和残差型网络ResNet50的性能. 需要说明,为了便于实验结果的展示,表1、2只提供了部分VOC数据集的实验结果.
表 1 VGG16-VGG11作为教师−学生网络在 VOC07 测试集上的实验结果
Tab.1
模型 | mAP | AP | |||||||||
Aeroplane | Bike | Bird | Boat | Bus | Chair | Table | Mbike | Person | Train | ||
VGG16(教师) | 70.4 | 70.9 | 78.0 | 67.8 | 55.1 | 79.6 | 48.7 | 63.5 | 74.5 | 77.0 | 76.0 |
VGG11(学生) | 59.6 | 67.3 | 71.4 | 56.6 | 44.3 | 68.8 | 37.7 | 51.6 | 70.0 | 71.9 | 62.9 |
VGG11(本研究方法) | 68.5 | 74.4 | 77.6 | 65.3 | 55.6 | 77.4 | 46.2 | 63.4 | 76.8 | 76.3 | 75.0 |
表 2 ResNet101-ResNet50作为教师−学生网络在 VOC07 测试集上的实验结果
Tab.2
模型 | mAP | AP | |||||||||
Aeroplane | Bike | Bird | Boat | Bus | Chair | Table | Mbike | Person | Train | ||
ResNet101(教师) | 74.4 | 77.8 | 78.9 | 77.5 | 63.2 | 79.2 | 54.5 | 68.7 | 77.8 | 78.6 | 78.8 |
ResNet50(学生) | 69.1 | 68.9 | 79.0 | 67.0 | 54.1 | 78.6 | 49.7 | 62.6 | 72.5 | 77.2 | 75.0 |
ResNet50(本研究方法) | 72.4 | 75.8 | 79.0 | 71.7 | 58.1 | 80.8 | 51.5 | 69.1 | 77.8 | 78.3 | 81.5 |
如表3所示为KITTI数据集的实验结果,在研究方法下所有学生网络的mAP都超过3.6 %,其中基于VGG11的Faster-RCNN达到与教师网络几乎相同的检测精度. 综上所述,CAKD Net方法可以在2个典型数据集上提高具有不同主干网络的基于锚框的检测器性能.
表 3 在 KITTI 测试集上使用 Faster R-CNN 检测器的实验结果
Tab.3
% | ||||
模型 | mAP | AP | ||
Car | Cyclist | Pedestrian | ||
ResNet101(教师) | 63.4 | 78.5 | 54.6 | 57.1 |
ResNet50(学生) | 52.5 | 77.7 | 35.4 | 44.2 |
ResNet50(本研究方法) | 56.4 | 79.3 | 38.2 | 51.7 |
VGG16(教师) | 62.6 | 79.3 | 52.1 | 56.4 |
VGG11(学生) | 58.7 | 77.7 | 45.4 | 53.1 |
VGG11(本研究方法) | 62.3 | 79.8 | 50.1 | 57.0 |
2.3. 消融实验结果与分析
为了更好地验证所提出的方法,使用基于Faster-RCNN的教师网络和学生网络进一步在KITTI数据集上实施消融实验并进行分析. 设计消融实验进一步验证所提出方法中CARM和ACAM的贡献. 采用不同CARM和ACAM组合的消融实验结果如表4所示. 表中,“×”表示模型中未加入对应模块,“√”表示模型中加入对应模块. 消融实验的结果证明了CARM和ACAM的有效性. 在CARM中应考虑滤波器的阈值
表 4 在 KITTI测试集上使用 Faster R-CNN 检测器进行消融实验的结果
Tab.4
组号 | CARM | ACAM | mAP/% |
1 | × | × | 58.7 |
2 | √ | × | 62.0 |
3 | × | √ | 60.7 |
4 | √ | √ | 62.3 |
表 5 不同滤波器阈值的实验结果
Tab.5
组号 | | mAP/% | 组号 | | mAP/% | |
1 | 0 | 61.6 | 3 | 0.50 | 61.9 | |
2 | 0.25 | 62.3 | 4 | 0.75 | 61.7 |
2.4. 对比实验结果与分析
使用基于Faster-RCNN的教师网络和学生网络在VOC07数据集上与其他目标检测知识蒸馏方法进行对比实验并分析,其中教师网络使用ResNet101骨干网络,学生网络使用ResNet50骨干网络.
在此基础上,设计对比实验,分别采用FitNets[9]、DOD[10]、Task[19]、LD[20]等目标检测知识蒸馏方法和CAKD Net使用VOC07数据集进行测试. 由于Task在模型的不同位置使用知识蒸馏,为了与本研究保持一致,Task在表中的数据为仅骨干网络使用知识蒸馏的实验结果,对比实验结果如表6所示. 为了更好地展示所提方法的改进,将部分方法的优化目标区域可视化呈现如图4所示. 图4(b) 为FitNets方法通过使用全部高层特征间的差异作为优化目标,包含非目标区域的大量噪声;图4(c) 为DOD方法在FitNets的基础上进行改进,使用与检测目标相关联的细粒度特征作为优化目标,这种细粒度特征的提取无法准确定位目标的RPN网络,仍然覆盖大量无关的背景区域. Task在图4(c) 的基础上使用高斯掩膜加强前景区域的信息比重,弱化背景区域的干扰,仍然沿用图4(c) 中提取出的区域. LD通过模仿教师网络生成的目标框来加强目标边缘,未对特征图模仿. 图4(d) 为所提方法的优化目标可视化图. 实验结果表明,CARM生成的细粒度区域能准确定位检测目标的位置,且更好地与被检测目标形状吻合,使得优化目标更加明确,有效地提升了学生网络的检测性能. 此外,表6将Hinton[5]、CD[21]加入对比,Hinton利用学生网络学习教师网络分类结果的概率分布,CD在知识蒸馏中加入通道权重的学习并加强对教师网络正确分类结果的学习. 但这2种方法侧重于分类,应用到目标检测任务时没有很好地加强学生网络对于检测能力的知识蒸馏效果. 实验结果证明了CAKD Net对目标检测任务的适用性.
表 6 在 VOC07 数据集上使用 Faster R-CNN 检测器进行对比实验的结果
Tab.6
模型 | mAP/% | ||||||
Hinton | CD | FitNets | DOD | Task | LD | CAKD Net | |
教师 | 74.4 | 74.4 | 74.4 | 74.4 | 74.4 | 74.4 | 74.4 |
学生 | 69.1 | 69.1 | 69.1 | 69.1 | 70.0 | 69.1 | 69.1 |
蒸馏后 | 69.7 | 70.1 | 69.3 | 72.0 | 72.4 | 70.3 | 72.4 |
图 4
图 4 不同知识蒸馏方法优化目标的可视图
Fig.4 Visual diagram of optimization objectives of different methods
2.5. 普适性实验结果与分析
ACAM将空间域的信息转换到通道域加强对优化目标的约束,是即插即用的模块. 为了验证该模块的普适性,将该注意力策略应用到其他知识蒸馏方法中,结果如表7所示. 值得注意的是,当ACAM应用于目标检测的知识蒸馏中时,在多种方法中均有效提升了知识蒸馏的效率.
表 7 自适应通道注意力模块的普适性验证实验结果
Tab.7
组号 | 模型 | ACAM | mAP |
1 | FitNets | × | 59.0% |
2 | FitNets | √ | 59.7% |
3 | DOD | × | 60.7% |
4 | DOD | √ | 61.4% |
3. 结 语
提出CAKD Net,通过同时沿空间域和通道域进行信息感知,改进知识蒸馏在目标检测任务中的优化目标,进一步提升知识蒸馏方法的效率. 实验结果表明,该方法在通用目标检测数据集上的知识蒸馏效果较好,所提出的ACAM能够独立于特定的方法来增强知识蒸馏的效率,对于其他蒸馏方法有较好的适应效果. 所提方法只针对骨干网络进行性能提升,如何对目标检测网络中其他结构进行性能提升有待进一步研究.
参考文献
基于深度学习的录音文本分类方法
[J].
Method with recording text classification based on deep learning
[J].
多模态多维信息融合的鼻咽癌MR图像肿瘤深度分割方法
[J].
Deep segmentation method of tumor boundaries from MR images of patients with nasopharyngeal carcinoma using multi-modality and multi-dimension fusion
[J].
Distilling the knowledge in a neural network
[J].
Squeeze-and-excitation networks
[J].DOI:10.1109/TPAMI.2019.2913372
The pascal visual object classes challenge: a retrospective
[J].DOI:10.1007/s11263-014-0733-5 [本文引用: 1]
/
〈 |
|
〉 |
