<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 多尺度上下文特征消除网络结构图

Fig.1 Overall framework of multi-scale contextual feature elimination network

1.1. 主干网络

主干网络决定了算法的特征提取能力及在下游任务中的应用潜力，选择优秀的主干可以帮助网络聚焦在细粒度问题的改进上. 最近的研究表明，通过先进的训练设置和更新后的结构，卷积神经网络也可以在不增加计算量的情况下得到媲美ViT甚至更优的性能. Li等^[15]设计的MogaNet采用改进的卷积宏架构和优化策略，在相同的参数量下得到了更快的推理速度以及更高的准确率. MogaNet在纯卷积网络中进行信息挖掘和通道聚合，在一般图像分类、图像检索和语义分割方面以较低的计算成本显著优于当前主流主干网络. 这一巨大成功表明，MogaNet网络可以提取出非常强大的特征，其在下游任务中的迁移学习潜能十足. 本研究选择的MogaNet-L包含4个阶段，输入图像经过不同阶段后可得到不同尺度下的特征图$ {{\boldsymbol{F}}_i} ,\;{{\boldsymbol{F}}_i}\in {{\mathbf{R}}^{{H_i} {W_i}\times{C_i}}} $， i表示主干网络的阶段数，$ i \in [1,4] $，${H_i}、{W_i}、{C_i}$表示特征图的高度、宽度和通道数. 输入图像在经过阶段1后，特征图的高度和宽度都缩小为原来的1/4，此后每经过一个阶段，特征图的高度和宽度均缩小1/2，通道数增大为上一阶段的4倍.

1.2. 上下文信息提取器

相比于全局特征，局部特征在图像中的数量丰富，特征间相关度小，受遮挡的影响较小. 以往的细粒度图像分类方法通常利用全局特征生成大的预测区域，网络很难注意到不明确目标以及复杂场景下的局部细节特征. 并且，古塔图像中的检测对象通常与背景杂糅或只占据图像的小部分，网络从局部区域直接获得的局部特征非常有限. 由于每个目标总是存在于特定的环境中或与其他目标共存，一个良好的对象/场景的上下文信息表征能够整合全局和局部特征，帮助网络检测目标，对细粒度分类任务起着关键作用. 基于上述分析，设计了一个3层结构的上下文信息提取器CIE，每层结构相同，均由多尺度滑动窗口和注意力引导机制组成. 通过多尺度的滑动窗口来捕获深层特征的空间上下文信息，然后利用注意力引导机制抑制浅层特征的低上下文信息区域并上采样到深层特征以对重要目标提供足够的表示.

CIE的单层结构如图2所示，其输入来自主干网络任意相邻2层的输出特征图$ {{\boldsymbol{F}}_i}和{{\boldsymbol{F}}_{i+1}}, \;{{\boldsymbol{F}}_i} \in {{\mathbf{R}}^{{H_i}{W_i}\times{C_i}}} $，$ {{{\boldsymbol{F}}}_{i+1}} \in {{\mathbf{R}}^{{H_{i{\text{+1}}}} {W_{i{\text{+1}}}}\times{C_{i+1}}}} $，$i \in [1,3]$，其中$ {{{\boldsymbol{F}}}_i} $为浅层特征,$ {{{\boldsymbol{F}}}_{i+1}} $为深层特征.

图 2

图 2 上下文信息提取器单层结构图

Fig.2 Framework of single-layer contextual information extractor

首先，使用二维卷积将深层特征$ {{\boldsymbol{F}}_{i+1}} $的通道数变为$ {C_{i+1}}/16 $和$ {C_{i+1}}/36 $，通过滑动窗口操作来挖掘深层特征的空间上下文信息，表达式如下：

(1)$ {\boldsymbol{F}}_{i+1}^1 = {{\rm{Unfold}}}\; ({\text{Conv2d}}\;({{\boldsymbol{F}}_{i+1}}),{s_1}), $

(2)$ {\boldsymbol{F}}_{i+1}^2 = {{\rm{Unfold}}} \;({\text{Conv2d}}\;({{\boldsymbol{F}}_{i+1}}),{s_2}). $

式中：Unfold表示滑窗操作，${s_1}$和${s_2}$分别为2个滑动窗口的大小，$ {\boldsymbol{F}}_{i+1}^1 $和$ {\boldsymbol{F}}_{i+1}^2 $分别表示经过滑窗操作后得到的特征图.

$ {\boldsymbol{F}}_{i+1}^1 $和$ {\boldsymbol{F}}_{i+1}^2 $的通道数由滑动窗口的大小决定，取${s_1}$=2×2和${s_2}$=3×3，则经过滑窗操作后2个特征图的通道数均为$ {C_{i+1}}/4 $，和浅层特征$ {{\boldsymbol{F}}_i} $的通道数$ {C_i} $保持一致. 将$ {\boldsymbol{F}}_{i+1}^1 $和$ {\boldsymbol{F}}_{i+1}^2 $拼接在一起得到高级描述符$ {{\boldsymbol{f}}_{\mathrm{g}}} \in {\boldsymbol{R}}^{{{\tfrac{{C_{i + 1} }}{4}}}\times s'} $，其中$s'$为滑窗操作后2个特征的宽度之和. $ {{\boldsymbol{f}}_{\mathrm{g}}} $集合了来自深层特征多个局部部分的特征和他们的上下文信息，并可以强调局部的重要性. $ {{\boldsymbol{f}}_{\mathrm{g}}} $表达式如下：

(3)$ {{\boldsymbol{f}}_{\mathrm{g}}} = {{\mathrm{concate}}} \;({\boldsymbol{F}}_{i+1}^1,{\boldsymbol{F}}_{i+1}^2). $

式中：${\text{concate}}\;( * )$表示特征拼接函数.

借鉴注意力的思想，对齐高级描述符$ {{\boldsymbol{f}}_{\mathrm{g}}} $和浅层特征$ {{\boldsymbol{F}}_i} $来计算两者的相似性，并通过向量内积运算得到$ {{\boldsymbol{f}}_{\mathrm{g}}} $中重复的上下文信息$ {{\boldsymbol{f}}_{\text{a}}},\; {{\boldsymbol{f}}_{\text{a}}} \in {{\mathbf{R}}^{{H_i} {W_i} \times {C_i}}} $，$ {{\boldsymbol{f}}_{\text{a}}} $表达式如下：

(4)$ {{\boldsymbol{f}}_{\text{a}}} = ({{\boldsymbol{f}}_{\mathrm{g}}} \otimes {{\boldsymbol{F}}_i}) \otimes {{\boldsymbol{f}}_{\mathrm{g}}}^{\mathrm{T}}. $

网络深层感知更全面的语义信息，而浅层关注边缘和角落之类的细节信息，即，深层特征具有更多的语义上下文，而浅层特征具有更详细的上下文，因此对于复杂背景中的不明确目标，重复上下文将包含更多无用的语义. 因此，在浅层特征中去除冗余特征，以从全局信息中提取具有空间上下文的细粒度局部特征${{\boldsymbol{f}}_{\text{A}}}$. ${{\boldsymbol{f}}_{\text{A}}}$表达式如下：

(5)$ {{\boldsymbol{f}}_{\text{A}}} = {{\boldsymbol{F}}_i} - {{\boldsymbol{f}}_{\text{a}}}. $

将局部特征下采样到深层特征以得到包含丰富上下文信息的特征$ {\boldsymbol{f}}_{i+1},\;{\boldsymbol{f}}_{i+1} \in {{\mathbf{R}}^{{H_{i+1}} {W_{i+1}}\times {C_{i+1}}}} $，$i \in [1,3]$，${\boldsymbol{f}}_{i+1}^{}$表达式如下：

(6)$ {\boldsymbol{f}}_{i+1}^{} = {{\boldsymbol{F}}_{i+1}}+{{{f}}_{{\mathrm{fpn}}}}({{\boldsymbol{f}}_{\text{A}}}). $

式中：$ {{{f}}_{{\mathrm{fpn}}}}\;( * ) $表示特征金字塔下采样函数.

1.3. 特征消除策略

模糊类别是指预测的分类分数相近的结果，这是导致错误分类的主要原因之一. 通过上述CIE得到包含上下文信息的特征后，为了进一步消除背景及模糊类对网络的影响，帮助网络关注到更具判别性的特征，设计了特征消除策略，通过消除类间相似区域和背景特征，迫使网络关注到其他判别性特征. ViT-SAC(self assessment classifier)^[16]研究了前K个预测类中的模糊性，并利用图像和前K个的预测结果来重新评估分类. 本研究方法受其启发，不过，与它不同的是，1）本研究方法无须通过生成的特征图裁剪原始图片并重新输入进网络，实现了端到端的训练，避免了前一阶段的训练误差和错误对后一阶段网络训练的影响；2)本研究方法利用预测分数将特征图划分为对象候选区域和背景候选区域，在像素级上直接删掉对应的模糊类特征点和背景特征点. 由于CIE的输出${{\boldsymbol{f}}_{i+1}}$是上下文敏感的，删除某些特征不会丢失图像的上下文信息.

特征消除策略FES共包括4个模块，各模块结构相同，单模块的具体结构如图3所示. 图中，$ {\boldsymbol{X}} $为该模块的输入，$ {{\boldsymbol{X}}'} $表示该模块的输出，模块1的输入$ {{\boldsymbol{X}}^1} $为阶段1的特征图$ {{\boldsymbol{F}}_1} $，模块2~4的输入$ {{\boldsymbol{X}}^2} $~$ {{\boldsymbol{X}}^4} $为CIE的输出${\boldsymbol{f}}_{i+1}^{}$，$i \in [1,3]$. FES每个模块均包含模糊类特征消除分支和背景消除分支，双分支结构综合考虑了模糊类特征和背景特征对网络分类的贡献度，通过消除对分类帮助较少的特征点来生成具有判别性的特征. 对于FES任意一个模块，将输入特征图$ {\boldsymbol{X}} $中的特征点逐个编号，$ {{\boldsymbol{X}}_j} $表示$ {\boldsymbol{X}} $中第j个特征点，$j \in \left\{ {1,2,\cdots,H \times W} \right\}$，特征编号集合$Z$包含了$ {\boldsymbol{X}} $中所有特征点的编号，$Z$可以表示为

图 3

图 3 特征消除策略单层结构图

Fig.3 Framework of single-layer feature elimination strategy

(7)$ Z = \{ 1,2, \cdots ,H \times W\} . $

模糊类特征消除分支用于消除前K项模糊类共同关注的特征点. 首先，借助全连接层提取可视化特征${\boldsymbol{V}} \in {{\mathbf{R}}^{{d_{\rm{v}}}}}$，获得前K个预测结果，其中${d_{\rm{v}}}$表示${\boldsymbol{V}}$的维数. 然后，使用Glove^[17]的单词嵌入方法来学习类标签的语言模态信息$ {\boldsymbol{E}} = \left[ {{\boldsymbol{E}}_{\text{1}}}{\text{,}}\cdots\right. \left.{{\boldsymbol{E}}_k}{\text{,}}\cdots{\text{,}}{{\boldsymbol{E}}_K} \right] $，$ {{\boldsymbol{E}}_k} \in {{\mathbf{R}}^{{d_{\rm{e}}}}} $，本研究采用Glove中的预设${d_{\rm{e}}}$=1024来表示每个类标签信息的维度. 通过双线性注意力网络 (bilinear attention network，BAN)^[18]来融合2种模态信息$ {\boldsymbol{X}} $和${\boldsymbol{E}}$，得到联合特征${{\boldsymbol{J}}} \in {{\mathbf{R}}^{{d_{\rm{e}}}}}$和模糊注意力图$ {{\boldsymbol{M}}} \in {{\mathbf{R}}^{H \times W}} $，表达式如下：

(8)$ {{\boldsymbol{m}}} = \sigma \;({{\mathrm{Linear}}} \;({\boldsymbol{X}}) \times {\boldsymbol{E}}), $

(9)$ {{\boldsymbol{M}}} = {{\mathrm{sum}}} \;({{\boldsymbol{m}}}).\;{{\mathrm{resize}}} \;(H,W), $

(10)$ {{\boldsymbol{J}}} = \sum\limits_{j=1}^{H \times W} {\sum\limits_{k=1}^K {{\boldsymbol{X}}_j^{\text{T}} \times {{\boldsymbol{M}}}} \times {{\boldsymbol{E}}_k}} . $

式中：$ \sigma\; ( * ) $表示Softmax函数；$ {\text{Linear (}} * {\text{)}} $表示全连接层；m表示通过BAN得到的K个特征图，${{\boldsymbol{m}}} \in {{\mathbf{R}}^{HW \times K}}$；${{\mathrm{sum}}}\; ( * )$表示按列相加，$.{\text{resize}}\;(H,W)$表示返回尺寸为$ H\times W $的特征向量.

$ {\boldsymbol{M}} $的响应反映了前K个模糊类共同关注的区域，响应越高的特征点越容易导致错误分类. 按照响应大小对$ {{\boldsymbol{M}}} $中$H \times W$个特征点排序，丢弃前$\tau $个模糊类共同关注的特征点，得到模糊消除特征编号集合${Z_{{\text{max}}}}$，${Z_{{\text{max}}}}$是所有特征编号集合$Z$的子集.

背景消除分支用于消除分类得分较少的特征点，可以减少复杂背景对分类结果的影响. 借助全连接层提取$ {\boldsymbol{X}} $中所有特征点的分类分数${\boldsymbol{x}} $，$ {{\boldsymbol{x}}} \in {{\mathbf{R}}^{H \times W\times P}} $，每个特征点被分为P类，P为类别总数. 使用最大预测概率作为该特征点的分类分数，分类分数低代表该特征点属于背景特征. 按分类分数从高到低选择前$ \zeta $个特征点，得到背景消除特征编号集合${Z_{{\text{min}}}}$，${Z_{{\text{min}}}}$为所有特征编号集合$Z$的子集.

最后，取2个编号集合的交集${Z_{{\text{final}}}}{\text{ = }}{Z_{{\text{min}}}} \cap {Z_{{\text{max}}}}$，${Z_{{\text{final}}}}$中的编号为$ {\boldsymbol{X}} $中即不属于模糊类也不属于背景的特征. 在$ {\boldsymbol{X}} $中选通${Z_{{\text{final}}}}$中的特征点，得到新的特征图$ {\boldsymbol{X}}' $，表达式为

(11)$ {\boldsymbol{X}}' = \left\{ {{{\boldsymbol{X}}_j}|j \in {Z_{{\text{final}}}}} \right\}. $

式中：$ {\boldsymbol{X}}' \in {{\mathbf{R}}^{N \times C}} $，$N$为提取的特征编号总数，$C$为特征图的通道数.

由于${{Z}_{{\text{final}}}}$中的特征数量$ g({{Z}_{{\text{final}}}}) $并不固定，为了确定${\boldsymbol{X}}'$连接的分类器参数，取$N = \xi - \tau $，当$g({{Z}_{{\text{final}}}}) > N$时，删掉${{Z}_{{\text{final}}}}$中分类分数低的特征编号，直到$g({{Z}_{{\text{final}}}}) = N$；当$g({{Z}_{{\text{final}}}}) < N$时，从${{Z}_{\max }}$中向${{Z}_{{\text{final}}}}$补充分类分数高的特征编号，直到$g({{Z}_{{\text{final}}}}) = N$.

1.4. 特征融合

使用单一尺度的特征图进行分类训练，网络会生成大的预测区域，并且无法充分表征图像细节. 因此，引入多尺度特征融合层，减少细节特征丢失，充分挖掘多尺度空间信息. 经过FES策略后得到4个不同尺度的特征图${{\boldsymbol{X}}^{1'}} = {{\mathbf{R}}^{{N_1} \times {C_1}}}$、${{\boldsymbol{X}}^{2'}} = {{\mathbf{R}}^{{N_2} \times {C_2}}}$、${{\boldsymbol{X}}^{3'}} = {{\mathbf{R}}^{{N_{\text{3}}} \times {C_3}}}$和$ {{\boldsymbol{X}}^{4'}} = {{\mathbf{R}}^{{N_4} \times {C_4}}} $，首先利用卷积核大小为1的一维卷积来统一4个特征图的维度，并将它们沿通道维度连接在一起得到$ {{\boldsymbol{X}}_{{\text{final}}}} \in {{\mathbf{R}}^{N' \times {C_1}}} $，其中$N'{\text{ = }}{N_{\text{1}}}{\text{+}}{N_{\text{2}}}{\text{+}}{N_{\text{3}}}{\text{+}}{N_{\text{4}}}$，$ {{\boldsymbol{X}}_{{\text{final}}}} $包含了网络挖掘到的所有对分类有益的特征点，然后通过一个全连接层将所选择的局部特征重新组合为可以表示整个图像的全局特征. 因此，维度为$ {{\mathbf{R}}^{N' \times {C_1}}} $的特征图在穿过全连接层之后可以产生维度为$ {{\mathbf{R}}^P} $的预测结果.

1.5. 损失设计

由于古塔建筑图像分类任务中各子类间的差异较小，单独的交叉熵损失函数不足以完全监督网络迭代学习. 本研究设计的损失函数包括预测损失${{L} _{{\text{final}}}}$、背景消除损失${{L} _{{\text{back}}}}$、模糊类消除损失${{L} _{{\text{joint}}}}$和丢弃特征点损失${{L} _{{\text{drop}}}}$. 总体损失L可以表示为

(12)$ {{L = }}{{L} _{{\text{final}}}}+{{L} _{{\text{back}}}}{\text+}{{L} _{{\text{joint}}}}{\text+}{{L} _{{\text{drop}}}}. $

${{L} _{{\text{final}}}}$通过交叉熵损失函数${{L} _{{\text{ce}}}}$计算，可以表示为

(13)$ {{L} _{{\text{final}}}} = {{L} _{{\mathrm{ce}}}}({{\boldsymbol{X}}_{{\text{final}}}},y). $

式中：y表示样本标签.

${{L} _{{\text{back}}}}$用于监督FES策略的背景消除分支. 使用所有特征点的平均分类分数$ {{{\boldsymbol{l}}}^i} \in {{\mathbf{R}}^P} $来计算${{\boldsymbol{X}}^i}$的整体损失，表达式如下：

(14)$ {{{\boldsymbol{l}}}^i} = \frac{1}{{H \times W}}\sum\limits_{j = 1}^{H \times W} {{\boldsymbol{x}}_j^i} , $

(15)$ {{L} _{{\text{back}}}} = - \frac{1}{{H \times W}}\sum\limits_{i = 1}^4 {\sum\limits_{p = 1}^{{P}} {{y_p}\log \;l_p^i} } . $

式中：$ {\boldsymbol{x}}_j^i $表示第i个阶段特征编号为$j$的特征点的分类分数，${y_p}$表示样本的真实标签，$l_p^i$表示${{\boldsymbol{l}}^i}$属于类别p的预测概率.

${{L} _{{\text{joint}}}}$用于监督FES策略的模糊类特征消除分支，可以表示为

(16)$ {{L} _{{\text{joint}}}} = - \sum\limits_{i = 1}^4 {\sum\limits_{p = 1}^P {{y_p}\log \;{{{J}}}_p^i} }. $

式中：${J}_p^i$表示第i阶段的特征向量${{\boldsymbol{J}}^i}$属于类别p的预测概率.

${{L} _{{\text{drop}}}}$通过FES策略中丢弃特征的总和$ {{{\boldsymbol{h}}}^i} $计算，其表达式如下：

(17)$ {{{\boldsymbol{h}}}^i} = \sum\limits_{j \in Z - {Z_{{\text{final}}}}} {{\boldsymbol{X}}_j^i}, $

(18)$ {{L} _{{\text{drop}}}} = - \sum\limits_{i = 1}^4 {\sum\limits_{p = 1}^P {{y_p}\log \;(1 - h_p^i)} }. $

式中：$h_p^i$表示$ {\boldsymbol{h}^i} $属于类别p的预测概率.

2. 古塔数据集构建

中国古塔是信仰的凝聚和文化的定格，其所蕴含的艺术价值是国家不可再生的文化资源，是先人留给我们的宝贵财富. 本研究以中国各地的古塔为对象，收集并构建了中国古塔建筑图像数据集，具有采集范围广、角度多、横跨昼夜等特点. 数据集包含263类共15 153张的古塔图像，其中7 642张图像用于训练，7 511张图像用于测试. 数据集的图像主要来源于必应图片、百度图片及维基百科等平台，示例图如图4所示，可以看出，收集的图像具有贴近现实环境、呈现复杂背景的特点，如包括局部主体、多角度拍摄、昼夜差异，以及目标主体不明确等干扰. 因此，本研究提出的古塔建筑图像数据集在分类任务上具有一定的挑战性. 同时，数据采集地理范围囊括全国，包含23个省份、5个自治区、4个直辖市以及2个特别行政区. 263类图像数据的具体省份信息分布情况如图5(a)所示. 图中，${U_{{\text{lable}}}}$表示类别数量. 此外，数据集的样本分布较为均匀，分布图如图5(b)所示. 图中，${U_{{\text{spl}}}}$表示样本数量，p为类别标签，超过80%的类别的样本数量为35~65，与常用的细粒度分类数据集的保持一致.

图 4

图 4 古塔建筑数据集图像示例

Fig.4 Image examples of ancient tower architecture dataset

图 5

图 5 古塔建筑数据集分布

Fig.5 Ancient tower building dataset distribution

3. 实验与结果分析

为了验证所提方法的有效性，在古塔建筑图像数据集上对所提方法和多个性能优异的分类算法进行对比实验. 同时，为了评估本研究算法的通用性，在广泛使用的细粒度数据集CUB-200-2011、Stanford Car以及FGVC-Aircraft上进行对比试验. 4类数据集的具体参数如表1所示. 表中，$ {{T}_{{\text{train}}}} $表示训练样本数，$ {{T}_{{\text{test}}}} $表示测试样本数，$ {{T}_{{\text{lable}}}} $表示类别数.

表 1 4种数据集参数

Tab.1 Parameters of four datasets

数据集	$ {{T}_{{\text{train}}}} $	$ {{T}_{{\text{test}}}} $	$ {{T}_{{\text{lable}}}} $
古塔数据集	7 642	7 511	263
CUB-200-2011	5 994	5 794	200
Stanford Cars	144	8 041	196
FGVC-Aircraft	6 667	3 333	100

实验的环境配置如下：操作系统为Ubuntu 16.04，采用2台RTX2080Ti型号的GPU和基于Pytorch的深度学习框架.使用MogaNet-L的预训练权重来训练网络，输入图像大小为224×224，在训练阶段使用随机裁剪和水平翻转的数据扩充方式，在测试阶段使用中心裁剪的数据扩充方式；使用带动量的批处理随机梯度下降法(stochastic gradient descent, SGD)作为优化器，设定权重衰减为0.0001，批量大小为8，以0.0005的初始学习率训练100个epoch，并使用余弦退火策略调整学习率.

3.1. 消融实验

在古塔建筑图像数据集上进行一系列的消融实验，确定模型的超参数并验证CIM模块和FES策略对网络分类性能的影响，进一步探究网络在古塔建筑数据集上的分类效果.

3.1.1. 设置超参数K

模糊消除特征编号集合${{Z}_{{\text{max}}}}$的数量取决于视觉特征${\boldsymbol{V}}$提取的前K项模糊预测类. 本实验探究了前K项模糊预测类的数量对分类结果的影响，实验表明，当K取2、5、10、20时，实验准确率分别为95.36%、96.11%、96.32%、95.97%，可知如果K设置为一个小数字，那么生成的模糊类可能不包含分类对象的类别真值，在这种情况下，网络会错误删除对类别真值分类有帮助的特征编号. K=10时实验的准确率最高，而当K继续增大时，实验的准确率下降. 这是因为当K设置得较大时，前K项模糊预测类共同关注的特征点会变少，模糊类特征消除分支的改进也会变小.

3.1.2. 超参数$\xi $和$\tau $的选择

在本实验中，MogaNet-L被用作主干，它有4个stage，特征数量为[3136，784，196，49]. 如表2所示，按照特征数量由网络深层到浅层依次成4倍的规则使用5×5、2⁵、6×6、7×7来生成4种集合大小作为$\xi $的待选值，使用2、2²、2³来生成3种集合大小作为$\tau $的待选值. 表中，P为准确率. 最终各stage的输出特征数量将直接影响后续所需的模型参数，考虑到计算量和准确率之间的权衡，本研究最终使用$\xi $=[2304, 576, 144, 36]和$\tau $=[256, 64, 16, 4].

表 2 不同特征编号集合数量下古塔数据集上的实验结果

Tab.2 Experimental results of different numbers of feature number sets on ancient tower dataset

$\xi $	$\tau $	P/%
[1600, 400, 100, 25]	[128, 32, 8, 2]	95.61
	[256, 64, 16, 4]	95.62
	[512, 128, 32, 8]	95.42
[2048, 512, 128, 32]	[128, 32, 8, 2]	96.04
	[256, 64, 16, 4]	96.10
	[512, 128, 32, 8]	96.22
[2304, 576, 144, 36]	[128, 32, 8, 2]	96.28
	[256, 64, 16, 4]	96.32
	[512, 128, 32, 8]	96.30
[3136, 784, 196, 49]	[128, 32, 8, 2]	95.85
	[256, 64, 16, 4]	95.96
	[512, 128, 32, 8]	95.11

3.1.3. 损失函数消融实验与分析

为了验证所提损失函数的有效性并对比不同损失函数对自建古塔数据集分类效果的影响，进行了6组实验，分类结果如表3所示. ${{L} _{{\text{back}}}}、$${{L} _{{\text{joint}}}}$和${{L} _{{\text{drop}}}}$均作用于FES模块，其中，${{L} _{{\text{back}}}}$用于约束分类分数$ {{\boldsymbol{x}}} $的生成，提升背景消除的准确度，${{L} _{{\text{joint}}}}$用于监督可视化特征图$ {{\boldsymbol{M}}} $，提升模糊类特征消除的准确度，${{L} _{{\text{drop}}}}$用于计算丢弃特征点的总和损失. 实验结果显示，单独添加${{L} _{{\text{back}}}}$、${{L} _{{\text{joint}}}}$、${{L} _{{\text{drop}}}}$均能提升模型的分类精度，同时使用上述3种损失，特征消除更加准确，网络更倾向于丢弃对细粒度分类无用的特征，精度提升最大.

表 3 不同损失函数下古塔数据集上的实验结果

Tab.3 Experimental results of different loss functions on acient tower dataset

损失函数	P/%
${{L} _{{\text{final}}}}$	95.25
${{L} _{{\text{final}}}}$+${{L} _{{\text{back}}}}$	95.69
${{L} _{{\text{final}}}}$+${{L} _{{\text{joint}}}}$	95.38
${{L} _{{\text{final}}}}$+${{L} _{{\text{drop}}}}$	95.85
${{L} _{{\text{final}}}}$+${{L} _{{\text{back}}}}$+${{L} _{{\text{joint}}}}$	96.12
${{L} _{{\text{final}}}}$+${{L} _{{\text{back}}}}$+${{L} _{{\text{joint}}}}$+${{L} _{{\text{drop}}}}$	96.32

3.1.4. 不同模块的性能分析

如表4所示为主干网络结合不同模块策略对于最终分类性能以及模型复杂度的影响. 表中，Para为参数量，Cal为计算量. 干网络，算法准确率为93.90%，单独使用CIE时，在不增加模型参数的情况下，算法精度为95.35%. 单独使用FES和上述实验确定的参数后，算法精度达到94.93%，相较于基线提升了1.03个百分点. 结合使用CIE和FES后，准确率达到了96.32%，相比基线提升了2.42个百分点. 由上述分析可知，FES策略删除了部分特征，可能导致部分上下文信息的缺失，单独使用FES策略对网络性能的提升十分有限，合理的做法应该是在CIE捕捉到包含丰富上下文信息的特征后，利用FES建立模糊类和背景消除，以此来提升网络整体的分类性能. 同时，由表4第3、4列可以看出，引入CIE后，模型计算量升高1.6 G. 同时使用CIE和FES，模型的参数量增加18.3 M，计算量增加16.0 G.

表 4 本研究方法在古塔数据集上消融实验结果

Tab.4 Results of ablation experiments of proposed method on self-built ancient tower dataset

方法	P/%	Para/M	Cal/G
MogaNet-L	93.90	82.5	15.9
MogaNet-L+CIE	95.35(+1.45)	82.5(+0)	17.5(+1.6)
MogaNet-L+FES	94.93(+1.03)	100.8(+18.3)	30.3(+14.4)
MogaNet-L+CIE+FES	96.32(+2.42)	100.8(+18.3)	31.9(+16.0)

3.2. 古塔建筑数据集多算法对比实验与分析

不同方法在古塔建筑数据集上的准确率对比如表5所示. ViT的准确率并不高，是因为ViT本身更多地关注全局信息，而较少关注局部和底层特征. TransFG (a transformer architecture for fine-grained recognition)、FFVT (feature fusion vision transformer)在ViT的基础上设计了零件选择模块来增强网络抓取判别性特征的能力，但对局部和低层特征的忽视限制了其模型的精度. ViT-SAC在原始输入上裁剪最受关注的特征并重新输入进网络，不能准确对判别性特征进行定位，并且两阶段的训练方式也会导致前一阶段的训练误差对第2阶段的训练造成影响，因此精度不高. DCAL(dual cross-attention learning)采用2种类型的交叉注意力机制来更好地学习细粒度的微妙特征嵌入，并加强全局图像和局部响应之间的相互作用，但其针对ViT的改进很难应用到卷积神经网络或其他网络中. 本研究方法以MogaNet-L作为主干网络，在自建的古塔数据集上达到了96.3%的准确率，取得了更加优异的性能，能够实现古塔建筑物的准确识别.

表 5 不同方法在古塔数据集上的准确率对比

Tab.5 Accuracy comparison of different methods on ancient tower dataset

方法	主干网络	分辨率	P/%
PMG^[7]	Resnet50	448×448	94.2
FBSD^[8]	Densenet161	448×448	94.5
TransFG^[13]	ViT-B_16	448×448	94.5
FFVT^[12]	ViT-B_16	448×448	94.8
SIM-Trans^[14]	ViT-B_16	448×448	94.8
CAP^[4]	Xception	224×224	94.9
ViT-SAC^[16]	ViT-B_16	448×448	95.4
SR-GNN^[19]	Xception	224×224	95.6
DCAL^[20]	R50-ViT-Base	448×448	95.7
本研究算法	MogaNet-L	224×224	96.3

如表6所示，本研究模型总参数量达到100.8 M，计算量为31.9 G. 列举几种已公开源码方法的参数量和计算量，可以看出，在参数量相差不多的前提下，由于使用了更小的图像分辨率 (224×224)，模型的计算量相较其他方法有明显的下降，同时获得了更高的准确率.

表 6 不同方法在参数量、计算量等方面的对比

Tab.6 Comparison of parameters numbers and calculation volume of different methods

方法	分辨率	Para/M	Cal/G	P/%
TransFG^[13]	448×448	86.2	62.0	95.4
Vit-SAC^[15]	448×448	106.0	92.5	95.6
DCAL^[20]	384×384	88.0	47.0	95.7
本研究算法	224×224	100.8	31.9	96.3

如图6所示展示了本研究方法的不同结构在古塔建筑数据集上的可视化结果，以观察网络在提取特征时关注点的变化. 一个地区的颜色越深表明网络对其关注度越高，即越重要. 图6(a)表示从测试数据集中随机抽取的2幅图像. 首先，测试了原始主干网络，图6(b)表示经过主干网络MogaNet训练后的注意力图，原始主干网络倾向于生成大的预测区域，无法准确识别目标地边界，且模型会错误地关注到遮挡物和背景，表明原始主干并不是为检测细粒度数据中的细节而设计的. 其次，在主干中分别加入了CIE模块和FES策略，图6(c)、(d)分别表示主干网络加入CIE和FES后训练得到的注意力图. 可以看出，单独使用CIE或FES均能使网络生成较为精细的预测区域. CIE模块引导深层特征关注到更多的局部细节信息和空间上下文信息，并且丢弃了冗余的特征，能起到初步抑制背景噪声的作用；FES策略可以去除模糊类特征点和背景特征点，模型可以捕捉到更精确、更具判别性的区域. 然而，FES策略限制了注意力区域，丢弃的特征点会导致最终用于分类的特征缺失部分空间上下文信息和全局视角，从而使精度的提升非常有限. 最后，本研究在主干网络上同时添加了CIE模块和FES策略，图6(e)表示同时使用CIE和FES训练得到的注意力图，使用CIE模块得到包含空间上下文信息的特征后，再加入FES策略，使得整体注意力图能精确地映射整个待测目标的判别性区域，模型在捕捉更广泛的区域的同时保持了细节. 结果表明，本研究方法实现了更好的准确性.

图 6

图 6 可视化对比图

Fig.6 Visualization comparison figure

3.3. 细粒度数据集多算法对比实验与分析

细粒度图像分类任务广泛在CUB-200-2011数据集、Stanford Cars数据集以及FGVC-Aircraft数据集上进行研究，本研究在上述3类数据集上进行对比实验以进一步证明算法在下游细粒度分类上的迁移能力. 所列举的算法均为仅使用图像级标签训练的弱监督学习.

CUB-200-2011数据集包含200类鸟的11 788张图像，如表7所示为多算法的对比实验结果. 可以看出，所提方法在CUB-200-2011数据集上获得了较其他方法领先的结果. CAL(counterfactual attention learning)以90.6%的准确率领先其他ResNet架构的方法，基于Transformer的方法如ViT-SAC、FFVT以及DCAL等则凭借超大的预训练模型取得了较为优秀的准确率，基于Xception的方法如CAP(context-aware attentional pooling)使用更小的图像分辨率以及纯卷积架构，达到了媲美Transformer的效果. 而本研究方法以MogaNet-L作为主干网络，取得了更加优异的性能.

表 7 不同算法在细粒度数据集上的准确率对比

Tab.7 Comparison of accuracy of different algorithms on fine-grained datasets

方法	主干网络	分辨率	P/%
方法	主干网络	分辨率	CUB-200-2011	Stanford Cars	Aircraft
WS-DAN^[5]	Inception v3	448×448	89.4	94.5	93.0
PMG^[7]	ResNet-50	550×550	89.6	95.1	93.4
API-Net^[3]	DenseNet-161	512×512	90.0	95.3	93.9
PART^[21]	ResNet-101	448×448	90.1	95.3	94.6
CAL^[9]	ResNet-101	448×448	90.6	95.5	94.2
FFVT^[12]	ViT-B_16	448×448	91.6	94.1	94.3
TransFG^[13]	ViT-B_16	448×448	91.7	94.8	94.1
CAP^[4]	Xception	224×224	91.8	95.7	94.5
ViT-SAC^[16]	ViT-B_16	448×448	91.8	95.0	93.1
DCAL^[20]	R50-ViT-Base	448×448	92.0	95.3	93.3
本研究方法	MogaNet-L	224×224	92.4	95.3	94.6

Stanford Cars数据集按照不同品牌、型号和年份进行划分，包含了196类汽车的16 185张图像，本研究方法在该数据集上取得了95.3%的准确率性能，取得了与大多数对比方法非常相似的结果，具有一定的优越性. 所提方法性能不如CAP及CAL方法，不过总体上相差较小. 其原因在于Stanford Cars比其他数据集具有更分明的轮廓边界和更简单的背景，同一类别的样本之间的差异很小，本研究针对模糊边界和复杂背景的改进未有明显体现.

FGVC-Aircrafts数据集是用于飞机细粒度视觉分类的基准数据集，包含了100类不同飞机模型的10 200张图像，该数据集的类间差异较小，但本研究方法在该数据集上依旧达到了94.6%的准确率，证明本研究方法具有优秀的判别性特征定位能力.

4. 结　语

提出多尺度上下文引导特征消除的古塔建筑图像分类网络，充分利用主干网络多尺度特征提升网络捕获局部细节的能力；设计上下文信息提取器，利用上下文信息和注意力机制引导特征变换，抑制低信息区域并增强重要区域；采用类预测得分来消除背景特征和模糊类特征，促使网络关注到判别性区域；设计多种损失函数，约束特征提取和模糊特征丢弃，进一步提升了网络表现；此外，提出了自建古塔数据集，并将本研究方法应用于古塔建筑分类任务当中，拓展了细粒度图像识别在现实生活的应用. 在没有大幅增加计算量和模型参数量的基础上，本研究方法在多个细粒度数据集上均获得了较好的表现.

本研究虽然取得了一定的成果，但在性能上对于主干网络的依赖较强，下一阶段，考虑对整体网络进行剪枝，压缩空间复杂度与计算复杂度，以便于进行实际应用部署.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

CAO B, ARAUJO A, SIM J. Unifying deep local and global features for image search [C]// European Conference on Computer Vision . Glasgow: Springer, 2020: 726−743.

[2]

DOU Z, CUI H, ZHANG L, et al. Learning global and local consistent representations for unsupervised image retrieval via deep graph diffusion networks [EB/OL]. (2020-06-11)[2023-08-22]. https://arxiv.org/abs/2001.01284.

[3]

ZHUANG P, WANG Y, QIAO Y. Learning attentive pairwise interaction for fine-grained classification [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New York: AAAI, 2020: 13130−13137.

[4]

BEHERA A, WHARTON Z, HEWAGE P R P G, et al. Context-aware attentional pooling for fine-grained visual classification [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New York: AAAI, 2021: 929−937.

[5]

HU T, QI H, HUANG Q, et al. See better before looking closer: weakly supervised data augmentation network for fine-grained visual classification [EB/OL]. (2019-03-23)[2023-8-22]. https://arxiv.org/abs/1901.09891.

[6]

王波, 黄冕, 刘利军, 等

基于多层聚焦Inception-V3卷积网络的细粒度图像分类

[J]. 电子学报, 2022, 50 (1): 72- 78

WANG Bo, HUANG Mian, LIU Lijun, et al

Multi-layer focused Inception-V3 models for fine-Grained visual recognition

[J]. Acta Electronica Sinica, 2022, 50 (1): 72- 78

[7]

DU R, CHANG D, BHUNIA A K, et al. Fine-grained visual classification via progressive multi-granularity training of jigsaw patches [C]// European Conference on Computer Vision . Glasgow: Springer, 2020: 726−743.

[8]

SONG J, YANG R. Feature boosting, suppression, and diversification for fine-grained visual classification [C]// 2021 International Joint Conference on Neural Networks . Shenzhen: IEEE, 2021: 1−8.

[9]

RAO Y, CHEN G, LU J, et al. Counterfactual attention learning for fine-grained visual categorization and reidentification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 1025−1034.

[10]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [C]// Proceedings of the International Conference on Learning Representations . Washington DC: ICLR, 2021: 1−22.

[11]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . New York: Curran Associates, 2017: 6000−6010.

[12]

WANG J, YU X, GAO Y. Feature fusion vision transformer for fine-grained visual categorization [C]// Proceedings of the British Machine Vision Conference . Durham: BMVA, 2021: 685−698.

[13]

HE J, CHEN J N, LIU S, et al. Transfg: a transformer architecture for fine-grained recognition [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Vancouver: AAAI, 2022: 852−860.

[本文引用: 4]

[14]

SUN H, HE X, PENG Y. Sim-trans: structure information modeling transformer for fine-grained visual categorization [C]// Proceedings of the 30th ACM International Conference on Multimedia . Ottawa: ACM, 2022: 5853−5861.

[15]

LI S, WANG Z, LIU Z, et al. Efficient multi-order gated aggregation network [EB/OL]. (2023-03-20)[2023-8-22]. https://arxiv.org/abs/2211.03295.

[16]

DO T, TRAN H, TJIPUTRA E, et al. Fine-grained visual classification using self assessment classifier [EB/OL]. (2022-05-21)[2023-8-22]. https://arxiv.org/abs/2205.10529.

[17]

PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing . Doha: ACL, 2014: 1532−1543.

[18]

KIM J H, JUN J, ZHANG B T. Bilinear attention networks [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . New York: Curran Associates, 2018: 1571−1581.

[19]

BERA A, WHARTON Z, LIU Y, et al

Sr-gnn: spatial relation-aware graph neural network for fine-grained image categorization

[J]. IEEE Transactions on Image Processing, 2022, 31: 6017- 6031

DOI:10.1109/TIP.2022.3205215 [本文引用: 1]

[20]

ZHU H, KE W, LI D, et al. Dual cross-attention learning for fine-grained visual categorization and object reidentification [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 4692−4702.