浙江大学学报(工学版), 2024, 58(12): 2489-2499 doi: 10.3785/j.issn.1008-973X.2024.12.008

计算机技术

多尺度上下文引导特征消除的古塔图像分类

孟月波,, 王博, 刘光辉

1. 西安建筑科技大学 信息与控制工程学院,陕西 西安 710300

2. 建筑机器人陕西省高等学校重点实验室

Multi-scale context-guided feature elimination for ancient tower image classification

MENG Yuebo,, WANG Bo, LIU Guanghui

1. College of Information and Control Engineering, Xi’an University of Architecture and Technology, Xi’an 710300, China

2. Key Laboratory of Construction Robots for Higher Education in Shaanxi Province

收稿日期: 2023-10-30  

基金资助: 国家自然科学基金资助项目(52278125);陕西省重点研发计划资助项目(2021SF-429).

Received: 2023-10-30  

Fund supported: 国家自然科学基金资助项目(52278125);陕西省重点研发计划资助项目(2021SF-429).

作者简介 About authors

孟月波(1979—),女,教授,博士,从事计算机视觉理解研究.orcid.org/0000-0002-5231-3071.E-mail:mengyuebo@163.com , E-mail:mengyuebo@163.com

摘要

针对古塔建筑图像分类任务中难以准确定位判别性特征以及复杂场景干扰的问题,提出多尺度上下文引导特征消除的分类方法. 构建以MogaNet为核心的特征提取网络,结合多尺度的特征融合以充分挖掘图像信息;设计上下文信息提取器,利用网络的语义上下文来对齐和过滤更具判别性的局部特征,加强网络捕捉细节特征的能力;提出特征消除策略,抑制模糊类特征和背景噪声干扰,并设计损失函数来约束模糊类特征消除和分类预测;建立中国古塔建筑图像数据集,为细粒度图像分类领域内针对复杂背景和模糊边界的研究提供数据支撑. 实验结果表明,所提方法在自建的古塔建筑数据集上达到了96.3%的准确率,并在CUB-200-2011、Stanford Cars和FGVC-Aircraft这3个细粒度数据集上分别达到了92.4%、95.3%和94.6%的准确率,优于其他对比算法,可以实现古塔建筑图像的精确分类.

关键词: 图像分类 ; 上下文信息 ; 特征消除 ; 深度学习 ; 特征融合

Abstract

A multi-scale context-guided feature elimination classification method was proposed, for resolving the problems of ambiguous discriminative feature localization and complex scene interference in the classification task of ancient tower building images. First, a feature extraction network with MogaNet as the core was constructed, and multi-scale feature fusion was combined to fully explore the image information. Next, a context information extractor was designed to utilize the semantic context of the network to align and filter more discriminative local features, enhancing the ability to capture detailed features. Then, a feature elimination strategy was proposed to suppress fuzzy class features and background noise interference, and a loss function was designed to constrain fuzzy feature elimination and classification prediction. At last, a Chinese ancient tower architecture image dataset was established to provide data to support research on complex backgrounds and fuzzy boundaries in the field of fine-grained image categorization. This method achieved 96.3% accuracy on the self-constructed ancient tower architecture dataset, and 92.4%, 95.3% and 94.6% accuracy on three fine-grained datasets, namely, CUB-200-2011, Stanford Cars and FGVC-Aircraft, respectively. The proposed method outperforms other comparison algorithms and enables accurate classification of images of ancient tower buildings.

Keywords: image classification ; contextual information ; feature elimination ; deep learning ; feature fusion

PDF (1803KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

孟月波, 王博, 刘光辉. 多尺度上下文引导特征消除的古塔图像分类. 浙江大学学报(工学版)[J], 2024, 58(12): 2489-2499 doi:10.3785/j.issn.1008-973X.2024.12.008

MENG Yuebo, WANG Bo, LIU Guanghui. Multi-scale context-guided feature elimination for ancient tower image classification. Journal of Zhejiang University(Engineering Science)[J], 2024, 58(12): 2489-2499 doi:10.3785/j.issn.1008-973X.2024.12.008

受自然侵蚀和人为破坏的影响,保留至今的古建筑已有相当部分损坏,对古建筑的形制特点研究及保护刻不容缓. 古塔凭借独特精巧的样式结构和其所蕴含的艺术价值,已经成为古建筑保护的重点. 近年来,文物数字化为古建筑保护提供了新的思路,古塔建筑图像的精准分类是古建筑数字化保护过程中的重要环节. 通过人眼分辨种类多、数量庞大的古塔建筑图像不仅需要相关的专业知识,而且效率低,错误率高.

目前,深度学习在图像分类领域已经广泛应用,并在建筑图像识别领域取得了显著进展. Cao等[1]提出统一局部和全局特征的模型,使用全局特征有效筛选相似图像,并利用局部特征重新排序,从而提高识别精度. Dou等[2]通过图扩散网络以无监督的方式利用建筑图像流形的局部和全局结构来学习语义表示,保留建筑图像的全局信息,实现了可拓展的训练. 然而,相较于一般建筑图像分类任务,古塔建筑图像的类间差异小,类内差异大,不同古塔的差异主要体现在局部细节上,同一古塔本身也会因为拍摄角度、光照、遮挡等因素产生巨大的差异. 因此,在一般建筑图像识别任务上表现良好的方法,对古塔建筑图像分类的帮助非常有限. 如何准确定位到分类目标的判别性区域,获得更多不易被提取的关键特征,是更细地划分不同古塔图像的核心问题,本研究认为很适合引入细粒度分类的方法进行研究与探索.

传统的细粒度分类方法通过增强卷积神经网络中提取的特征图,挖掘潜在的判别性特征. Zhuang等[3-4]通过相互特征向量来捕获输入对中的语义差异,使得网络能够通过2幅图像之间的成对交互来专注地捕获对比线索. Hu等[5-6]借助注意力机制增强图像,根据特征图的响应裁剪原始图像并重新输入到网络. Du等[7]提出渐进式训练策略,引导网络逐步从小粒度到大粒度的特征学习,并有效地将多粒度特征融合在一起. Song等[8]引入特征增强和抑制模块,提取特征图中最显著的部分以获得特定的零件表示,并在后续训练中抑制该区域,迫使网络挖掘其他潜在的零件. Rao等[9]提出反事实的注意力学习方法,通过最大化真实注意力图和反事实因果推理得到注意力图之间的差异,促使网络学习更有效的注意力图.

传统基于卷积神经网络的细粒度分类方法存在特征提取不充分和关键特征利用率低的问题. ViT[10]将Transformer[11]应用到图像领域,其自注意力机制被一致认为可以自动搜索图像中有助于识别的重要部分,在此基础上,Wang等[12]通过提取重要标记和设计新的选择模块有效引导网络选择鉴别性特征. He等[13]聚合网络各层级上重要零件的信息,并设计注意力权重来筛选判别性的区域,进一步提高了网络捕获细微差异的能力. Sun等[14]利用多尺度特征之间的互补关系和类间差异进行对比学习,提取包含外观信息和结构信息的判别性表示.

但是,上述方法多数直接融合网络不同尺度特征,未考虑多尺度特征之间的相互依赖关系,忽略了不同深度网络的空间上下文信息. 并且,这些方法均只对网络生成的大的预测区域做改进,更多地关注全局信息,而较少关注局部和底层特征,复杂场景下背景噪声会严重影响网络关注细微的局部特征的能力.

根据上述分析,本研究提出多尺度上下文信息引导特征消除的古塔建筑图像分类方法. 首先,使用MogaNet (efficient multi-order gated aggregation network)[15]作为主干网络,在训练阶段提取多尺度的特征,设计上下文信息提取器(contextual information extractor,CIE)去除上下文的冗余信息,从深层特征中提取具有空间上下文的细粒度局部特征,捕捉每个区域的细微变化;其次,设计特征消除策略(feature elimination strategy,FES),减少模糊类特征和背景对分类的影响,提高处理不明确目标和复杂背景的质量;最后,融合不同深度的特征以生成精细的预测区域. 同时,建立了自然场景下的中国古塔建筑图像数据集,为细粒度图像分类领域内针对复杂背景和模糊边界的研究提供数据支撑,并结合本研究方法实现对古塔建筑的精确分类.

1. 多尺度上下文引导特征消除网络

多尺度上下文信息引导特征消除分类网络框架如图1所示. 首先,使用MogaNet主干网络提取出多尺度的特征图,再提出上下文信息提取器,采用多尺度滑动窗口提取包含形状、纹理的全局特征和包含边缘、角点的局部特征,利用注意力机制抑制低上下文区域,增强捕获细节特征的能力. 然后设计特征消除模块,结合多模态特征交互,降低模糊类特征和背景特征对网络分类的影响. 最后,采用全连接层融合不同尺度的特征,并通过分类层来对不同输入图像分类.

图 1

图 1   多尺度上下文特征消除网络结构图

Fig.1   Overall framework of multi-scale contextual feature elimination network


1.1. 主干网络

主干网络决定了算法的特征提取能力及在下游任务中的应用潜力,选择优秀的主干可以帮助网络聚焦在细粒度问题的改进上. 最近的研究表明,通过先进的训练设置和更新后的结构,卷积神经网络也可以在不增加计算量的情况下得到媲美ViT甚至更优的性能. Li等[15]设计的MogaNet采用改进的卷积宏架构和优化策略,在相同的参数量下得到了更快的推理速度以及更高的准确率. MogaNet在纯卷积网络中进行信息挖掘和通道聚合,在一般图像分类、图像检索和语义分割方面以较低的计算成本显著优于当前主流主干网络. 这一巨大成功表明,MogaNet网络可以提取出非常强大的特征,其在下游任务中的迁移学习潜能十足. 本研究选择的MogaNet-L包含4个阶段,输入图像经过不同阶段后可得到不同尺度下的特征图$ {{\boldsymbol{F}}_i} ,\;{{\boldsymbol{F}}_i}\in {{\mathbf{R}}^{{H_i} {W_i}\times{C_i}}} $i表示主干网络的阶段数,$ i \in [1,4] $${H_i}、{W_i}、{C_i}$表示特征图的高度、宽度和通道数. 输入图像在经过阶段1后,特征图的高度和宽度都缩小为原来的1/4,此后每经过一个阶段,特征图的高度和宽度均缩小1/2,通道数增大为上一阶段的4倍.

1.2. 上下文信息提取器

相比于全局特征,局部特征在图像中的数量丰富,特征间相关度小,受遮挡的影响较小. 以往的细粒度图像分类方法通常利用全局特征生成大的预测区域,网络很难注意到不明确目标以及复杂场景下的局部细节特征. 并且,古塔图像中的检测对象通常与背景杂糅或只占据图像的小部分,网络从局部区域直接获得的局部特征非常有限. 由于每个目标总是存在于特定的环境中或与其他目标共存,一个良好的对象/场景的上下文信息表征能够整合全局和局部特征,帮助网络检测目标,对细粒度分类任务起着关键作用. 基于上述分析,设计了一个3层结构的上下文信息提取器CIE,每层结构相同,均由多尺度滑动窗口和注意力引导机制组成. 通过多尺度的滑动窗口来捕获深层特征的空间上下文信息,然后利用注意力引导机制抑制浅层特征的低上下文信息区域并上采样到深层特征以对重要目标提供足够的表示.

CIE的单层结构如图2所示,其输入来自主干网络任意相邻2层的输出特征图$ {{\boldsymbol{F}}_i}和{{\boldsymbol{F}}_{i+1}}, \;{{\boldsymbol{F}}_i} \in {{\mathbf{R}}^{{H_i}{W_i}\times{C_i}}} $$ {{{\boldsymbol{F}}}_{i+1}} \in {{\mathbf{R}}^{{H_{i{\text{+1}}}} {W_{i{\text{+1}}}}\times{C_{i+1}}}} $$i \in [1,3]$,其中$ {{{\boldsymbol{F}}}_i} $为浅层特征,$ {{{\boldsymbol{F}}}_{i+1}} $为深层特征.

图 2

图 2   上下文信息提取器单层结构图

Fig.2   Framework of single-layer contextual information extractor


首先,使用二维卷积将深层特征$ {{\boldsymbol{F}}_{i+1}} $的通道数变为$ {C_{i+1}}/16 $$ {C_{i+1}}/36 $,通过滑动窗口操作来挖掘深层特征的空间上下文信息,表达式如下:

$ {\boldsymbol{F}}_{i+1}^1 = {{\rm{Unfold}}}\; ({\text{Conv2d}}\;({{\boldsymbol{F}}_{i+1}}),{s_1}), $

$ {\boldsymbol{F}}_{i+1}^2 = {{\rm{Unfold}}} \;({\text{Conv2d}}\;({{\boldsymbol{F}}_{i+1}}),{s_2}). $

式中:Unfold表示滑窗操作,${s_1}$${s_2}$分别为2个滑动窗口的大小,$ {\boldsymbol{F}}_{i+1}^1 $$ {\boldsymbol{F}}_{i+1}^2 $分别表示经过滑窗操作后得到的特征图.

$ {\boldsymbol{F}}_{i+1}^1 $$ {\boldsymbol{F}}_{i+1}^2 $的通道数由滑动窗口的大小决定,取${s_1}$=2×2和${s_2}$=3×3,则经过滑窗操作后2个特征图的通道数均为$ {C_{i+1}}/4 $,和浅层特征$ {{\boldsymbol{F}}_i} $的通道数$ {C_i} $保持一致. 将$ {\boldsymbol{F}}_{i+1}^1 $$ {\boldsymbol{F}}_{i+1}^2 $拼接在一起得到高级描述符$ {{\boldsymbol{f}}_{\mathrm{g}}} \in {\boldsymbol{R}}^{{{\tfrac{{C_{i + 1} }}{4}}}\times s'} $,其中$s'$为滑窗操作后2个特征的宽度之和. $ {{\boldsymbol{f}}_{\mathrm{g}}} $集合了来自深层特征多个局部部分的特征和他们的上下文信息,并可以强调局部的重要性. $ {{\boldsymbol{f}}_{\mathrm{g}}} $表达式如下:

$ {{\boldsymbol{f}}_{\mathrm{g}}} = {{\mathrm{concate}}} \;({\boldsymbol{F}}_{i+1}^1,{\boldsymbol{F}}_{i+1}^2). $

式中:${\text{concate}}\;( * )$表示特征拼接函数.

借鉴注意力的思想,对齐高级描述符$ {{\boldsymbol{f}}_{\mathrm{g}}} $和浅层特征$ {{\boldsymbol{F}}_i} $来计算两者的相似性,并通过向量内积运算得到$ {{\boldsymbol{f}}_{\mathrm{g}}} $中重复的上下文信息$ {{\boldsymbol{f}}_{\text{a}}},\; {{\boldsymbol{f}}_{\text{a}}} \in {{\mathbf{R}}^{{H_i} {W_i} \times {C_i}}} $$ {{\boldsymbol{f}}_{\text{a}}} $表达式如下:

$ {{\boldsymbol{f}}_{\text{a}}} = ({{\boldsymbol{f}}_{\mathrm{g}}} \otimes {{\boldsymbol{F}}_i}) \otimes {{\boldsymbol{f}}_{\mathrm{g}}}^{\mathrm{T}}. $

网络深层感知更全面的语义信息,而浅层关注边缘和角落之类的细节信息,即,深层特征具有更多的语义上下文,而浅层特征具有更详细的上下文,因此对于复杂背景中的不明确目标,重复上下文将包含更多无用的语义. 因此,在浅层特征中去除冗余特征,以从全局信息中提取具有空间上下文的细粒度局部特征${{\boldsymbol{f}}_{\text{A}}}$. ${{\boldsymbol{f}}_{\text{A}}}$表达式如下:

$ {{\boldsymbol{f}}_{\text{A}}} = {{\boldsymbol{F}}_i} - {{\boldsymbol{f}}_{\text{a}}}. $

将局部特征下采样到深层特征以得到包含丰富上下文信息的特征$ {\boldsymbol{f}}_{i+1},\;{\boldsymbol{f}}_{i+1} \in {{\mathbf{R}}^{{H_{i+1}} {W_{i+1}}\times {C_{i+1}}}} $$i \in [1,3]$${\boldsymbol{f}}_{i+1}^{}$表达式如下:

$ {\boldsymbol{f}}_{i+1}^{} = {{\boldsymbol{F}}_{i+1}}+{{{f}}_{{\mathrm{fpn}}}}({{\boldsymbol{f}}_{\text{A}}}). $

式中:$ {{{f}}_{{\mathrm{fpn}}}}\;( * ) $表示特征金字塔下采样函数.

1.3. 特征消除策略

模糊类别是指预测的分类分数相近的结果,这是导致错误分类的主要原因之一. 通过上述CIE得到包含上下文信息的特征后,为了进一步消除背景及模糊类对网络的影响,帮助网络关注到更具判别性的特征,设计了特征消除策略,通过消除类间相似区域和背景特征,迫使网络关注到其他判别性特征. ViT-SAC(self assessment classifier)[16]研究了前K个预测类中的模糊性,并利用图像和前K个的预测结果来重新评估分类. 本研究方法受其启发,不过,与它不同的是,1)本研究方法无须通过生成的特征图裁剪原始图片并重新输入进网络,实现了端到端的训练,避免了前一阶段的训练误差和错误对后一阶段网络训练的影响;2)本研究方法利用预测分数将特征图划分为对象候选区域和背景候选区域,在像素级上直接删掉对应的模糊类特征点和背景特征点. 由于CIE的输出${{\boldsymbol{f}}_{i+1}}$是上下文敏感的,删除某些特征不会丢失图像的上下文信息.

特征消除策略FES共包括4个模块,各模块结构相同,单模块的具体结构如图3所示. 图中,$ {\boldsymbol{X}} $为该模块的输入,$ {{\boldsymbol{X}}'} $表示该模块的输出,模块1的输入$ {{\boldsymbol{X}}^1} $为阶段1的特征图$ {{\boldsymbol{F}}_1} $,模块2~4的输入$ {{\boldsymbol{X}}^2} $~$ {{\boldsymbol{X}}^4} $为CIE的输出${\boldsymbol{f}}_{i+1}^{}$$i \in [1,3]$. FES每个模块均包含模糊类特征消除分支和背景消除分支,双分支结构综合考虑了模糊类特征和背景特征对网络分类的贡献度,通过消除对分类帮助较少的特征点来生成具有判别性的特征. 对于FES任意一个模块,将输入特征图$ {\boldsymbol{X}} $中的特征点逐个编号,$ {{\boldsymbol{X}}_j} $表示$ {\boldsymbol{X}} $中第j个特征点,$j \in \left\{ {1,2,\cdots,H \times W} \right\}$,特征编号集合$Z$包含了$ {\boldsymbol{X}} $中所有特征点的编号,$Z$可以表示为

图 3

图 3   特征消除策略单层结构图

Fig.3   Framework of single-layer feature elimination strategy


$ Z = \{ 1,2, \cdots ,H \times W\} . $

模糊类特征消除分支用于消除前K项模糊类共同关注的特征点. 首先,借助全连接层提取可视化特征${\boldsymbol{V}} \in {{\mathbf{R}}^{{d_{\rm{v}}}}}$,获得前K个预测结果,其中${d_{\rm{v}}}$表示${\boldsymbol{V}}$的维数. 然后,使用Glove[17]的单词嵌入方法来学习类标签的语言模态信息$ {\boldsymbol{E}} = \left[ {{\boldsymbol{E}}_{\text{1}}}{\text{,}}\cdots\right. \left.{{\boldsymbol{E}}_k}{\text{,}}\cdots{\text{,}}{{\boldsymbol{E}}_K} \right] $$ {{\boldsymbol{E}}_k} \in {{\mathbf{R}}^{{d_{\rm{e}}}}} $,本研究采用Glove中的预设${d_{\rm{e}}}$=1024来表示每个类标签信息的维度. 通过双线性注意力网络 (bilinear attention network,BAN)[18]来融合2种模态信息$ {\boldsymbol{X}} $${\boldsymbol{E}}$,得到联合特征${{\boldsymbol{J}}} \in {{\mathbf{R}}^{{d_{\rm{e}}}}}$和模糊注意力图$ {{\boldsymbol{M}}} \in {{\mathbf{R}}^{H \times W}} $,表达式如下:

$ {{\boldsymbol{m}}} = \sigma \;({{\mathrm{Linear}}} \;({\boldsymbol{X}}) \times {\boldsymbol{E}}), $

$ {{\boldsymbol{M}}} = {{\mathrm{sum}}} \;({{\boldsymbol{m}}}).\;{{\mathrm{resize}}} \;(H,W), $

$ {{\boldsymbol{J}}} = \sum\limits_{j=1}^{H \times W} {\sum\limits_{k=1}^K {{\boldsymbol{X}}_j^{\text{T}} \times {{\boldsymbol{M}}}} \times {{\boldsymbol{E}}_k}} . $

式中:$ \sigma\; ( * ) $表示Softmax函数;$ {\text{Linear (}} * {\text{)}} $表示全连接层;m表示通过BAN得到的K个特征图,${{\boldsymbol{m}}} \in {{\mathbf{R}}^{HW \times K}}$${{\mathrm{sum}}}\; ( * )$表示按列相加,$.{\text{resize}}\;(H,W)$表示返回尺寸为$ H\times W $的特征向量.

$ {\boldsymbol{M}} $的响应反映了前K个模糊类共同关注的区域,响应越高的特征点越容易导致错误分类. 按照响应大小对$ {{\boldsymbol{M}}} $$H \times W$个特征点排序,丢弃前$\tau $个模糊类共同关注的特征点,得到模糊消除特征编号集合${Z_{{\text{max}}}}$${Z_{{\text{max}}}}$是所有特征编号集合$Z$的子集.

背景消除分支用于消除分类得分较少的特征点,可以减少复杂背景对分类结果的影响. 借助全连接层提取$ {\boldsymbol{X}} $中所有特征点的分类分数${\boldsymbol{x}} $$ {{\boldsymbol{x}}} \in {{\mathbf{R}}^{H \times W\times P}} $,每个特征点被分为P类,P为类别总数. 使用最大预测概率作为该特征点的分类分数,分类分数低代表该特征点属于背景特征. 按分类分数从高到低选择前$ \zeta $个特征点,得到背景消除特征编号集合${Z_{{\text{min}}}}$${Z_{{\text{min}}}}$为所有特征编号集合$Z$的子集.

最后,取2个编号集合的交集${Z_{{\text{final}}}}{\text{ = }}{Z_{{\text{min}}}} \cap {Z_{{\text{max}}}}$${Z_{{\text{final}}}}$中的编号为$ {\boldsymbol{X}} $中即不属于模糊类也不属于背景的特征. 在$ {\boldsymbol{X}} $中选通${Z_{{\text{final}}}}$中的特征点,得到新的特征图$ {\boldsymbol{X}}' $,表达式为

$ {\boldsymbol{X}}' = \left\{ {{{\boldsymbol{X}}_j}|j \in {Z_{{\text{final}}}}} \right\}. $

式中:$ {\boldsymbol{X}}' \in {{\mathbf{R}}^{N \times C}} $$N$为提取的特征编号总数,$C$为特征图的通道数.

由于${{Z}_{{\text{final}}}}$中的特征数量$ g({{Z}_{{\text{final}}}}) $并不固定,为了确定${\boldsymbol{X}}'$连接的分类器参数,取$N = \xi - \tau $,当$g({{Z}_{{\text{final}}}}) > N$时,删掉${{Z}_{{\text{final}}}}$中分类分数低的特征编号,直到$g({{Z}_{{\text{final}}}}) = N$;当$g({{Z}_{{\text{final}}}}) < N$时,从${{Z}_{\max }}$中向${{Z}_{{\text{final}}}}$补充分类分数高的特征编号,直到$g({{Z}_{{\text{final}}}}) = N$.

1.4. 特征融合

使用单一尺度的特征图进行分类训练,网络会生成大的预测区域,并且无法充分表征图像细节. 因此,引入多尺度特征融合层,减少细节特征丢失,充分挖掘多尺度空间信息. 经过FES策略后得到4个不同尺度的特征图${{\boldsymbol{X}}^{1'}} = {{\mathbf{R}}^{{N_1} \times {C_1}}}$${{\boldsymbol{X}}^{2'}} = {{\mathbf{R}}^{{N_2} \times {C_2}}}$${{\boldsymbol{X}}^{3'}} = {{\mathbf{R}}^{{N_{\text{3}}} \times {C_3}}}$$ {{\boldsymbol{X}}^{4'}} = {{\mathbf{R}}^{{N_4} \times {C_4}}} $,首先利用卷积核大小为1的一维卷积来统一4个特征图的维度,并将它们沿通道维度连接在一起得到$ {{\boldsymbol{X}}_{{\text{final}}}} \in {{\mathbf{R}}^{N' \times {C_1}}} $,其中$N'{\text{ = }}{N_{\text{1}}}{\text{+}}{N_{\text{2}}}{\text{+}}{N_{\text{3}}}{\text{+}}{N_{\text{4}}}$$ {{\boldsymbol{X}}_{{\text{final}}}} $包含了网络挖掘到的所有对分类有益的特征点,然后通过一个全连接层将所选择的局部特征重新组合为可以表示整个图像的全局特征. 因此,维度为$ {{\mathbf{R}}^{N' \times {C_1}}} $的特征图在穿过全连接层之后可以产生维度为$ {{\mathbf{R}}^P} $的预测结果.

1.5. 损失设计

由于古塔建筑图像分类任务中各子类间的差异较小,单独的交叉熵损失函数不足以完全监督网络迭代学习. 本研究设计的损失函数包括预测损失${{L} _{{\text{final}}}}$、背景消除损失${{L} _{{\text{back}}}}$、模糊类消除损失${{L} _{{\text{joint}}}}$和丢弃特征点损失${{L} _{{\text{drop}}}}$. 总体损失L可以表示为

$ {{L = }}{{L} _{{\text{final}}}}+{{L} _{{\text{back}}}}{\text+}{{L} _{{\text{joint}}}}{\text+}{{L} _{{\text{drop}}}}. $

${{L} _{{\text{final}}}}$通过交叉熵损失函数${{L} _{{\text{ce}}}}$计算,可以表示为

$ {{L} _{{\text{final}}}} = {{L} _{{\mathrm{ce}}}}({{\boldsymbol{X}}_{{\text{final}}}},y). $

式中:y表示样本标签.

${{L} _{{\text{back}}}}$用于监督FES策略的背景消除分支. 使用所有特征点的平均分类分数$ {{{\boldsymbol{l}}}^i} \in {{\mathbf{R}}^P} $来计算${{\boldsymbol{X}}^i}$的整体损失,表达式如下:

$ {{{\boldsymbol{l}}}^i} = \frac{1}{{H \times W}}\sum\limits_{j = 1}^{H \times W} {{\boldsymbol{x}}_j^i} , $

$ {{L} _{{\text{back}}}} = - \frac{1}{{H \times W}}\sum\limits_{i = 1}^4 {\sum\limits_{p = 1}^{{P}} {{y_p}\log \;l_p^i} } . $

式中:$ {\boldsymbol{x}}_j^i $表示第i个阶段特征编号为$j$的特征点的分类分数,${y_p}$表示样本的真实标签,$l_p^i$表示${{\boldsymbol{l}}^i}$属于类别p的预测概率.

${{L} _{{\text{joint}}}}$用于监督FES策略的模糊类特征消除分支,可以表示为

$ {{L} _{{\text{joint}}}} = - \sum\limits_{i = 1}^4 {\sum\limits_{p = 1}^P {{y_p}\log \;{{{J}}}_p^i} }. $

式中:${J}_p^i$表示第i阶段的特征向量${{\boldsymbol{J}}^i}$属于类别p的预测概率.

${{L} _{{\text{drop}}}}$通过FES策略中丢弃特征的总和$ {{{\boldsymbol{h}}}^i} $计算,其表达式如下:

$ {{{\boldsymbol{h}}}^i} = \sum\limits_{j \in Z - {Z_{{\text{final}}}}} {{\boldsymbol{X}}_j^i}, $

$ {{L} _{{\text{drop}}}} = - \sum\limits_{i = 1}^4 {\sum\limits_{p = 1}^P {{y_p}\log \;(1 - h_p^i)} }. $

式中:$h_p^i$表示$ {\boldsymbol{h}^i} $属于类别p的预测概率.

2. 古塔数据集构建

中国古塔是信仰的凝聚和文化的定格,其所蕴含的艺术价值是国家不可再生的文化资源,是先人留给我们的宝贵财富. 本研究以中国各地的古塔为对象,收集并构建了中国古塔建筑图像数据集,具有采集范围广、角度多、横跨昼夜等特点. 数据集包含263类共15 153张的古塔图像,其中7 642张图像用于训练,7 511张图像用于测试. 数据集的图像主要来源于必应图片、百度图片及维基百科等平台,示例图如图4所示,可以看出,收集的图像具有贴近现实环境、呈现复杂背景的特点,如包括局部主体、多角度拍摄、昼夜差异,以及目标主体不明确等干扰. 因此,本研究提出的古塔建筑图像数据集在分类任务上具有一定的挑战性. 同时,数据采集地理范围囊括全国,包含23个省份、5个自治区、4个直辖市以及2个特别行政区. 263类图像数据的具体省份信息分布情况如图5(a)所示. 图中,${U_{{\text{lable}}}}$表示类别数量. 此外,数据集的样本分布较为均匀,分布图如图5(b)所示. 图中,${U_{{\text{spl}}}}$表示样本数量,p为类别标签,超过80%的类别的样本数量为35~65,与常用的细粒度分类数据集的保持一致.

图 4

图 4   古塔建筑数据集图像示例

Fig.4   Image examples of ancient tower architecture dataset


图 5

图 5   古塔建筑数据集分布

Fig.5   Ancient tower building dataset distribution


3. 实验与结果分析

为了验证所提方法的有效性,在古塔建筑图像数据集上对所提方法和多个性能优异的分类算法进行对比实验. 同时,为了评估本研究算法的通用性,在广泛使用的细粒度数据集CUB-200-2011、Stanford Car以及FGVC-Aircraft上进行对比试验. 4类数据集的具体参数如表1所示. 表中,$ {{T}_{{\text{train}}}} $表示训练样本数,$ {{T}_{{\text{test}}}} $表示测试样本数,$ {{T}_{{\text{lable}}}} $表示类别数.

表 1   4种数据集参数

Tab.1  Parameters of four datasets

数据集$ {{T}_{{\text{train}}}} $$ {{T}_{{\text{test}}}} $$ {{T}_{{\text{lable}}}} $
古塔数据集7 6427 511263
CUB-200-20115 9945 794200
Stanford Cars1448 041196
FGVC-Aircraft6 6673 333100

新窗口打开| 下载CSV


实验的环境配置如下:操作系统为Ubuntu 16.04,采用2台RTX2080Ti型号的GPU和基于Pytorch的深度学习框架.使用MogaNet-L的预训练权重来训练网络,输入图像大小为224×224,在训练阶段使用随机裁剪和水平翻转的数据扩充方式,在测试阶段使用中心裁剪的数据扩充方式;使用带动量的批处理随机梯度下降法(stochastic gradient descent, SGD)作为优化器,设定权重衰减为0.0001,批量大小为8,以0.0005的初始学习率训练100个epoch,并使用余弦退火策略调整学习率.

3.1. 消融实验

在古塔建筑图像数据集上进行一系列的消融实验,确定模型的超参数并验证CIM模块和FES策略对网络分类性能的影响,进一步探究网络在古塔建筑数据集上的分类效果.

3.1.1. 设置超参数K

模糊消除特征编号集合${{Z}_{{\text{max}}}}$的数量取决于视觉特征${\boldsymbol{V}}$提取的前K项模糊预测类. 本实验探究了前K项模糊预测类的数量对分类结果的影响,实验表明,当K取2、5、10、20时,实验准确率分别为95.36%、96.11%、96.32%、95.97%,可知如果K设置为一个小数字,那么生成的模糊类可能不包含分类对象的类别真值,在这种情况下,网络会错误删除对类别真值分类有帮助的特征编号. K=10时实验的准确率最高,而当K继续增大时,实验的准确率下降. 这是因为当K设置得较大时,前K项模糊预测类共同关注的特征点会变少,模糊类特征消除分支的改进也会变小.

3.1.2. 超参数$\xi $$\tau $的选择

在本实验中,MogaNet-L被用作主干,它有4个stage,特征数量为[3136,784,196,49]. 如表2所示,按照特征数量由网络深层到浅层依次成4倍的规则使用5×5、25、6×6、7×7来生成4种集合大小作为$\xi $的待选值,使用2、22、23来生成3种集合大小作为$\tau $的待选值. 表中,P为准确率. 最终各stage的输出特征数量将直接影响后续所需的模型参数,考虑到计算量和准确率之间的权衡,本研究最终使用$\xi $=[2304, 576, 144, 36]和$\tau $=[256, 64, 16, 4].

表 2   不同特征编号集合数量下古塔数据集上的实验结果

Tab.2  Experimental results of different numbers of feature number sets on ancient tower dataset

$\xi $$\tau $P/%
[1600, 400, 100, 25][128, 32, 8, 2]95.61
[256, 64, 16, 4]95.62
[512, 128, 32, 8]95.42
[2048, 512, 128, 32][128, 32, 8, 2]96.04
[256, 64, 16, 4]96.10
[512, 128, 32, 8]96.22
[2304, 576, 144, 36][128, 32, 8, 2]96.28
[256, 64, 16, 4]96.32
[512, 128, 32, 8]96.30
[3136, 784, 196, 49][128, 32, 8, 2]95.85
[256, 64, 16, 4]95.96
[512, 128, 32, 8]95.11

新窗口打开| 下载CSV


3.1.3. 损失函数消融实验与分析

为了验证所提损失函数的有效性并对比不同损失函数对自建古塔数据集分类效果的影响,进行了6组实验,分类结果如表3所示. ${{L} _{{\text{back}}}}、$${{L} _{{\text{joint}}}}$${{L} _{{\text{drop}}}}$均作用于FES模块,其中,${{L} _{{\text{back}}}}$用于约束分类分数$ {{\boldsymbol{x}}} $的生成,提升背景消除的准确度,${{L} _{{\text{joint}}}}$用于监督可视化特征图$ {{\boldsymbol{M}}} $,提升模糊类特征消除的准确度,${{L} _{{\text{drop}}}}$用于计算丢弃特征点的总和损失. 实验结果显示,单独添加${{L} _{{\text{back}}}}$${{L} _{{\text{joint}}}}$${{L} _{{\text{drop}}}}$均能提升模型的分类精度,同时使用上述3种损失,特征消除更加准确,网络更倾向于丢弃对细粒度分类无用的特征,精度提升最大.

表 3   不同损失函数下古塔数据集上的实验结果

Tab.3  Experimental results of different loss functions on acient tower dataset

损失函数P/%
${{L} _{{\text{final}}}}$95.25
${{L} _{{\text{final}}}}$+${{L} _{{\text{back}}}}$95.69
${{L} _{{\text{final}}}}$+${{L} _{{\text{joint}}}}$95.38
${{L} _{{\text{final}}}}$+${{L} _{{\text{drop}}}}$95.85
${{L} _{{\text{final}}}}$+${{L} _{{\text{back}}}}$+${{L} _{{\text{joint}}}}$96.12
${{L} _{{\text{final}}}}$+${{L} _{{\text{back}}}}$+${{L} _{{\text{joint}}}}$+${{L} _{{\text{drop}}}}$96.32

新窗口打开| 下载CSV


3.1.4. 不同模块的性能分析

表4所示为主干网络结合不同模块策略对于最终分类性能以及模型复杂度的影响. 表中,Para为参数量,Cal为计算量. 干网络,算法准确率为93.90%,单独使用CIE时,在不增加模型参数的情况下,算法精度为95.35%. 单独使用FES和上述实验确定的参数后,算法精度达到94.93%,相较于基线提升了1.03个百分点. 结合使用CIE和FES后,准确率达到了96.32%,相比基线提升了2.42个百分点. 由上述分析可知,FES策略删除了部分特征,可能导致部分上下文信息的缺失,单独使用FES策略对网络性能的提升十分有限,合理的做法应该是在CIE捕捉到包含丰富上下文信息的特征后,利用FES建立模糊类和背景消除,以此来提升网络整体的分类性能. 同时,由表4第3、4列可以看出,引入CIE后,模型计算量升高1.6 G. 同时使用CIE和FES,模型的参数量增加18.3 M,计算量增加16.0 G.

表 4   本研究方法在古塔数据集上消融实验结果

Tab.4  Results of ablation experiments of proposed method on self-built ancient tower dataset

方法P/%Para/MCal/G
MogaNet-L93.9082.515.9
MogaNet-L+CIE95.35(+1.45)82.5(+0)17.5(+1.6)
MogaNet-L+FES94.93(+1.03)100.8(+18.3)30.3(+14.4)
MogaNet-L+CIE+FES96.32(+2.42)100.8(+18.3)31.9(+16.0)

新窗口打开| 下载CSV


3.2. 古塔建筑数据集多算法对比实验与分析

不同方法在古塔建筑数据集上的准确率对比如表5所示. ViT的准确率并不高,是因为ViT本身更多地关注全局信息,而较少关注局部和底层特征. TransFG (a transformer architecture for fine-grained recognition)、FFVT (feature fusion vision transformer)在ViT的基础上设计了零件选择模块来增强网络抓取判别性特征的能力,但对局部和低层特征的忽视限制了其模型的精度. ViT-SAC在原始输入上裁剪最受关注的特征并重新输入进网络,不能准确对判别性特征进行定位,并且两阶段的训练方式也会导致前一阶段的训练误差对第2阶段的训练造成影响,因此精度不高. DCAL(dual cross-attention learning)采用2种类型的交叉注意力机制来更好地学习细粒度的微妙特征嵌入,并加强全局图像和局部响应之间的相互作用,但其针对ViT的改进很难应用到卷积神经网络或其他网络中. 本研究方法以MogaNet-L作为主干网络,在自建的古塔数据集上达到了96.3%的准确率,取得了更加优异的性能,能够实现古塔建筑物的准确识别.

表 5   不同方法在古塔数据集上的准确率对比

Tab.5  Accuracy comparison of different methods on ancient tower dataset

方法主干网络分辨率P/%
PMG[7]Resnet50448×44894.2
FBSD[8]Densenet161448×44894.5
TransFG[13]ViT-B_16448×44894.5
FFVT[12]ViT-B_16448×44894.8
SIM-Trans[14]ViT-B_16448×44894.8
CAP[4]Xception224×22494.9
ViT-SAC[16]ViT-B_16448×44895.4
SR-GNN[19]Xception224×22495.6
DCAL[20]R50-ViT-Base448×44895.7
本研究算法MogaNet-L224×22496.3

新窗口打开| 下载CSV


表6所示,本研究模型总参数量达到100.8 M,计算量为31.9 G. 列举几种已公开源码方法的参数量和计算量,可以看出,在参数量相差不多的前提下,由于使用了更小的图像分辨率 (224×224),模型的计算量相较其他方法有明显的下降,同时获得了更高的准确率.

表 6   不同方法在参数量、计算量等方面的对比

Tab.6  Comparison of parameters numbers and calculation volume of different methods

方法分辨率Para/MCal/GP/%
TransFG[13]448×44886.262.095.4
Vit-SAC[15]448×448106.092.595.6
DCAL[20]384×38488.047.095.7
本研究算法224×224100.831.996.3

新窗口打开| 下载CSV


图6所示展示了本研究方法的不同结构在古塔建筑数据集上的可视化结果,以观察网络在提取特征时关注点的变化. 一个地区的颜色越深表明网络对其关注度越高,即越重要. 图6(a)表示从测试数据集中随机抽取的2幅图像. 首先,测试了原始主干网络,图6(b)表示经过主干网络MogaNet训练后的注意力图,原始主干网络倾向于生成大的预测区域,无法准确识别目标地边界,且模型会错误地关注到遮挡物和背景,表明原始主干并不是为检测细粒度数据中的细节而设计的. 其次,在主干中分别加入了CIE模块和FES策略,图6(c)、(d)分别表示主干网络加入CIE和FES后训练得到的注意力图. 可以看出,单独使用CIE或FES均能使网络生成较为精细的预测区域. CIE模块引导深层特征关注到更多的局部细节信息和空间上下文信息,并且丢弃了冗余的特征,能起到初步抑制背景噪声的作用;FES策略可以去除模糊类特征点和背景特征点,模型可以捕捉到更精确、更具判别性的区域. 然而,FES策略限制了注意力区域,丢弃的特征点会导致最终用于分类的特征缺失部分空间上下文信息和全局视角,从而使精度的提升非常有限. 最后,本研究在主干网络上同时添加了CIE模块和FES策略,图6(e)表示同时使用CIE和FES训练得到的注意力图,使用CIE模块得到包含空间上下文信息的特征后,再加入FES策略,使得整体注意力图能精确地映射整个待测目标的判别性区域,模型在捕捉更广泛的区域的同时保持了细节. 结果表明,本研究方法实现了更好的准确性.

图 6

图 6   可视化对比图

Fig.6   Visualization comparison figure


3.3. 细粒度数据集多算法对比实验与分析

细粒度图像分类任务广泛在CUB-200-2011数据集、Stanford Cars数据集以及FGVC-Aircraft数据集上进行研究,本研究在上述3类数据集上进行对比实验以进一步证明算法在下游细粒度分类上的迁移能力. 所列举的算法均为仅使用图像级标签训练的弱监督学习.

CUB-200-2011数据集包含200类鸟的11 788张图像,如表7所示为多算法的对比实验结果. 可以看出,所提方法在CUB-200-2011数据集上获得了较其他方法领先的结果. CAL(counterfactual attention learning)以90.6%的准确率领先其他ResNet架构的方法,基于Transformer的方法如ViT-SAC、FFVT以及DCAL等则凭借超大的预训练模型取得了较为优秀的准确率,基于Xception的方法如CAP(context-aware attentional pooling)使用更小的图像分辨率以及纯卷积架构,达到了媲美Transformer的效果. 而本研究方法以MogaNet-L作为主干网络,取得了更加优异的性能.

表 7   不同算法在细粒度数据集上的准确率对比

Tab.7  Comparison of accuracy of different algorithms on fine-grained datasets

方法主干网络分辨率P/%
CUB-200-2011Stanford CarsAircraft
WS-DAN[5]Inception v3448×44889.494.593.0
PMG[7]ResNet-50550×55089.695.193.4
API-Net[3]DenseNet-161512×51290.095.393.9
PART[21]ResNet-101448×44890.195.394.6
CAL[9]ResNet-101448×44890.695.594.2
FFVT[12]ViT-B_16448×44891.694.194.3
TransFG[13]ViT-B_16448×44891.794.894.1
CAP[4]Xception224×22491.895.794.5
ViT-SAC[16]ViT-B_16448×44891.895.093.1
DCAL[20]R50-ViT-Base448×44892.095.393.3
本研究方法MogaNet-L224×22492.495.394.6

新窗口打开| 下载CSV


Stanford Cars数据集按照不同品牌、型号和年份进行划分,包含了196类汽车的16 185张图像,本研究方法在该数据集上取得了95.3%的准确率性能,取得了与大多数对比方法非常相似的结果,具有一定的优越性. 所提方法性能不如CAP及CAL方法,不过总体上相差较小. 其原因在于Stanford Cars比其他数据集具有更分明的轮廓边界和更简单的背景,同一类别的样本之间的差异很小,本研究针对模糊边界和复杂背景的改进未有明显体现.

FGVC-Aircrafts数据集是用于飞机细粒度视觉分类的基准数据集,包含了100类不同飞机模型的10 200张图像,该数据集的类间差异较小,但本研究方法在该数据集上依旧达到了94.6%的准确率,证明本研究方法具有优秀的判别性特征定位能力.

4. 结 语

提出多尺度上下文引导特征消除的古塔建筑图像分类网络,充分利用主干网络多尺度特征提升网络捕获局部细节的能力;设计上下文信息提取器,利用上下文信息和注意力机制引导特征变换,抑制低信息区域并增强重要区域;采用类预测得分来消除背景特征和模糊类特征,促使网络关注到判别性区域;设计多种损失函数,约束特征提取和模糊特征丢弃,进一步提升了网络表现;此外,提出了自建古塔数据集,并将本研究方法应用于古塔建筑分类任务当中,拓展了细粒度图像识别在现实生活的应用. 在没有大幅增加计算量和模型参数量的基础上,本研究方法在多个细粒度数据集上均获得了较好的表现.

本研究虽然取得了一定的成果,但在性能上对于主干网络的依赖较强,下一阶段,考虑对整体网络进行剪枝,压缩空间复杂度与计算复杂度,以便于进行实际应用部署.

参考文献

CAO B, ARAUJO A, SIM J. Unifying deep local and global features for image search [C]// European Conference on Computer Vision . Glasgow: Springer, 2020: 726−743.

[本文引用: 1]

DOU Z, CUI H, ZHANG L, et al. Learning global and local consistent representations for unsupervised image retrieval via deep graph diffusion networks [EB/OL]. (2020-06-11)[2023-08-22]. https://arxiv.org/abs/2001.01284.

[本文引用: 1]

ZHUANG P, WANG Y, QIAO Y. Learning attentive pairwise interaction for fine-grained classification [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New York: AAAI, 2020: 13130−13137.

[本文引用: 2]

BEHERA A, WHARTON Z, HEWAGE P R P G, et al. Context-aware attentional pooling for fine-grained visual classification [C]// Proceedings of the AAAI Conference on Artificial Intelligence . New York: AAAI, 2021: 929−937.

[本文引用: 3]

HU T, QI H, HUANG Q, et al. See better before looking closer: weakly supervised data augmentation network for fine-grained visual classification [EB/OL]. (2019-03-23)[2023-8-22]. https://arxiv.org/abs/1901.09891.

[本文引用: 2]

王波, 黄冕, 刘利军, 等

基于多层聚焦Inception-V3卷积网络的细粒度图像分类

[J]. 电子学报, 2022, 50 (1): 72- 78

[本文引用: 1]

WANG Bo, HUANG Mian, LIU Lijun, et al

Multi-layer focused Inception-V3 models for fine-Grained visual recognition

[J]. Acta Electronica Sinica, 2022, 50 (1): 72- 78

[本文引用: 1]

DU R, CHANG D, BHUNIA A K, et al. Fine-grained visual classification via progressive multi-granularity training of jigsaw patches [C]// European Conference on Computer Vision . Glasgow: Springer, 2020: 726−743.

[本文引用: 3]

SONG J, YANG R. Feature boosting, suppression, and diversification for fine-grained visual classification [C]// 2021 International Joint Conference on Neural Networks . Shenzhen: IEEE, 2021: 1−8.

[本文引用: 2]

RAO Y, CHEN G, LU J, et al. Counterfactual attention learning for fine-grained visual categorization and reidentification [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision . Montreal: IEEE, 2021: 1025−1034.

[本文引用: 2]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale [C]// Proceedings of the International Conference on Learning Representations . Washington DC: ICLR, 2021: 1−22.

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . New York: Curran Associates, 2017: 6000−6010.

[本文引用: 1]

WANG J, YU X, GAO Y. Feature fusion vision transformer for fine-grained visual categorization [C]// Proceedings of the British Machine Vision Conference . Durham: BMVA, 2021: 685−698.

[本文引用: 3]

HE J, CHEN J N, LIU S, et al. Transfg: a transformer architecture for fine-grained recognition [C]// Proceedings of the AAAI Conference on Artificial Intelligence . Vancouver: AAAI, 2022: 852−860.

[本文引用: 4]

SUN H, HE X, PENG Y. Sim-trans: structure information modeling transformer for fine-grained visual categorization [C]// Proceedings of the 30th ACM International Conference on Multimedia . Ottawa: ACM, 2022: 5853−5861.

[本文引用: 2]

LI S, WANG Z, LIU Z, et al. Efficient multi-order gated aggregation network [EB/OL]. (2023-03-20)[2023-8-22]. https://arxiv.org/abs/2211.03295.

[本文引用: 3]

DO T, TRAN H, TJIPUTRA E, et al. Fine-grained visual classification using self assessment classifier [EB/OL]. (2022-05-21)[2023-8-22]. https://arxiv.org/abs/2205.10529.

[本文引用: 3]

PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing . Doha: ACL, 2014: 1532−1543.

[本文引用: 1]

KIM J H, JUN J, ZHANG B T. Bilinear attention networks [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . New York: Curran Associates, 2018: 1571−1581.

[本文引用: 1]

BERA A, WHARTON Z, LIU Y, et al

Sr-gnn: spatial relation-aware graph neural network for fine-grained image categorization

[J]. IEEE Transactions on Image Processing, 2022, 31: 6017- 6031

DOI:10.1109/TIP.2022.3205215      [本文引用: 1]

ZHU H, KE W, LI D, et al. Dual cross-attention learning for fine-grained visual categorization and object reidentification [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . New Orleans: IEEE, 2022: 4692−4702.

[本文引用: 3]

ZHAO Y, LI J, CHEN X, et al

Part-guided relational transformers for fine-grained visual recognition

[J]. IEEE Transactions on Image Processing, 2021, 30: 9470- 9481

DOI:10.1109/TIP.2021.3126490      [本文引用: 1]

/