浙江大学学报(工学版), 2025, 59(5): 890-901 doi: 10.3785/j.issn.1008-973X.2025.05.002

计算机技术、信息工程

基于卷积辅助自注意力的胸部疾病分类网络

张自然,, 李锵, 关欣,

天津大学 微电子学院,天津 300072

Classification network for chest disease based on convolution-assisted self-attention

ZHANG Ziran,, LI Qiang, GUAN Xin,

School of Microelectronics, Tianjin University, Tianjin 300072, China

通讯作者: 关欣,女,副教授. orcid.org/ 0000-0002-6188-7691. E-mail: guanxin@tju.edu.cn

收稿日期: 2024-03-1  

基金资助: 国家自然科学基金资助项目(62071323);超声医学工程国家重点实验室开放课题资助项目(2022KFKT004);天津市自然科学基金资助项目(22JCZDJC00220).

Received: 2024-03-1  

Fund supported: 国家自然科学基金资助项目(62071323);超声医学工程国家重点实验室开放课题资助项目(2022KFKT004);天津市自然科学基金资助项目(22JCZDJC00220).

作者简介 About authors

张自然(1998—),男,硕士生,从事深度学习图像处理的研究.orcid.org/0009-0008-2472-5280.E-mail:260077200@qq.com , E-mail:260077200@qq.com

摘要

针对胸部X光影像中的病变大小不一,纹理复杂,且存在相互影响等问题,提出基于卷积辅助窗口自注意力的胸部X光影像疾病分类网络CAWSNet. 使用Swin Transformer作为骨干网络,以窗口自注意力建模长距离视觉依赖关系,通过引入卷积辅助,在弥补其缺陷的同时,强化局部特征提取能力. 引入图像相对位置编码,通过有向相对位置的动态计算,帮助网络更好地建模像素间的位置关系. 使用类别残差注意力,根据疾病类别来调整分类器关注的区域,突出有效信息,提高多标签分类能力. 提出动态难度损失函数,解决不同疾病分类的难度差异大,数据集中正负样本不平衡的问题. 在公开数据集ChestX-Ray14、CheXpert和MIMIC-CXR-JPG上的实验结果表明,提出CAWSNet的AUC分数分别达到0.853、0.898和0.819,表明该网络在胸部X光影像疾病诊断中的有效性和鲁棒性.

关键词: 胸部X光图像分类 ; 窗口自注意力 ; 卷积 ; 图像相对位置编码 ; 动态难度损失函数

Abstract

A chest disease classification network based on convolution-assisted window self-attention was proposed, called CAWSNet, aiming at the issues of varying lesion sizes, complex textures, and mutual interference in chest X-ray images. The Swin Transformer was utilized as the backbone, employing window self-attention to model long-range visual dependencies. Convolution was introduced to enhance local feature extraction capability while compensating for the deficiencies of window self-attention. Image relative position encoding was used to dynamically calculate directed relative positions, helping the network better model pixel-wise spatial relationships. Class-specific residual attention was employed, and the classifier’s focus area was adjusted based on disease categories in order to highlight effective information and enhance multi-label classification capability. Dynamic difficulty loss function was proposed to alleviate the problem of large differences in disease classification difficulty and the imbalance of positive and negative samples in the dataset. The experimental results on the public datasets ChestX-Ray14, CheXpert and MIMIC-CXR-JPG demonstrate that proposed CAWSNet achieves AUC scores of 0.853, 0.898 and 0.819, respectively, confirming the effectiveness and robustness of the network in diagnosing chest diseases through X-ray images.

Keywords: chest X-ray image classification ; window self-attention ; convolution ; image relative position encoding ; dynamic difficulty loss function

PDF (2930KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张自然, 李锵, 关欣. 基于卷积辅助自注意力的胸部疾病分类网络. 浙江大学学报(工学版)[J], 2025, 59(5): 890-901 doi:10.3785/j.issn.1008-973X.2025.05.002

ZHANG Ziran, LI Qiang, GUAN Xin. Classification network for chest disease based on convolution-assisted self-attention. Journal of Zhejiang University(Engineering Science)[J], 2025, 59(5): 890-901 doi:10.3785/j.issn.1008-973X.2025.05.002

胸部X光(chest X-Ray,CXR)影像,俗称胸片,是目前应用最广泛的医学成像技术之一. 在新冠肺炎疫情期间,每天都有大量的胸片被拍摄出来[1-2],大量的诊断工作对放射科医生的数量、技术水平和专注力有很高的要求. 随着深度学习技术的发展,计算机辅助诊断技术变得更加成熟[3],能够帮助医生更好地分析医学图像.

胸部疾病的诊断是多标签分类问题[4],由于CXR图像通常包含多个病理标签,这些病变部位在不同的阶段拥有不同的大小、形状和纹理表现[5-7]. 为了提高分类性能,Li等[8-9]基于卷积神经网络(convolut-ional neural networks,CNN)作出了很多尝试. 胸部疾病的病理间常常存在交叉重叠和互相影响的情况. 卷积运算存在难以捕捉长距离视觉和语义信息的缺点,不能完全满足CXR图像分析的需要. 对于这一缺陷,自注意力机制[10-11] 可以通过动态计算相关像素间的关系来自适应地关注不同的区域,捕获更多的信息特征. 全局自注意力的计算复杂度与图像大小为二次关系,计算成本很高,局部特征提取能力较弱.

针对以上问题,本文提出基于卷积辅助窗口自注意力(convolution-assisted window self-attention,CAWS)的胸部X光影像疾病分类网络,命名为CAWSNet. 针对卷积运算容易丢失CXR图像中的长距离视觉语义信息的缺点,选择以Swin Transformer[12]为骨干网络,利用窗口自注意力,实现对较大区域的关注,建模长距离依赖关系. 在窗口自注意力中以轻量的方法引入卷积,提出全新的卷积辅助窗口自注意力模块,强化网络对CXR图像局部纹理、轮廓的特征提取能力,弥补窗口自注意力的缺陷. 引入通过有向映射计算相对位置,利用动态变化的图像相对位置编码(image relative position encoding,IRPE)[13]配合自注意力的分窗计算. 使用类别残差注意力(class-specific residual attention, CSRA)[14]优化分类器,提高针对多种病理的分类能力. 此外,针对疾病样本不均匀,分类难度差异较大的问题,提出动态难度损失函数,优化网络对计算资源的分配. 在ChestX-ray14[15]、CheXpert[16]和MIMIC-CXR-JPG[17]3个公开数据集上的实验结果以及与多种先进方法的评估分析,验证了所提出网络的性能. 工作代码已经公开,代码链接为:https://github.com/ZhangZr11/CAWSNet.git.

1. 相关工作

随着深度学习技术的发展,计算机视觉领域取得了许多突破性的进展,其中包括各种医学图像处理任务. 公开数据集ChestX-ray14、CheXpert和MIMIC-CXR-JPG的发表,使得越来越多的研究者将目光投向胸部疾病分类这一多标签分类任务上. Wang等[15]使用AlexNet、ResNet、VGGNet和GooGLeNet 4个经典的CNN架构,在ChestX-ray14数据集上进行胸部疾病分类的研究,其中ResNet的分类效果最突出. Chen等[18]提出双不对称特征学习网络DualCheXNet,结合基于ResNet和DenseNet的2个非对称子网络,以便从原始CXR图像中不对称地学习互补特征,用于多标签胸部疾病分类. Wang等[19]提出三重注意力学习网络A3Net,使用预训练的DenseNet-121作为骨干网络进行特征提取,将通道、像素和尺度3种注意力集成在统一的框架中,分别关注特征图的通道、病变区域和不同尺度,更好地完成疾病分类任务. Chen等[20]提出基于金字塔卷积模块和Shuffle注意力模块的残差网络. 其中,金字塔卷积模块用于提取病理异常的多尺度判别特征,而Shuffle注意力模块通过分组整合空间和通道注意力,显著提升了对病变区域的聚焦效果. Chen等[21]提出新的语义相似图嵌入框架,该网络根据批量CXR图像的语义标签生成相似性图,以此为依据,使用图卷积网络自适应地重新校准从CNN网络提取的视觉特征,提高多标签CXR图像分类的性能.

在目前主流的方法中,特征提取的任务大多是由卷积神经网络来完成. 随着视觉Transformer的兴起,Jiang等[22]提出金字塔视觉Transformer的新变体实现胸部疾病分类,该网络通过自注意力捕获长距离视觉信息,使用下采样空间缩减注意力,减少使用全局自注意力的资源消耗. Liu等[12]提出新的视觉网络Swin Transformer,使用窗口自注意力处理特征图,令计算复杂度与图像大小成线性关系,提出移位窗口方法,弥补分窗计算带来的信息丢失,在图像分类和目标检测领域取得了优秀的效果. 上述方法虽然在胸部疾病分类任务中取得了优秀的效果,但都无法在特征提取阶段很好地兼顾局部特征和长距离视觉依赖关系,导致有效信息的丢失. 以Swin Transformer为骨干网络,引入卷积作为辅助,提出基于卷积辅助窗口自注意力的胸部X光影像疾病分类网络CAWSNet. 使用自注意力和卷积,互补地提取CXR图像特征,获得更加优秀的分类性能.

2. 研究方法

2.1. 结构概述

CAWSNet的整体架构如图1所示. 网络使用补丁分割层和线性编码层,实现了对图像的编码. 前者将CXR图像分割成大小为$4 \times 4 \times 3$的不重叠补丁. 后者基于这些补丁的原始特征,使用卷积的方式将每个补丁转化为“标记”,再通过线性层投影到$C$维度上(本文中$C = 96$),形成大小为$ (H/4) \times (W/4) \times C $的新特征图,其中每一个像素都代表一个“标记”. 线性编码层与后续的2个CAWS Transformer 块构成Stage1. Stage2~4的结构基本相同,都是由补丁合并层和CAWS Transformer块组成. 其中前者通过补丁合并和线性映射实现下采样,构筑分层特征图,每次使特征图的高和宽减半,通道数乘2. 后者对编码后特征图进行处理. Stage5是CSRA分类器,使用处理好的特征图完成分类任务.

图 1

图 1   CAWSNet的整体架构

Fig.1   Overall architecture of CAWSNet


2.2. CAWS Transformer块和窗口移位方法

CAWS Transformer块遵循了Swin Transformer的设计方式,结构如图2所示. 该块主要由相邻的CAWS模块和MLP层构成,其间使用残差链接相连,并在每个CAWS模块和MLP层前加1个LN (Layer Norm)层. 在网络中,该块以两两一组的方式堆叠使用,且在第2个块中,对CAWS模块使用窗口移位操作.

图 2

图 2   一组CAWS Transformer块

Fig.2   A group of CAWS Transformer block


自注意力的分窗计算会导致窗口间缺乏信息交互,使用Swin Transformer中提出的窗口移位操作来建立窗口间的链接. 原理是通过改变窗口划分方式,使2次窗口自注意力计算关注不同的区域,以窗口数为4举例,实现方法如图3所示. 其中,图3(a)显示了2个块中分窗方式的不同:第1个块直接从左上角开始均匀分窗,第2个块在第1次分窗方式的基础上,将窗口向右方和下方分别滑动${S_{\mathrm{W}}}/2$个像素,其中${S_{\mathrm{W}}}$为窗口大小. 对于第2个块划分的窗口,需要将各部分进行循环移位,组成4个新的窗口来计算自注意力,如图3(b)所示. 此外,在自注意力计算时需要使用掩码操作,将原本不相邻区域间像素的注意力计算结果置0,计算完成后将特征图还原.

图 3

图 3   窗口移位方法

Fig.3   Window shift method


2.3. 卷积辅助窗口自注意力

卷积辅助窗口自注意模块是使用窗口自注意力和卷积并行处理特征图的混合模块,结构如图4所示. 卷积的引入有以下3种作用. 1)使用卷积方法作为并行支路处理输入的特征图,可以强化网络的局部特征提取能力. 2)利用卷积支路输出的通道信息,可以强化窗口自注意力支路的通道建模能力. 3)模块输出端将卷积和自注意力两支路的计算结果加权求和,可以利用卷积结果建立自注意力窗口间的链接,弥补分窗的影响.

图 4

图 4   CAWS模块的实现方法

Fig.4   Implementation method of CAWS module


受ACmix方法[23]的启发,该模块在实现卷积和窗口自注意力的并行计算时,采取通过共享权重来节约计算资源的方法,将计算拆解为2个阶段. 假设输入和输出特征图分别为${\boldsymbol{X}} \in {{\bf{R}}^{H \times W \times {C_{{\text{in}}}}}}$${\boldsymbol{Z}} \in {{\bf{R}}^{H \times W \times {C_{{\text{out}}}}}}$,坐标$(i,j)$处像素的向量记为${{\boldsymbol{x}}_{ij}} \in {{\bf{R}}^{{C_{{\text{in}}}}}}$${{\boldsymbol{z}}_{ij}} \in {{\bf{R}}^{{C_{{\mathrm{out}}}}}}$,其中$H$$W$为特征图的高度和宽度,${C_{{\text{in}}}}$${C_{{\text{out}}}}$为输入和输出通道的大小. 设使用的卷积核为${\boldsymbol{K}} \in {{\bf{R}}^{{C_{{\text{out}}}} \times {C_{{\text{in}}}} \times k \times k}}$,其中$k$为卷积核的大小.

对于卷积运算,第1阶段是使用$1 \times 1$卷积对输入特征图进行线性投影,相当于每个像素处的向量都与某一位置的核权值相乘,每个$1 \times 1$卷积对应1个核权值位置:

$ \tilde {\boldsymbol{z}}_{ij}^{(m,n)} = {{\boldsymbol{K}}_{m,n}}{{\boldsymbol{x}}_{ij}} . $

式中:$ {{\boldsymbol{K}}_{m,n}} \in {{\bf{R}}^{{C_{{\text{out}}}} \times {C_{{\text{in}}}}}} $$m,n \in \left\{ {0,1,\cdots,k - 1} \right\}$表示卷积核在$(m,n)$处的核权值. 第2阶段是将投影得到的中间特征根据卷积核位置进行移位,然后聚合在一起,形成完整的卷积运算:

$ {{\boldsymbol{z}}_{ij}} = \sum\limits_{m,n} {{\text{Shift}}(\tilde {\boldsymbol{z}}_{ij}^{(m,n)},m - [k/2],n - [k/2])} . $

式中:${\text{Shift}}$运算表示移位操作.

对于窗口自注意力计算,第1阶段使用$1 \times 1$卷积,实现查询、键和值(${\boldsymbol{q}}$$ {\boldsymbol{k}} $${\boldsymbol{v}}$)的投影:

$ {{\boldsymbol{q}}_{ij}} = {{\boldsymbol{W}}_{\boldsymbol{q}}}{{\boldsymbol{x}}_{ij}},{{{{\boldsymbol{k}}}}_{ij}} = {{\boldsymbol{W}}_{\boldsymbol{k}}}{{\boldsymbol{x}}_{ij}},{{{{\boldsymbol{v}}}}_{ij}} = {{\boldsymbol{W}}_{\boldsymbol{v}}}{{\boldsymbol{x}}_{ij}} . $

式中:${{\boldsymbol{W}}_{\boldsymbol{q}}}$$ {{\boldsymbol{W}}_{\boldsymbol{k}}} $$ {{\boldsymbol{W}}_{\boldsymbol{v}}} $分别为${\boldsymbol{q}}、{\boldsymbol{k}}、{\boldsymbol{v}}$的投影矩阵.

第2阶段是对投影后的特征图进行分窗,计算每个窗口的多头自注意力:

$ \begin{split} & A({{\boldsymbol{W}}_{\boldsymbol{q}}}^{(l)}{{\boldsymbol{x}}_{ij}},{{\boldsymbol{W}}_{\boldsymbol{k}}}^{(l)}{{\boldsymbol{x}}_{ab}}) = \\& \mathop {{{\mathrm{softmax}}} }\limits_{{N_{\mathrm{W}}}(i,j)} \left( {\frac{{{{({{\boldsymbol{W}}_{\boldsymbol{q}}}^{(l)}{{\boldsymbol{x}}_{ij}})}^{\mathrm{T}}}({{\boldsymbol{W}}_{\boldsymbol{k}}}^{(l)}{{\boldsymbol{x}}_{ab}})+{{{b}}_{ij}}}}{{\sqrt d }}} \right) ,\end{split} $

$ {{\boldsymbol{z}}_{ij}} = \mathop {||}\limits_{l = 1}^N \left( {\sum\limits_{a,b \in {N_{\mathrm{W}}}(i,j)} {A({\boldsymbol{q}}_{ij}^{(l)},{\boldsymbol{k}}_{ab}^{(l)}){\boldsymbol{v}}_{ab}^{(l)}} } \right) . $

式中:${N_{\mathrm{W}}}(i,j)$表示$(i,j)$位置所在的窗口区域;${{{b}}_{ij}}$表示位置编码;$||$$N$个自注意力头的拼接,多头机制可以使网络在不同的表示子空间里学习到相关的信息,提高网络的表达和泛化能力. 两支路计算的第1阶段都可以由$1 \times 1$卷积实现,且参数量和计算量较大,可以通过共用该阶段,达到节约计算资源的目的.

窗口自注意力在空间维度上动态计算权重,通道之间缺乏信息交互,而卷积运算的通道间存在充分的信息交互与整合. 模块利用卷积支路的输出,生成通道权重,并将其作用于窗口自注意力支路,强化通道建模能力. 对于通道权重的生成,采取类似挤压激励块[24]的设计:使用平均池化层,对特征图的全局空间信息进行压缩;通过2个$1 \times 1$卷积层,学习通道维度上的重要度信息,其中第1个卷积层后使用Batch Normalization层和GELU激活函数,第2个卷积层使用Sigmoid激活函数生成通道权重. 采取残差的方式,将通道权重作用在窗口自注意力值的输入上,对其进行微调,强化通道建模能力:

$ {\boldsymbol{V}}' = {\boldsymbol{V}}+\omega {\mathrm{CR}}({\boldsymbol{V}}) . $

式中:$\omega $为调节系数,本文设置为0.1;${\mathrm{CR}}$表示整个通道增强操作.

模块的具体计算流程如下:对于输入特征图${\boldsymbol{X}} \in {{\bf{R}}^{H \times W \times C}}$,使用$1 \times 1$卷积进行特征映射,获得中间特征集${\boldsymbol{X}}' \in {{\bf{R}}^{H \times W \times 3C}}$. 在卷积路径上,先使用一个全连接层对${\boldsymbol{X}}'$进行映射,得到卷积核的各核权值位置的计算结果;通过移位与聚合,实现完整的$k \times k$卷积计算,得到输出${{\boldsymbol{X}}_{\mathrm{C}}} \in {{\bf{R}}^{H \times W \times C}}$. 在自注意力路径上,将中间特征集$ {\boldsymbol{X}}' $作为自注意力计算的${\boldsymbol{q}}$${\boldsymbol{k}}$${\boldsymbol{v}}$输入,其中${\boldsymbol{v}}$通过通道增强调整为${\boldsymbol{v}}'$,然后进行分窗操作,形成${N_{\text{W}}} = H/{S_{\text{W}}}$个边长为${S_{\text{W}}}$的特征图. 对于窗口特征图,分别对其进行标准的多头自注意力计算;将计算结果重塑为原特征图大小,得到输出结果为${{\boldsymbol{X}}_{\mathrm{S}}} \in {{\bf{R}}^{H \times W \times C}}$. 在模块的输出端,将${{\boldsymbol{X}}_{\mathrm{C}}}$${{\boldsymbol{X}}_{\mathrm{S}}}$加权求和:

$ {\boldsymbol{Z}} = \alpha {{\boldsymbol{X}}_{\mathrm{C}}}+\beta {{\boldsymbol{X}}_{\mathrm{S}}} . $

式中:$\alpha $$\beta $为可学习参数. 这种输出方式可以利用全局卷积的计算结果建立自注意力窗口间的链接,弥补分窗带来的信息丢失.

2.4. 图像相对位置的编码

Swin Transformer中使用的相对位置偏置只计算了像素间的相对距离,没有考虑像素间的相对方向,在处理像素高度结构化的CXR图像时表现不理想. 通过有向映射计算相对位置,使用位置权重与输入进行交互的图像相对位置编码,使得网络更好地捕捉CXR图像中像素间的位置关系.

对于2个像素间相对位置的计算,在x轴和y轴上分别计算相对距离,并映射成为有限集中的整数.

$ \left.\begin{array}{c} {I_{\tilde x}}(i,j) = g({{\tilde x}_i} - {{\tilde x}_j}), \\ {I_{\tilde y}}(i,j) = g({{\tilde y}_i} - {{\tilde y}_j}). \end{array} \right\}$

式中:$\tilde x$$\tilde y$表示像素在图中的位置;$g(x)$为多对一的分段映射函数,可以减少计算成本和参数量. 以$ {I_{\tilde x}}(i,j) $$ {I_{\tilde y}}(i,j) $为二维索引,生成位置权重:

$ {{{{\boldsymbol{r}}}}_{ij}} = {{{{\boldsymbol{P}}}}_{{I_{\tilde x}}(i,j),{I_{\tilde y}}(i,j)}} . $

式中:$ {{{{\boldsymbol{P}}}}_{{I_{\tilde x}}(i,j),{I_{\tilde y}}(i,j)}} $为可学习参数向量或标量(根据位置编码的生成方式不同).

采用3种方法通过位置权重$ {{\boldsymbol{r}}_{ij}} $生成位置编码,并将其应用于自注意力的计算过程中,分别是偏置方式(即直接将位置权重作为位置编码加入自注意力计算,独立于输入)、与输入的${\boldsymbol{k}}$进行交互以及与输入的${\boldsymbol{q}}$${\boldsymbol{k}}$同时进行交互. 后2种方式如下所示:

$ {{{b}}_{ij}} = {\boldsymbol{r}}_{ij}^{\mathrm{T}}({{\boldsymbol{W}}_{\boldsymbol{q}}}{{\boldsymbol{x}}_{ij}}) , $

$ {{{b}}_{ij}} = {({\boldsymbol{r}}_{ij}^{\boldsymbol{k}})^{\mathrm{T}}}({{\boldsymbol{W}}_{\boldsymbol{q}}}{{\boldsymbol{x}}_{ij}})+{({\boldsymbol{r}}_{ij}^{\boldsymbol{q}})^{\mathrm{T}}}({{\boldsymbol{W}}_{\boldsymbol{k}}}{{\boldsymbol{x}}_{ab}}) . $

后2种方式使用位置权重与输入的${\boldsymbol{q}}$${\boldsymbol{k}}$进行计算,将结果作为位置编码加入自注意力计算. 位置编码与输入的交互能够根据窗口所关注的CXR图像区域生成动态的位置编码,捕捉各部位像素间的位置关系.

2.5. 类别残差注意分类器

胸部疾病存在并发性,因此CXR图像中常出现多种疾病,不同疾病的病变区域不同. 多标签胸部疾病分类可以视为多个单一疾病的二元分类任务,为了在每类疾病的识别中更好地关注当前类别疾病所处的区域,提高识别的准确率,在分类阶段使用类别残差注意分类器,结构如图5所示.

图 5

图 5   类别残差注意分类器

Fig.5   Class-specific residual attention classifier


对于要分类的特征向量${\boldsymbol{Z}} \in {{\bf{R}}^{H \times W \times C}}$,使用$1 \times 1$卷积实现通道上的降维,将其映射为${\boldsymbol{Z}}' \in {{\bf{R}}^{H \times W \times N}}$,其中$N$为要诊断的疾病种类数. 对${\boldsymbol{Z}}'$分别进行空间池化和平均池化,并将结果加权求和作为最后的分类分数. 对于空间池化,使用softmax在每个类别的特征图上分别计算各个位置的注意力分数,并以此进行空间池化操作:

$ {{\boldsymbol{A}}_i} = \sum\limits_{j = 1}^{HW} {{{\mathrm{softmax}}} {{(T{\boldsymbol{z}})}_j}} {{\boldsymbol{z}}_j} . $

式中:${\boldsymbol{z}}$表示该类别的特征图;$i$表示类别;$j$表示在特征图中的位置;$T$为调控系数,控制对单个位置特征值的突出程度. 空间池化通过softmax计算在池化过程中增大对该类疾病识别具有显著贡献的区域,抑制无关区域,从而更好地关注有助于该类疾病识别的特征信息. 对于平均池化,采取传统方式,计算特征图的全局信息:

$ {{\boldsymbol{G}}_i} = \frac{1}{{HW}}\sum\limits_{j = 1}^{HW} {{{\boldsymbol{z}}_j}} . $

以平均池化结果为主要特征,以空间池化结果为残差特征,计算分类分数:

$ {{\boldsymbol{L}}_i} = {{\boldsymbol{G}}_i}+\lambda {{\boldsymbol{A}}_i} . $

式中:$ \lambda $为调节系数,控制空间特征信息对分类结果的影响. 通过对$ T $$ \lambda $的取值进行组合实验,将$ T $设置为2,$ \lambda $设置为0.3.

2.6. 动态难度损失函数

在胸部疾病分类任务中,各种疾病区域的大小、轮廓、纹理特征均呈现多样化,且数据集中的样本分布不均匀,导致分类难度具有较大的差异,阻碍了多标签分类任务准确率的提高. 在一张CXR图像中,往往只有1~3种疾病标签为正标签,其余均为负,这意味着每类疾病的正样本数量远低于负样本. 为了解决以上问题,在焦点损失函数[25]的基础上,加入基于AUC分数动态调节的平衡系数,提出动态难度损失函数(dynamic difficulty loss,DDL). 对于每种疾病,计算公式如下:

$ {L_{{\mathrm{DFL}}}}({\text{ }}{{{y}}_i},{\tilde {{y}}_i}) = \left\{ \begin{gathered} - {{\mathrm{softmax}}} {\left(\frac{1}{{{{\boldsymbol{s}}^\delta }}}\right)_i}{(1 - {{\tilde {{y}}}_i})^{{\gamma ^+}}}\lg\; {{\tilde {{y}}}_i},\;{{{y}}_i} = 1 ; \\ - {{\mathrm{softmax}}} {\left(\frac{1}{{{{\boldsymbol{s}}^\delta }}}\right)_i}{({{\tilde {{y}}}_i})^{{\gamma ^ - }}}\lg \;(1 - {{\tilde {{y}}}_i}),\;{{{y}}_i} = 0 . \\ \end{gathered} \right. $

式中:${{{y}}_i}$为该类疾病标签的真实值;${\tilde {{y}}_i}$为预测值;${{{\boldsymbol{s}}}}$为由上个轮次计算出的各类疾病AUC分数;$\delta $$ {\gamma ^+} $$ {\gamma ^ - } $为调节系数,用于调节分类难度对损失的影响. $\delta $的取值随着训练的轮次逐渐减小,以适应$s$的增大和训练后期小幅度调整的需要(本文中,$\delta $在前5个轮次设置为3,在6~10个轮次设置为2,在第10个轮次后设置为1). 该方法在2个维度上实现了对类别难度的平衡. 对于单个样本,优化了焦点损失函数的聚焦因子,将其分为$ {\gamma ^+} $$ {\gamma ^ - } $,精细化地控制正负样本的难度系数(本文中$ {\gamma ^+} $设置为1,$ {\gamma ^ - } $在ChestX-ray14和MIMIC-CXR-JPG数据集的实验中设置为4,在CheXpert的实验中取2). 对于整个数据集,${\boldsymbol{s}}$中第$i$类疾病的AUC分数${{\boldsymbol{s}}_i}$能够综合地反映该类别在数据集中的分类难度,且随着迭代轮次动态更新. 利用${\boldsymbol{s}}$来计算平衡系数,$\delta $调节平衡系数对损失的影响,使用softmax函数进行归一化,进一步区分不同类别的分类难度. 通过2个维度上的平衡调整,网络能够针对类别难度更好地分配计算资源,提升整体的分类准确度.

3. 实验结果与分析

3.1. 实验数据集

采用3个公开可用的数据集作为评估基准:美国国立卫生研究院发布的ChestX-Ray14、斯坦福大学研究人员发布的CheXpert和麻省理工大学发布的MIMIC-CXR-JPG.

ChestX-Ray14[15]包含14种病理的112 120张正面X光影像. 除了60 361张标记为“无发现”的图像外,每张图像都被指定为14种病理中的一种或多种,且880张图像对8种类型的病理进行了984个标记边界框的注释. 为了公平起见,对于实验中的数据集分割,严格遵循Wang等[15]公布的官方数据集分割标准.

CheXpert[16]包含65 240例患者的224 316次X光影像结果,其中14次观察结果摘自医学报告. 每种疾病的观测值被指定为正(1)、负(0)或不确定(−1). CheXpert的验证集由200张X光影像组成,由3名委员会认证的放射科医生手工注释. 在验证集上,通过“肺不张”、“心脏扩大”、“实变”、“水肿”和“胸腔积液”这5个观察结果来评估性能[16].

MIMIC-CXR-JPG[17](在后续实验中简称为MIMIC-CXR)是包含377 110幅图像和227 835项成像报告的大型数据集,数据来自2011—2016年在美国哈佛医学院贝斯以色列女执事医疗中心急诊部就诊的65 379名患者. 每份成像报告对应1幅或多幅CXR图像,通常为正面或侧面视图. 数据集包含12种胸部疾病类别以及2种非疾病类别“无发现”和“支持设备”,每个类别的观测值被指定为正(1)、负(0)或不确定(−1). 为了公平起见,实验中使用的数据集按照官方公布的方式进行分割.

3.2. 评价指标

接受者操作特性(receiver operating characteristics, ROC)曲线表示算法对每种病理的识别能力,通过计算ROC曲线下面积(area under ROC curve, AUC),对算法能力进行定量分析和比较. 在ROC曲线中,FPR为在所有阴性类别中被错误地认为是阳性类别的阴性类别的百分比. TPR为在所有阳性类别中被正确识别的阳性类别的比例. TPR和FPR的计算如下:

$ {\mathrm{TPR}} = \frac{{{\mathrm{TP}}}}{{{\mathrm{TP}}+{\mathrm{FN}}}} , $

$ {\mathrm{FPR}} = \frac{{{\mathrm{FP}}}}{{{\mathrm{FP}}+{\mathrm{TN}}}} . $

式中:${\mathrm{FP}}$${\mathrm{TN}}$${\mathrm{TP}}$${\mathrm{FN}}$分别表示假阳性、真阴性、真阳性和假阴性. 此外,计算网络在测试阶段处理单个CXR图像所需的每秒浮点运算次数(FLOPs)和推理时间,以衡量网络的计算复杂度.

3.3. 实验细节

实验在Pytorch[26]框架上实现. 对于训练,使用Adam优化器对网络进行优化,batch size为32,训练轮次为20. 初始学习率为0.000 1,每2个轮次学习率乘以0.9. 为了提高网络的收敛速度和学习能力,实验中的骨干网络将在ImageNet上进行预训练. 当验证集上的损失不再减少或开始增加时,训练将停止.

在数据预处理阶段,对输入CXR图像执行数据增强的具体方法和步骤如下.

1)将图像大小调整为$256 \times 256$像素.

2)随机裁剪图像至$224 \times 224$像素.

3)以50%的概率水平翻转图像.

4)在[−5°,5°]随机旋转图像.

5)设置图像的对比度、饱和度和色调为90%~110%.

6)将图像转化为向量格式,并进行归一化处理.

3.4. 与现有SOTA方法的比较

为了验证网络在胸部疾病分类任务上的有效性和准确性,将提出的CAWSNet在ChestX-Ray14、CheXpert和MIMIC 3个数据集上进行实验,并与现有的SOTA方法进行比较. 利用DCNN[27]和MXT[21]2种方法,对网络结构进行优化. TransDD[28]、PCAN[29]和PCSANet[19]3种方法使用注意力机制帮助网络关注重要的信息,提高分类效果. SSGE[20]、LCT[30]和 CheXGAT[31]通过对病理标签间的相关性进行建模,辅助网络进行分类. MAE使用掩膜自动编码器,在CXR数据上预训练ViT进行分类[32]. ML-LGL利用临床知识杠杆选择函数生成异常递增的课程,通过课程学习来训练DNN模型[33]. MVCNet在特征和决策层面融合正面和侧面2种视图的CXR图像来辅助分类[34]. MMBT[35]和MedCLIP[36]利用医学报告中的文本信息作为辅助,使用多模态学习的方法完成疾病的识别. 在ChestX-Ray14测试集、CheXpert验证集和MIMIC-CXR测试集上,每种病理的ROC曲线和AUC分数如图6~8所示,可以看出所提方法的分类性能(为了使标记清晰,每条曲线都由间隔取点的40个数据点绘制). 如表1~3所示分别为CAWSNet与其他SOTA方法在3个数据集上的比较结果.

表 2   不同胸部疾病分类网络在CheXpert验证集上的结果比较

Tab.2  Comparison of result of different chest disease classification network on CheXpert validation set

疾病类别AUC
U-IgnoreU-ZerosU-OnesPCANDCNNMAECAWSNet
肺不张0.8180.8110.8580.8480.8250.8270.835
心脏肿大0.8280.8400.8320.8650.8550.8350.856
肺实变0.9380.9320.8990.9080.9370.9250.917
水肿0.9340.9290.9410.9120.9300.9380.953
胸膜增厚0.9280.9310.9340.9400.9230.9410.928
平均值0.8890.8890.8930.8950.8940.8930.898

新窗口打开| 下载CSV


图 6

图 6   ChestX-ray14测试集上胸部疾病的ROC曲线和AUC值

Fig.6   ROC curves and AUC values of chest diseases on ChestX-ray14 test set


图 7

图 7   CheXpert验证集上胸部疾病的ROC曲线和AUC值

Fig.7   ROC curve and AUC value of chest disease on CheXpert validation set


图 8

图 8   MIMIC-CXR测试集上胸部疾病的ROC曲线和AUC值

Fig.8   ROC curve and AUC value of chest disease on MIMIC-CXR test set


表 1   不同胸部疾病分类网络在ChestX-Ray14测试集上的结果比较

Tab.1  Comparison of result of different chest disease classification network on ChestX-Ray14 test set

疾病类别AUC
MXTTransDDPCANPCSANetLCTCheXGATSSGEML-LGLCAWSNet
肺不张0.7980.7910.7850.8070.7890.7870.7920.7820.829
心脏肿大0.8960.8850.8970.9100.8890.8790.8920.9040.918
积液0.8420.8420.8370.8790.8420.8370.8400.8350.892
浸润0.7190.7150.7060.6980.6940.6990.7140.7070.726
肿块0.8560.8370.8340.8240.8430.8390.8480.8530.857
结节0.8090.8030.7860.7500.8030.7930.8120.7790.784
肺炎0.7580.7450.7300.7500.7420.7410.7330.7390.782
气胸0.8790.8850.8710.8500.8960.8790.8850.8890.903
肺实变0.7590.7530.7630.8020.7570.7550.7530.7710.820
水肿0.8490.8590.8490.8880.8580.8510.8480.8660.906
肺气肿0.9060.9440.9210.8900.9440.9450.9480.9490.935
纤维化0.8470.8490.8170.8120.8630.8420.8270.8460.827
胸腔积液0.8000.8030.7910.7680.7990.7940.7950.7870.817
疝气0.9130.9240.9430.9150.9150.9310.9320.9070.939
平均值0.8300.8310.8240.8250.8310.8270.8300.8300.853

新窗口打开| 下载CSV


表 3   不同胸部疾病分类网络在MIMIC-CXR测试集上的结果比较

Tab.3  Comparison of result of different chest disease classification network on MIMIC-CXR test set

疾病类别AUC
MVCNetMMBTMedCLIPCAWSNet
肺不张0.8180.7580.841
心脏肿大0.8480.8260.824
实变0.8290.7710.833
水肿0.9190.8430.900
心纵膈扩大0.7250.7430.771
骨折0.6650.7290.660
肺部异常0.7400.7590.804
肺不透明0.7570.7150.748
无发现0.8420.8310.867
胸膜增厚0.9470.8860.922
胸膜其他疾病0.8250.8690.858
肺炎0.7150.7520.758
气胸0.8990.8800.861
平均值0.8100.7970.8040.819

新窗口打开| 下载CSV


在ChestX-Ray14测试集上,与其他SOTA方法相比,CAWSNet取得了最好的整体分类效果,14种胸部疾病的平均AUC为0.853. 从表1的对比结果可以得出以下结论. 1)在分类实验中,CAWSNet对于10种胸部疾病的诊断达到了最佳的效果. 与其他网络相比,CAWSNet能够在关注长距离依赖关系的同时兼顾局部特征的提取,在大多数疾病的识别上取得了较好的效果. 2)与大多数方法一样,网络对结节(0.784)和浸润(0.726)2种疾病的识别能力需要改进. “浸润”在影像学上呈斑块状,边缘模糊,其诊断需要高度精准的边缘和纹理特征提取能力,CAWSNet在这一方面不突出. 结节是小病变,容易受到无关特征的影响,识别相对困难. 3)与同样使用Transformer架构的MXT、TransDD和LCT网络相比,CAWSNet使用的CAWS模块拥有更好的局部特征提取能力,在大多数疾病诊断中取得了更好的效果,而针对纤维化和结节这2种分部较广的疾病,MXT网络使用的全局自注意力发挥了其优势. 4)对病理标签相关性进行建模的方法在结节和肺气肿的识别上具有很大的优势,CAWSNet虽然能够通过自注意力捕捉到图像中的语义信息,但未对标签间的依赖关系进行针对性的学习,这是今后的改进方向.

针对CheXpert数据集,Irvin等[16]提出3种策略来处理其中的不确定标签:U-Ignore、U-Ones和U-Zeros,即将不确定标签去除、视为患病和视为非患病. 当CAWSNet采取U-Ones策略时取得了最佳的分类效果,故在CheXpert验证集的实验中均将不确定标签视为患病. 从表2的对比结果可以得到以下结论. 1)相较于其他的SOTA方法,CAWSNet对于5种疾病分类的平均AUC为0.898,取得了最好的整体分类效果. 2)在单一疾病分类上,网络对于水肿(0.953)的诊断效果达到了最先进的水平,对于胸腔积液(0.928)和心脏肿大(0.856)2种疾病的诊断效果接近最优.

在MIMIC-CXR测试集上,对12种胸部疾病和“无发现”共13个类别进行分类实验,采取U-Zeros策略对不确定标签进行处理. 从表3的对比结果可以得到以下结论. 1)与其他SOTA方法相比,CAWSNet取得了最好的整体分类效果,平均AUC为0.819,并在5类疾病和“无发现”的识别中达到最先进的水平. 2)由于识别难度较高和样本量较少,各网络对骨折的识别能力均较差,而使用多模态学习的MMBT网络表现出明显优势,表明使用医学报告与图像进行融合学习,能够为疾病分类提供更多的有效信息. 3)CAWSNet在不同数据集上都取得了较好的分类效果,这证明该网络能够较好地完成胸部疾病分类任务,具有一定的鲁棒性.

3.5. 相对位置编码生成方式对网络的影响

为了验证3种不同的位置编码生成方式对网络分类能力的影响,分别在ChestX-ray14、CheXpert和MIMIC-CXR数据集上设置对比实验,实验结果如表4所示. 从实验结果可知,2种与输入交互生成方式的分类效果均优于偏置方法,这说明相对动态的位置编码能够更好地适用于自注意力的分窗计算. 当位置编码与${\boldsymbol{k}}$进行交互计算时,网络取得最好的分类效果,这可能是由于网络中的两支路存在权重共享,输入的${\boldsymbol{q}}$${\boldsymbol{k}}$受到卷积支路的影响,过多的交互会使建模能力变弱.

表 4   位置编码生成方式对网络分类效果的影响

Tab.4  Effect of position encoding application method on network classification performance

生成方式平均AUC
ChestX-ray14CheXpertMIMIC-CXR
偏置0.8490.8900.813
与输入k交互0.8530.8980.819
与输入qk交互0.8500.8940.816

新窗口打开| 下载CSV


3.6. 通道增强加权位置对网络的影响

为了验证CAWS模块中通道增强加权位置对网络的影响,分别在ChestX-ray14、CheXpert和MIMIC-CXR数据集上设置对比实验,实验结果如表5所示.

表 5   通道增强加权位置对网络分类效果的影响

Tab.5  Effect of channel reinforcement weighted position on network classification performance

加权位置平均AUC
ChestX-ray14CheXpertMIMIC-CXR
对输入q加权0.8520.8950.817
对输入k加权0.8510.8960.817
对输入v加权0.8530.8980.819

新窗口打开| 下载CSV


从实验结果可知,通道增强的加权位置对网络分类效果产生了一定的影响,当对输入${\boldsymbol{v}}$进行加权时,网络的分类效果最好. 这是由于在自注意力计算中,${\boldsymbol{q}}$${\boldsymbol{k}}$相乘的结果会与位置编码相加,对${\boldsymbol{q}}$${\boldsymbol{k}}$加权会使通道增强产生较小的偏移,影响通道增强的效果. 对${\boldsymbol{v}}$加权相当于对自注意力的计算结果直接加权,能够完整地保留通道增强的权重,因此对${\boldsymbol{v}}$加权具有更好的效果.

3.7. 消融实验

3.7.1. 模块消融实验

为了验证CAWS模块、CSRA分类器和图像相对位置编码的有效性,分别在ChestX-ray14、 CheXpert和MIMIC-CXR数据集上进行消融实验. 以CAWSNet作为基准,通过删除相应的模块来验证其对分类精度的影响,实验结果如表6所示.

表 6   不同模块对网络分类效果的影响

Tab.6  Effect of different module on network classification performance

CAWSCSRAIRPE平均AUC
ChestX-ray14CheXpertMIMIC-CXR
0.8530.8980.819
0.8440.8860.811
0.8490.8940.814
0.8500.8910.816

新窗口打开| 下载CSV


对于CAWS模块,将其替换为原始的窗口自注意力,网络在ChestX-ray14、CheXpert和MIMIC-CXR数据集上的AUC分数分别下降了0.9%、1.2%和0.8%. 可见,引入卷积与窗口自注意力组成的混合模块,可以有效地提高网络的分类能力. 对于类别残差注意分类器,将其替换为最常见的全连接层平均池化分类器,网络在3个数据集上的AUC分数分别下降了0.4%、0.4%和0.5%,表明针对类别的空间注意力能够有效地提升多标签分类精度. 针对图像相对位置编码,使用Swin Transformer中的相对位置偏置进行替代,网络在3个数据集上的AUC分数分别下降了0.3%、0.7%和0.3%,可见有向且动态的位置编码能够更好地帮助网络捕捉CXR图像中像素间的位置关系.

3.7.2. 损失函数消融实验

为了验证提出的动态难度损失函数的效果,分别在ChestX-ray14、CheXpert和MIMIC-CXR数据集上进行消融实验,结果如表7所示.

表 7   不同损失函数对网络分类效果的影响

Tab.7  Effect of different loss function on network classification performance

损失函数平均AUC
ChestX-ray14CheXpertMIMIC-CXR
交叉熵损失函数0.8460.8890.810
焦点损失函数0.8500.8920.816
动态难度损失函数0.8530.8980.819

新窗口打开| 下载CSV


表7可以看出,在3个数据集上动态难度损失函数均取得最优的分类效果. 由此表明,利用动态难度损失函数,可以有效地解决各疾病分类难度不一、正负样本不平衡的问题,提高网络对CXR图像中各疾病的分类准确度.

3.8. 多重交叉验证与显著性检验

为了验证网络的鲁棒性和网络效果的真实性,在ChestX-ray14数据集上进行Stratified KFold交叉验证实验. 在该实验中,整个数据集被随机平分成5份互斥子集,保证各子集中的疾病类别比例大致相同. 每次随机地选择4份作为训练集,剩下的1份作为测试集. 依照此方式,分别对CAWSNet和Swin Transformer骨干网络进行5次训练. 实验结果如表8所示. 可以看出,使用随机划分的训练集和测试集会影响网络的分类效果,CAWSNet在随机划分数据集上的分类表现虽然不如官方划分数据集,但取得了0.838的平均AUC分数,证明网络具有一定的鲁棒性,对不同的数据分布都有较好的效果.

表 8   Stratified KFold交叉验证结果

Tab.8  Result of Stratified KFold cross-validation

数据集划分平均AUC
CAWSNetSwin Transformer
2、3、4、5训练集,1测试集0.8410.832
1、3、4、5训练集,2测试集0.8360.830
1、2、4、5训练集,3测试集0.8340.829
1、2、3、5训练集,4测试集0.8400.832
1、2、3、4训练集,5测试集0.8410.833
平均值0.8380.831

新窗口打开| 下载CSV


以5个不同划分的数据集作为5个不同的样本,使用配对样本t检验的方式对CAWSNet进行显著性检验. 备择假设设置为CAWSNet的AUC分数高于Swin Transformer,t统计量为4.4606p0.0021p < 0.05. 在0.05的显著水平下,CAWSNet的疾病分类效果显著高于Swin Transformer骨干网络,证明改进方向是可行的.

3.9. 计算复杂度分析

计算复杂度是计算机辅助诊断算法在实际应用中需要考虑的一个要素,计算CAWSNet在数据集ChestX-Ray14的测试阶段单张图片平均消耗的每秒浮点运算次数FLOPs及推理时间tinf,与骨干网络和给出相关指标的方法进行对比,结果如表9所示. 浮点计算量实验中的输入图像尺寸统一设置为$224 \times 224$像素.

表 9   不同胸部疾病分类网络的计算复杂度比较

Tab.9  Comparison of computational complexity of different chest disease classification network

网络FLOPs/109tinf/s平均AUC
SSGE[21]17.740.0590.830
CheXGCN[37]17.860.0610.826
PCAN[29]3.920.0540.830
Swin Trans[12]4.370.0130.837
CAWSNet4.520.0180.853

新窗口打开| 下载CSV


表9可以看出,CAWSNet的推理时间较短,可以快速地处理单张CXR图像,FLOPs较小,与Swin Transformer骨干网络相比只增加0.15×109,但性能有显著提升. 利用CAWS模块共享部分权重来实现卷积和窗口自注意力并行计算的方法,可以有效地节约计算资源. 综合来说,网络较好地平衡了分类准确度和计算复杂度,在胸部疾病诊断算法中具有较强的竞争力.

3.10. 可视化分析

加权梯度类激活映射[38](Grad-CAM)利用梯度信息,给特征映射的各个通道赋予权重,生成热图,可以显示网络关注的病灶区域. 为了验证网络识别的准确性,通过Grad-CAM在一些ChestX-Ray14中的CXR图像上生成热图,与专业医生提供的病变标记图进行比较. 对一部分CXR图像进行疾病预测得分的可视化,直观地表现网络的分类效果.

图9所示为8种疾病的医生标记病变区域和对应的热图. 热图中激活的区域即为相应疾病的病变区域,深色突出显示的部分表示网络最关注的部分,是作出诊断的主要依据. 在视觉上,CXR图像中激活的区域与专业医生标记的区域基本一致,这表明网络在识别和诊断疾病方面具有较高的准确性. 如图10所示为每张CXR图像中各疾病的预测得分,其中深色标注为图中存在的疾病. 可以看出,预测得分最高者均为标注疾病,网络对各种疾病都具有较强的预测能力. 总的来说,这些数据表明提出的CAWSNet在胸部疾病诊断方面表现出较高的准确度.

图 9

图 9   医生标记病变区域(左)与Grad-CAM热图(右)

Fig.9   Doctor's marked lesion area (left) and Grad-CAM heat map (right)


图 10

图 10   CXR图像中的疾病预测得分示例

Fig.10   Example of disease prediction score in CXR image


4. 结 语

本文提出基于卷积辅助窗口自注意力的胸部X光影像疾病分类网络CAWSNet,能够端到端地自动学习不同疾病的病理特征,完成常见胸部疾病的分类. 该网络结合窗口自注意力和卷积2种特征处理方式,捕捉CXR图像中的长距离视觉关系和局部特征. 引入图像相对位置编码,能够更好地提取CXR图像中与位置相关的特征. 使用类别残差注意分类器,在分类阶段根据疾病类别关注不同的区域. 提出动态难度损失函数,有效地解决了各疾病分类难度不一、正负样本不平衡带来的问题. CAWSNet在ChestX-Ray14、CheXpert和MIMIC-CXR-JPG数据集上的平均AUC分别为0.853、0.898和0.819,在多标签胸部疾病分类任务中具有有效性. 在未来的工作中,将研究重点放在对疾病标签间相关性的建模和利用医学报告信息进行多模态学习2个方面,以进一步提高网络的整体性能并增强可解释性.

参考文献

JACOBI A, CHUNG M, BERNHEIM A, et

al. Portable chest X-ray in coronavirus disease-19 (COVID-19): a pictorial review

[J]. Clinical Imaging, 2020, 64 (8): 35- 42

[本文引用: 1]

HEIDARI A, NAVIMIPOUR N J, UNAL M, et

al. The COVID-19 epidemic analysis and diagnosis using deep learning: a asystematic literature review and future directions

[J]. Computers in Biology and Medicine, 2022, 141: 105141

DOI:10.1016/j.compbiomed.2021.105141      [本文引用: 1]

郑光远, 刘峡壁, 韩光辉

医学影像计算机辅助检测与诊断系统综述

[J]. 软件学报, 2018, 29 (5): 1471- 1514

[本文引用: 1]

ZHENG Guangyuan, LIU Xiabi, HAN Guanghui

Survey on medical image computer aided detection and diagnosis systems

[J]. Journal of Software, 2018, 29 (5): 1471- 1514

[本文引用: 1]

CHEN J T, YU H Y, FENG R W, et al. Flow-Mixup: classifying multi-labeled medical images with corrupted labels [C]// IEEE International Conference on Bioinformatics and Biomedicine. Seoul: IEEE, 2020: 534-541.

[本文引用: 1]

ANWAR S M, MAJID M, QAYYUM A, et

al. Medical image analysis using convolutional neural networks: a review

[J]. Journal of Medical Systems, 2018, 42 (11): 226

DOI:10.1007/s10916-018-1088-1      [本文引用: 1]

YI X, WALIA E, BABYN P

Generative adversarial network in medical imaging: a review

[J]. Medical Image Analysis, 2019, 58: 101552

DOI:10.1016/j.media.2019.101552     

ZHOU S K, LE H N, LUU K, et

al. Deep reinforcement learning in medical imaging: a literature review

[J]. Medical Image Analysis, 2021, 73: 102193

DOI:10.1016/j.media.2021.102193      [本文引用: 1]

LI Q, LAI Y, ADAMU MJ

Multi-level residual feature fusion network for thoracic disease classification in chest x-ray images

[J]. IEEE Access, 2023, 11 (11): 40988- 41002

[本文引用: 1]

胡锦波, 聂为之, 宋丹, 等

可形变Transformer辅助的胸部X光影像疾病诊断模型

[J]. 浙江大学学报: 工学版, 2023, 57 (10): 1923- 1932

[本文引用: 1]

HU Jinbo, NIE Weizhi, SONG Dan, et al.

Chest X-ray imaging disease diagnosis model assisted by deformable Transformer

[J]. Journal of Zhejiang University: Engineering Science, 2023, 57 (10): 1923- 1932

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems . [S. l.]: Curran Associates, 2017: 6000-6010.

[本文引用: 1]

DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03) [2023-08-05]. https://arxiv.org/pdf/2010.11929.pdf.

[本文引用: 1]

LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992-10002.

[本文引用: 3]

WU K, PENG H W, CHEN M H, et al. Rethinking and improving relative position encoding for vision [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 10013-10021.

[本文引用: 1]

ZHU K, WU J K. Residual attention: a simple but effective method for multi-label recognition [C]// IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 184-193.

[本文引用: 1]

WANG X S, PENG Y F, LU L, et al. ChestX-ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases [C]// 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3462-3471.

[本文引用: 4]

IRVIN J, RAJPURKAR P, KO M, et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison [C]// 33rd AAAI Conference on Artificial Intelligence. Honolulu: AAAI, 2019: 590-597.

[本文引用: 4]

JOHNSON A E W, POLLARD T J, BERKOWITZ S J, et

al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports

[J]. Scientific Data, 2019, 6 (1): 317

DOI:10.1038/s41597-019-0322-0      [本文引用: 2]

CHEN B Z, LI J X, GUO X B, et

al. DualCheXNet: dual asymmetric feature learning for thoracic disease classification in chest X-rays

[J]. Biomedical Signal Processing and Control, 2019, 53: 101554

DOI:10.1016/j.bspc.2019.04.031      [本文引用: 1]

WANG H Y, WANG S S, QIN Z B, et

al. Triple attention learning for classification of 14 thoracic diseases using chest radiography

[J]. Medical Image Analysis, 2021, 67 (1): 8415- 8423

[本文引用: 2]

CHEN K, WANG X Q, ZHANG S W

Thorax disease classification based on pyramidal convolution shuffle attention neural network

[J]. IEEE Access, 2022, 10: 85571- 85581

DOI:10.1109/ACCESS.2022.3198958      [本文引用: 2]

CHEN B Z, ZHANG Z, LI Y Z, et

al. Multi-label chest X-ray image classification via semantic similarity graph embedding

[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32 (4): 2455- 2468

DOI:10.1109/TCSVT.2021.3079900      [本文引用: 3]

JIANG X B, ZHU Y, GAI G, et

al. MXT: a new variant of pyramid vision Transformer for multi-label chest X-ray image classification

[J]. Cognitive Computation, 2022, 14 (4): 1362- 1377

DOI:10.1007/s12559-022-10032-4      [本文引用: 1]

PAN X R, GE C J, LU R, et al. On the integration of self-attention and convolution [C]// IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 805-815.

[本文引用: 1]

HU J, SHEN L, SU G. Squeeze-and-Excitation networks [C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 1]

LIN T, GOYAL P, GIRSHICK R, et

al. Focal loss for dense object detection

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42 (2): 318- 327

DOI:10.1109/TPAMI.2018.2858826      [本文引用: 1]

PASZKE A, GROSS S, MASSA F, et al. PyTorch: an imperative style, high-performance deep learning library [C]// 33rd Conference on Neural Information Processing Systems . Vancouver: [s. n. ], 2019: 32.

[本文引用: 1]

PHAM H H, LE T T, TRAN D Q, et

al. Interpreting chest X-rays via CNNs that exploit hierarchical disease dependencies and uncertainty labels

[J]. Neurocomputing, 2021, 437: 186- 194

DOI:10.1016/j.neucom.2020.03.127      [本文引用: 1]

JIANG X B, ZHU Y, LIU Y T, et al

TransDD: a transformer-based dual-path decoder for improving the performance of thoracic diseases classification using chest X-ray

[J]. Biomedical Signal Processing and Control, 2024, 91: 13

[本文引用: 1]

ZHU X F, PANG S M, ZHANG X X, et

al. PCAN: pixel-wise classification and attention network for thoracic disease classification and weakly supervised localization

[J]. Computerized Medical Imaging and Graphics, 2022, 102: 102137

DOI:10.1016/j.compmedimag.2022.102137      [本文引用: 2]

SUN Z X, QU L H, LUO J Z, et al

Label correlation transformer for automated chest X-ray diagnosis with reliable interpretability

[J]. Radiologia Medica, 2023, 128 (6): 726- 733

DOI:10.1007/s11547-023-01647-0      [本文引用: 1]

LEE Y W, HUANG S K, CHANG R F

CheXGAT: a disease correlation-aware network for thorax disease diagnosis from chest X-ray images

[J]. Artificial Intelligence in Medicine, 2022, 132: 102382

DOI:10.1016/j.artmed.2022.102382      [本文引用: 1]

XIAO J F, BAI Y T, YUILLE A, et al. Delving into masked autoencoders for multi-label thorax disease classification [C]// IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2023: 3577-3589.

[本文引用: 1]

LIU Z, CHENG Y Z, TAMURA S

Multi-label local to global learning: a novel learning paradigm for chest x-ray abnormality classification

[J]. IEEE Journal of Biomedical and Health Informatics, 2023, 27 (9): 4409- 4420

DOI:10.1109/JBHI.2023.3281466      [本文引用: 1]

ZHU X F, FENG Q. MVC-NET: multi-view chest radiograph classification network with deep fusion [C]// 18th IEEE International Symposium on Biomedical Imaging. Nice: IEEE, 2021: 554-558.

[本文引用: 1]

JACENKOW G, O'NEIL A Q, TSAFTARIS S A. Indication as prior knowledge for multimodal disease classification in chest radiographs with transformers [C]// IEEE International Symposium on Biomedical Imaging. Kolkata: IEEE, 2022.

[本文引用: 1]

SEIBOLD C, REISS S, SARFRAZ M S, et al. Breaking with fixed set pathology recognition through report-guided contrastive training [C]// Medical Image Computing and Computer Assisted Intervention. Singapore: Springer, 2022, 13435: 690-700.

[本文引用: 1]

CHEN B, LI J, LU G, et al

Label co-occurrence learning with graph convolutional networks for multi-label chest x-ray image classification

[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 24 (8): 2292- 2302

DOI:10.1109/JBHI.2020.2967084      [本文引用: 1]

SELVARAJU R R, COGSWELL M, DAS A, et

al. Grad-CAM: visual explanations from deep networks via gradient-based localization

[J]. International Journal of Computer Vision, 2020, 128 (2): 336- 359

DOI:10.1007/s11263-019-01228-7      [本文引用: 1]

/