可形变Transformer辅助的胸部X光影像疾病诊断模型

doi:10.3785/j.issn.1008-973X.2023.10.002

可形变Transformer辅助的胸部X光影像疾病诊断模型

胡锦波^,, 聂为之, 宋丹^,, 高卓, 白云鹏, 赵丰

1. 天津大学电气自动化与信息工程学院，天津 300072

2. 长春职业技术学院信息学院，吉林长春 130033

3. 天津市胸科医院心血管外科，天津 300222

Chest X-ray imaging disease diagnosis model assisted by deformable Transformer

HU Jin-bo^,, NIE Wei-zhi, SONG Dan^,, GAO Zhuo, BAI Yun-peng, ZHAO Feng

1. School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China

2. School of Information, Changchun Polytechnic, Changchun 130033, China

3. Department of Cardiovascular Surgery, Tianjin Chest Hospital, Tianjin 300222, China

通讯作者: 宋丹，女，副教授，博士. orcid.org /0000-0002-5467-0910. E-mail： dan.song@ tju.edu.cn

收稿日期: 2022-09-1

基金资助:

国家自然科学基金资助项目（61902277，62272337）

Received: 2022-09-1

Fund supported:

国家自然科学基金资助项目（61902277，62272337）

作者简介 About authors

胡锦波（1999—），男，硕士生，从事计算机视觉研究.orcid.org/0000-0002-5467-0910.E-mail：hjb@tju.edu.cn , E-mail：hjb@tju.edu.cn

摘要

针对胸部X光影像中的灰雾现象、病变区域重叠等问题，提出可形变Transformer辅助的胸部X光影像疾病诊断模型. 将扩展后的ResNet50作为特征提取网络，添加压缩型双注意力模块，增强病变区域与非病变区域之间的特征差异，降低冗余信息的干扰，提高图像数据的特征提取效果；通过可形变Transformer解码器内部的交叉注意力模块，引入类别表征作为先验知识，引导影像特征进一步融合，提高不同疾病在影像区域重叠情况下的特征区分度；将解码器的输出传入分类器中以获得最终的诊断结果. 压缩型双注意力模块和可形变Transformer均起到降低模型计算复杂度的作用，引入非对称损失函数可以更好地解决正负样本不均衡. 利用所提模型在公开数据集ChestX-Ray14和CheXpert上进行多组实验，在2个数据集上的受试者操作的特征曲线下面积值（AUC）分别达到0.839 8和0.906 1，表明该模型在胸部X光影像的疾病诊断方面具有正确性和有效性.

关键词： 胸部X光图像分类 ; 可形变Transformer ; 压缩型双注意力 ; 非对称损失函数 ; 先验知识

Abstract

A disease diagnosis model for chest X-ray images assisted by deformable Transformer was proposed, aiming at the problems of gray fog phenomenon and overlapping lesion areas in chest X-ray images. The extended residual network ResNet50 was used as a feature extraction network. A compressed dual attention module was added to enhance the feature difference between the lesion area and the non-lesion area, further reduced the interference of redundant information and improved the feature extraction of image data. Through the cross-attention module inside the deformable Transformer decoder, category representations were introduced as the priori knowledge to guide further fusion of image features and improve the feature discrimination of different diseases in the case of overlapping image regions. Output of the decoder was passed into the classifier to obtain the final diagnosis. Both the compressed dual attention module and the deformable Transformer can reduce the computational complexity of the model. The asymmetric loss function was introduced to solve the imbalance of positive and negative samples. The proposed model was subjected to multiple sets of experiments on public datasets ChestX-Ray14 and CheXpert. The area under curve (AUC) on two datasets reached 0.839 8 and 0.906 1 respectively, indicating the correctness and validity of the model for disease diagnosis on chest X-ray images.

Keywords： chest X-ray image classification ; deformable transformer ; compressed dual attention ; asymmetric loss function ; priori knowledge

PDF (1778KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

胡锦波, 聂为之, 宋丹, 高卓, 白云鹏, 赵丰. 可形变Transformer辅助的胸部X光影像疾病诊断模型. 浙江大学学报(工学版)[J], 2023, 57(10): 1923-1932 doi:10.3785/j.issn.1008-973X.2023.10.002

HU Jin-bo, NIE Wei-zhi, SONG Dan, GAO Zhuo, BAI Yun-peng, ZHAO Feng. Chest X-ray imaging disease diagnosis model assisted by deformable Transformer. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(10): 1923-1932 doi:10.3785/j.issn.1008-973X.2023.10.002

近年来，新型冠状病毒感染对全球产生较大的影响，肺部病变诊疗受到越来越多人的重视. 目前医院中一般使用X光片对肺部疾病进行常规检查，这是因为X光片获取方式比较简单，普通医院就可以基于常规设备标准获得^[1]. 胸部X光影像中有很多细小且相似的特点，人眼进行观察时，很容易区分不出. 在这种情况下，医生可以利用计算机辅助检测（computer-aided detection, CAD）系统对X光影像进行诊断^[2]. 随着深度学习技术的发展，人们对使用人工智能改进CAD系统产生了极大的关注.

医学图像的诊断一般属于多标签分类任务^[3-6]. 由于医学影像成像的模糊性、部分病灶区域的不规则性和位置的不确定性，针对医学影像的多标签分类任务需要特别注意以下2点：1）如何定位感兴趣区域并从区域中有效提取特征；2）如何处理标签不平衡问题. 针对上述问题，提出可形变Transformer辅助的胸部X光影像疾病诊断算法. 该算法对Transformer模块和双注意力模块进行优化，可以高效地处理高分辨率的医学图像，在不影响诊断正确率的情况下，提升模型的计算效率，使其更有利于开展技术落地和应用场景的示范工作；在Transformer部分引入预训练模型的分类表征作为先验知识，指导目标影像表征信息的更新和多类信息的融合；此外，还引入非对称损失函数^[7]，以此来更好地处理正负样本不均衡问题. 本研究方法兼顾模型的分类精度和计算复杂度，通过公开数据集ChestX-14和CheXpert上的多组实验，证明了所提方法的正确性和有效性. 工作代码已经公开，代码链接为： https://github.com/hjbzsy/Q2L-ChestX/tre e/master.

1. 相关工作

随着计算机技术的快速崛起，医学人工智能（medical artificial intelligence, MAI）吸引了越来越多的学者进行研究^[8-9]，MAI的相关技术也在很多医疗领域产生重要影响^[10-12]. 在MAI的研究工作中，学者们在胸部X光图片分类问题上取得一系列新的研究进展. 在CheXNet-8数据集上Wang等^[13]测试了4种网络算法，在对比4种算法分类结果的同时，得出性能最好的网络为ResNet^[14]，而后又在ResNet基础上将损失函数替换为加权损失函数，结果表明加权损失函数对于提升算法的性能有一定的作用. Li等^[15]采用长短期记忆网络（long-short term memory network, LSTM）来研究14类疾病病理标签的相关性. 在DenseNet^[16]的基础上，添加LSTM学习各个疾病病理标签之间的相关信息，并将DenseNet网络中稠密块的卷积个数设为4个来降低算法复杂度，同时使用Wang等^[13]设计的加权损失函数进行实验，最终模型取得较好的效果. Guendel等^[17]同时使用2个数据集进行训练，将CheXray-14数据集和PLCO数据集混合，在DenseNet基础上提出DNetLoc，在实验过程中通过修改不同数据集的添加比例来对网络性能进行对比，最终得到更优的结果. Chen等^[18]根据人类的学习习惯提出一种新的网络训练方式，将数据集按照学习程度由易到难的顺序排列，并以这样的顺序对网络进行训练，这样训练得到的网络达到了很好的效果. Rajpurkar等^[19]提出CheXNet算法，该算法使用迁移学习加微调的方式进行训练，并修改最后的全连接层来适应分类要求，在这种情况下，对14类肺部疾病的诊断取得了更好的结果.

目前主流的分类方法大多是对不同的卷积神经网络做出改进，通过提高特征提取能力来提高分类精度. 随着Transformer在计算机视觉领域的发展，Liu等^[20]提出Query2label模型，该模型先对图片通过一个骨干网络提取特征图，然后将图片特征和标签特征送入Transformer解码器，把图片特征作为Key和Value，标签特征作为Query，利用Transformer解码器内部的交叉注意模块，预测相关标签的存在性，在自然图像分类任务上取得了较好的效果. 本研究设计一种结合可形变Transformer与压缩型双注意力模块的多标签胸部疾病分类模型，将Transformer应用到医学图像领域，以期获得较好的分类效果.

2. 可形变Transformer辅助的胸部X光影像疾病诊断模型

通过学者们的工作发现，适当增大特征图分辨率有利于提高模型的分类性能，但同时会带来高计算复杂度和高内存占用. 本研究提出一种基于可形变Transformer和压缩型双注意力模块的胸部X光图像分类模型，模型框架分为特征提取阶段和类别预测阶段：特征提取阶段采用压缩型双注意力模块，有效去除影像的冗余信息，提升后期信息表征的有效性；类别预测阶段在可形变Transformer部分，引入预训练模型的先验知识作为引导，指导多类别信息的表征. 可形变Transformer解码器部分的交叉注意力模块可以有效定位不同病灶的区域，进一步对有效信息进行表征. 本研究模型可以在得到较好分类精度的同时，有效地降低了模型的计算复杂度. 所提模型框架如图1所示，其中H、W分别为特征图的高、宽，C为特征图通道数.

图 1

新窗口打开| 下载原图ZIP| 生成PPT

图 1 胸部X光图像分类模型框架

Fig.1 Framework of chest X-ray image classification model

在特征提取阶段，首先使用扩展后的ResNet50获得较高分辨率的初始特征图^[21]，接着通过压缩型双注意力模块加强特征表示；在类别预测阶段，使用标签嵌入作为查询，通过可形变Transformer解码器内部的交叉注意力模块，自适应地从上游传来的特征图中提取与类别相关的特征，以预测相关标签的存在性. 引入预训练模型的分类表征来指导影像数据在不同类别下的表征，最终传入分类器，获得预测结果. 此外还引入非对称损失函数以改善数据集中正负样本不均衡的问题.

2.1. 特征提取网络

特征提取层选取的是深度残差网络（residual neural network, ResNet）. ResNet基于一种残差学习结构，有效地解决了卷积神经网络因为层次不断加深而引起的网络退化问题. 目前，ResNet主要使用2种残差单元，结构如图2所示.

图 2

新窗口打开| 下载原图ZIP| 生成PPT

图 2 ResNet系列主要使用的2种残差结构

Fig.2 Two main residual structures used by ResNet family

在图2（a）为basic block，由2个3 $* $3卷积和一个快捷连接构成，并且卷积层与快捷连接的输出经过元素相加后的特征图作为下一层的输入. basic block常被用于浅层网络，如ResNet18和ResNet34中均使用basic block作为基本残差单元；在图2（b）为bottleneck block，利用1 $* $1卷积块进行降维，接着使用3 $* $3卷积块进行特征提取，最后利用1 $* $1卷积块进行升维. 在不影响模型精度的同时，减少计算过程中的参数量，降低计算复杂度，进而缩短整个模型训练所需的时间. bottleneck block常被用于深层网络，如ResNet50、ResNet101和ResNet152均使用bottleneck block作为基本残差单元.

出于对模型性能和参数量的考虑，选择扩展后的ResNet50（dilated ResNet50）进行特征提取. 将原始ResNet50中最后一个残差单元的下采样删除，并选取可变形卷积作为卷积核. 在未引入额外参数的情况下，获取到含有更加丰富信息的特征图. 输入图像 ${\boldsymbol{X}} \in {{\bf{R}}^{{H_0} \times {W_0} \times 3}}$，经过扩展后的ResNet50获得特征图 ${{\boldsymbol{F}}_0} \in {{\bf{R}}^{H \times W \times {d_0}}}$，其中 $ H = {H_0}/16 $， $ W = {W_0}/16 $， $ {d_0} = 2\;048 $， d₀为特征图的通道数. 特征图的分辨率与之前相比有所提高.

2.2. 可形变Transformer模块

标准Transformer中使用多头注意力机制，具体计算式为

(1) $ \begin{split} {\rm{MultiHeadAtt}}{\text{ention}}\left( {{{\boldsymbol{z}}_{\rm{q}}},{\boldsymbol{x}}} \right) = \sum\limits_{m = 1}^M {{{\boldsymbol{W}}_m} \left( {\sum\limits_{k \in {\varOmega _k}} {{{\boldsymbol{A}}_{m,{\rm{q}},k}} \cdot {{\boldsymbol{W}}'_m}{{\boldsymbol{x}}_k}} } \right) } . \end{split} $

式中：z_q为查询特征，x为输入特征，m为注意力头的索引， $ {{\boldsymbol{W}}_m} $为每个注意力头的权重矩阵，k为经过采样后Key的索引，A_m,q,k为第m个注意力头内的第k个采样点的注意力权重， $ {{\boldsymbol{W}}'_m} $为经过采样后每个注意力头的权重矩阵，x_k为经过采样后的输入特征. 该式的计算复杂度为O(N_aC²+N_bC²+N_aN_bC)，其中N_a、N_b分别为Query和Key的对象查询数.

原始的Transformer解码器的输入包括2个部分：一部分来自注意力模块的特征输出，另一部分为通过学习获得的标签嵌入表示的N个对象查询，N为类别的数量. Transformer解码器内部包含交叉注意力模块和自注意力模块. 对交叉注意力模块来说，Query为对象查询，Key为注意力模块的输出，因此，N_a=N，N_b=H×W，则交叉注意力模块的复杂度为O(HWC²+NHWC)，受到特征图分辨率与通道数的影响. 对于自注意力模块来说，Query和Key都是标签嵌入表示的N个对象查询，因此N_a=N_b=N，则自注意模块的复杂度为O(2NC²+N²C)，受到对象查询的数量以及标签嵌入维度的影响. Transformer中的注意力模块会查询特征图上的所有位置. 当特征图分辨率较高时，会带来较高的计算复杂度，因此提出采用可形变Transformer（deformable transformer）来解决这一问题.可形变Transformer中使用可形变注意力模块，如图3所示.

图 3

新窗口打开| 下载原图ZIP| 生成PPT

图 3 可形变注意力模块

Fig.3 Deformable attention module

该模块只关注查询点附近的一小部分采样点，通过每个Query分配固定且较少的Key来解决计算复杂度高的问题，具体计算式为

(2) $ \begin{split} & {\rm{DeformAttn}}\left( {{{\boldsymbol{z}}_{\rm{q}}},{{\boldsymbol{p}}_{\rm{q}}},{\boldsymbol{x}}} \right) = \\ & \sum\limits_{m = 1}^M {{{\boldsymbol{W}}_m}\left[ {\sum\limits_{k = 1}^K {{{\boldsymbol{A}}_{m,{\rm{q}},k}} \cdot {{\boldsymbol{W}}'_m}{\boldsymbol{x}}\left( {{{\boldsymbol{p}}_{\rm{q}}}+\Delta {{\boldsymbol{p}}_{m,{\rm{q}},k}}} \right)} } \right]} {\text{ }}. \end{split} $

式中：K为经过Key的总数，且 $K \ll HW$；p_q为一个二维参考点； $\Delta$p_m,q,k为第m个注意力头内的第k个采样点的偏移量； $\Delta$p_m,q,k和A_m,q,k都是由z_q通过全连接层获得. 复杂度计算式为

(3) $ \begin{split} &O({N_a}{C^2} + \min (HW{C^2},{N_a}K{C^2})+\\ &\quad 5{N_a}KC + 3{N_a}CMK). \end{split}$

可形变注意力模块只关心参考点周围的一组采样点，而不用考虑特征图空间大小，复杂度不再受上游的输出特征图分辨率的影响. 该模块的提出有效解决了特征图高分辨率带来的计算复杂度升高的问题，在保证准确率的情况下，提升了算法的效率.

2.3. 先验知识Query的构建

为了更好地提升分类信息的准确性，针对胸部X光图像中可能存在的患病区域重叠问题，引入预训练的分类表征作为先验知识来引导多分类特征的学习. 利用经典的ResNet+softmax学习预训练得到的类别表征，最终可以得到初始的分类表征 ${\boldsymbol{L}} = \{ {{\boldsymbol{l}}_1},{{\boldsymbol{l}}_2}, \cdots ,{{\boldsymbol{l}}_i}\} ;{{\boldsymbol{l}}_i} = u$，其中u为类别个数，l_i的维度为m维. 此外，添加了具有可学习参数的多层感知器（multilayer perceptron, MLP）模块来优化标签嵌入. 为了处理多类别信息融合，通过提出的模块将标签嵌入映射到融合的特征空间，在训练阶段，通过随机初始化操作获得初始标签嵌入L. 高级标签嵌入表示为 $ {{\boldsymbol{F}}_l} = \left\{ {{\boldsymbol{f}}_l^1,{\boldsymbol{f}}_l^2, \cdots ,{\boldsymbol{f}}_l^c} \right\} $，其中 ${\boldsymbol{f}}_l^i = \omega {{\boldsymbol{l}}_i} + h;{\rm{ }}{\boldsymbol{f}}_l^i \in {{\bf{R}}^d}$. $ \omega $和 $h$为标签嵌入网络的参数，这些参数将在训练阶段被学习到，F_l作为最终的标签嵌入来指导多类别信息融合. 在训练阶段结束之后，所学习到的F_l可以在下一次训练中作为初始化标签嵌入来引导特征的更新.

2.4. 压缩型双注意力模块

压缩型双注意力模块（compact dual attention module, CDAM）由压缩型位置注意力模块和压缩型通道注意力模块并联组成. 压缩型位置注意力模块首先获取所有位置特征的加权和，然后有选择地聚合各个位置的特征；压缩型通道注意力模块首先将所有通道特征之间的相关特征进行整合，之后有选择地强调相互依赖的通道特征. 2个注意力模块采取并联的方式，并将2个支路的输出相加，以进一步改善特征表示.

通过增大特征图分辨率来获得更加丰富的视觉特征信息，进而提高识别精度，但增大特征图分辨率会带来较高的计算复杂度. 因此，使用压缩型双注意力模块来应对这一问题，下面分别对这2种注意力模块进行介绍.

2.4.1. 压缩型位置注意力模块

在原始的位置注意力模块中，为了获得任意2个像素特征之间的关系，需要进行向量的内积运算. 当像素特征较多时，会带来巨大计算量和内存消耗，为了缓解这一问题，采用压缩型位置注意力模块（compact position attention module, CPAM）. CPAM通过构建每个像素与一些聚集中心的关系来降低计算量，这些聚集中心由一个多尺度池化层获得，结构如图4所示.

图 4

新窗口打开| 下载原图ZIP| 生成PPT

图 4 压缩型位置注意力模块

Fig.4 Compact position attention module

将维度为C×H×W的特征图A传入到一个由4个自适应平均池化层和1个1 $* $1卷积层组成的多尺度池化层中. 通过之后获得4个不同尺寸的池化特征图，分别为1 $* $1、2 $* $2、3 $* $3和6 $* $6（由于空间原因，图中未画出6 $* $6的池化特征图），通道数仍旧为C. 将池化后的特征图维度改为C×L²，为对应池化特征图的尺寸，将这些池化特征图拼接到一起，获得聚集中心特征图 ${\boldsymbol{F}} \in {{\bf{R}}^{C \times M}}$，其中M为所有池化特征图第二维度的和. 将A传入一个1 $* $1卷积层和一个全连接层，获得特征图 ${\boldsymbol{B}} \in {{\bf{R}}^{\overline C \times H \times W}}$，接着改变其形状得到 $ {\boldsymbol{B}} \in {{\bf{R}}^{\overline C \times N}} $，其中 $N = H \times W$， $\overline {\boldsymbol{G}} $为通过1 $* $1卷积层改变后的维度，采用降维方式是为了降低计算量. 对F进行同样的操作获得 ${\boldsymbol{G}} \in {{\bf{R}}^{\overline C \times M}}$，之后对B的转置和G进行矩阵相乘操作，并通过softmax层，得到位置注意力权重图的计算式为

(4) $ {{{s}}_{j,i}} = \frac{{\exp \left( {{{\boldsymbol{B}}_j} \cdot {{\boldsymbol{G}}_i}} \right)}}{{\displaystyle\sum\nolimits_{i = 1}^M {\exp \left( {{{\boldsymbol{B}}_j} \cdot {{\boldsymbol{G}}_i}} \right)} }}{\text{ }}. $

式中：s_j,i为第i个聚焦中心与第j个像素特征之间的关系. 将聚集中心特征图F传入全连接层获得特征图 ${\boldsymbol{D}} \in {{\bf{R}}^{C \times M}}$，得到最终输出特征图E的计算式为

(5) $ {{\boldsymbol{E}}_j} = \alpha \sum\limits_{i = 1}^M {\left( {{{\boldsymbol{s}}_{j,i}}{{\boldsymbol{D}}_i}} \right)} +{{\boldsymbol{B}}_j}{\text{ }}{\text{.}} $

2.4.2. 压缩型通道注意力模块

在原始的通道注意力模块中，通过计算各个通道之间的相关性来获得通道注意力权重. 当通道数较大时，会带来计算复杂度上的增加，因此引入压缩型通道注意力模块（compact channel attention module, CCAM）来解决这一问题. CCAM与CPAM类似，通过构建每个通道与通道聚集中心之间的关系来获得通道注意力权重，结构如图5所示.

图 5

新窗口打开| 下载原图ZIP| 生成PPT

图 5 压缩型通道注意力模块

Fig.5 Compact channel attention module

对于输入特征图 $ {\boldsymbol{A}} \in {{\bf{R}}^{C \times H \times W}} $，将其通过一个1 $* $1的卷积层，获得特征图 $ {\boldsymbol{F}} \in {{\bf{R}}^{K \times H \times W}} $. 其中，K为通过1 $* $1卷积层降低后的通道数. F的每一个通道映射都能看作一个通道聚集中心. 之后的操作与CAM一样，首先获得通道注意力映射 $ {\boldsymbol{X}} \in {{\bf{R}}^{C \times K}} $，计算式为

(6) $ {{{x}}_{j,i}} = \frac{{\exp \left( {{{\boldsymbol{A}}_j} \cdot {{\boldsymbol{F}}_i}} \right)}}{{\displaystyle\sum\nolimits_{i = 1}^K {\exp \left( {{{\boldsymbol{A}}_j} \cdot {{\boldsymbol{F}}_i}} \right)} }}{\text{ }}{\text{.}} $

式中：x_j,i为第i个通道聚集中心对第j个通道的影响. 有选择性地将通道聚集中心整合到特征图A上，得到最后的输出特征图E，计算式为

(7) $ {{\boldsymbol{E}}_j} = \beta \sum\limits_{i = 1}^K {\left( {{{\boldsymbol{x}}_{j,i}}{{\boldsymbol{F}}_i}} \right)} +{{\boldsymbol{A}}_j}{\text{ }}{\text{.}} $

2.5. 非对称损失函数

为了解决数据集中正负样本不均衡的问题，采用非对称损失函数. 在焦点损失函数^[22]的基础上，解耦正样本和负样本的指数因子，可以更好地控制正样本和负样本对损失函数的贡献. 本研究使用的是简化后的非对称损失函数，可以看作一种非对称聚焦损失函数，即

(8) $ {\cal L} = \left\{ {\begin{array}{*{20}{c}} {\dfrac{1}{K}\displaystyle\sum\limits_{k = 1}^K {{{\left( {1 - {p_k}} \right)}^{\gamma + }}\log_ 2 {{p_k}} } ,{\rm{ }}{y_k} = 1;}\\ {\dfrac{1}{K}\displaystyle\sum\limits_{k = 1}^K {{{\left( {{p_k}} \right)}^{\gamma - }}\log_ 2\left( {1 - {p_k}} \right),{\rm{ }}{y_k} = 0.} } \end{array}} \right.$

式中：K为类别数量，y_k为图片的类别，p_k为网络预测图片类别正确的概率， $\gamma ^{+}$为正聚焦参数， $\gamma ^{ -}$为负聚焦参数，通常设置 ${\gamma ^{-} } > {\gamma ^{+}}$. 总损失通过对训练样本所有损失的和取平均得到，在本研究实验中， $\gamma ^{+}$设置为0， $\gamma^{-}$设置为2.

2.6. 本研究模型构建

在胸片中，灰雾现象与病变区域重叠等问题，使得病灶区域不清晰，导致诊断困难. 因此，传统方法在基于胸片进行疾病的多分类任务时，表现有所欠缺. 对于此类问题，本研究对模型进行针对性优化.

胸片的特征图分辨率越高，分类效果相对来说会更好. 在提取特征时，删除ResNet50最后一个残差单元的下采样，将可形变卷积作为卷积核，得到分辨率更高的特征图. 考虑到病灶区域较小的疾病，采用双注意力机制对特征图进行处理，增强病变区域和非病变区域的特征差异. 提高特征图分辨率必然会导致模型计算复杂度提升，因此对双注意力模块进行压缩操作，有选择地聚合位置特征和通道特征，去除特征中的冗余信息，降低模型的计算复杂度. 普通Transformer需要关注整张特征图的内容，在前期提高特征图分辨率的基础上，会带来更高的计算复杂度. 本研究提出可形变Transformer提取类别相关信息，只须关注病灶周围的内容，提升模型的效率. 在可形变Transformer模块中引入预训练模型的先验知识，指导多类别信息的表征，有利于提高不同疾病在影像区域重叠情况下的特征区分度. 在训练过程中，由于数据集中的部分疾病样本之间数量相差过大，容易导致正负样本不均衡问题. 通过解耦正负样本的指数因子，使用非对称损失函数，控制正负样本对损失函数的贡献，弱化正负样本不均衡问题带来的影响.

3. 实验结果与分析

3.1. 实验数据集

采用数据集ChestX-ray14和CheXpert对模型性能进行评测. ChestX-ray14是美国国立卫生研究院在2017年发布的胸部X射线数据集，该数据集中共有14种常见的肺部疾病，共计112 120张胸部X光片. 这些X光片来自30 805名肺部病变患者，标记了14种疾病中的一种或多种. 在数据集中，由专业的放射科医生在984张胸部X光图像中手工标注了患病区域，其中包含8种疾病，如图6所示.

图 6

新窗口打开| 下载原图ZIP| 生成PPT

图 6 8种胸部常见疾病病变区域图

Fig.6 Lesion area maps of 8 common chest diseases

CheXpert数据集是吴恩达团队于2019年公开的一个大型胸部X光片数据集^[23]，其中包含65 240位病人的224 316张胸片. 该数据集中每张胸片共标注了14个标签，其中12个是心脏肥大、肺不张、肺实变等12种疾病特征，另外2个标签分别为未发现病灶和辅助设备. 此外，每种类别有3种标记，包括阳性、阴性以及不确定，不确定为医生仅通过X光片还判断不出是否患有某种疾病.

3.2. 评价指标

为了准确且客观地评估模型性能，选用受试者操作特征曲线（receiver operating characteristics, ROC）来反映模型对肺部疾病的分类性能. 利用该曲线下的面积值（area under curve, AUC）对模型进行分析，并以此作为比较的指标，AUC值越大，表示模型的分类性能就越好. 后文 $\overline{{\rm{AUC}}} $为平均AUC. ROC曲线的横、纵坐标分别为假正例率（false positive rate, FPR）、真正例率（true positive rate, TPR）. FPR为将负样本错判为正例的概率，TPR为对正样本判别正确的概率.

3.3. 与现有SOTA算法比较

为了验证所提方法的有效性，分别在ChestX-ray14数据集和CheXpert数据集上与其它现存的先进方法进行性能对比实验. 实验结果如表1、2所示，其中 $\overline {{\rm{AUC}}} _{\rm{all}} $为每种方法在所有疾病上的平均AUC值. Deformable-CDAM为本研究的模型，表中数据加粗为该方法得到的指标经过对比为最佳指标.

表 1 ChestX-ray14数据集上模型对各类疾病分类的性能对比

Tab.1 Comparison of model performance on ChestX-ray14 dataset for classification of various diseases

疾病种类	$\overline{{\rm{AUC}}} $/%
疾病种类	Wang等^[13]	Yao等^[15]	CheXNet^[19]	Guendel等^[17]	Yan等^[24]	Ma等^[25]	DuaLAnet^[26]	Luo等^[27]	DAM	Deformab- CDAM-D
肺不张	0.700 3	0.733	0.779 5	0.767	0.792 4	0.777	0.783	0.789 1	0.803 6	0.820 1
心脏肿大	0.810 0	0.856	0.881 6	0.883	0.881 4	0.894	0.884	0.906 9	0.884 7	0.911 5
积液	0.758 5	0.806	0.826 8	0.828	0.841 5	0.829	0.832	0.841 8	0.879 8	0.890 2
渗透	0.661 4	0.673	0.689 4	0.709	0.709 5	0.696	0.708	0.718 4	0.704 1	0.714 4
肿块	0.693 3	0.718	0.830 7	0.821	0.847 0	0.838	0.837	0.837 6	0.828 4	0.864 9
肺结节	0.668 7	0.777	0.781 4	0.758	0.810 5	0.771	0.800	0.798 5	0.732 6	0.772 5
肺炎	0.658 0	0.689	0.735 4	0.731	0.737 9	0.722	0.735	0.741 9	0.745 4	0.762 1
气胸	0.799 3	0.805	0.851 3	0.846	0.875 9	0.862	0.866	0.906 3	0.884 6	0.903 3
肺实变	0.703 2	0.711	0.754 2	0.745	0.759 8	0.750	0.746	0.768 1	0.796 6	0.810 0
水肿	0.805 2	0.806	0.849 6	0.835	0.847 8	0.846	0.841	0.861 0	0.883 9	0.895 8
肺气肿	0.833 0	0.842	0.924 9	0.895	0.942 2	0.908	0.937	0.939 6	0.920 5	0.914 2
纤维变性	0.785 9	0.743	0.821 9	0.818	0.832 6	0.827	0.820	0.838 1	0.800 6	0.808 2
胸膜增厚	0.683 5	0.724	0.792 5	0.761	0.808 3	0.779	0.796	0.803 6	0.784 2	0.814 6
疝气	0.871 7	0.775	0.932 3	0.896	0.934 1	0.934	0.895	0.937 1	0.862 1	0.875 7
$\overline{{\rm{AUC}}}_{\rm{all}} $	0.745 1	0.761	0.818 0	0.807	0.830 2	0.817	0.820	0.834 9	0.822 1	0.839 8

新窗口打开| 下载CSV

表 2 CheXpert数据集上模型对各类疾病分类的性能对比

Tab.2 Comparison of model performance on CheXpert dataset for classification of various diseases

疾病种类	$\overline { {\text{AUC} } } $/%
疾病种类	U-Ignore	U-Zeros	U-Ones	Guan等^[28]	Pham等^[29]	Irvin等^[30]	Deformab-CDAM-D
肺不张	0.818	0.811	0.858	0.847	0.825 0	0.858 0	0.863 5
心脏肿大	0.828	0.840	0.832	0.868	0.855 0	0.832 0	0.865 5
肺实变	0.938	0.932	0.899	0.923	0.937 0	0.899 0	0.907 9
水肿	0.934	0.929	0.941	0.924	0.930 0	0.941 0	0.942 9
胸膜增厚	0.928	0.931	0.934	0.926	0.923 0	0.934 0	0.951 1
$ \overline {{\text{AUC}}}_{\rm{all}} $	0.889 2	0.888 6	0.892 8	0.898	0.894 0	0.893 0	0.906 1

新窗口打开| 下载CSV

由表1可知，与对比算法相比，本研究算法有明显的性能提升，这主要是由于采用分辨率更高的医学影像信息，得益于压缩型双注意力模块和可形变Transformer网络对算法复杂度的降低. Wang等^[13]将ImageNet预训练后的卷积神经网络作为特征提取器，只对过渡层和分类层进行训练，最终取得较好的结果，但其并未对数据的冗余信息进行处理. Ma等^[25]提出一种多注意力网络，主干网络为ResNet101，并在主干网络中加入挤压激励模块来构建通道之间的依赖关系，还添加了空间注意力模块来融合整体与局部的信息. 此外为了处理类失衡的问题采用错分样例模块，这些方式使得算法取得较好的分类结果，但是缺乏对先验知识的应用，相对于本研究的算法性能仍有一定的差距. Luo等^[27]使用多个数据集进行训练，并对不同数据集之间存在的差异进行处理，解决了域和标签差异的问题. 与所提算法相比，文献[5]所提方法在部分疾病上的诊断效果较好. 由于本研究采用引入先验知识等操作，从整体诊断效果上看，所提算法效果仍然占优.

在CheXpert数据集上，采用数据集作者提出的3种方法，即使用U-Ignore、U-Zeros和U-Ones以及一些其他SOTA算法来进行比较. CheXpert作者提出的3种方法对不确定性标签数据分别采用3种处理方式，即忽略、当作未患病和当作患病，其中U-Ones方法获得最高的性能表现. 在处理含有不确定性标签的数据时，按照与U-Ones方法一样的处理方式. 由表2可知，在该数据集上，对于肺实变、心脏肿大2种疾病的诊断，其他算法也取得较好的效果. 这是因为主要改善的是小病灶疾病的分类，而肺实变、心脏肿大的病灶区域较大，相对容易识别，其他算法也可以获得较好的分类结果. 从整体上看，本研究模型的 $\overline{{\rm{AUC}}} $达到90.61%，相比其他方法均有所提高，进一步证明了本研究模型的有效性和鲁棒性.

3.4. 特征图分辨率对模型性能的影响

通过设置对比实验，分别在数据集ChestX-ray14和CheXperts上对比特征图分辨率对模型性能的影响，实验结果如表3所示. “Deformab-CDAM-D”为使用高分辨率的特征图. 由表3可知，在2个数据集上，与使用低分辨率特征图的模型相比，使用较高分辨率特征图的模型，在指标上分别提高1.65%和1.42%，提升比较明显. 这得益于提高特征图分辨率后，特征图中包含更多的特征信息，使得模型的分类性能有所提高.

表 3 特征图分辨率对模型性能的影响

Tab.3 Effect of feature map resolution on model performance

模型	$ \overline {{\text{AUC}}} $/%
模型	ChestX-ray14	CheXpert
Deformab-CDAM	0.823 3	0.891 9
Deformab-CDAM-D	0.839 8	0.906 1

新窗口打开| 下载CSV

3.5. 先验知识Query的构建对模型性能的影响

针对病灶区域重叠的问题，利用预训练的分类表征作为先验知识. 在数据集ChestX-ray14和CheXpert数据集上，基于本研究模型分别设置了是否构建先验知识Query的对比实验，实验结果如表4所示. “null”为未进行先验知识的构建，“Query”为进行了先验知识的构建，“Query+MLP”为在进行先验知识构建的同时，添加了MLP模块.

表 4 先验知识对模型性能的影响

Tab.4 Effect of prior knowledge on model performance

模型	$ \overline {{\text{AUC}}} $/%
模型	ChestX-ray14	CheXpert
null Query	0.834 2 0.838 4	0.899 3 0.902 6
Query+MLP	0.839 8	0.906 1

新窗口打开| 下载CSV

由2个数据集上的实验结果可知，相较于未构建先验知识的模型，构建先验知识的模型的 $\overline{{\rm{AUC}}} $分别提高了0.56%和0.68%，具有可学习参数的MLP模块也对模型性能提升有所帮助. 结果表明，引入先验知识对多类别的表征起到指导作用，使模型分类的准确性得到相应的提高.

3.6. 消融实验

为了验证可形变Transformer和压缩型双注意力模块对于模型性能的影响，分别在ChestX-ray14数据集和CheXpert数据集上进行消融实验，共进行4组实验：第1组的模型结合原始Transformer和压缩型双注意力模块；第2组的模型结合可形变Transformer和原始双注意力模块；第3组的模型结合可形变Transformer和压缩型双注意力模块，前3组实验均采用预训练的label embedding信息来引导学习影像特征；第4组实验与第3组实验不同之处在于，采用的是随机生成的label embedding信息来学习影像特征. 实验结果如表5所示.

表 5 不同模块对模型分类效果的影响

Tab.5 Effect of different modules on model classification performance

模型	$ \overline {{\text{AUC}}} $/%
模型	ChestX-ray14	CheXpert
CDAM-D	0.830 1	0.896 5
Deformable-DAM-D	0.829 7	0.896 4
Deformable-CDAM-D	0.839 8	0.906 1
Lable-random	0.823 6	0.893 2

新窗口打开| 下载CSV

对比1、3这2组结果可知，与原始Transformer相比，使用可形变Transformer的模型的指标在2个数据集上分别提升了0.97%和1.04%，因此使用可形变Transformer对分类性能有一定的提升. 对比2、3这2组结果可知，在模型架构与其他模块相同的情况下，使用压缩型双注意力模块可以一定程度上提升算法的分类准确率. 由3、4这2组实验的比较可以看出，预训练模型信息的引入有效地提升了算法的性能，证明了引入预训练模型的必要性.

本研究还验证了可形变Transformer和压缩型双注意力模块对模型计算复杂度的影响. 实验采用与上述消融实验相同的实验分组，用模型处理单张胸部X光片的处理时长反映其计算复杂度. 实验结果如表6所示，其中T为处理时长.

表 6 消融实验不同模型处理时长对比

Tab.6 Comparison of different models processing time in ablation experiments

模型	T/s
模型	ChestX-ray14	CheXpert
CDAM-D	0.042	0.033
Deformab-DAM-D	0.034	0.028
Deformable-CDAM-D	0.032	0.025

新窗口打开| 下载CSV

对比1、3这2组实验结果可知，使用可形变Transformer的处理速度是原始Transformer的1.3倍，在与原始Transformer取得近似分类精度的同时，又在处理速度上有所提升，这体现了可形变Transformer的高效性. 对比2、3这2组实验结果可知，使用压缩型双注意力模块的模型计算复杂度相对较低，可以证明该模块的有效性.

3.7. 损失函数对模型性能的影响

设置对比实验，将本研究模型分别在ChestX- ray14数据集和CheXpert数据集上进行实验，比较不同损失函数对模型性能的影响，结果如表7所示. 由表中数据可以看出，在2个数据集上，使用非对称损失函数的 $\overline{{\rm{AUC}}} $均为最优. 由此表明，使用非对称损失函数可以在一定范围内解决正负样本不均衡所带来的问题，提升模型的分类性能.

表 7 不同损失函数对模型分类效果的影响

Tab.7 Effect of different loss functions on model classification performance

损失函数	$ \overline {{\text{AUC}}} $/%
损失函数	ChestX-ray14	CheXpert
交叉熵损失函数	0.825 1	0.890 3
焦点损失函数	0.828 6	0.894 2
非对称损失函数	0.839 8	0.906 1

新窗口打开| 下载CSV

3.8. 病灶区域可视化

通过加权梯度类激活映射（Grad-CAM）方法来证实模型的有效性^[31]，生成病灶定位热图，使网络在识别肺部疾病时有位置依据. Grad-CAM方法对模型参数进行加载，然后采用梯度加权平均的方式处理特征图权重，进而可以生成热图. 图7展示了8种疾病的医生标注图与其对应热图，热图中颜色越红的地方表示越接近病灶区域，医生标注的病变位置为长方形边框. 经过图7的对比可以发现，热图所确定的位置基本与专业放射科医生标出的位置相同，这表明模型根据X光片诊断肺部疾病时依据的特征信息是可靠的.

图 7

新窗口打开| 下载原图ZIP| 生成PPT

图 7 医生标注病变区域（左）与Grad-CAM热力图（右）对比图

Fig.7 Comparison between doctor’s marked lesion area (left) and Grad-CAM heat map (right)

4. 结　语

基于预训练模型提出一种可形变Transformer和压缩型双注意力模块的胸部X光图像分类模型. 该模型通过提高特征图的分辨率以获取更加丰富的特征信息；针对框架本身对小目标对象识别差的问题，引入压缩双注意力模块，增强病变区域和非病变区域特征差异，减少冗余信息，有效提高肺结节、肿块以及肺炎等较难识别疾病的分类精度，降低了模型的计算复杂度；利用可形变Transformer解码器内部的交叉注意模块，使用预训练模型的类别表征信息作为先验知识，有效地提取与类别相关的特征，也极大地降低了计算复杂度和内存占用；模型引入非对称损失函数，用以解决正负样本不均衡所带来的问题，进一步提高了分类精度. 通过实验与SOTA算法的对比，证明了所提方法具有有效性和实用性.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

石连红

放射科医生的透视眼—CT与核磁共振

[J]. 特别健康, 2020, 8: 35