浙江大学学报(工学版), 2020, 54(7): 1289-1297 doi: 10.3785/j.issn.1008-973X.2020.07.006

自动化技术、计算机技术

基于多尺度通道重校准的乳腺癌病理图像分类

明涛, 王丹, 郭继昌,, 李锵

Breast cancer histopathological image classification using multi-scale channel squeeze-and-excitation model

MING Tao, WANG Dan, GUO Ji-chang,, LI Qiang

通讯作者: 郭继昌,男,教授. orcid.org/0000-0003-3130-1685. E-mail: jcguo@tju.edu.cn

收稿日期: 2019-06-18  

Received: 2019-06-18  

作者简介 About authors

明涛(1994―),男,硕士生,从事医学图像处理的研究.orcid.org/0000-0003-0835-8376.E-mail:mos_ming@163.com

摘要

针对乳腺癌病理图像的自动分类问题,提出基于深度学习的分类算法. 通道重校准模型是作用于特征通道的注意力模型,可以利用学习到的通道权重对无用特征进行抑制来实现对特征通道的重校准,以达到更高的分类准确率. 为了使通道重校准的结果更加准确,提出多尺度通道重校准模型,设计卷积神经网络 msSE-ResNet. 多尺度特征通过网络中的最大池化层获得并作为后续通道重校准模型的输入,将不同尺度下学到的通道权重进行融合,可以改善通道重校准的结果. 该实验在公开数据集BreaKHis上开展. 实验结果表明,该网络对良性/恶性乳腺病理图像分类任务达到88.87%的分类精度,可以对不同放大倍数下获取的病理图像具有较好的鲁棒性.

关键词: 乳腺癌病理图像分类 ; 深度学习 ; 残差网络 ; 多尺度特征 ; 通道重校准模型

Abstract

A deep learning-based classification algorithm was proposed aiming at the problem of automatic classification algorithms focusing on breast cancer histopathological images. Channel squeeze-and-excitation (SE) model is an attention model applied to the feature channels. Useless features can be suppressed with learned channel weights so as to recalibrate the feature channels for better classification accuracy. A multi-scale channel SE model was proposed, and a convolutional neural network named msSE-ResNet was designed in order to make the result of channel recalibration more accurate. Multi-scale features were obtained by max-pooling layers and served as inputs to subsequent channel SE models, and the result of channel recalibration was improved by merging channel weights learned under different feature scales. Experiments were conducted on public dataset BreaKHis. Results show that the network can reach an accuracy of 88.87% on the task of classifying benign/malignant breast histopathological images, and can remain good robustness to histopathological images acquired under different magnifications.

Keywords: breast cancer histopathological image classification ; deep learning ; residual network ; multi-scale feature ; channel squeeze-and-excitation model

PDF (942KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

明涛, 王丹, 郭继昌, 李锵. 基于多尺度通道重校准的乳腺癌病理图像分类. 浙江大学学报(工学版)[J], 2020, 54(7): 1289-1297 doi:10.3785/j.issn.1008-973X.2020.07.006

MING Tao, WANG Dan, GUO Ji-chang, LI Qiang. Breast cancer histopathological image classification using multi-scale channel squeeze-and-excitation model. Journal of Zhejiang University(Engineering Science)[J], 2020, 54(7): 1289-1297 doi:10.3785/j.issn.1008-973X.2020.07.006

乳腺癌是女性中发病率最高的癌症[1],且发病率有呈年轻化的趋势. 病理学检测被视为乳腺癌诊断过程中的“黄金标准”[2],病理学检测由病理学家在显微镜下进行,通过对病理切片的观察给出病理学分级. 由于病理图像中存在较大的差异性[3],观察者的经验与主观差异可能会影响最终的诊断. 针对乳腺癌病理图像的自动分类算法可以帮助病理学家作出更准确的诊断.

有关乳腺癌病理图像分类的研究在近些年取得了很大进展,对该任务的研究方法可以分为2类:一类是基于手工特征描述子和机器学习的算法,另一类是基于深度学习的算法.

Spanhol等[4]公开了乳腺癌病理图像数据集BreaKHis,利用局部二值模式、灰度共生矩阵等特征描述子与随机森林、支持向量机等分类模型在该数据集上达到85%左右的识别率. Gupta等[5]利用对立色局部二值模式、Gabor特征等描述子以及支持向量机、决策树等分类模型,通过多数投票策略将各分类模型的结果进行集成,在相同数据集上达到87%的识别率. 手工特征描述子很难对差异性显著的病理图像进行完整描述,且对尺度和形态变化敏感;高质量特征的提取需要相应的专业知识及精力,这些都限制了该类方法的应用.

基于深度学习的分类算法利用以卷积层为核心的网络结构实现了更有效的特征学习过程,因此具有优于传统机器学习分类算法的性能. Ciresan等[6]首次将深度学习应用于乳腺癌病理图像,利用11层与13层的深度神经网络对输入图像是否存在有丝分裂进行分类,将分类结果应用至后续的有丝分裂检测任务中. Araújo等[7]利用14层的卷积神经网络,对乳腺病理图像进行正常组织/良性病变/原位癌/浸润癌的分类. Spanhol等[8]利用基于AlexNet的模型在BreaKHis数据集上进行实验,较机器学习分类算法获得了4%~6%的性能提升. 在相同数据集上,Bayramoglu等[9]利用基于放大倍数独立的深度网络,达到83%的识别率;Song等[10]利用基于费舍尔向量与VGGNet的分类模型,达到87%的识别率.

虽然深度网络可以更好地完成乳腺癌病理图像分类任务,但其中存在一些问题:不同放大倍数下的病理图像间存在很大的差异性,对不同放大倍数下的病理图像保持良好的鲁棒性是任务的关键. 此外,深度网络的训练需要大量的训练样本,可供研究的乳腺癌病理图像数量有限,如何利用好有限的样本是分类模型性能提升的关键.

通道重校准模型[11]是作用于特征通道域的注意力模型,通过训练过程中学到的通道权重来抑制无用特征,提升分类模型的性能. 为了更好地利用卷积神经网络中的特征信息,本文在通道重校准模型的基础上,提出多尺度通道重校准模型(multi-scale channel squeeze-and-excitation,msSE),利用不同的最大池化层获得多尺度特征;分别对各尺度特征进行通道重校准;将通道权重进行融合并作为最终的通道权重,由此实现对输入特征进行多尺度通道重校准的目的. 多尺度特征可以丰富网络中的特征信息,结合多尺度特征的通道重校准模型可以进一步提高分类模型的性能. 此外,网络的训练集由4种放大倍数下的乳腺癌病理图像共同构成,可以保证分类模型对不同放大倍数下的病理图像具有鲁棒性,从而更好地满足临床需要.

1. 相关工作

1.1. 残差结构

深层卷积神经网络的梯度消失问题使得更深的网络模型难以训练. He等[12]提出的残差结构解决了该问题,使得更深层的卷积神经网络可以被有效地训练. 残差结构如图1所示.

图 1

图 1   残差结构

Fig.1   Residual structure


残差结构的计算过程可以表示为

$ {{y}} = F{\rm{(}}{{x}}{\rm{)}} + {{x}}. $

式中: ${{x}}$为卷积层的输入特征, ${{y}}$为残差结构的输出特征, $F {\rm{(}}{{x}}{\rm{)}}$${{x}}$经过卷积层映射后的结果.

假设残差结构期望拟合的映射为 $H({{x}})$,由于额外加入的同等映射的存在,残差结构中卷积层要拟合的映射变为带有残差的映射 $F {\rm{(}}{{x}}{\rm{) = }}H{\rm{(}}{{x}}{\rm{)}} - $x,这与原先期望拟合的映射相比更容易被学到. 残差结构没有引入额外的参数且可以通过后向传播进行训练,以残差结构为主体的残差网络在网络层数加深的同时,可以避免梯度消失问题的产生.

1.2. 通道重校准模型

注意力模型[13-14]最早应用于自然语言处理,通过引入注意力权值来使网络模型“注意”到有用的信息. 近年来,注意力模型被应用于计算机视觉领域[15-16],通过对特征图中不感兴趣的区域进行抑制,将网络的注意力集中到感兴趣区域. 有别于针对特征图的注意力模型,通道重校准模型是作用于特征图通道域的注意力模型,在ILSVRC17竞赛分类任务冠军所设计的SENet[11]中提出. 通道重校准模型对输入特征按通道进行加权,使网络的注意力集中到有用的特征上,其中的通道权重可以通过训练学习得到. 通道重校准模型可以与VGGNet[17]、ResNet[12]、GoogLeNet[18]等网络结合,残差结构与加入通道重校准的SE残差结构如图2所示.

图 2

图 2   残差结构与SE残差结构

Fig.2   Residual structure and SE-Residual structure


通道重校准模型根据下式对输入特征 ${{U}}$按通道顺序进行挤压(squeeze):

$ {z_c} = {F _{{\rm{sq}}}}{\rm{(}}{{{u}}_c}{\rm{)}} = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{u_c}{\rm{(}}i,j{\rm{)}}} } . $

式中: ${z_c}$为对输入特征中第 $c$通道的特征进行挤压的结果; ${F_{{\rm{sq}}}}{\rm{(*)}}$为挤压函数; ${{{u}}_c}$为输入特征中第 $c$通道的特征, $H$$W$分别为其高度和宽度; ${u_c}{\rm{(}}i,j{\rm{)}}$为特征 ${{{u}}_c}$在空间位置 ${\rm{(}}i,j{\rm{)}}$处的取值. 这一过程可以视为对输入特征逐通道进行全局池化(global pooling)操作.

在完成对输入特征中每一通道特征的挤压后,通过下式对挤压后的结果进行激励(excitation)来得到各个通道的权重:

$ {{s}} = {F _{{\rm{ex}}}}({{z}}{\rm{,}}{{W}}) = \sigma ({{{W}}_2}\delta ({{{W}}_1}{{z}})). $

式中: ${{s}}$为特征通道的权重; ${F _{{\rm{ex}}}}{\rm{(*,*)}}$为激励函数; ${{z}}$为对特征挤压后的结果; $\sigma {\rm{(*)}}$为sigmoid函数; $\delta (*)$为ReLU函数[19]${{{W}}_1}$${{{W}}_2}$分别为2个全连接层FC的权值.

激励过程中的第1个全连接层将特征通道数由 $C$降为 $C/r$,其中 $r$为压缩比率,输出在经过ReLU函数作用后仅保留大于零的值. 第2个全连接层将特征通道数还原至 $C$,以便与输入特征的通道数保持一致. 最终得到的权重通过sigmoid函数限制为0~1.0.

$ {{{\tilde x}}_c} = {F _{{\rm{scale}}}}{\rm{(}}{{{u}}_c},{s_c}{\rm{)}} = {s_c} {{{u}}_c}. $

式中: ${{{\tilde x}}_c}$为通道重校准后的输出特征中第 $c$通道的特征; ${s_c}$为输入特征中第c个通道的权重; ${F _{{\rm{scale}}}}{\rm{(*,*)}}$为尺度函数,作用是将特定通道的特征与对应的通道权重相乘. 式(4)通过将特定通道的特征与对应的通道权重相乘来实现对特征通道的重新校准,整个过程抑制了对分类结果无用的特征,从而提高了分类的准确率.

2. 算法描述

在通道重校准模型的基础上,将通道重校准模型的输入由单一尺度特征变为多尺度特征,将在各个尺度下学到的特征通道权重进行融合,得到最终的特征通道权重. 加入多尺度通道重校准模型的msSE残差结构如图3所示.

图 3

图 3   msSE残差结构

Fig.3   msSE-Residual structure


利用多尺度特征的卷积神经网络常用于目标检测与识别[16,20-22]、图像语义分割[23-25]等任务中,利用多个尺度下的特征信息可以使得最终的结果更加准确. 图3中,多尺度特征通过与空间池化金字塔[20]类似的结构获得:将输入特征送入池化核大小为2×2、池化步长为2的最大池化层,获得另一尺度的特征. 若要得到更多尺度的特征,可以通过改变最大池化层的数量以及相关参数来实现. 采用最大池化层获得多尺度特征的原因是最大池化操作可以保留特征图中最显著的特征信息和对应的空间信息;最大池化层没有需要学习的模型参数,可以在实现多尺度特征的同时保证网络中引入尽可能少的运算量. 图3中,融合(Fusion)表示通道权重的融合过程,可以采用相加、最大值与拼接的方法,对不同尺度下得到的特征通道权重进行融合.

1)相加融合.

图3中,采用相加融合方法得到的通道权重为2个特征尺度下通道权重的逐元素相加,再将所得权重与输入特征按对应的通道顺序相乘来实现多尺度通道重校准,这一过程如下:

$ {{{\tilde U}}_{{\rm{2way\_add}}}} = ({s_{c0}} + {s_{c1}}) {{{U}}_{{\rm{s}}0}}. $

式中: ${{{\tilde U}}_{{\rm{2way\_add}}}}$为2个特征尺度下采用相加融合的多尺度通道重校准的结果, ${{{U}}_{{\rm{s}}0}}$为输入特征, ${s_{c0}}$为输入特征的通道权重, ${s_{c1}}$为另一尺度下的通道权重.

2)最大值融合.

与相加融合不同的是,最大值融合对特定通道选取2个尺度下权重的最大值作为该通道的权重,此时的多尺度通道重校准过程如下:

$ {{{\tilde U}}_{{\rm{2way\_max}}}} = \max \; ({s_{c0}},{s_{c1}}) {{{U}}_{{\rm{s}}0}}. $

式中: ${{{\tilde U}}_{{\rm{2way\_max}}}}$为2个特征尺度下采用最大值融合的多尺度通道重校准的结果; $\max \;(*,*)$为最大值函数,按通道顺序分别选取2个尺度下通道权重的最大值作为该通道的权重.

3)拼接融合.

当存在2个尺度的特征时,拼接融合方法先将2个尺度下的通道权重按特定的坐标轴进行拼接,然后将所得结果经过后续的卷积层映射成为最终的通道权重. 由于每个尺度下通道权重尺寸为 $N \times C \times 1 \times 1$,其中批图像大小为 $N$,输入特征的通道数为 $C$,拼接融合的具体实现依照拼接坐标轴的选取可以分为以下2种.

a)以第2个坐标轴(axis1)作为拼接坐标轴,记作cat1. 此时,多尺度通道重校准过程可以表示为

$ {{{\tilde U}}_{{\rm{2way\_cat1}}}} = {F _{{\rm{conv1}}}}{\rm{(}}{s_{\rm{{c\_cat1}}}}{\rm{)}} {{{U}}_{{\rm{s}}0}}. $

式中: ${{{\tilde U}}_{{\rm{2way\_cat1}}}}$为2个尺度下采用拼接融合cat1实现的多尺度通道重校准的结果; ${s_{\rm{{c\_cat1}}}}$为2个尺度下的通道权重按第2个坐标轴拼接后的结果,尺寸为 $N \times {\rm{2}}C \times 1 \times 1$${F _{{\rm{conv1}}}}{\rm{(*)}}$为卷积层 ${\rm{conv1}}$的映射函数,其中的卷积核尺寸为 $1 \times 1$,输入通道数为 $2C$,输出通道数为 $C$.

b)以第3个坐标轴(axis2)作为拼接坐标轴,记作cat2. 此时,多尺度通道重校准过程可以表示为

$ {{{\tilde U}}_{{\rm{2way\_cat2}}}} = {F _{{\rm{conv2}}}}{\rm{(}}{s_{{\rm{c\_cat2}}}}{\rm{)}} {{{U}}_{{\rm{s}}0}}. $

式中: ${{{\tilde U}}_{{\rm{2way\_cat2}}}}$为2个尺度下采用拼接融合cat2实现的多尺度通道重校准的结果; ${s_{\rm{{c\_cat2}}}}$为2个尺度下得到的通道权重按第3个坐标轴拼接后的结果,尺寸为 $N \times C \times 2 \times 1$${F _{\rm{{conv2}}}}{\rm{(*)}}$为卷积层 ${\rm{conv2}}$的映射函数,其中的卷积核尺寸为 $2 \times 1$,输入与输出通道数均为 $C$.

3. 实验结果与分析

3.1. 数据集

实验数据集:BreaKHis数据集[4],包含采集自82名患者(良性患者24名、恶性患者58名)的总计7 909幅乳腺癌病理图像,其中包括2 480幅良性肿瘤图像和5 429幅恶性肿瘤图像. 数据集中的病理图像包含4个放大倍数(40倍、100倍、200倍、400倍),尺寸均为700×460像素. 数据集中图片的具体分布情况如表1所示. BreaKHis数据集中的良性/恶性乳腺肿瘤图像样本如图4所示.

表 1   不同放大倍数与类别下的图片分布情况

Tab.1  Image distribution by different magnification factors and classes

放大倍数 肿瘤图像数
良性 恶性 总计
40倍 625 1370 1 995
100倍 644 1437 2 081
200倍 623 1390 2 013
400倍 588 1232 1 820

新窗口打开| 下载CSV


图 4

图 4   良性与恶性乳腺肿瘤图像

Fig.4   Benign and malignant breast tumor images


3.2. 实验环境及设置

实验环境如下. CPU:Intel Core i7 8700k;内存:16 GB;GPU:NVIDIA GeForce GTX1080Ti;实验运行在Ubuntu 16.04 LTS操作系统中,深度学习框架为PyTorch[26].

采用精度Acc(accuracy)、准确率Pr(precision)、召回率R(recall)及ROC曲线下面积AUC作为分类结果的衡量指标. 其中精度、准确率和召回率的计算公式如下:

$ A_{\rm{cc}} = \frac{{{\rm{TP + TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{TN}} + {\rm{FN}}}}, $

$ {P_{\rm{r}} }= \frac{\rm{TP}}{\rm{TP + FP}}, $

$ R = \frac{\rm{TP}}{\rm{TP + FN}}. $

式中:TP表示真正例,FP表示假正例,TN表示真负例,FN表示假负例.

实验未对数据集进行数据增强处理,训练集与测试集的比例划分为85%和15%,其中包含的图像在训练开始时通过随机选取确定. 所有对比实验均采用官方源码或公开代码,所有网络模型使用相同的图像预处理方式与训练设置,各网络的实验数据通过对5次训练得到的结果取平均值得到.

训练图像的预处理方式如下:1)图像尺寸调整为固定的224×224;2)将图像随机旋转90°;3)对图像的亮度、对比度、饱和度及色度进行随机微调,这使训练的网络可以对病理图像间存在的染色差异具有更好的鲁棒性;4)将图像进行归一化处理. 与训练集不同,测试集图像的预处理方式只包括调整图像尺寸为224×224与归一化处理.

实验中所有网络模型的初始参数由随机初始化得到,损失函数为二值交叉熵,采用带有动量的随机梯度下降法(SGD)进行权值更新,初始学习率设为0.000 1,动量值为0.9. 网络的训练批图像大小设为64,测试批图像大小为128. 基于ResNet18的网络训练迭代次数为10 600次,基于ResNet34的网络训练迭代次数为21 200次. 若测试精度每经过1 060次迭代没有提升,则学习率降低至之前的0.1倍.

由于多尺度特征是通过对输入特征下采样所得并且网络中的卷积层会使特征尺寸减小,为了使特征尺寸保持在合理的范围,实验仅选取特征尺度数量为2和3的网络进行实验. 选取2个特征尺度的网络记为msSE-ResNet-2way,3个特征尺度的网络记为msSE-ResNet-3way. 在拼接融合中,对输出应用sigmoid函数的网络,在其名称后添加sigm以示区分.

3.3. 基于ResNet18的实验

3.3.1. msSE-ResNet18与其他网络的对比与分析

实验中各网络在测试集上的实验结果如表2所示,ROC曲线图如图5所示. 图中,FPR为伪阳性的比率,TPR为真阳性的比率. 实验中各网络对测试集中不同放大倍数的乳腺癌病理图像的分类结果如表3所示.

表 2   msSE-ResNet18与其他网络的分类结果比较

Tab.2  Comparison of classification results of msSE-ResNet18 and other networks

模型 Acc/% AUC
ResNet18[12] 84.53 0.8878
SE-ResNet18[11] 83.56 0.8791
scSE-ResNet18[27] 83.90 0.8677
msSE-ResNet18-2way 86.81 0.9266
msSE-ResNet18-3way 86.00 0.9107

新窗口打开| 下载CSV


表 3   所有网络的放大倍数相关的分类结果比较

Tab.3  Comparison of magnification-specific classification results of all networks

模型 40倍 100倍 200倍 400倍
Acc Pr R Acc Pr R Acc Pr R Acc Pr R
ResNet18[12] 0.822 0.845 0.907 0.836 0.836 0.921 0.864 0.868 0.947 0.875 0.864 0.967
SE-ResNet18[11] 0.826 0.820 0.956 0.862 0.861 0.953 0.867 0.862 0.962 0.879 0.865 0.973
scSE-ResNet18[27] 0.805 0.808 0.941 0.836 0.845 0.935 0.870 0.866 0.962 0.824 0.837 0.918
msSE-ResNet18-2way 0.862 0.890 0.912 0.862 0.884 0.921 0.880 0.887 0.947 0.889 0.889 0.957
msSE-ResNet18-3way 0.829 0.856 0.902 0.868 0.878 0.940 0.874 0.905 0.913 0.882 0.884 0.951

新窗口打开| 下载CSV


图 5

图 5   基于ResNet18的网络的ROC曲线

Fig.5   ROC curves of networks with ResNet18 as backbone


表2可以看出,ResNet18的测试精度为84.53%,高于SE-ResNet18的83.56%. Guha等[27]提出空间通道重校准模型(spatial and channel Squeeze-and-Excitation,scSE),对输入特征同时进行空间和通道上的重校准,并将二者所得权重的最大值作为特征通道权重,scSE-ResNet18的精度为83.90%. msSE-ResNet18-2way达到86.81%的精度,msSE-ResNet18-3way的测试精度为86%,较其他网络有明显提升.

图5中的ROC曲线图进一步反映了各网络的分类性能,2种尺度数量的msSE-ResNet18的AUC均达到0.9以上,实现了比其他网络更好的性能.

根据表3的实验结果可知,msSE-ResNet18-2way对不同放大倍数下的病理图像保持了良好的鲁棒性;在大于40倍的放大倍数下,msSE-ResNet18-3way有着与msSE-ResNet18-2way相当的分类性能. 由于实验的任务是对乳腺病理图像进行良性/恶性二分类,分类的准确率显得更加重要,加入了多尺度通道重校准的msSE-ResNet在各个放大倍数下均得到了高于其他对比网络的准确率,这意味着msSE-ResNet18可以更准确地找出测试集中的恶性样本,在保证高准确率的前提下实现了较高的召回率,能够尽可能多地找到正样本.

以上实验结果表明,多尺度通道重校准模型可以通过结合多个尺度下的特征信息,对输入特征进行更加准确的重校准,在提高分类模型性能的同时可以对不同放大倍数下的病理图像保持鲁棒性.

3.3.2. 采用不同特征尺度数量与融合方法的msSE-ResNet18的对比与分析

采用不同特征尺度数量及融合方法的msSE-ResNet18的实验结果如表4所示. 表中,Atr为训练精度,Ate为测试精度.

表 4   不同特征尺度数量下各融合方法的分类结果比较

Tab.4  Comparison of classification results of different fusion methods under different feature scales

尺度数量 融合方法 Atr/% Ate/%
2 add 87.16 86.81
2 max 85.26 83.81
2 cat1(sigm) 85.82 84.65
2 cat1 87.12 86.37
2 cat2(sigm) 85.64 84.45
2 cat2 86.34 84.57
3 add 86.73 85.42
3 max 85.15 83.90
3 cat1(sigm) 85.47 83.77
3 cat1 87.36 86.00
3 cat2(sigm) 85.28 84.07
3 cat2 86.22 84.95

新窗口打开| 下载CSV


表4可以看出:2种尺度数量下的最高测试精度较为接近,2个尺度下的通道权重适合采用线性的相加方法进行融合;3个尺度下的通道权重适合选择拼接融合方法. 拼接融合中拼接坐标轴的选取会对精度造成1%左右的影响,此时以第2个坐标轴进行拼接(cat1)可以实现更高的精度. 此外,对拼接融合的输出通道权重应用sigmoid函数会明显降低分类性能,因为sigmoid函数会极大地限制卷积层学到的通道权重的取值范围.

3.4. 基于ResNet34的实验
3.4.1. msSE-ResNet34与其他网络的对比与分析

实验中各网络在测试集上的实验结果如表5所示,ROC曲线图如图6所示. 如表6所示为实验中所有网络对测试集中不同放大倍数的病理图像的分类结果.

表 5   msSE-ResNet34与其他网络的分类结果比较

Tab.5  Comparison of classification results of msSE-ResNet34 and other networks

模型 Acc/% AUC
ResNet34[12] 86.47 0.9135
SE-ResNet34[11] 87.36 0.9097
scSE-ResNet34[27] 83.96 0.8722
msSE-ResNet34-2way 88.06 0.9308
msSE-ResNet34-3way 88.87 0.9541

新窗口打开| 下载CSV


图 6

图 6   基于ResNet34的网络的ROC曲线

Fig.6   ROC curves of networks with ResNet34 as backbone


表 6   所有网络的放大倍数相关的分类结果比较

Tab.6  Comparison of magnification-specific classification results of all networks

模型 40倍 100倍 200倍 400倍
Acc Pr R Acc Pr R Acc Pr R Acc Pr R
ResNet34[12] 0.846 0.880 0.898 0.859 0.887 0.912 0.874 0.901 0.918 0.882 0.888 0.946
SE-ResNet34[11] 0.849 0.870 0.917 0.863 0.887 0.916 0.877 0.894 0.933 0.886 0.888 0.951
scSE-ResNet34[27] 0.815 0.847 0.893 0.833 0.869 0.893 0.877 0.890 0.938 0.868 0.870 0.948
msSE-ResNet34-2way 0.873 0.900 0.917 0.884 0.905 0.930 0.890 0.911 0.933 0.893 0.897 0.951
msSE-ResNet34-3way 0.867 0.946 0.863 0.891 0.946 0.893 0.890 0.927 0.913 0.901 0.944 0.908

新窗口打开| 下载CSV


表5可以看出,随着ResNet层数的加深,实验中大多数网络的测试精度有较大提升. SE-ResNet34达到了87.36%的测试精度,高于ResNet34的86.47%. scSE模型最初被应用于脑部MRI图像的语义分割任务,实验结果表明,其中的空间重校准模型在乳腺癌病理图像分类任务上的表现不理想. msSE-ResNet34-3way的测试精度升至最高的88.87%,2个尺度的网络的测试精度提高至88.06%.

图6所示为所有网络的ROC曲线图,其中msSE-ResNet34-3way得到最高0.9541的AUC,2个尺度的网络在AUC上优于所有对比网络.

表6给出所有网络与放大倍数相关的分类结果. 可知,msSE-ResNet34-3way在所有放大倍数,尤其是40倍下的精度和准确率有了大幅提升,在400倍下可以达到最高90.1%的分类精度;msSE-ResNet34-2way在各放大倍数下的分类性能有稳定的提升. 在所有放大倍数下的实验中,msSE-ResNet34在精度和准确率上均优于其他对比网络.

以上实验证明,随着网络层数的加深,msSE-ResNet34可以更好地利用更深层网络中丰富的特征信息,其中的多尺度通道重校准模型可以使通道间的关系被更加准确地捕捉. 在不同放大倍数的病理图像上的实验证明,msSE-ResNet34可以有效地应用于不同放大倍数的病理图像的分类任务.

3.4.2. 采用不同特征尺度数量与融合方法的msSE-ResNet34的对比与分析

采用不同特征尺度数量与融合方法的msSE-ResNet34的实验结果如表7所示.

表 7   不同特征尺度数量下各融合方法的分类结果比较

Tab.7  Comparison of classification results of different fusion methods under different feature scales

尺度数量 融合方法 Atr/% Ate/%
2 add 88.04 88.06
2 max 87.40 87.72
2 cat1(sigm) 86.61 86.74
2 cat1 88.63 88.04
2 cat2(sigm) 87.03 87.00
2 cat2 89.18 87.65
3 add 87.64 87.17
3 max 88.20 88.64
3 cat1(sigm) 87.64 87.52
3 cat1 88.36 88.12
3 cat2(sigm) 87.44 88.31
3 cat2 89.07 88.87

新窗口打开| 下载CSV


表7可以看出,2种不同尺度数量下的msSE-ResNet的最高测试精度仅相差0.81%,2个尺度下相加融合的表现优于3个尺度下的结果;3个尺度下采用最大值融合与拼接融合的网络在分类精度上优于2个尺度时得到的结果. 与基于ResNet18的实验中得到的结论类似,当存在2个尺度的特征时,相加融合方法的表现优于其他非线性融合方法,3个尺度下应优先选择拼接融合或最大值融合方法. 拼接融合方法中拼接坐标轴的不同给分类结果带来的影响更小,在相同尺度数量下的结果仅相差0.5%左右,都可以实现较高的分类精度.

4. 结 语

本文针对乳腺癌病理图像的分类任务进行研究,提出多尺度通道重校准模型msSE,并以ResNet为网络框架设计了卷积神经网络msSE-ResNet. 多尺度特征可以丰富网络中的特征信息,提高特征的利用率;将多个尺度下学到的特征权重进行融合,可以有效地提高特征通道权重学习过程的可靠性.

在BreaKHis数据集上的实验结果表明,采用多尺度通道重校准的msSE-ResNet的分类性能始终优于单一特征尺度下SE-ResNet,且分别优于网络框架ResNet以及采用空间和通道重校准模型的scSE-ResNet的结果. 由于网络的训练集和测试集中同时包含不同放大倍数下的乳腺癌病理图像,关于不同放大倍数下的乳腺病理图像的实验结果表明,所设计的msSE-ResNet可以对不同放大倍数下的乳腺病理图像保持良好的鲁棒性,能够更好地应用于乳腺癌病理图像分类任务.

此外,有关通道重校准模型中压缩比率的选取以及对卷积神经网络中不同位置的卷积层进行多尺度通道重校准与分类准确率之间的关系,有待进一步的研究.

参考文献

FAN L, STRASSER-WEIPPL K, LI J J, et al

Breast cancer in China

[J]. Lancet Oncology, 2014, 15 (7): 279- 289

DOI:10.1016/S1470-2045(13)70567-9      [本文引用: 1]

LEONG A S-Y, ZHUANG Z P

The changing role of pathology in breast cancer diagnosis and treatment

[J]. Pathobiology, 2011, 78: 99- 114

DOI:10.1159/000292644      [本文引用: 1]

VETA M, PLUIM J P, VAN DIEST P J, et al

Breast cancer histopathology image analysis: a review

[J]. IEEE Transactions on Biomedical Engineering, 2014, 61 (5): 1400- 1411

DOI:10.1109/TBME.2014.2303852      [本文引用: 1]

SPANHOL F A, OLIVEIRA L S, PETITJEAN C, et al

A dataset for breast cancer histopathological image classification

[J]. IEEE Transactions on Biomedical Engineering, 2016, 63 (7): 1455- 1462

DOI:10.1109/TBME.2015.2496264      [本文引用: 2]

GUPTA V, BHAVSAR A. Breast cancer histopathological image classification: is magnification important? [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE, 2017: 769-776.

[本文引用: 1]

CIRESAN D C, GIUSTI A, GAMBARDELLA L M, et al. Mitosis detection in breast cancer histology images with deep neural networks [C] // Proceedings of Medical Image Computing and Computer-Assisted Intervention. Berlin, German: Springer, 2013: 411-418.

[本文引用: 1]

ARAÚJO T, ARESTA G, CASTRO E, et al

Classification of breast cancer histology images using convolutional neural networks

[J]. PLos One, 2017, 12 (6): e0177544

DOI:10.1371/journal.pone.0177544      [本文引用: 1]

SPANHOL F A, OLIVEIRA L S, PETITJEAN C, et al. Breast cancer histopathological image classification using convolutional neural networks [C] // Proceedings of International Joint Conference on Neural Networks. Vancouver, Canada: IEEE, 2016: 2560-2567.

[本文引用: 1]

BAYRAMOGLU N, KANNALA J, HEIKKILÄ J. Deep learning for magnification independent breast cancer histopathology image classification [C] // Proceedings of International Conference on Pattern Recognition. Cancun, Mexico: IEEE, 2016: 2441-2446.

[本文引用: 1]

SONG Y, ZOU J J, CHANG H, et al. Adapting Fisher vectors for histopathology image classification [C] // Proceedings of the IEEE 14th International Symposium on Biomedical Imaging. Melbourne: IEEE, 2017: 600-603.

[本文引用: 1]

HU J, SHEN L, SUN G. Squeeze-and-Excitation network [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 6]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778.

[本文引用: 6]

BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2019–03–01]. https://arxiv.org/abs/1409.0473.

[本文引用: 1]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of Neural Information Processing Systems. Long Beach, USA: Curran Associates, Inc., 2017: 5998-6008.

[本文引用: 1]

WANG F, JIANG M, QIAN C, et al. Residual attention network for image classification [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 6450-6458.

[本文引用: 1]

ZHU Y Y, WANG J, XIE L X, et al. Attention-based pyramid aggregation network for visual place recognition [C] // Proceedings of International Conference on Multimedia. Seoul, Korea: ACM, 2018: 99-107.

[本文引用: 2]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. 2019–04–23. https://arxiv.org/abs/1409.1556.

[本文引用: 1]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1-9.

[本文引用: 1]

NAIR V, HINTON G E. rectified linear units improve restricted Boltzmann machine [C] // International Conference on International Conference on Machine Learning. Haifa, Israel: Omnipress, 2010: 807-814.

[本文引用: 1]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1904- 1916

DOI:10.1109/TPAMI.2015.2389824      [本文引用: 2]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C] // Proceedings of European Conference on Computer Vision. Amsterdam: Springer, 2016: 21-37.

LIN T, DOLLAR P, GIRSHICK R. Feature pyramid networks for object detection [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2117-2125.

[本文引用: 1]

ZHAO H, SHI J, QI X, et el. Pyramid scene parsing network [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6230-6239.

[本文引用: 1]

ZHAO H, QI X, SHEN X, et al. ICNet for real-time semantic segmentation on high-resolution images [C] // Proceedings of European Conference on Computer Vision. Munich, Germany: Springer, 2018: 418-434.

KAMNITASA K, LEDIG C, NEWCOMBE V F, et al

Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation

[J]. Medical Image Analysis, 2017, 36: 61- 78

DOI:10.1016/j.media.2016.10.004      [本文引用: 1]

PASZKE A, GROSS S, MASSA F, et al. PyTorch: an imperative style, high-performing deep learning library [C] // Proceedings of Neural Information Processing Systems. Vancouver: Curran Associates, Inc., 2019: 8024-8035.

[本文引用: 1]

GUHA R A, NASSIR N, CHRISTIAN W

Recalibrating fully convolutional networks with spatial and channel ‘squeeze & excitation’ blocks

[J]. IEEE Transactions on Medical Imaging, 2019, 38 (2): 540- 549

DOI:10.1109/TMI.2018.2867261      [本文引用: 5]

/