基于多尺度通道重校准的乳腺癌病理图像分类
Breast cancer histopathological image classification using multi-scale channel squeeze-and-excitation model
通讯作者:
收稿日期: 2019-06-18
Received: 2019-06-18
作者简介 About authors
明涛(1994―),男,硕士生,从事医学图像处理的研究.orcid.org/0000-0003-0835-8376.E-mail:
针对乳腺癌病理图像的自动分类问题,提出基于深度学习的分类算法. 通道重校准模型是作用于特征通道的注意力模型,可以利用学习到的通道权重对无用特征进行抑制来实现对特征通道的重校准,以达到更高的分类准确率. 为了使通道重校准的结果更加准确,提出多尺度通道重校准模型,设计卷积神经网络 msSE-ResNet. 多尺度特征通过网络中的最大池化层获得并作为后续通道重校准模型的输入,将不同尺度下学到的通道权重进行融合,可以改善通道重校准的结果. 该实验在公开数据集BreaKHis上开展. 实验结果表明,该网络对良性/恶性乳腺病理图像分类任务达到88.87%的分类精度,可以对不同放大倍数下获取的病理图像具有较好的鲁棒性.
关键词:
A deep learning-based classification algorithm was proposed aiming at the problem of automatic classification algorithms focusing on breast cancer histopathological images. Channel squeeze-and-excitation (SE) model is an attention model applied to the feature channels. Useless features can be suppressed with learned channel weights so as to recalibrate the feature channels for better classification accuracy. A multi-scale channel SE model was proposed, and a convolutional neural network named msSE-ResNet was designed in order to make the result of channel recalibration more accurate. Multi-scale features were obtained by max-pooling layers and served as inputs to subsequent channel SE models, and the result of channel recalibration was improved by merging channel weights learned under different feature scales. Experiments were conducted on public dataset BreaKHis. Results show that the network can reach an accuracy of 88.87% on the task of classifying benign/malignant breast histopathological images, and can remain good robustness to histopathological images acquired under different magnifications.
Keywords:
本文引用格式
明涛, 王丹, 郭继昌, 李锵.
MING Tao, WANG Dan, GUO Ji-chang, LI Qiang.
有关乳腺癌病理图像分类的研究在近些年取得了很大进展,对该任务的研究方法可以分为2类:一类是基于手工特征描述子和机器学习的算法,另一类是基于深度学习的算法.
基于深度学习的分类算法利用以卷积层为核心的网络结构实现了更有效的特征学习过程,因此具有优于传统机器学习分类算法的性能. Ciresan等[6]首次将深度学习应用于乳腺癌病理图像,利用11层与13层的深度神经网络对输入图像是否存在有丝分裂进行分类,将分类结果应用至后续的有丝分裂检测任务中. Araújo等[7]利用14层的卷积神经网络,对乳腺病理图像进行正常组织/良性病变/原位癌/浸润癌的分类. Spanhol等[8]利用基于AlexNet的模型在BreaKHis数据集上进行实验,较机器学习分类算法获得了4%~6%的性能提升. 在相同数据集上,Bayramoglu等[9]利用基于放大倍数独立的深度网络,达到83%的识别率;Song等[10]利用基于费舍尔向量与VGGNet的分类模型,达到87%的识别率.
虽然深度网络可以更好地完成乳腺癌病理图像分类任务,但其中存在一些问题:不同放大倍数下的病理图像间存在很大的差异性,对不同放大倍数下的病理图像保持良好的鲁棒性是任务的关键. 此外,深度网络的训练需要大量的训练样本,可供研究的乳腺癌病理图像数量有限,如何利用好有限的样本是分类模型性能提升的关键.
通道重校准模型[11]是作用于特征通道域的注意力模型,通过训练过程中学到的通道权重来抑制无用特征,提升分类模型的性能. 为了更好地利用卷积神经网络中的特征信息,本文在通道重校准模型的基础上,提出多尺度通道重校准模型(multi-scale channel squeeze-and-excitation,msSE),利用不同的最大池化层获得多尺度特征;分别对各尺度特征进行通道重校准;将通道权重进行融合并作为最终的通道权重,由此实现对输入特征进行多尺度通道重校准的目的. 多尺度特征可以丰富网络中的特征信息,结合多尺度特征的通道重校准模型可以进一步提高分类模型的性能. 此外,网络的训练集由4种放大倍数下的乳腺癌病理图像共同构成,可以保证分类模型对不同放大倍数下的病理图像具有鲁棒性,从而更好地满足临床需要.
1. 相关工作
1.1. 残差结构
图 1
残差结构的计算过程可以表示为
式中:
假设残差结构期望拟合的映射为
1.2. 通道重校准模型
注意力模型[13-14]最早应用于自然语言处理,通过引入注意力权值来使网络模型“注意”到有用的信息. 近年来,注意力模型被应用于计算机视觉领域[15-16],通过对特征图中不感兴趣的区域进行抑制,将网络的注意力集中到感兴趣区域. 有别于针对特征图的注意力模型,通道重校准模型是作用于特征图通道域的注意力模型,在ILSVRC17竞赛分类任务冠军所设计的SENet[11]中提出. 通道重校准模型对输入特征按通道进行加权,使网络的注意力集中到有用的特征上,其中的通道权重可以通过训练学习得到. 通道重校准模型可以与VGGNet[17]、ResNet[12]、GoogLeNet[18]等网络结合,残差结构与加入通道重校准的SE残差结构如图2所示.
图 2
通道重校准模型根据下式对输入特征
式中:
在完成对输入特征中每一通道特征的挤压后,通过下式对挤压后的结果进行激励(excitation)来得到各个通道的权重:
式中:
激励过程中的第1个全连接层将特征通道数由
式中:
2. 算法描述
在通道重校准模型的基础上,将通道重校准模型的输入由单一尺度特征变为多尺度特征,将在各个尺度下学到的特征通道权重进行融合,得到最终的特征通道权重. 加入多尺度通道重校准模型的msSE残差结构如图3所示.
图 3
利用多尺度特征的卷积神经网络常用于目标检测与识别[16,20-22]、图像语义分割[23-25]等任务中,利用多个尺度下的特征信息可以使得最终的结果更加准确. 图3中,多尺度特征通过与空间池化金字塔[20]类似的结构获得:将输入特征送入池化核大小为2×2、池化步长为2的最大池化层,获得另一尺度的特征. 若要得到更多尺度的特征,可以通过改变最大池化层的数量以及相关参数来实现. 采用最大池化层获得多尺度特征的原因是最大池化操作可以保留特征图中最显著的特征信息和对应的空间信息;最大池化层没有需要学习的模型参数,可以在实现多尺度特征的同时保证网络中引入尽可能少的运算量. 图3中,融合(Fusion)表示通道权重的融合过程,可以采用相加、最大值与拼接的方法,对不同尺度下得到的特征通道权重进行融合.
1)相加融合.
图3中,采用相加融合方法得到的通道权重为2个特征尺度下通道权重的逐元素相加,再将所得权重与输入特征按对应的通道顺序相乘来实现多尺度通道重校准,这一过程如下:
式中:
2)最大值融合.
与相加融合不同的是,最大值融合对特定通道选取2个尺度下权重的最大值作为该通道的权重,此时的多尺度通道重校准过程如下:
式中:
3)拼接融合.
当存在2个尺度的特征时,拼接融合方法先将2个尺度下的通道权重按特定的坐标轴进行拼接,然后将所得结果经过后续的卷积层映射成为最终的通道权重. 由于每个尺度下通道权重尺寸为
a)以第2个坐标轴(axis1)作为拼接坐标轴,记作cat1. 此时,多尺度通道重校准过程可以表示为
式中:
b)以第3个坐标轴(axis2)作为拼接坐标轴,记作cat2. 此时,多尺度通道重校准过程可以表示为
式中:
3. 实验结果与分析
3.1. 数据集
表 1 不同放大倍数与类别下的图片分布情况
Tab.1
放大倍数 | 肿瘤图像数 | ||
良性 | 恶性 | 总计 | |
40倍 | 625 | 1370 | 1 995 |
100倍 | 644 | 1437 | 2 081 |
200倍 | 623 | 1390 | 2 013 |
400倍 | 588 | 1232 | 1 820 |
图 4
3.2. 实验环境及设置
实验环境如下. CPU:Intel Core i7 8700k;内存:16 GB;GPU:NVIDIA GeForce GTX1080Ti;实验运行在Ubuntu 16.04 LTS操作系统中,深度学习框架为PyTorch[26].
采用精度Acc(accuracy)、准确率Pr(precision)、召回率R(recall)及ROC曲线下面积AUC作为分类结果的衡量指标. 其中精度、准确率和召回率的计算公式如下:
式中:TP表示真正例,FP表示假正例,TN表示真负例,FN表示假负例.
实验未对数据集进行数据增强处理,训练集与测试集的比例划分为85%和15%,其中包含的图像在训练开始时通过随机选取确定. 所有对比实验均采用官方源码或公开代码,所有网络模型使用相同的图像预处理方式与训练设置,各网络的实验数据通过对5次训练得到的结果取平均值得到.
训练图像的预处理方式如下:1)图像尺寸调整为固定的224×224;2)将图像随机旋转90°;3)对图像的亮度、对比度、饱和度及色度进行随机微调,这使训练的网络可以对病理图像间存在的染色差异具有更好的鲁棒性;4)将图像进行归一化处理. 与训练集不同,测试集图像的预处理方式只包括调整图像尺寸为224×224与归一化处理.
实验中所有网络模型的初始参数由随机初始化得到,损失函数为二值交叉熵,采用带有动量的随机梯度下降法(SGD)进行权值更新,初始学习率设为0.000 1,动量值为0.9. 网络的训练批图像大小设为64,测试批图像大小为128. 基于ResNet18的网络训练迭代次数为10 600次,基于ResNet34的网络训练迭代次数为21 200次. 若测试精度每经过1 060次迭代没有提升,则学习率降低至之前的0.1倍.
由于多尺度特征是通过对输入特征下采样所得并且网络中的卷积层会使特征尺寸减小,为了使特征尺寸保持在合理的范围,实验仅选取特征尺度数量为2和3的网络进行实验. 选取2个特征尺度的网络记为msSE-ResNet-2way,3个特征尺度的网络记为msSE-ResNet-3way. 在拼接融合中,对输出应用sigmoid函数的网络,在其名称后添加sigm以示区分.
3.3. 基于ResNet18的实验
3.3.1. msSE-ResNet18与其他网络的对比与分析
表 2 msSE-ResNet18与其他网络的分类结果比较
Tab.2
表 3 所有网络的放大倍数相关的分类结果比较
Tab.3
模型 | 40倍 | 100倍 | 200倍 | 400倍 | |||||||||||
Acc | Pr | R | Acc | Pr | R | Acc | Pr | R | Acc | Pr | R | ||||
ResNet18[12] | 0.822 | 0.845 | 0.907 | 0.836 | 0.836 | 0.921 | 0.864 | 0.868 | 0.947 | 0.875 | 0.864 | 0.967 | |||
SE-ResNet18[11] | 0.826 | 0.820 | 0.956 | 0.862 | 0.861 | 0.953 | 0.867 | 0.862 | 0.962 | 0.879 | 0.865 | 0.973 | |||
scSE-ResNet18[27] | 0.805 | 0.808 | 0.941 | 0.836 | 0.845 | 0.935 | 0.870 | 0.866 | 0.962 | 0.824 | 0.837 | 0.918 | |||
msSE-ResNet18-2way | 0.862 | 0.890 | 0.912 | 0.862 | 0.884 | 0.921 | 0.880 | 0.887 | 0.947 | 0.889 | 0.889 | 0.957 | |||
msSE-ResNet18-3way | 0.829 | 0.856 | 0.902 | 0.868 | 0.878 | 0.940 | 0.874 | 0.905 | 0.913 | 0.882 | 0.884 | 0.951 |
图 5
图 5 基于ResNet18的网络的ROC曲线
Fig.5 ROC curves of networks with ResNet18 as backbone
图5中的ROC曲线图进一步反映了各网络的分类性能,2种尺度数量的msSE-ResNet18的AUC均达到0.9以上,实现了比其他网络更好的性能.
根据表3的实验结果可知,msSE-ResNet18-2way对不同放大倍数下的病理图像保持了良好的鲁棒性;在大于40倍的放大倍数下,msSE-ResNet18-3way有着与msSE-ResNet18-2way相当的分类性能. 由于实验的任务是对乳腺病理图像进行良性/恶性二分类,分类的准确率显得更加重要,加入了多尺度通道重校准的msSE-ResNet在各个放大倍数下均得到了高于其他对比网络的准确率,这意味着msSE-ResNet18可以更准确地找出测试集中的恶性样本,在保证高准确率的前提下实现了较高的召回率,能够尽可能多地找到正样本.
以上实验结果表明,多尺度通道重校准模型可以通过结合多个尺度下的特征信息,对输入特征进行更加准确的重校准,在提高分类模型性能的同时可以对不同放大倍数下的病理图像保持鲁棒性.
3.3.2. 采用不同特征尺度数量与融合方法的msSE-ResNet18的对比与分析
采用不同特征尺度数量及融合方法的msSE-ResNet18的实验结果如表4所示. 表中,Atr为训练精度,Ate为测试精度.
表 4 不同特征尺度数量下各融合方法的分类结果比较
Tab.4
尺度数量 | 融合方法 | Atr/% | Ate/% |
2 | add | 87.16 | 86.81 |
2 | max | 85.26 | 83.81 |
2 | cat1(sigm) | 85.82 | 84.65 |
2 | cat1 | 87.12 | 86.37 |
2 | cat2(sigm) | 85.64 | 84.45 |
2 | cat2 | 86.34 | 84.57 |
3 | add | 86.73 | 85.42 |
3 | max | 85.15 | 83.90 |
3 | cat1(sigm) | 85.47 | 83.77 |
3 | cat1 | 87.36 | 86.00 |
3 | cat2(sigm) | 85.28 | 84.07 |
3 | cat2 | 86.22 | 84.95 |
由表4可以看出:2种尺度数量下的最高测试精度较为接近,2个尺度下的通道权重适合采用线性的相加方法进行融合;3个尺度下的通道权重适合选择拼接融合方法. 拼接融合中拼接坐标轴的选取会对精度造成1%左右的影响,此时以第2个坐标轴进行拼接(cat1)可以实现更高的精度. 此外,对拼接融合的输出通道权重应用sigmoid函数会明显降低分类性能,因为sigmoid函数会极大地限制卷积层学到的通道权重的取值范围.
3.4. 基于ResNet34的实验
3.4.1. msSE-ResNet34与其他网络的对比与分析
表 5 msSE-ResNet34与其他网络的分类结果比较
Tab.5
图 6
图 6 基于ResNet34的网络的ROC曲线
Fig.6 ROC curves of networks with ResNet34 as backbone
表 6 所有网络的放大倍数相关的分类结果比较
Tab.6
模型 | 40倍 | 100倍 | 200倍 | 400倍 | |||||||||||
Acc | Pr | R | Acc | Pr | R | Acc | Pr | R | Acc | Pr | R | ||||
ResNet34[12] | 0.846 | 0.880 | 0.898 | 0.859 | 0.887 | 0.912 | 0.874 | 0.901 | 0.918 | 0.882 | 0.888 | 0.946 | |||
SE-ResNet34[11] | 0.849 | 0.870 | 0.917 | 0.863 | 0.887 | 0.916 | 0.877 | 0.894 | 0.933 | 0.886 | 0.888 | 0.951 | |||
scSE-ResNet34[27] | 0.815 | 0.847 | 0.893 | 0.833 | 0.869 | 0.893 | 0.877 | 0.890 | 0.938 | 0.868 | 0.870 | 0.948 | |||
msSE-ResNet34-2way | 0.873 | 0.900 | 0.917 | 0.884 | 0.905 | 0.930 | 0.890 | 0.911 | 0.933 | 0.893 | 0.897 | 0.951 | |||
msSE-ResNet34-3way | 0.867 | 0.946 | 0.863 | 0.891 | 0.946 | 0.893 | 0.890 | 0.927 | 0.913 | 0.901 | 0.944 | 0.908 |
由表5可以看出,随着ResNet层数的加深,实验中大多数网络的测试精度有较大提升. SE-ResNet34达到了87.36%的测试精度,高于ResNet34的86.47%. scSE模型最初被应用于脑部MRI图像的语义分割任务,实验结果表明,其中的空间重校准模型在乳腺癌病理图像分类任务上的表现不理想. msSE-ResNet34-3way的测试精度升至最高的88.87%,2个尺度的网络的测试精度提高至88.06%.
如图6所示为所有网络的ROC曲线图,其中msSE-ResNet34-3way得到最高0.9541的AUC,2个尺度的网络在AUC上优于所有对比网络.
表6给出所有网络与放大倍数相关的分类结果. 可知,msSE-ResNet34-3way在所有放大倍数,尤其是40倍下的精度和准确率有了大幅提升,在400倍下可以达到最高90.1%的分类精度;msSE-ResNet34-2way在各放大倍数下的分类性能有稳定的提升. 在所有放大倍数下的实验中,msSE-ResNet34在精度和准确率上均优于其他对比网络.
以上实验证明,随着网络层数的加深,msSE-ResNet34可以更好地利用更深层网络中丰富的特征信息,其中的多尺度通道重校准模型可以使通道间的关系被更加准确地捕捉. 在不同放大倍数的病理图像上的实验证明,msSE-ResNet34可以有效地应用于不同放大倍数的病理图像的分类任务.
3.4.2. 采用不同特征尺度数量与融合方法的msSE-ResNet34的对比与分析
采用不同特征尺度数量与融合方法的msSE-ResNet34的实验结果如表7所示.
表 7 不同特征尺度数量下各融合方法的分类结果比较
Tab.7
尺度数量 | 融合方法 | Atr/% | Ate/% |
2 | add | 88.04 | 88.06 |
2 | max | 87.40 | 87.72 |
2 | cat1(sigm) | 86.61 | 86.74 |
2 | cat1 | 88.63 | 88.04 |
2 | cat2(sigm) | 87.03 | 87.00 |
2 | cat2 | 89.18 | 87.65 |
3 | add | 87.64 | 87.17 |
3 | max | 88.20 | 88.64 |
3 | cat1(sigm) | 87.64 | 87.52 |
3 | cat1 | 88.36 | 88.12 |
3 | cat2(sigm) | 87.44 | 88.31 |
3 | cat2 | 89.07 | 88.87 |
由表7可以看出,2种不同尺度数量下的msSE-ResNet的最高测试精度仅相差0.81%,2个尺度下相加融合的表现优于3个尺度下的结果;3个尺度下采用最大值融合与拼接融合的网络在分类精度上优于2个尺度时得到的结果. 与基于ResNet18的实验中得到的结论类似,当存在2个尺度的特征时,相加融合方法的表现优于其他非线性融合方法,3个尺度下应优先选择拼接融合或最大值融合方法. 拼接融合方法中拼接坐标轴的不同给分类结果带来的影响更小,在相同尺度数量下的结果仅相差0.5%左右,都可以实现较高的分类精度.
4. 结 语
本文针对乳腺癌病理图像的分类任务进行研究,提出多尺度通道重校准模型msSE,并以ResNet为网络框架设计了卷积神经网络msSE-ResNet. 多尺度特征可以丰富网络中的特征信息,提高特征的利用率;将多个尺度下学到的特征权重进行融合,可以有效地提高特征通道权重学习过程的可靠性.
在BreaKHis数据集上的实验结果表明,采用多尺度通道重校准的msSE-ResNet的分类性能始终优于单一特征尺度下SE-ResNet,且分别优于网络框架ResNet以及采用空间和通道重校准模型的scSE-ResNet的结果. 由于网络的训练集和测试集中同时包含不同放大倍数下的乳腺癌病理图像,关于不同放大倍数下的乳腺病理图像的实验结果表明,所设计的msSE-ResNet可以对不同放大倍数下的乳腺病理图像保持良好的鲁棒性,能够更好地应用于乳腺癌病理图像分类任务.
此外,有关通道重校准模型中压缩比率的选取以及对卷积神经网络中不同位置的卷积层进行多尺度通道重校准与分类准确率之间的关系,有待进一步的研究.
参考文献
Breast cancer in China
[J].DOI:10.1016/S1470-2045(13)70567-9 [本文引用: 1]
The changing role of pathology in breast cancer diagnosis and treatment
[J].DOI:10.1159/000292644 [本文引用: 1]
Breast cancer histopathology image analysis: a review
[J].DOI:10.1109/TBME.2014.2303852 [本文引用: 1]
A dataset for breast cancer histopathological image classification
[J].DOI:10.1109/TBME.2015.2496264 [本文引用: 2]
Classification of breast cancer histology images using convolutional neural networks
[J].DOI:10.1371/journal.pone.0177544 [本文引用: 1]
Spatial pyramid pooling in deep convolutional networks for visual recognition
[J].DOI:10.1109/TPAMI.2015.2389824 [本文引用: 2]
Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation
[J].DOI:10.1016/j.media.2016.10.004 [本文引用: 1]
Recalibrating fully convolutional networks with spatial and channel ‘squeeze & excitation’ blocks
[J].DOI:10.1109/TMI.2018.2867261 [本文引用: 5]
/
〈 |
|
〉 |
