基于Cycle-GAN和改进DPN网络的乳腺癌病理图像分类
Breast cancer pathological image classification based on Cycle-GAN and improved DPN network
收稿日期: 2021-05-20
Received: 2021-05-20
作者简介 About authors
张雪芹(1972—),女,教授,从事计算机视觉与信息安全的研究.orcid.org/0000-0001-7020-1033.E-mail:
针对病理图像染色不均匀及良恶性难以鉴别的问题,提出基于Cycle-GAN和改进的双路径网络(DPN)的算法框架. 利用Cycle-GAN进行颜色归一化处理,解决因病理图像染色不均匀导致的检测模型精度偏低问题,通过对图像进行重叠切片,基于DPN网络采用增加小卷积、反卷积和注意力机制,增强模型对病理图像纹理特征的分类能力. 在BreaKHis数据集上的实验结果表明,所提算法有效提高了乳腺癌病理图像良恶性分类的准确性.
关键词:
An algorithm framework based on cycle-consistent adversarial network (Cycle-GAN) and improved dual path network (DPN) was proposed aiming at the uneven staining of pathological images and the difficulty in distinguishing between benign and malignant. Cycle-GAN was used for color normalization in order to solve the problem of low accuracy of the detection model caused by uneven staining of pathological images. The mechanism of adding small convolution, deconvolution and attention was adopted based on the DPN network by overlapping and slicing the image. The model’s ability to classify pathological image texture features was enhanced. The experimental results on the BreaKHis dataset show that the proposed algorithm effectively improves the accuracy of the classification of benign and malignant breast cancer pathological images.
Keywords:
本文引用格式
张雪芹, 李天任.
ZHANG Xue-qin, LI Tian-ren.
乳腺组织病理检查是诊断乳腺疾病的最权威标准[1]. 传统辅助诊断通过边缘检测的方法分割细胞核[2],以辅助病理医生诊断. 基于机器学习的方法,如支持向量机[3]、随机森林[4],一般采用人工提取的特征进行建模和分类[5-6]. 病理图像往往存在较大的差异性[7],特征提取依赖于很强的专业知识,难以提取完备,因而分类精度较低. 深度学习方法能够克服人工提取特征的局限性,自动抽取复杂的非线性特征,在病理图像的分类中逐步得到广泛应用[8]. 在BreakHis数据集上,Spanhol等[9]基于AlexNet模型,结合最大融合方法进行分类,患者级别和图像级别的分类准确度分别为90%和85.6%. Bayramoglu等[10]训练了2个CNN(convolutional neural network)网络,单任务CNN模型用于预测乳腺癌肿瘤的良恶性,多任务CNN用来预测恶性子类,在患者级别上的二分类和四分类准确率分别为83.25%和82.13%. 何雪英等[11]基于GoogLeNet,引入微调学习机制,在患者级别上二分类准确率平均为91%. 明涛等[12]提出多尺度通道重校准模型msSE-ResNet(multi-scale channel squeeze-and-excitation),良恶性分类精度为88.87%. 邹文凯等[13]提出BN-Inception(batch normalization-inception)模型,在训练时不区分放大倍数,在40×病理图片上的分类准确率为87.79%. Nahid等[14]使用频域信息提取特征,利用长短期记忆神经网络(long short term memory,LSTM)及门控循环单元(gated recurrent unit, GRU)进行分类,分类准确率为93.01%. 这些研究证明了基于深度学习方法进行病理图像分类的有效性.
不同批次病理图像往往存在染色不一致的问题,采用这些样本训练分类模型会导致分类精度下降. 病理图像的纹理特征比较复杂,语义信息较弱,需要提取更多的中、低级特征才能提高分类精度. 针对上述问题,本文提出基于Cycle-GAN和改进的DPN网络的算法,采用基于Cycle-GAN的颜色归一化方法,减少染色问题对分类精度的影响. 采用DPN网络进行特征自动提取和分类,引入小卷积、反卷积层和注意力机制等改进措施,结合基于置信率和投票机制的判别策略,提高图像分类的准确率.
1. 相关工作
1.1. Cycle-GAN网络结构
Cycle-GAN由2个生成器和2个判别器构成,Cycle-GAN的模型结构如图1所示. 其中,生成器
图 1
Cycle-GAN总体训练的损失函数由以下3部分组成. 1)X域GAN的损失:
Cycle-GAN的总损失为
式中:
1)
将原始X域切片a输入生成器
式中:
2)
原始Y域切片b输入至生成器
式中:
3)
在理想情况下,X域原始切片a与X域还原切片a'' 应该完全相同,但事实上a与a'' 存在差异,把切片a与切片a'' 的差别计为
式中:
1.2. DPN68网络结构
DPN是基于ResNeXt和DenseNet[17]提出的双路径结构网络. 它融合了ResNeXt和DenseNet的优点,将每一层的输出从相加改为相并联,实现了每一层都能直接得到之前所有层的输出,使得模型对特征的利用更加充分.
图 2
DPN网络的block结构如图3所示,上方路径为ResNeXt通道,下方路径为DenseNet通道. 上、下2条通道相加之后进行3×3的卷积、1×1的维度变换. 将输出分离,上方路径与上方路径的原输入进行合并操作,下方路径与下方路径的原输入进行合并操作,于是构成DPN网络的一个block.
图 3
1.3. 注意力模型
图 4
1)Squeeze操作. Squeeze操作通过全局池化(global pooling)操作,使每个通道实现特征压缩. 通道数量C保持不变,使得原大小为H×W×C的特征图尺寸变为1×1×C. 公式如下:
式中:
2)Excitation操作. Excitation操作通过全连接层将特征维度降低到原来的1/n,再经过ReLu函数激活后,通过全连接层还原为原来的通道数量C,利用sigmoid函数生成归一化权重
式中:0<
3)Scale操作. Scale操作通过将归一化权重
2. 算法描述
为了更好地提高病理图像分类的准确率,提出基于Cycle-GAN和DPN网络的乳腺癌病理图像分类模型结构,如图5所示.
图 5
图 5 基于Cycle-GAN和DPN网络的乳腺癌病理图像分类模型
Fig.5 Breast cancer pathological image classification model based on Cycle-GAN and DPN network
Cycle-GAN网络是用来进行病理图像的颜色归一化,即将不同颜色的病理图像转为相同颜色,减少颜色对分类的影响. DPN网络采用加入注意力机制的68层DPN网络模型,增强了对病理图像的分类能力.
1)对BreakHis数据集中原始大小为700×460像素的病理图像进行重叠切片处理. 将每一张原始图像转为12张大小为224×224像素的病理图像切片.
2)根据数据集中病理图像的颜色不同,选出一种目标颜色,基于Cycle-GAN网络将其余颜色图像均转为目标颜色,实现颜色归一化.
3)针对不均衡数据问题对其进行数据增强. 通过翻转、旋转、微调亮度和对比度等方法进行数据扩充[20],使得良性切片个数与恶性切片个数达到基本平衡.
4)在DPN68网络的基础上进行改进,通过增加小卷积、反卷积并引入注意力机制,提高分类准确率.
2.1. 基于Cycle-GAN的病理图像颜色归一化
由于不同医生在给病理图像染色时的剂量不同,容易造成病理图像的染色颜色深浅不一,特别是不同时期的病理图片,差异很大,如图6的原始切片a和原始切片b. 若使用染色不同的病理图像训练建模,则会导致模型精度下降,因此对病理图像进行颜色归一化处理是必要的.
图 6
图 6 Cycle-GAN病理图像颜色归一化模型
Fig.6 Cycle-GAN pathological image color normalization model
Cycle-GAN中生成器
将数据集中的病理图像切片按照颜色分类,将其中一类作为Y域图像(目标颜色图像),其余颜色类别作为X域图像. 基于Cycle-GAN的病理图像颜色归一化模型框架如图6所示,输入为X域切片,输出为生成的Y域切片a'.
经过训练的Cycle-GAN模型可以针对输入的不同颜色的原始切片,对其进行颜色归一化,同时保持纹理特征不变. 将所有病理图像切片进行颜色归一化之后,可以避免分类结果受到因染色不均匀而产生的影响.
2.2. 改进的DPN68-A病理图像分类模型
提出的改进的DPN68-A网络结构如图7所示. 改进网络在conv1层添加了1×1小卷积,在原始的DPN-68网络中引入了反卷积层和注意力层.
图 7
在病理图像分类中,区别于人、植物和动物等图像分类任务需要提取高级特征进行分类,由于病理图像的纹理特征比较复杂,采用神经网络提取病理图像的中、低级特征更有利于分类. 在卷积神经网络中,卷积核的大小影响特征图中单个节点的感受野大小,卷积核越大,单个节点对应的感受野越大,提取的特征越抽象,越难聚焦到图像中的细节特征. 提出在conv1层采用1×1小卷积,对原始图像进行变换,得到新的图像;通过后接Relu激活函数,在保持特征图(feature map)尺寸不变的前提下,为前一层的学习表示添加非线性激励,从而允许网络学习更复杂的非线性表达,提高泛化能力,减少过拟合. 从原始图像中提取更多的纹理特征,增强了神经网络的表达能力.
考虑输入图像经过卷积神经网络后提取的特征图尺寸通常较小,反卷积操作可以放大特征图,有助于后接分类器更好地做出判断,因此在conv5之后加入反卷积层.
由于病理图像的良恶性病区别的重点不同,需要为不同的特征分配不同的分类权重,在模型中引入注意力机制. 通过注意力层的Squeeze、Excitation和Scale 3个操作,可以将归一化权重
2.3. 判别策略
当以图像切片为分类单元时,采用置信率和多数投票相结合的判别策略. 整合多张切片的分类结果,得出该幅图像的最终分类结果,提高网络对病理图像的分类准确率.
对于每一张病理图像的
取切片中占多数的结果为该患者的最终结果. 若分类结果中的良性切片数量等于恶性切片数量,则取置信率之和较大者作为该张图像的最终分类结果.
2.4. 算法流程
提出的基于Cycle-GAN和改进的DPN68-A网络的乳腺癌病理图像分类算法如下.
1)将原始乳腺癌病理图像(700×460像素)进行重叠切片处理,每一张病理图像对应12张大小为224×224像素的病理图像切片.
2)在病理图像切片中挑出2种不同颜色的病理图像切片,其中X域图像为不同颜色的病理图像切片,Y域图像全部为目标颜色的病理图像切片.
3)训练Cycle-GAN模型,使模型可以将不同输入的病理图像切片都输出为同一颜色. 将所有数据进行颜色归一化处理.
4)训练和优化DPN68-A网络.
5) 测试阶段采用多数投票和置信率相结合的融合策略,将12张切片的分类结果对应于一张图像.
6)输出该图像的良恶性分类结果.
3. 实验结果与分析
3.1. 实验环境及评价指标
3.1.1. 实验环境
实验使用的硬件设备如下: 处理器为 Intel Core i7-9750H@2.6 GHz; 内存为 16 GB; 系统为64位Window10 操作系统,运行环境为python 3.6,GPU 类型为NVIDIA GeForce GTX 1660 Ti,硬盘大小为 1 TB.
3.1.2. 数据集及数据处理
使用的数据集为乳腺癌病理图像数据集BreaKHis,该数据集共有来自82名乳腺病患者的7909张标注的乳腺癌病理图像. 数据形式为RGB三通道的700×460像素的图像,共计24位颜色,其中每个通道各8位. 不同放大倍数的良、恶性肿瘤图像的具体分布如表1所示. 表中,A为放大倍数,
表 1 不同放大倍数的良、恶性肿瘤图像的数量
Tab.1
A | Nib | Nim | Ni |
40 | 625 | 1370 | 1995 |
100 | 644 | 1437 | 2081 |
200 | 623 | 1390 | 2013 |
400 | 588 | 1232 | 1820 |
由于神经网络要求的输入图像大小为224×224像素,对乳腺癌病理图像进行切片分割处理. 考虑许多乳腺癌病理图像中都含有大量气泡,图像显示为白色,如果使用无重叠切割方式,分类时容易将这类白色区域占较大比例的切片图像误认为是正常图像,降低分类的准确率. 将每一幅700×460像素的图像都切割为12幅224×224像素的图像切片,如图8所示,通过重叠切割的方式,对不同视野下的相同病变区域进行重复预测,避免上述情况的误检.
图 8
在BreaKHis数据集中,恶性病人数量和恶性图像数量都远多于良性. 不同病人的图像数量不同,不同病类之间的图像数量差距很大. 为了均衡数据,对40×切片图像进行扩充. 扩充方法有旋转、翻转及微调对比度等.
在目前的研究中,通常有2种建立数据集的方式:不隔离患者划分数据集和隔离患者划分数据集. 前者不考虑患者,将病理图像数据随机分为训练集和测试集,这样会导致某一患者的病理图像可能同时存在于训练集和测试集中,该类方法的模型分类精度通常较高,但在具体的临床中应用价值有限. 后者在划分时隔离患者,保证训练数据和测试数据在患者层面上完全独立,这样建立的分类模型具有更好的实际应用价值. 采用隔离患者,并按三折划分处理.
将扩充后的数据集按照患者随机分为Data1、Data2和Data3,3个数据集中的病理图像切片数量如表2所示. 表中,
表 2 40倍下扩充后三折数据集中良、恶性切片的具体分布
Tab.2
数据集 | Nb | Nm | N |
Data1 | 23856 | 22632 | 46488 |
Data2 | 16656 | 22248 | 38904 |
Data3 | 17856 | 20880 | 38736 |
3.1.3. 评价标准
从患者级别和图像级别2个方面,评价模型的分类性能.
1)图像级别准确率为
式中:
误检率为
漏检率为
召回率为
精确率为
式中:
F1-score为
2)患者级别准确率为
式中:PS为每位患者的分类准确率,
3.2. 实验及结果分析
3.2.1. 实验1:颜色归一化对比实验
该实验用于验证所提颜色归一化方法的有效性,对比2种不同的颜色归一化方法的效果.
表 3 不同归一化方法下良恶性分类准确率对比
Tab.3
% | ||||||
方法 | FPR | FNR | Recall | Precision | F1-score | I |
无归一化 | 24.4 | 8.9 | 90.0 | 78.64 | 83.94 | 83.33 |
Vahadane法归一化 | 13.3 | 4.4 | 95.5 | 87.76 | 91.47 | 91.11 |
Cycle-GAN归一化 | 10.0 | 3.3 | 96.7 | 90.63 | 93.56 | 93.33 |
从实验结果可见,在病理图像进行颜色归一化后,分类准确率有了明显的提升,说明颜色不均匀对于深度学习模型进行病理图像的分类有一定的影响,原因是归一化以后排除了不同颜色对分类结果的干扰. 使用Cycle-GAN模型处理的数据分类准确率比不采用归一化方法提升了10%,误检率降低了14.4%,漏检率降低了5.6%,精确率提高了11.99%,召回率提高了6.7%,F1-score提高了9.62%. 与Vahadane方法相比,分类准确率提升了2.22%,误检率降低了3.3%,漏检率降低了1.1%,精确率提高了2.87%,召回率提高了1.2%,F1-score提高了2.09%. 可见,本文所提的基于Cycle-GAN的病理图像颜色归一化方法是有效的.
3.2.2. 实验2:不同CNN模型对比实验
为了验证不同CNN模型的有效性,将GoogLeNet、VGG16、ResNet34、ResNet101和AlexNet进行对比实验. 实验基于Data1、Data2和Data3开展,结果如表4所示.
表 4 不同CNN模型图像级别和患者级别准确率对比结果
Tab.4
% | ||||
模型 | FPR | FNR | I | R |
VGG16 | 36.48 | 9.78 | 81.85 | 82.68 |
AlexNet | 31.84 | 11.53 | 82.11 | 84.68 |
GoogLeNet | 30.72 | 10.00 | 83.51 | 85.49 |
ResNet34 | 19.50 | 9.60 | 87.27 | 90.89 |
ResNet101 | 22.88 | 8.90 | 86.67 | 89.18 |
从实验结果可以看出,基于残差结构的ResNet34、ResNet101模型无论是在图像级别还是患者级别上,分类准确率都明显高于VGG16、AlexNet和GoogLeNet. 其中表现最好的ResNet34网络的图像级别准确率比VGG16提升了5.42%,误检率降低了16.98%,漏检率降低了0.18%,患者级别分类准确率提升了8.21%. 与网络层数更深的ResNet101网络相比,图像级别分类准确率提升了0.6%,患者级别分类准确率提升了1.71%. 残差结构更适用于病理图像的分类,但网络层数越多,不一定表现越好.
3.2.3. 实验3:DPN68网络改进消融性实验
该实验用于验证所提DPN68-A模型的有效性. 实验采用消融实验的形式,分别对比原始DPN68网络和DPN68网络中添加小卷积以及DPN68添加小卷积、反卷积层和注意力层的结果. 实验基于Data1、Data2和Data3开展,结果如表5所示. 表中,AUC为ROC曲线下的面积.
表 5 DPN68网络改进分类准确率的对比结果
Tab.5
网络 | FPR | FNR | Recall | Precision | F1-score | I | R | AUC |
DPN68 | 12.30 | 6.7 | 93.28 | 94.04 | 93.66 | 91.33 | 92.76 | 93.36 |
DPN68+小卷积 | 10.40 | 6.5 | 93.50 | 95.17 | 94.33 | 92.28 | 93.72 | 93.50 |
DPN68-A | 7.04 | 6.2 | 93.80 | 96.69 | 95.22 | 93.53 | 94.68 | 94.72 |
从实验结果可见,添加小卷积层的DPN68网络与原始DPN68网络相比,患者级别分类准确率提升了0.96%,图像级别分类准确率提升了0.95%,误检率降低了1.9%,漏检率降低了0.2%. 改进后的DPN68-A模型与DPN68网络相比,在患者级别分类准确率上有1.92%的提升,在图像级别分类率上有2.2%的提升,且误检率降低了5.26%,漏检率降低了0.5%. 可见,改进模型不管在患者级别还是图像级别的分类准确率都有较大的提升,有效地提高了分类模型的性能. ROC曲线图如图9所示. 改进后的DPN68-A模型的AUC指标比DPN网络提高了1.36%.
图 9
3.2.4. 实验4:DPN68-A模型与不同深度学习方法的对比实验
图 10
图 10 DPN68-A与其他分类算法的患者级别准确率对比结果
Fig.10 Comparison results of patient level accuracy between DPN68-A and other classification algorithms
从对比结果可以看出,在患者级别上,本文方法的检测精度优于其他机器学习和深度学习算法. 本文算法较PFTAS + SVM和PFTAS + RF算法有13.08%和12.88%的提升,较He算法有3.68%的提升,较Ming算法有5.81%的提升,较Zhou算法有6.89%的提升,较LSTM+GRU有1.67%的提升.
3.2.5. 实验5:DPN68-A在所有放大倍数下的测试实验
为了证明提出的DPN68-A模型在其他放大倍数下同样适用,分别对100×、200×和400×数据进行颜色归一化处理. 训练模型并测试分类准确率,实验结果如表6所示.
表 6 DPN68-A在所有放大倍数下测试结果
Tab.6
A | FPR/% | FNR/% | Recall/% | Precision/% | F1-score/% | I/% | R/% |
40 | 7.04 | 6.20 | 93.80 | 96.69 | 95.22 | 93.53 | 94.68 |
100 | 7.05 | 4.28 | 95.72 | 97.60 | 96.65 | 94.70 | 94.51 |
200 | 8.02 | 4.70 | 95.30 | 96.73 | 96.01 | 93.34 | 94.35 |
400 | 7.33 | 5.06 | 94.94 | 97.15 | 96.03 | 94.31 | 94.72 |
根据实验结果可以看出,DPN68-A对多种放大倍数的病理图像有很好的检测效果,在临床阶段能够更好地辅助病理医生综合不同倍数的图像对病人进行诊断.
4. 结 语
本文针对乳腺癌病理图像高精度检测问题,提出基于Cycle-GAN的病理图像切片颜色归一化方法,减少了染色不均衡对病理图像分类的影响. 提出采用DPN网络建立检测模型,通过在DPN的网络结构中增加1×1的小卷积,增强网络的非线性表达能力,更好地捕捉病理图像的纹理特征. 通过添加反卷积层和注意力机制,使得模型对中级特征更好地分配权重,提高网络对乳腺病理图像的分类准确率. 提出结合置信率和投票机制的判别策略,提高患者级别病变的分类准确率. 实验证明,提出的DPN68-A网络对乳腺病理图像的良恶性分类具有较好的效果,具有一定的临床应用价值. 在未来,将结合分割网络,在正确分类出恶性图像的基础上,将恶性区域准确标注,实现更精准的临床辅助判断.
参考文献
Cancer Statistics in China, 2015
[J].DOI:10.3322/caac.21338 [本文引用: 1]
Computer-aided diagnosis of breast cancer based on fine needle biopsy microscopic images
[J].DOI:10.1016/j.compbiomed.2013.08.003 [本文引用: 1]
Automatic classification of tissue malignancy for breast carcinoma diagnosis
[J].DOI:10.1016/j.compbiomed.2018.03.003 [本文引用: 2]
Histopathological breast-image classification using concatenated R-G-B histogram information
[J].DOI:10.1007/s40745-018-0162-3 [本文引用: 2]
Automatic cell nuclei segmentation and classification of breast cancer histopathology images
[J].DOI:10.1016/j.sigpro.2015.11.011 [本文引用: 1]
A dataset for breast cancer histopathological image classification
[J].DOI:10.1109/TBME.2015.2496264 [本文引用: 1]
Breast cancer histopathology image analysis: a rcview
[J].DOI:10.1109/TBME.2014.2303852 [本文引用: 1]
Deep learning in medical image analysis
[J].DOI:10.1146/annurev-bioeng-071516-044442 [本文引用: 1]
基于深度学习的乳腺癌病理图像自动分类
[J].DOI:10.3778/j.issn.1002-8331.1701-0392 [本文引用: 2]
Breast cancer histopathological image auto-classification using deep learning
[J].DOI:10.3778/j.issn.1002-8331.1701-0392 [本文引用: 2]
基于多尺度通道重校准的乳腺癌病理图像分类
[J].
Breast cancer histopathological image classification using multi-scale channel squeeze-and-excitation model
[J].
基于卷积神经网络的乳腺癌组织病理图像分类
[J].
Breast cancer histopathological image classification using convolutional neural network
[J].
Squeeze-and-excitation networks
[J].
A survey on image data augmentation for deep learning
[J].DOI:10.1186/s40537-018-0162-3 [本文引用: 1]
/
〈 |
|
〉 |
