<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 残差结构

Fig.1 Residual structure

残差结构的计算过程可以表示为

(1) $ {{y}} = F{\rm{(}}{{x}}{\rm{)}} + {{x}}. $

式中： ${{x}}$为卷积层的输入特征， ${{y}}$为残差结构的输出特征， $F {\rm{(}}{{x}}{\rm{)}}$为 ${{x}}$经过卷积层映射后的结果.

假设残差结构期望拟合的映射为 $H({{x}})$，由于额外加入的同等映射的存在，残差结构中卷积层要拟合的映射变为带有残差的映射 $F {\rm{(}}{{x}}{\rm{) = }}H{\rm{(}}{{x}}{\rm{)}} - $x，这与原先期望拟合的映射相比更容易被学到. 残差结构没有引入额外的参数且可以通过后向传播进行训练，以残差结构为主体的残差网络在网络层数加深的同时，可以避免梯度消失问题的产生.

1.2. 通道重校准模型

注意力模型^[13-14]最早应用于自然语言处理，通过引入注意力权值来使网络模型“注意”到有用的信息. 近年来，注意力模型被应用于计算机视觉领域^[15-16]，通过对特征图中不感兴趣的区域进行抑制，将网络的注意力集中到感兴趣区域. 有别于针对特征图的注意力模型，通道重校准模型是作用于特征图通道域的注意力模型，在ILSVRC17竞赛分类任务冠军所设计的SENet^[11]中提出. 通道重校准模型对输入特征按通道进行加权，使网络的注意力集中到有用的特征上，其中的通道权重可以通过训练学习得到. 通道重校准模型可以与VGGNet^[17]、ResNet^[12]、GoogLeNet^[18]等网络结合，残差结构与加入通道重校准的SE残差结构如图2所示.

图 2

图 2 残差结构与SE残差结构

Fig.2 Residual structure and SE-Residual structure

通道重校准模型根据下式对输入特征 ${{U}}$按通道顺序进行挤压（squeeze）：

(2) $ {z_c} = {F _{{\rm{sq}}}}{\rm{(}}{{{u}}_c}{\rm{)}} = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{u_c}{\rm{(}}i,j{\rm{)}}} } . $

式中： ${z_c}$为对输入特征中第 $c$通道的特征进行挤压的结果； ${F_{{\rm{sq}}}}{\rm{(*)}}$为挤压函数； ${{{u}}_c}$为输入特征中第 $c$通道的特征， $H$与 $W$分别为其高度和宽度； ${u_c}{\rm{(}}i,j{\rm{)}}$为特征 ${{{u}}_c}$在空间位置 ${\rm{(}}i,j{\rm{)}}$处的取值. 这一过程可以视为对输入特征逐通道进行全局池化（global pooling）操作.

在完成对输入特征中每一通道特征的挤压后，通过下式对挤压后的结果进行激励（excitation）来得到各个通道的权重：

(3) $ {{s}} = {F _{{\rm{ex}}}}({{z}}{\rm{,}}{{W}}) = \sigma ({{{W}}_2}\delta ({{{W}}_1}{{z}})). $

式中： ${{s}}$为特征通道的权重； ${F _{{\rm{ex}}}}{\rm{(*,*)}}$为激励函数； ${{z}}$为对特征挤压后的结果； $\sigma {\rm{(*)}}$为sigmoid函数； $\delta (*)$为ReLU函数^[19]； ${{{W}}_1}$与 ${{{W}}_2}$分别为2个全连接层FC的权值.

激励过程中的第1个全连接层将特征通道数由 $C$降为 $C/r$，其中 $r$为压缩比率，输出在经过ReLU函数作用后仅保留大于零的值. 第2个全连接层将特征通道数还原至 $C$，以便与输入特征的通道数保持一致. 最终得到的权重通过sigmoid函数限制为0~1.0.

(4) $ {{{\tilde x}}_c} = {F _{{\rm{scale}}}}{\rm{(}}{{{u}}_c},{s_c}{\rm{)}} = {s_c} {{{u}}_c}. $

式中： ${{{\tilde x}}_c}$为通道重校准后的输出特征中第 $c$通道的特征； ${s_c}$为输入特征中第c个通道的权重； ${F _{{\rm{scale}}}}{\rm{(*,*)}}$为尺度函数，作用是将特定通道的特征与对应的通道权重相乘. 式（4）通过将特定通道的特征与对应的通道权重相乘来实现对特征通道的重新校准，整个过程抑制了对分类结果无用的特征，从而提高了分类的准确率.

2. 算法描述

在通道重校准模型的基础上，将通道重校准模型的输入由单一尺度特征变为多尺度特征，将在各个尺度下学到的特征通道权重进行融合，得到最终的特征通道权重. 加入多尺度通道重校准模型的msSE残差结构如图3所示.

图 3

图 3 msSE残差结构

Fig.3 msSE-Residual structure

利用多尺度特征的卷积神经网络常用于目标检测与识别^[16,20-22]、图像语义分割^[23-25]等任务中，利用多个尺度下的特征信息可以使得最终的结果更加准确. 图3中，多尺度特征通过与空间池化金字塔^[20]类似的结构获得：将输入特征送入池化核大小为2×2、池化步长为2的最大池化层，获得另一尺度的特征. 若要得到更多尺度的特征，可以通过改变最大池化层的数量以及相关参数来实现. 采用最大池化层获得多尺度特征的原因是最大池化操作可以保留特征图中最显著的特征信息和对应的空间信息；最大池化层没有需要学习的模型参数，可以在实现多尺度特征的同时保证网络中引入尽可能少的运算量. 图3中，融合(Fusion)表示通道权重的融合过程，可以采用相加、最大值与拼接的方法，对不同尺度下得到的特征通道权重进行融合.

1）相加融合.

图3中，采用相加融合方法得到的通道权重为2个特征尺度下通道权重的逐元素相加，再将所得权重与输入特征按对应的通道顺序相乘来实现多尺度通道重校准，这一过程如下：

(5) $ {{{\tilde U}}_{{\rm{2way\_add}}}} = ({s_{c0}} + {s_{c1}}) {{{U}}_{{\rm{s}}0}}. $

式中： ${{{\tilde U}}_{{\rm{2way\_add}}}}$为2个特征尺度下采用相加融合的多尺度通道重校准的结果， ${{{U}}_{{\rm{s}}0}}$为输入特征， ${s_{c0}}$为输入特征的通道权重， ${s_{c1}}$为另一尺度下的通道权重.

2）最大值融合.

与相加融合不同的是，最大值融合对特定通道选取2个尺度下权重的最大值作为该通道的权重，此时的多尺度通道重校准过程如下：

(6) $ {{{\tilde U}}_{{\rm{2way\_max}}}} = \max \; ({s_{c0}},{s_{c1}}) {{{U}}_{{\rm{s}}0}}. $

式中： ${{{\tilde U}}_{{\rm{2way\_max}}}}$为2个特征尺度下采用最大值融合的多尺度通道重校准的结果； $\max \;(*,*)$为最大值函数，按通道顺序分别选取2个尺度下通道权重的最大值作为该通道的权重.

3）拼接融合.

当存在2个尺度的特征时，拼接融合方法先将2个尺度下的通道权重按特定的坐标轴进行拼接，然后将所得结果经过后续的卷积层映射成为最终的通道权重. 由于每个尺度下通道权重尺寸为 $N \times C \times 1 \times 1$，其中批图像大小为 $N$，输入特征的通道数为 $C$，拼接融合的具体实现依照拼接坐标轴的选取可以分为以下2种.

a）以第2个坐标轴（axis1）作为拼接坐标轴，记作cat1. 此时，多尺度通道重校准过程可以表示为

(7) $ {{{\tilde U}}_{{\rm{2way\_cat1}}}} = {F _{{\rm{conv1}}}}{\rm{(}}{s_{\rm{{c\_cat1}}}}{\rm{)}} {{{U}}_{{\rm{s}}0}}. $

式中： ${{{\tilde U}}_{{\rm{2way\_cat1}}}}$为2个尺度下采用拼接融合cat1实现的多尺度通道重校准的结果； ${s_{\rm{{c\_cat1}}}}$为2个尺度下的通道权重按第2个坐标轴拼接后的结果，尺寸为 $N \times {\rm{2}}C \times 1 \times 1$； ${F _{{\rm{conv1}}}}{\rm{(*)}}$为卷积层 ${\rm{conv1}}$的映射函数，其中的卷积核尺寸为 $1 \times 1$，输入通道数为 $2C$，输出通道数为 $C$.

b）以第3个坐标轴（axis2）作为拼接坐标轴，记作cat2. 此时，多尺度通道重校准过程可以表示为

(8) $ {{{\tilde U}}_{{\rm{2way\_cat2}}}} = {F _{{\rm{conv2}}}}{\rm{(}}{s_{{\rm{c\_cat2}}}}{\rm{)}} {{{U}}_{{\rm{s}}0}}. $

式中： ${{{\tilde U}}_{{\rm{2way\_cat2}}}}$为2个尺度下采用拼接融合cat2实现的多尺度通道重校准的结果； ${s_{\rm{{c\_cat2}}}}$为2个尺度下得到的通道权重按第3个坐标轴拼接后的结果，尺寸为 $N \times C \times 2 \times 1$； ${F _{\rm{{conv2}}}}{\rm{(*)}}$为卷积层 ${\rm{conv2}}$的映射函数，其中的卷积核尺寸为 $2 \times 1$，输入与输出通道数均为 $C$.

3. 实验结果与分析

3.1. 数据集

实验数据集：BreaKHis数据集^[4]，包含采集自82名患者（良性患者24名、恶性患者58名）的总计7 909幅乳腺癌病理图像，其中包括2 480幅良性肿瘤图像和5 429幅恶性肿瘤图像. 数据集中的病理图像包含4个放大倍数（40倍、100倍、200倍、400倍），尺寸均为700×460像素. 数据集中图片的具体分布情况如表1所示. BreaKHis数据集中的良性/恶性乳腺肿瘤图像样本如图4所示.

表 1 不同放大倍数与类别下的图片分布情况

Tab.1 Image distribution by different magnification factors and classes

放大倍数	肿瘤图像数
放大倍数	良性	恶性	总计
40倍	625	1370	1 995
100倍	644	1437	2 081
200倍	623	1390	2 013
400倍	588	1232	1 820

图 4

图 4 良性与恶性乳腺肿瘤图像

Fig.4 Benign and malignant breast tumor images

3.2. 实验环境及设置

实验环境如下. CPU：Intel Core i7 8700k；内存：16 GB；GPU：NVIDIA GeForce GTX1080Ti；实验运行在Ubuntu 16.04 LTS操作系统中，深度学习框架为PyTorch^[26].

采用精度A_cc（accuracy）、准确率P_r（precision）、召回率R（recall）及ROC曲线下面积AUC作为分类结果的衡量指标. 其中精度、准确率和召回率的计算公式如下：

(9) $ A_{\rm{cc}} = \frac{{{\rm{TP + TN}}}}{{{\rm{TP}} + {\rm{FP}} + {\rm{TN}} + {\rm{FN}}}}, $

(10) $ {P_{\rm{r}} }= \frac{\rm{TP}}{\rm{TP + FP}}, $

(11) $ R = \frac{\rm{TP}}{\rm{TP + FN}}. $

式中：TP表示真正例，FP表示假正例，TN表示真负例，FN表示假负例.

实验未对数据集进行数据增强处理，训练集与测试集的比例划分为85%和15%，其中包含的图像在训练开始时通过随机选取确定. 所有对比实验均采用官方源码或公开代码，所有网络模型使用相同的图像预处理方式与训练设置，各网络的实验数据通过对5次训练得到的结果取平均值得到.

训练图像的预处理方式如下：1）图像尺寸调整为固定的224×224；2）将图像随机旋转90°；3）对图像的亮度、对比度、饱和度及色度进行随机微调，这使训练的网络可以对病理图像间存在的染色差异具有更好的鲁棒性；4）将图像进行归一化处理. 与训练集不同，测试集图像的预处理方式只包括调整图像尺寸为224×224与归一化处理.

实验中所有网络模型的初始参数由随机初始化得到，损失函数为二值交叉熵，采用带有动量的随机梯度下降法（SGD）进行权值更新，初始学习率设为0.000 1，动量值为0.9. 网络的训练批图像大小设为64，测试批图像大小为128. 基于ResNet18的网络训练迭代次数为10 600次，基于ResNet34的网络训练迭代次数为21 200次. 若测试精度每经过1 060次迭代没有提升，则学习率降低至之前的0.1倍.

由于多尺度特征是通过对输入特征下采样所得并且网络中的卷积层会使特征尺寸减小，为了使特征尺寸保持在合理的范围，实验仅选取特征尺度数量为2和3的网络进行实验. 选取2个特征尺度的网络记为msSE-ResNet-2way，3个特征尺度的网络记为msSE-ResNet-3way. 在拼接融合中，对输出应用sigmoid函数的网络，在其名称后添加sigm以示区分.

3.3. 基于ResNet18的实验

3.3.1. msSE-ResNet18与其他网络的对比与分析

实验中各网络在测试集上的实验结果如表2所示，ROC曲线图如图5所示. 图中，FPR为伪阳性的比率，TPR为真阳性的比率. 实验中各网络对测试集中不同放大倍数的乳腺癌病理图像的分类结果如表3所示.

表 2 msSE-ResNet18与其他网络的分类结果比较

Tab.2 Comparison of classification results of msSE-ResNet18 and other networks

模型	A_cc/%	AUC
ResNet18^[12]	84.53	0.8878
SE-ResNet18^[11]	83.56	0.8791
scSE-ResNet18^[27]	83.90	0.8677
msSE-ResNet18-2way	86.81	0.9266
msSE-ResNet18-3way	86.00	0.9107

表 3 所有网络的放大倍数相关的分类结果比较

Tab.3 Comparison of magnification-specific classification results of all networks

模型	40倍			100倍			200倍			400倍
模型	A_cc	P_r	R	A_cc	P_r	R	A_cc	P_r	R	A_cc	P_r	R
ResNet18^[12]	0.822	0.845	0.907	0.836	0.836	0.921	0.864	0.868	0.947	0.875	0.864	0.967
SE-ResNet18^[11]	0.826	0.820	0.956	0.862	0.861	0.953	0.867	0.862	0.962	0.879	0.865	0.973
scSE-ResNet18^[27]	0.805	0.808	0.941	0.836	0.845	0.935	0.870	0.866	0.962	0.824	0.837	0.918
msSE-ResNet18-2way	0.862	0.890	0.912	0.862	0.884	0.921	0.880	0.887	0.947	0.889	0.889	0.957
msSE-ResNet18-3way	0.829	0.856	0.902	0.868	0.878	0.940	0.874	0.905	0.913	0.882	0.884	0.951

图 5

图 5 基于ResNet18的网络的ROC曲线

Fig.5 ROC curves of networks with ResNet18 as backbone

由表2可以看出，ResNet18的测试精度为84.53%，高于SE-ResNet18的83.56%. Guha等^[27]提出空间通道重校准模型（spatial and channel Squeeze-and-Excitation，scSE），对输入特征同时进行空间和通道上的重校准，并将二者所得权重的最大值作为特征通道权重，scSE-ResNet18的精度为83.90%. msSE-ResNet18-2way达到86.81%的精度，msSE-ResNet18-3way的测试精度为86%，较其他网络有明显提升.

图5中的ROC曲线图进一步反映了各网络的分类性能，2种尺度数量的msSE-ResNet18的AUC均达到0.9以上，实现了比其他网络更好的性能.

根据表3的实验结果可知，msSE-ResNet18-2way对不同放大倍数下的病理图像保持了良好的鲁棒性；在大于40倍的放大倍数下，msSE-ResNet18-3way有着与msSE-ResNet18-2way相当的分类性能. 由于实验的任务是对乳腺病理图像进行良性/恶性二分类，分类的准确率显得更加重要，加入了多尺度通道重校准的msSE-ResNet在各个放大倍数下均得到了高于其他对比网络的准确率，这意味着msSE-ResNet18可以更准确地找出测试集中的恶性样本，在保证高准确率的前提下实现了较高的召回率，能够尽可能多地找到正样本.

以上实验结果表明，多尺度通道重校准模型可以通过结合多个尺度下的特征信息，对输入特征进行更加准确的重校准，在提高分类模型性能的同时可以对不同放大倍数下的病理图像保持鲁棒性.

3.3.2. 采用不同特征尺度数量与融合方法的msSE-ResNet18的对比与分析

采用不同特征尺度数量及融合方法的msSE-ResNet18的实验结果如表4所示. 表中，A_tr为训练精度，A_te为测试精度.

表 4 不同特征尺度数量下各融合方法的分类结果比较

Tab.4 Comparison of classification results of different fusion methods under different feature scales

尺度数量	融合方法	A_tr/%	A_te/%
2	add	87.16	86.81
2	max	85.26	83.81
2	cat1（sigm）	85.82	84.65
2	cat1	87.12	86.37
2	cat2（sigm）	85.64	84.45
2	cat2	86.34	84.57
3	add	86.73	85.42
3	max	85.15	83.90
3	cat1（sigm）	85.47	83.77
3	cat1	87.36	86.00
3	cat2（sigm）	85.28	84.07
3	cat2	86.22	84.95

由表4可以看出：2种尺度数量下的最高测试精度较为接近，2个尺度下的通道权重适合采用线性的相加方法进行融合；3个尺度下的通道权重适合选择拼接融合方法. 拼接融合中拼接坐标轴的选取会对精度造成1%左右的影响，此时以第2个坐标轴进行拼接（cat1）可以实现更高的精度. 此外，对拼接融合的输出通道权重应用sigmoid函数会明显降低分类性能，因为sigmoid函数会极大地限制卷积层学到的通道权重的取值范围.

3.4. 基于ResNet34的实验

3.4.1. msSE-ResNet34与其他网络的对比与分析

实验中各网络在测试集上的实验结果如表5所示，ROC曲线图如图6所示. 如表6所示为实验中所有网络对测试集中不同放大倍数的病理图像的分类结果.

表 5 msSE-ResNet34与其他网络的分类结果比较

Tab.5 Comparison of classification results of msSE-ResNet34 and other networks

模型	A_cc/%	AUC
ResNet34^[12]	86.47	0.9135
SE-ResNet34^[11]	87.36	0.9097
scSE-ResNet34^[27]	83.96	0.8722
msSE-ResNet34-2way	88.06	0.9308
msSE-ResNet34-3way	88.87	0.9541

图 6

图 6 基于ResNet34的网络的ROC曲线

Fig.6 ROC curves of networks with ResNet34 as backbone

表 6 所有网络的放大倍数相关的分类结果比较

Tab.6 Comparison of magnification-specific classification results of all networks

模型	40倍			100倍			200倍			400倍
模型	A_cc	P_r	R	A_cc	P_r	R	A_cc	P_r	R	A_cc	P_r	R
ResNet34^[12]	0.846	0.880	0.898	0.859	0.887	0.912	0.874	0.901	0.918	0.882	0.888	0.946
SE-ResNet34^[11]	0.849	0.870	0.917	0.863	0.887	0.916	0.877	0.894	0.933	0.886	0.888	0.951
scSE-ResNet34^[27]	0.815	0.847	0.893	0.833	0.869	0.893	0.877	0.890	0.938	0.868	0.870	0.948
msSE-ResNet34-2way	0.873	0.900	0.917	0.884	0.905	0.930	0.890	0.911	0.933	0.893	0.897	0.951
msSE-ResNet34-3way	0.867	0.946	0.863	0.891	0.946	0.893	0.890	0.927	0.913	0.901	0.944	0.908

由表5可以看出，随着ResNet层数的加深，实验中大多数网络的测试精度有较大提升. SE-ResNet34达到了87.36%的测试精度，高于ResNet34的86.47%. scSE模型最初被应用于脑部MRI图像的语义分割任务，实验结果表明，其中的空间重校准模型在乳腺癌病理图像分类任务上的表现不理想. msSE-ResNet34-3way的测试精度升至最高的88.87%，2个尺度的网络的测试精度提高至88.06%.

如图6所示为所有网络的ROC曲线图，其中msSE-ResNet34-3way得到最高0.9541的AUC，2个尺度的网络在AUC上优于所有对比网络.

表6给出所有网络与放大倍数相关的分类结果. 可知，msSE-ResNet34-3way在所有放大倍数，尤其是40倍下的精度和准确率有了大幅提升，在400倍下可以达到最高90.1%的分类精度；msSE-ResNet34-2way在各放大倍数下的分类性能有稳定的提升. 在所有放大倍数下的实验中，msSE-ResNet34在精度和准确率上均优于其他对比网络.

以上实验证明，随着网络层数的加深，msSE-ResNet34可以更好地利用更深层网络中丰富的特征信息，其中的多尺度通道重校准模型可以使通道间的关系被更加准确地捕捉. 在不同放大倍数的病理图像上的实验证明，msSE-ResNet34可以有效地应用于不同放大倍数的病理图像的分类任务.

3.4.2. 采用不同特征尺度数量与融合方法的msSE-ResNet34的对比与分析

采用不同特征尺度数量与融合方法的msSE-ResNet34的实验结果如表7所示.

表 7 不同特征尺度数量下各融合方法的分类结果比较

Tab.7 Comparison of classification results of different fusion methods under different feature scales

尺度数量	融合方法	A_tr/%	A_te/%
2	add	88.04	88.06
2	max	87.40	87.72
2	cat1（sigm）	86.61	86.74
2	cat1	88.63	88.04
2	cat2（sigm）	87.03	87.00
2	cat2	89.18	87.65
3	add	87.64	87.17
3	max	88.20	88.64
3	cat1（sigm）	87.64	87.52
3	cat1	88.36	88.12
3	cat2（sigm）	87.44	88.31
3	cat2	89.07	88.87

DOI:10.1016/S1470-2045(13)70567-9 [本文引用: 1]

由表7可以看出，2种不同尺度数量下的msSE-ResNet的最高测试精度仅相差0.81%，2个尺度下相加融合的表现优于3个尺度下的结果；3个尺度下采用最大值融合与拼接融合的网络在分类精度上优于2个尺度时得到的结果. 与基于ResNet18的实验中得到的结论类似，当存在2个尺度的特征时，相加融合方法的表现优于其他非线性融合方法，3个尺度下应优先选择拼接融合或最大值融合方法. 拼接融合方法中拼接坐标轴的不同给分类结果带来的影响更小，在相同尺度数量下的结果仅相差0.5%左右，都可以实现较高的分类精度.

4. 结　语

本文针对乳腺癌病理图像的分类任务进行研究，提出多尺度通道重校准模型msSE，并以ResNet为网络框架设计了卷积神经网络msSE-ResNet. 多尺度特征可以丰富网络中的特征信息，提高特征的利用率；将多个尺度下学到的特征权重进行融合，可以有效地提高特征通道权重学习过程的可靠性.

在BreaKHis数据集上的实验结果表明，采用多尺度通道重校准的msSE-ResNet的分类性能始终优于单一特征尺度下SE-ResNet，且分别优于网络框架ResNet以及采用空间和通道重校准模型的scSE-ResNet的结果. 由于网络的训练集和测试集中同时包含不同放大倍数下的乳腺癌病理图像，关于不同放大倍数下的乳腺病理图像的实验结果表明，所设计的msSE-ResNet可以对不同放大倍数下的乳腺病理图像保持良好的鲁棒性，能够更好地应用于乳腺癌病理图像分类任务.

此外，有关通道重校准模型中压缩比率的选取以及对卷积神经网络中不同位置的卷积层进行多尺度通道重校准与分类准确率之间的关系，有待进一步的研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

FAN L, STRASSER-WEIPPL K, LI J J, et al

Breast cancer in China

[J]. Lancet Oncology, 2014, 15 (7): 279- 289

[2]

LEONG A S-Y, ZHUANG Z P

The changing role of pathology in breast cancer diagnosis and treatment

[J]. Pathobiology, 2011, 78: 99- 114

DOI:10.1159/000292644 [本文引用: 1]

[3]

VETA M, PLUIM J P, VAN DIEST P J, et al

Breast cancer histopathology image analysis: a review

[J]. IEEE Transactions on Biomedical Engineering, 2014, 61 (5): 1400- 1411

DOI:10.1109/TBME.2014.2303852 [本文引用: 1]

[4]

SPANHOL F A, OLIVEIRA L S, PETITJEAN C, et al

A dataset for breast cancer histopathological image classification

[J]. IEEE Transactions on Biomedical Engineering, 2016, 63 (7): 1455- 1462

DOI:10.1109/TBME.2015.2496264 [本文引用: 2]

[5]

GUPTA V, BHAVSAR A. Breast cancer histopathological image classification: is magnification important? [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE, 2017: 769-776.

[6]

CIRESAN D C, GIUSTI A, GAMBARDELLA L M, et al. Mitosis detection in breast cancer histology images with deep neural networks [C] // Proceedings of Medical Image Computing and Computer-Assisted Intervention. Berlin, German: Springer, 2013: 411-418.

DOI:10.1371/journal.pone.0177544 [本文引用: 1]

[7]

ARAÚJO T, ARESTA G, CASTRO E, et al

Classification of breast cancer histology images using convolutional neural networks

[J]. PLos One, 2017, 12 (6): e0177544

[8]

SPANHOL F A, OLIVEIRA L S, PETITJEAN C, et al. Breast cancer histopathological image classification using convolutional neural networks [C] // Proceedings of International Joint Conference on Neural Networks. Vancouver, Canada: IEEE, 2016: 2560-2567.

[9]

BAYRAMOGLU N, KANNALA J, HEIKKILÄ J. Deep learning for magnification independent breast cancer histopathology image classification [C] // Proceedings of International Conference on Pattern Recognition. Cancun, Mexico: IEEE, 2016: 2441-2446.

[10]

SONG Y, ZOU J J, CHANG H, et al. Adapting Fisher vectors for histopathology image classification [C] // Proceedings of the IEEE 14th International Symposium on Biomedical Imaging. Melbourne: IEEE, 2017: 600-603.

[11]

HU J, SHEN L, SUN G. Squeeze-and-Excitation network [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[本文引用: 6]

[12]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778.

[本文引用: 6]

[13]

BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2019–03–01]. https://arxiv.org/abs/1409.0473.

[14]

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of Neural Information Processing Systems. Long Beach, USA: Curran Associates, Inc., 2017: 5998-6008.

[15]

WANG F, JIANG M, QIAN C, et al. Residual attention network for image classification [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 6450-6458.

[16]

ZHU Y Y, WANG J, XIE L X, et al. Attention-based pyramid aggregation network for visual place recognition [C] // Proceedings of International Conference on Multimedia. Seoul, Korea: ACM, 2018: 99-107.

[本文引用: 2]

[17]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. 2019–04–23. https://arxiv.org/abs/1409.1556.

[18]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1-9.

[19]

NAIR V, HINTON G E. rectified linear units improve restricted Boltzmann machine [C] // International Conference on International Conference on Machine Learning. Haifa, Israel: Omnipress, 2010: 807-814.

[20]

HE K, ZHANG X, REN S, et al

Spatial pyramid pooling in deep convolutional networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37 (9): 1904- 1916

DOI:10.1109/TPAMI.2015.2389824 [本文引用: 2]

[21]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C] // Proceedings of European Conference on Computer Vision. Amsterdam: Springer, 2016: 21-37.

[22]

LIN T, DOLLAR P, GIRSHICK R. Feature pyramid networks for object detection [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2117-2125.

[23]

ZHAO H, SHI J, QI X, et el. Pyramid scene parsing network [C] // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6230-6239.

[24]

ZHAO H, QI X, SHEN X, et al. ICNet for real-time semantic segmentation on high-resolution images [C] // Proceedings of European Conference on Computer Vision. Munich, Germany: Springer, 2018: 418-434.

[25]

KAMNITASA K, LEDIG C, NEWCOMBE V F, et al

Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation

[J]. Medical Image Analysis, 2017, 36: 61- 78

DOI:10.1016/j.media.2016.10.004 [本文引用: 1]

[26]

PASZKE A, GROSS S, MASSA F, et al. PyTorch: an imperative style, high-performing deep learning library [C] // Proceedings of Neural Information Processing Systems. Vancouver: Curran Associates, Inc., 2019: 8024-8035.