浙江大学学报(工学版), 2023, 57(12): 2448-2455 doi: 10.3785/j.issn.1008-973X.2023.12.012

计算机技术

眼底病变OCT图像的轻量化识别算法

侯小虎,, 贾晓芬,, 赵佰亭

1. 安徽理工大学第一附属医院(淮南市第一人民医院),安徽 淮南 232001

2. 安徽理工大学 电气与信息工程学院,安徽 淮南 232001

3. 安徽理工大学 人工智能学院,安徽 淮南 232001

Lightweight recognition algorithm for OCT images of fundus lesions

HOU Xiao-hu,, JIA Xiao-fen,, ZHAO Bai-ting

1. The First Affiliated Hospital of Anhui University of Science and Technology (Huainan First People's Hospital), Huainan 232001, China

2. Institute of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China

3. Institute of Artificial Intelligence, Anhui University of Science and Technology, Huainan 232001, China

通讯作者: 贾晓芬,女,教授. orcid.org/0000-0002-1891-7613. E-mai: jxfzbt2008@163.com

收稿日期: 2023-03-23  

基金资助: 安徽理工大学医学专项培育项目(YZ2023H2B006);安徽理工大学引进人才科研启动基金资助项目(2022yjrc44);国家自然科学基金资助项目(52174141);安徽省自然科学基金资助项目(2108085ME158);安徽理工大学研究生创新基金资助项目(2022CX2086)

Received: 2023-03-23  

Fund supported: 安徽理工大学医学专项培育项目(YZ2023H2B006);安徽理工大学引进人才科研启动基金资助项目(2022yjrc44);国家自然科学基金资助项目(52174141);安徽省自然科学基金资助项目(2108085ME158);安徽理工大学研究生创新基金资助项目(2022CX2086)

作者简介 About authors

侯小虎(1998—),男,硕士生,从事医学图像处理研究.orcid.org/0009-0005-8154-6578.E-mail:hxh19855424153@163.com , E-mail:hxh19855424153@163.com

摘要

为了准确、方便地识别多类型眼底病变,提出光学相干断层扫描技术(OCT)图像的轻量化分类模型MB-CNN. 降低卷积核的使用个数,调节每个阶段卷积块的使用比例,设计轻量化主干网络L-Resnet,通过加深网络深度增强对深层语义信息的提取. 使用深度可分离卷积设计多尺度卷积块MultiBlock,利用MultiBloc深度挖掘病灶区域的特征,使用不同的卷积核提取不同尺寸病变的特征,提高网络对病变OCT图像的识别能力. 构建特征融合模块FFM,融合浅层信息和深层信息,充分提取病变特征的纹理和语义信息,提高对小目标病变的识别能力. 实验结果显示,MB-CNN在UCSD、Duke和NEH3个数据集上的总体分类精度分别达到97.2%、99.92%和94.37%,模型参数量明显降低,所提模型能够针对眼底的多种病变进行分类.

关键词: 眼底病变 ; 光学相干断层扫描技术(OCT)图像 ; 智能识别 ; 轻量化分类模型 ; 语义信息 ; 特征融合

Abstract

A lightweight classification model MB-CNN for optical coherence tomography (OCT) images was proposed to accurately and conveniently identify multiple types of fundus lesions. By reducing the number of convolution cores and adjusting the proportion of convolution blocks in each stage, a lightweight backbone network L-Resnet was designed, and the extraction of deep-layer semantic information was enhanced by deepening the network depth. The multi-scale convolution block MultiBlock was designed using depthwise seperable convolution, and the features of the lesion area was mined. Different convolution kernels were used to extract the lesions features of different sizes to improve the recognition ability of the network to the OCT image of the lesion. The feature fusion module FFM was constructed, and the shallow layer information and deep layer information were fused, the texture and semantic information of the pathological features were extracted, and the recognition ability of small target lesions was improved. Experimental result showed that the overall classification accuracy of MB-CNN in the three datasets of UCSD, Duke and NEH was 97.2%, 99.92% and 94.37% respectively, the amount of model parameters were significantly reduced. The proposed model can classify various fundus lesions.

Keywords: fundus lesions ; optical coherence tomography (OCT) images ; intelligent identification ; lightweigh classification model ; semantic information ; feature fusion

PDF (1143KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

侯小虎, 贾晓芬, 赵佰亭. 眼底病变OCT图像的轻量化识别算法. 浙江大学学报(工学版)[J], 2023, 57(12): 2448-2455 doi:10.3785/j.issn.1008-973X.2023.12.012

HOU Xiao-hu, JIA Xiao-fen, ZHAO Bai-ting. Lightweight recognition algorithm for OCT images of fundus lesions. Journal of Zhejiang University(Engineering Science)[J], 2023, 57(12): 2448-2455 doi:10.3785/j.issn.1008-973X.2023.12.012

眼底结构复杂、病变类型多样,如脉络膜新生血管(choroidal neovascularization, CNV)、糖尿病性黄斑水肿(diabetic macular edema, DME)、玻璃膜疣(drusen)、老年性黄斑病变(age-related macular degeneration, AMD)等. 眼底病变多出现在黄斑区,它位于视网膜的中央,是视力最敏感的区域. 黄斑区视网膜病变研究已成为重要课题[1]. 黄斑区病变是造成不可逆视力丧失的主要原因之一,DME常引起不可逆的视力损害[2]. 光学相干断层扫描技术(optical coherence tomography, OCT)是无创高分辨率光学成像技术,它能够实时生成物体的横截面图像[3-4],被广泛应用于眼病诊断.

CNV病变特征复杂多样,病变区域边界模糊;DME病变特征明显,病变区域较大;玻璃膜疣病变区域小,病变边界模糊,病变特征不明显;AMD特征复杂,且不同病变程度可能会出现不同的病变特征,玻璃膜疣是早期AMD的临床表现之一. 繁杂的OCT图像信息诊断需要医生人工处理和分析,工作量大,耗时长. 自动分析OCT图像的模型有助于医生筛查工作的进行. 由于深度学习在图像领域出色的表现,学者们利用卷积神经网络提出了许多眼底OCT图像分类模型,实现了不同数量、不同类型的病变识别. Fang等[5-8]研究3种病变的识别,对CNV、DME、玻璃膜疣和正常眼底进行了四分类. Fang等[5]使用病变感知卷积网络(lesion-aware convolutional neural network, LACNN),在OCT图像中生成软注意力图,并将注意力图并入分类网络,以提高分类精度. Liu等[6]提出基于onestage注意力的视网膜OCT图像分类和分割模型,该模型克服分类任务学习的信息无法传递给分割任务的问题,实现分类和分割任务的同步进行. Mishra等[7]提出基于扰动复合注意力的深度网络,提取上下文感知诊断特征来提高分类精度. Das等[8]使用深度多尺度卷积神经网络(deep multi-scale fusion convolutional neural network, DMF-CNN),对多尺度疾病特征进行编码,对编码后的疾病特征进行组合并分类,同时使用联合多损失优化策略来加强网络的学习能力. 注意力机制的加入虽能加强提取现有特征的能力,但仍无法有效提取病变纹理信息,也无法解决特征提取过程中特征信息丢失的问题.

Thomas等[9-10]实现对AMD、DME和正常眼底图像的三分类. Thomas等[9]利用多尺度卷积层生成具有各种尺寸的局部结构,提出多尺度卷积网络. Toğaçar等[10]使用9个迁移学习模型对同一数据集中的病变种类进行分类,使用黏菌算法(slime mold algorithm, SMA)从模型中选取针对单一目标分类准确度最高的网络进行结果输出. 多尺度卷积层生成的局部结构丰富了病变特征,但无法解决因网络逐渐加深带来的有用信息丢失的问题. 现有模型组合的迁移学习模型参数量过大,对硬件要求过高. Sotoudeh-Paima等[11]实现对CNV、玻璃膜疣和正常眼底图像的三分类,提出多尺度卷积神经网络,通过捕获尺度间的变化并使用快卷积块的特征融合策略,提高了对AMD、DME和正常眼底图像的三分类性能. 融合策略虽然加强了卷积块间的信息交流,但是不能有效提取不同尺度的病变特征.

Fang等[5-7]通过添加注意力机制加强了对现有特征的提取,丰富了局部病变特征信息,但研究者所提模型难以提取具有较小区域和较小病变纹理的小目标特征,对病变区域小、病变特征模糊的玻璃膜疣病变种类的识别效果差. Das等[8-11]通过不同形式的多尺度网络加强信息交互,增强对病变特征信息的提取,但是研究者所提模型难以有效解决显著病变特征(如病变边缘、纹理)在特征提取过程中容易被忽略,造成的有用信息丢失问题. Toğaçar等[10]通过组合现有卷积神经网络来加强对眼底病变种类的识别,但是模型参数量大,难以有效部署到嵌入式平台.

本研究面向眼底的多种病变类型,致力于设计轻量化的高效分类模型,实现眼底病变类型的自动识别. 主要工作包括:1)设计多尺度卷积模块,强化对不同病变特征特有的小目标特征的提取能力,实现对不同大小病变特征的全面提取;2)构建特征融合模块,通过充分利用病变特征的显著信息,加强浅层细节信息和深层语义信息的融合;3)设计轻量化主干网络,从减少卷积核的使用数量和引入深度可分离卷积两个方面,降低参数量,实现模型轻量化.

1. 轻量化分类模型MB-CNN的网络结构

为了准确识别多种病变,助力医疗诊断,必须紧扣病灶区域小、病变特征模糊的特性设计识别模型,同时降低模型参数量. 针对眼底OCT图像设计如图1所示的轻量化分类模型MB-CNN,主要创新点如下:1)设计轻量化主干网络L-Resnet,它通过减少卷积核使用、加深网络深度,在有效降低网络模型参数的同时减少对网络精度的影响;2)设计多尺度卷积块MultiBlock,它使用多尺度卷积核提取不同特征,加强特征提取的能力,引入深度可分离卷积大幅降低网络模型参数;3)设计特征融合模块(feature fusion module, FFM),它通过融合浅层细节信息和深层语义信息加强网络对小目标和模糊特征的识别能力.

图 1

图 1   轻量化分类模型MB-CNN的整体结构图

Fig.1   Overall structure diagram of lightweight classification model MB-CNN


1.1. 主干网络L-Resnet设计

Resnet18[12-13]的结构简单,复杂度低,随着网络的加深不会出现梯度消失的现象,解决了深层次的网络退化问题. 网络模型须部署到移动端进行眼底OCT图像的分类,但嵌入式设备的存储和计算能力有限,为了解决Resnet18网络模型参数大的问题,提出轻量化主干网络L-Resnet.

网络深度和卷积核的使用数量直接影响网络精度[14-15]. 通过控制变量法,逐步对卷积核的使用个数和每个阶段卷积块的使用个数进行实验,得到L-Resnet. L-Resnet是由1个CBR模块和4个 $ \text{Stage}x\times N(x=1,\;2,\;3,\;4;\;N=2,\;2,\;6,\;2) $$ x $为主干网络的阶段, $ N $为测试后得到的每个阶段使用卷积块的数量. 4个阶段卷积核的使用个数分别为64、128、192、256,使用卷积块的个数为2、2、6、2,其比例为1∶1∶3∶1. $ {\text{Stage1}} $位于网络浅层,卷积核个数设置为64,使网络充分提取OCT图像中病变纹理细节信息; $ {\text{Stage4}} $位于网络深层,卷积核的个数设置为256,使网络充分降低模型参数的同时保证了网络中冗余信息的存在;增加 $ {\text{Stage3}} $卷积块的使用个数,增加网络的深度,加强了网络对深层语义信息的提取.

降低卷积核的使用数量能有效降低网络模型参数量,增加网络深度,加强了对病变特征的提取.

1.2. 多尺度卷积模块MultiBlock

眼底视网膜病变具有局部性,在OCT图像上往往占据较小的位置,且不同的病变之间的特征差异较大,CNV的病变种类在OCT图像上表现为视网膜层间的脱离,DME的病变种类在OCT图像上表现为视网膜的撕拉变形. CNV和DME的病变种类病灶明显,且病灶区域较大,而玻璃膜疣的病变种类在OCT图像上表现为视网膜层上的局部凸起,病灶较小,但较为集中. 病灶特征大小不一致,使用单一卷积核难以有效提取不同尺寸的病变特征. 为了更加充分、有效地提取OCT图像中不同尺寸的病变特征信息,设计如图2所示的多尺度卷积模块MultiBlock,它由1个 $ 1 \times 1 $卷积模块CBR、1个多尺度卷积Multiconv以及跳跃连接组成,其中 $ {{\boldsymbol{X}}_i} $为输入张量, $ {{\boldsymbol{X}}_{\rm{o}}} $为输出张量, $ {{\boldsymbol{X}}_{\rm{m}}} $为经Multiconv的输出张量,k为卷积核大小,s为卷积步长,p为单侧填充数量,dim为张量维度.

图 2

图 2   MultiBlock结构图

Fig.2   MultiBlock structure diagram


引入深度卷积[16]的思想,通过 $ 1 \times 1 $大小的卷积核来调节输出通道,同时使张量内部进行跨通道信息交互,丰富特征信息. 经归一化和激活处理后送入多尺度卷积层. 多尺度卷积层Multiconv先将输入张量划分成4个子张量,再使用不同尺寸的卷积核进行卷积操作. 受文献[14]、[17]的启发,通过控制变量法测试不同大小卷积核的使用对分类精度的影响,经试验后,选择大小为1、3、5、7的卷积核分别对4个子张量进行卷积. 多尺度卷积Multiconv的数学模型为

$ {{\boldsymbol{X}}_{\rm{m}}} = \delta \;(C\;(J\;({f_1}({x_1}),{f_2}({x_2}),{f_3}({x_3}),{f_4}({x_4})))) . $

式中: $ {{\boldsymbol{X}}_{\rm{m}}} $为多尺度卷积输出张量; $ {f_i}({x_i})(i = 1, 2, 3, 4) $为不同卷积尺寸对应的卷积操作, $ [{x_1},{x_2},{x_3},{x_4}] \in {{\boldsymbol{X}}_i} $$ {{\boldsymbol{X}}_i} $为输入张量; $ J $为拼接函数, $ C $代表特征张量通道混洗; $ \delta $为激活函数.

深度可分离卷积由深度卷积和逐点卷积共同构成,其中逐点卷积可以视为1个 $ 1 \times 1 $的普通卷积. 深度可分离卷积和普通卷积参数量的比例为

$ \frac{{{D_{\rm{K}}} \times {D_{\rm{K}}} \times 1 \times M+1 \times 1 \times M \times N}}{{{D_{\rm{K}}} \times {D_{\rm{K}}} \times M \times N}} = \frac{1}{N}+\frac{1}{{D_{\rm{K}}^2}} . $

式中: ${D_{\rm{K}}} \times {D_{\rm{K}}} \times M \times N$为普通卷积的参数量, ${D_{\rm{K}}} \times {D_{\rm{K}}} \times 1 \times M$为深度卷积的参数量, $ 1 \times 1 \times M \times N $为逐点卷积的参数量, ${D_{\rm{K}}}$为卷积核大小, ${D_{\rm{K}}} \times {D_{\rm{K}}} \times 1$为卷积核的参数量, $ M $为特征张量输入的通道数, $ N $为点卷积核个数, ${D_{\rm{F}}}$为特征张量尺寸大小. 由式(2)可知,当点卷积核个数 $ N $远大于 ${D_{\rm{K}}}$时,深度卷积的参数量约是普通卷积的 $1/{D_{\rm{K}}}$,深度卷积的引入有效降低了网络的模型参数. 使用多尺度卷积能够通过不同尺寸的卷积核提取不同尺寸OCT眼底病变特征,丰富特征表达,有效利用模型中存在的冗余信息[17],既能提取CNV和DME较为明显的特征,也能通过较小卷积核加强对Drusen病变小特征的提取.

1.3. 特征融合模块FFM

在OCT图像中,病灶大小、病变位置和病变特征都不同,因此较小的病变特征往往难以提取. 由于玻璃膜疣的病变种类病灶小、边界模糊,在网络浅层的提取中,病变特征容易被忽略,无法有效提取. 随着网络的加深,浅层局部细节信息逐步转化为全局语义信息,病变特征细节信息无法表达,在特征提取中会造成有用特征信息的丢失,导致整体分类精度的下降. 为此,构建如图3所示的特征融合模块FFM,它由上采样模块和快速卷积空间金字塔模块(convolution spatial pyramid polling-fast, CSPPF)组合而成. FFM将主干网络中的特征张量 $ {{\boldsymbol{X}}_i}(i = 7,14,28,56) $分别输入上采样模块和CSPPF进行处理,得到输出张量 $ {{\boldsymbol{X}}_{\rm{u}}} $$ {{\boldsymbol{X}}_{\rm{c}}} $,再将输出张量通道统一拓展到256,将输出张量 $ {{\boldsymbol{X}}_{\rm{u}}} $$ {{\boldsymbol{X}}_{\rm{c}}} $进行融合后得到输出张量输出 $ {{\boldsymbol{X}}_{{\text{F}}14}} $$ {{\boldsymbol{X}}_{{\text{F}}28}} $、和 $ {{\boldsymbol{X}}_{{\text{F}}56}} $. 图中,RF为感受野.

图 3

图 3   2种模块的结构图

Fig.3   Structure diagram of two modules


上采样模块先通过1个 $ 1 \times 1 $的卷积将输入张量的通道维度拓展到256,再使用双线性插值对特征尺寸进行拓展,使特征尺寸与上一层特征尺寸保持一致. CSPPF将空间金字塔模块(SPPF)的最大池化换成深度卷积,在不改变特征张量尺寸的情况下降低模块参数,同时实现特征的再提取. CSPPF先通过1个 $ 1 \times 1 $的卷积对通道进行拓展,再使用3个级联的 $ 3 \times 3 $卷积核实现卷积核大小为3、5、7所能实现的感受野[18]. 将得到的输出张量按通道维度进行拼接,进行通道打乱后再次使用 $ 1 \times 1 $的卷积核进行通道调整,将输出张量通道限制在256.

FFM通过上采样模块对深层特征进行上采样,通过CSPPF再次进行不同尺寸特征的提取,丰富了网络中OCT图像中病变几何信息和病变空间信息的表达,能够将浅层提取到的OCT图像中特异度不同的特征传递到深层,实现浅层纹理信息和深层语义信息的融合. 强化对OCT病变特征的提取和表达能力,实现精度的提升.

1.4. 分类输出

将主干网络输出的特征张量 $ {{\boldsymbol{X}}_7} $和特征融合模块得到的特征张量 $ {{\boldsymbol{X}}_{{\text{F}}14}} $$ {{\boldsymbol{X}}_{{\text{F}}28}} $、和 $ {{\boldsymbol{X}}_{{\text{F}}56}} $,依次经平均池化和Concate拼接后,再经过2次全连接层,得到最终的分类结果. 平均池化得到的张量经拼接后输入第一个全连接层,将得到的特征信息进行降维操作,使卷积输出的二维特征张量转化为一维的向量。将得到的一维向量输入到第二个全连接层中进行端到端的输出,实现目标种类的分类输出.

2. 实验结果与分析

2.1. 实验环境

实验在CPU型号为Inter Core i9-10900K @3.70 GHz,GPU型号为NVIDIA GeForce RTX 3080Ti, 12G显存,32G内存的个人计算机上开展. 使用Pytorch搭建网络框架,使用Cuda11.6和Cudnn11.2加速GPU. 相关实验参数配置如下:批尺寸为32,图片尺寸为224,训练周期为150,动量因子为0.9,权重衰减为0.000 5,学习率为0.000 1~0.100 0.

2.2. 数据集和评价指标

实验采用3个数据集,其中数据集UCSD[19]由CNV、DME、玻璃膜疣、正常眼底4类共84484张OCT图像组成;杜克数据集(Duke)[20]由AMD、DME、正常眼底3类共3 231张OCT图像组成;德黑兰努尔眼科医院(NEH)[11]收集的匿名OCT图像数据集由CNV、玻璃膜疣、正常眼底3类共12649张图片组成. 如图4所示为3种眼底病变和正常眼底的OCT图例,图中箭头所指的为病变位置.使用混淆矩阵对网络模型进行评估. 通过网络模型对样本数据进行分类,判断样本数据的正(positive),负(negative),并根据样本的正负得到4个一级指标:真实值为正,模型预测为正TP;真实值为正,模型预测值为负FN;真实值为负,模型预测为正FP;真实值为负,模型预测为负TN. 根据这4个一级指标得到4种评价指标:准确率Acc、精确率P、召回率R、特异度Spe.

图 4

图 4   OCT例图

Fig.4   OCT example diagram


2.3. 消融实验

为了验证MB-CNN设计的合理性,在数据集UCSD上,基于Resnet18展开6个实验,分别为Resnet18、深度可分离卷积和MultiBlock的对比实验以及依次引入的3种策略:1)使用L-Resnet轻量化主干,2)将普通卷积替换成MultiBlock,3)加入特征融合模块FFM. 实验结果如表1所示,其中√表示采用对应策略,记录实验中的模型参数NP和准确率. 数据集中训练集、验证集、测试集的比例为7∶2∶1. 实验1为Resnet18的分类结果. 实验2在实验1的基础上将主干网络换成L-Resnet,没有更换卷积操作. 由实验2的结果可知,在更换完主干网络后,模型参数降低了38.81%,精度降低了0.17个百分点. 实验3、4在实验1的基础上将卷积分别更换为深度可分离卷积和MultiBlock. 由实验结果可知,使用深度可分离卷积使模型参数降低了97.21%,精度降低了1.38个百分点;当卷积核换为MultiBlock时,相较于实验3,模型参数量增加了0.044×106,精度增加了0.44个百分点. 实验5在实验2的基础上添加MultiBlock卷积模块. 相较于实验2,模型参数量降低了92.8%,精度降低了0.13个百分点. 实验6在实验5的基础上加入特征融合模块,在加入特征融合模块后模型参数量增加了0.829×106,精度增加了0.46个百分点.

表 1   MB-CNN组成部分的消融实验

Tab.1  Ablation experiment of MB-CNN components

实验 L-Resnet DW Conv MultiBlock FFM NP/106 Acc/%
1 11.180 94.41
2 6.840 94.24
3 0.312 93.03
4 0.344 93.47
5 0.521 94.11
6 1.350 94.57

新窗口打开| 下载CSV


L-Resnet主干网络通过减少个卷积阶段卷积核的使用减少了模型参数量,加深网络模型能加强模型对深层语义信息的提取,能够在模型降低参数量的同时减少对识别精度的影响. 实验3、4的结果显示,MultiBlock卷积模块能够通过能够使用不同尺寸的卷积核来提取不同的特征信息,丰富模型的特征表达,提高分类精度. 实验5使用L-Resnet主干网络,减少卷积核的使用、加深网络深度,同时使用MultiBlock替换普通卷积,相较于实验1,参数量下降了95.34%,精度下降了0.3个百分点. 相较于实验1,加入L-Resnet、MultiBlock能够更好地平衡模型的参数和精度. 加入FFM模块的实验6,通过融合深层语义信息和浅层细节信息,提高了对OCT图像中小目标特征的信息提取能力,提高了分类精度. 由表1可知,在MB-CNN中提出的3种改进策略设计合理,有助于降低模型参数量、提高精度. 还可看出,MB-CNN模型具有较好的分类效果.

2.4. 轻量化分类模型MB-CNN的性能验证

消融实验充分验证了MB-CNN的合理性. 为了进一步验证模型的分类效果,将MB-CNN与现阶段具有代表性的视网膜OCT分类网络进行对比. 采用交叉验证法在UCSD、Duke和NEH3个数据集上开展对比实验. UCSD采用10倍交叉验证最后取平均值,Duke和NEH均使用5倍交叉验证最后取平均值. 3个数据集上的对比实验结果如表2~4,其中对比数据均来自于网络模型的原始论文,OAcc为总体准确率.

表 2   不同模型在UCSD数据集上的性能对比实验结果

Tab.2  Experimental results of performance comparison of different models in UCSD dataset

模型 图片类别 P/% R/% Spe/% Acc/% NP/106 OAcc/%
LACNN[5] CNV 93.5 89.8 95.1 92.7 90.1±1.2
DME 86.4 87.5 98.0 96.6
玻璃膜疣 70.0 72.5 95.9 93.6
正常眼底 94.8 97.3 97.4 97.4
Multi-Label CNN[6] CNV 93.5 88.1 96.0 93.8 90.4±1.2
DME 83.1 86.0 95.8 96.5
玻璃膜疣 69.8 72.1 96.8 93.3
正常眼底 95.1 96.1 97.9 96.8
PCAM[7] 91.52 91.22 11.09 94.15±1.15
Resnet18[12] CNV 97.83 97.63 98.27 97.97 11.18 96.52±0.5
DME 95.30 95.17 99.27 98.70
玻璃膜疣 89.87 90.70 98.80 97.97
正常眼底 97.43 97.43 98.83 98.4
DMF-CNN[8] CNV 97.05 97.33 94.37
DME 96.26 93.22 94.64
玻璃膜疣 87.73 98.29 94.43
正常眼底 97.49 97.62 96.03
MB-CNN CNV 98.39 98.49 98.60 98.51 1.35 97.22±0.6
DME 97.30 96.27 99.49 99.07
玻璃膜疣 92.24 90.84 99.12 98.33
正常眼底 97.77 98.20 98.63 98.75

新窗口打开| 下载CSV


表 3   不同模型在Duke数据集上的对比实验结果

Tab.3  Experimental results of performance comparison of different models in Duke dataset

模型 图片类别 P/% R/% Spe/% Acc/% NP/106 OAcc/%
Multiscale CNN[9] AMD 93.75 100 100 1.35 96.66
DME
正常眼底 100 93.33 93.33
Transfer Learning+SMA[10] AMD 100 100 100 100 99.89
DME 99.69 100 99.84 99.89
正常眼底 100 99.76 100 99.89
Resnet18[12] AMD 99.72 99.58 99.92 99.84 11.18 99.75
DME 99.80 99.72 99.92 99.84
正常眼底 99.70 99.84 99.78 99.80
MB-CNN AMD 100 99.7 100 99.2 1.35 99.92
DME 99.8 100 99.2 99.2
正常眼底 100 100 100 100

新窗口打开| 下载CSV


表 4   不同模型在NEH数据集上的实验对比结果

Tab.4  Experimental results of performance comparison of different models in NEH dataset

模型 图片类别 P/% R/% Spe/% Acc/% NP/106 OAcc/%
FPN+VGG16[11] 96.5±0.8 93.4±1.4
Resnet18[12] CNV 97.13 95.40 99.30 98.50 11.18 94.01±0.4
玻璃膜疣 91.47 88.77 96.73 94.37
正常眼底 94.30 96.53 93.70 95.16
MB-CNN CNV 96.8 96.1 99.2 98.6 1.35 94.37±0.4
玻璃膜疣 91.7 89.6 96.6 94.6
正常眼底 94.9 96.4 94.6 95.5

新窗口打开| 下载CSV


表2可知,MB-CNN在参与对比的模型中获得了最高的总体准确率,比位居第二的Resnet18提高了0.72个百分点,同时参数量降低了87.92%. LACNN通过将生成的软注意力图并入网络以加权局部卷积,并利用病变局部信息来改善分类,但专注于局部细节信息会导致全局语义信息的丢失进而影响分类精度. Liu等[6]通过添加注意力强化对病灶的定位,放大病灶区域,提取放大后的病灶区域的病变特征,但病灶定位及放大会造成病灶边缘信息的丢失,难以有效提取特征信息(如病变形状、纹理),影响分类效果. PCAM添加2种不同的注意力机制,加强了模型在空间和通道维度对病变特征的提取,同时将提取到的特征传递到深层,加强了对网络深浅层信息的交流,虽参数量比Resnet18低了0.1×106,但单一尺寸的卷积核的使用没有提高模型的病变分类能力. DMF-CNN通过组合多个不同感受野大小的卷积来有效提取不同大小的病变特征,使用联合多损失优化策略加强了模型对病变特征的识别能力,但没有解决显著特征在特征提取过程中丢失的问题. 可以看出,在UCSD数据集中,MB-CNN的改进达到预期的效果,相比Resnet18,对比模型的表现均不够出色.

表3可知,MB-CNN在Duke数据集上的分类效果超越了对比模型. Mesut的分类准确率位居第二,略优于Resent18,Anju的分类效果最差. Thomas等[9]提出的多尺度卷积网络仅包含7个卷积层,只有一层使用了3种不同尺度的卷积核,难以有效的提取不同尺度的病变特征,且网络较浅提取到的语义信息较低,难以实现病变种类的有效分类. Toğaçar等[10]的模型使用9个现有模型进行迁移学习,在输出结果中择优输出,多种网络同时工作保证了病变特征的提取和利用,减弱了单一模型带来的方差,因而在Duke数据集上表现较好.

表4可知,在NEH数据集上,MB-CNN的表现依然最好,Sotoudeh-Paima等[11]的模型的总体准确率比Resnet18低0.65个百分点. Sotoudeh-Paima等[11]的模型通过连接深浅层网络加强了不同大小特征图之间的信息间交流,保证了浅层细节信息能够传递到网络深层当中并充分利用病变特征信息,但单一大小卷积核难以有效的学习不同尺度的病变特征,因而在NEH数据集上表现不佳.

Resnet18网络使用单一大小卷积核难以提取不同尺度的病变特征,但通过使用残差连接实现特征信息跨卷积块的传递,在保证网络能够充分利用原有特征的同时学习新的有用的病变特征,有效地解决了病变特征丢失的问题,因而在3个数据集上都有相对较好的表现. MB-CNN保留了残差连接,同时使用多尺度卷积模块来提取不同尺度的病变特征,使用特征融合模块融合浅层细节信息和深层语义信息,加强病变特征提取的同时,将浅层细节信息传递到网络深层,使得信息得到充分的利用. 因而在3个数据集上的表现最好.

为了进一步论证的MB-CNN的分类能力,展示MB-CNN在UCSD数据集上识别的病灶区域的热力图如图5所示. 可以看出,MB-CNN能够准确关注不同疾病的病灶区域,通过病灶区域几何拓扑结构的准确提取,实现对OCT图像中病灶位置的有效识别. 对于正常的眼底,MB-CNN主要关注中心凹区域.

图 5

图 5   OCT热力图

Fig.5   Heatmap of OCT


3. 结 语

为了实现不同眼底病变类型的自动识别,提出轻量化眼底OCT图像分类网络MB-CNN. 主干网络L-Resnet中使用更少的卷积核,MultiBlock模块引入深度卷积能够有效地降低模型参数. 在MultiBlock中使用不同尺寸的卷积核有效学习不同尺寸的特征信息,丰富了特征表达. 通过特征融合模块将浅层细节信息和深层语义信息相融合,使网络既保留了前期的病变细节信息又能够丰富后期病变的语义信息,提高了网络对较小病变种类的分类能力. MB-CNN的分类准确率较主流模型提升0.36~7.10个百分点,获得了更好的分类效果. 未来计划将MB-CNN模型部署到嵌入式设备中,以实现眼底疾病的快速分类.

参考文献

FERRIS III F L, WILKINSON C P, BIRD A, et al

Clinical classification of age-related macular degeneration

[J]. Ophthalmology, 2013, 120 (4): 844- 851

DOI:10.1016/j.ophtha.2012.10.036      [本文引用: 1]

张昊瑞, 桂潇, 赵娜, 等

糖尿病性黄斑水肿的药物治疗研究进展

[J]. 中国眼耳鼻喉科杂志, 2021, 21 (3): 226- 229

[本文引用: 1]

ZHANG Hao-rui, GUI Xiao, ZHAO Na, et al

Research progress on pharmacotherapy for diabetic macular edema

[J]. Chinese Journal of Ophthalmology and Otorhinolaryngology, 2021, 21 (3): 226- 229

[本文引用: 1]

HUANG D, SWANSON E A, LIN C P, et al

Optical coherence tomography

[J]. Science, 1991, 254 (5035): 1178- 1181

DOI:10.1126/science.1957169      [本文引用: 1]

PODOLEANU A G

Optical coherence tomography

[J]. Journal of Microscopy, 2012, 247 (3): 209- 219

DOI:10.1111/j.1365-2818.2012.03619.x      [本文引用: 1]

FANG L, WANG C, LI S, et al

Attention to lesion: lesion-aware convolutional neural network for retinal optical coherence tomography image classification

[J]. IEEE Transactions on Medical Imaging, 2019, 38 (8): 1959- 1970

DOI:10.1109/TMI.2019.2898414      [本文引用: 4]

LIU X, BAI Y, CAO J, et al

Joint disease classification and lesion segmentation via one-stage attention-based convolutional neural network in OCT images

[J]. Biomedical Signal Processing and Control, 2022, 71: 103087

DOI:10.1016/j.bspc.2021.103087      [本文引用: 3]

MISHRA S S, MANDAL B, PUHAN N B

Perturbed composite attention model for macular optical coherence tomography image classification

[J]. IEEE Transactions on Artificial Intelligence, 2022, 3 (4): 625- 635

DOI:10.1109/TAI.2021.3135797      [本文引用: 3]

DAS V, DANDAPAT S, BORA P K

Automated classification of retinal OCT images using a deep multi-scale fusion CNN

[J]. IEEE Sensors Journal, 2021, 21 (20): 23256- 23265

DOI:10.1109/JSEN.2021.3108642      [本文引用: 4]

THOMAS A, HARIKRISHNAN P M, KRISHAN A K, et al

A novel multiscale convolutional neural network based age-related macular degeneration detection using OCT images

[J]. Biomedical Signal Processing and Control, 2021, 67: 102538

DOI:10.1016/j.bspc.2021.102538      [本文引用: 4]

TOĞAÇAR M, ERGEN B, TÜMEN V

Use of dominant activations obtained by processing OCT images with the CNNs and slime mold method in retinal disease detection

[J]. Biocybernetics and Biomedical Engineering, 2022, 42 (2): 646- 666

DOI:10.1016/j.bbe.2022.05.005      [本文引用: 5]

SOTOUDEH-PAIMA S, JODEIRI A, HAJIZADEH F, et al

Multi-scale convolutional neural network for automated AMD classification using retinal OCT images

[J]. Computers in Biology and Medicine, 2022, 144: 105368

DOI:10.1016/j.compbiomed.2022.105368      [本文引用: 6]

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[本文引用: 4]

HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks [C]// Computer Vision–ECCV 2016. [S.l.]: Springer, 2016: 630-645.

[本文引用: 1]

LIU Z, MAO H, WU C, et al. A convnet for the 2020s [C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11976-11986.

[本文引用: 2]

SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1-9.

[本文引用: 1]

CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 1251-1258.

[本文引用: 1]

HAN K, WANG Y, TIAN Q, et al. GhostNet: more features from cheap operations [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 1580-1589.

[本文引用: 2]

IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]// Proceeding of the 32nd International Conference on Machine Learning.[S.l.]: PMLR, 2015: 448-456.

[本文引用: 1]

KERMANY D S, GOLDBAUM M, CAI W, et al

Identifying medical diagnoses and treatable diseases by image-based deep learning

[J]. Cell, 2018, 172 (5): 1122- 1131

DOI:10.1016/j.cell.2018.02.010      [本文引用: 1]

SRINIVASAN P P, KIM L A, METTU P S, et al

Fully automated detection of diabetic macular edema and dry age-related macular degeneration from optical coherence tomography images

[J]. Biomedical Optics Express, 2014, 5 (10): 3568- 3577

DOI:10.1364/BOE.5.003568      [本文引用: 1]

/