浙江大学学报(工学版), 2021, 55(11): 2045-2053 doi: 10.3785/j.issn.1008-973X.2021.11.004

生物医学工程

基于异构低秩多模态融合网络的后囊膜混浊预测

陈志刚,, 万永菁,, 王于蓝, 蒋翠玲, 陈霞

1. 华东理工大学 信息科学与工程学院,上海 200237

2. 上海市眼病防治中心,上海 200041

Prediction of posterior capsular opacification based on heterogeneous low-rank multimodal fusion network

CHEN Zhi-gang,, WAN Yong-jing,, WANG Yu-lan, JIANG Cui-ling, CHEN Xia

1. School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China

2. Shanghai Eye Disease Prevention and Control Center, Shanghai 200041, China

通讯作者: 万永菁,女,教授. orcid.org/0000-0002-3722-7271. E-mail: wanyongjing@ecust.edu.cn

收稿日期: 2020-12-30  

基金资助: 国家自然科学基金资助项目(61872143);上海市申康医院发展中心临床科技创新资助项目(SHDC2018X16);上海市卫生健康委员会卫生行业临床研究专项课题资助项目(20204Y0218)

Received: 2020-12-30  

Fund supported: 国家自然科学基金资助项目(61872143);上海市申康医院发展中心临床科技创新资助项目(SHDC2018X16);上海市卫生健康委员会卫生行业临床研究专项课题资助项目(20204Y0218)

作者简介 About authors

陈志刚(1996—),男,硕士生,从事医学图像处理、多模态机器学习研究.orcid.org/0000-0002-8791-8310.E-mail:zhigang_xs@163.com , E-mail:zhigang_xs@163.com

摘要

针对后囊膜混浊并发症发病周期长、筛查范围广的问题,提出利用多模态机器学习预测后囊膜混浊并发症的计算机辅助诊断方法. 对后照影像进行感兴趣区域(ROI)提取和白色反光区域填充,所构建的异构低秩多模态融合网络(HLMF)能同时输入后照影像和视觉质量参数进行特征提取与融合,HLMF模型基于通道积融合多模态信息;采用卷积核参数低秩分解解决过拟合问题;选用Focal Loss损失函数解决类别不均衡的问题;在训练过程中还采用预训练和模态腐蚀的训练方法,使模型更好地提取单一模态的特征并进行融合. 该算法在后囊膜混浊数据集上的十折交叉验证准确率为95.63%,F1分数为96.72%. 实验结果表明,所提算法能较好地提取单模态特征并进行特征融合,相比于其他多模态融合模型有更好的性能.

关键词: 异构 ; 低秩分解 ; 多模态融合 ; 后照影像 ; 后囊膜混浊 ; 计算机辅助诊断

Abstract

A computer-aided diagnosis method for posterior capsular opacification using multimodal machine learning was proposed for the long incidence cycle and wide screening range of the complication of posterior capsular opacification. The region of interest (ROI) was extracted and the white reflective region was filled on the retro-illumination image. Retro-illumination image and visual quality data can be input into constructed heterogeneous low-rank multimodal fusion network (HLMF) simultaneously for performing feature extraction and fusion, and multimodal information was fused based on channel product. Overfitting problem was solved by low-rank decomposition of convolution kernel parameters, and the Focal Loss was chosen to solve the problem of uneven category. The pre-training and corrupted augmentation methods were used in the training process to better extract and fuse the features of single modality. The accuracy and F1 score of 10-fold cross-validation of the algorithm on the posterior capsule opacification dataset were 95.63% and 96.72%, respectively. Experimental results show that the proposed algorithm can extract single modality features and perform feature fusion well, and has better performance compared with other multimodal fusion models.

Keywords: heterogeneity ; low-rank decomposition ; multimodal fusion ; retro-illumination image ; posterior capsular opacification ; computer-aided diagnosis

PDF (1284KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈志刚, 万永菁, 王于蓝, 蒋翠玲, 陈霞. 基于异构低秩多模态融合网络的后囊膜混浊预测. 浙江大学学报(工学版)[J], 2021, 55(11): 2045-2053 doi:10.3785/j.issn.1008-973X.2021.11.004

CHEN Zhi-gang, WAN Yong-jing, WANG Yu-lan, JIANG Cui-ling, CHEN Xia. Prediction of posterior capsular opacification based on heterogeneous low-rank multimodal fusion network. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(11): 2045-2053 doi:10.3785/j.issn.1008-973X.2021.11.004

白内障是导致视力损害的最常见眼科疾病之一,是致盲的主要原因[1]. 世界卫生组织的统计数据显示全世界约有3900万盲人,而其中有51%是由白内障导致的[2]. 人工晶状体(intraocular lens,IOL)植入手术是治疗白内障的重要手段,但白内障术后并发症仍是白内障术后视力恢复的主要障碍. 后囊膜混浊,也称后发性白内障,是最常见的白内障术后并发症[3],在进行白内障手术后,残留的皮质和脱落在晶状体后囊上的上皮细胞增生,在瞳孔区形成半透明的膜而形成后囊膜混浊[4]. 其发病周期较长,术后几个月甚至几年才会发病[5],因此即便是成功的白内障手术,术后仍可能出现进行性视力下降,早期或不严重的后囊膜混浊通过简单的激光处理就可以根治,但时间过久程度过重,则可能引起IOL变形移位脱位而需要二次手术治疗. 因此,尤其须注意大批量白内障患者回归社区后IOL眼二次视力下降的问题[6].

及时地诊断是否患有后囊膜混浊并发症对术后视觉质量恢复具有重要意义,以免错过早期或最佳治疗时间,造成患者的二次手术及医疗成本的增加. 传统的人工诊断方法人力成本高、主观因素大,同时受限于医生水平,偏远地区的患者难以得到准确的诊断[7]. 随着医学图像处理和机器学习技术的发展,已有研究利用计算机辅助诊断方法对白内障术后并发症进行更加准确的早期诊断.

计算机辅助诊断后囊膜混浊并发症可利用的数据包括病历数据和后照影像,病历数据主要为结构化的眼部医学指标;后照影像通过后照法拍摄瞳孔区域得到,能反映后囊膜混浊程度. Mohammadi等[8]利用后囊膜混浊病历数据构建决策树模型和反向传播(back propagation,BP)神经网络模型预测是否患有后囊膜混浊,最终获得了80%的准确率;章佳[9]利用小儿白内障术后并发症的病历记录数据构建了朴素贝叶斯模型和随机森林模型,分别对患者是否患有术后并发症、是否患有后囊膜混浊以及是否患有高眼压进行预测. 上述研究都基于病历数据进行分析,此外,有研究利用后照影像分析瞳孔中混浊区域以预测后囊膜混浊,采用的方法可以分为传统图像处理和机器学习2类. Werghi等[10]基于颜色特征将后照影像中像素聚类,通过统计区域个数来预测后囊膜混浊;Vivekanand等[3]基于Hölder exponents量化混浊区域含量以进行分类,Vivekanand等[11]在其基础上提出多尺度的粗糙度估计方法增加形态学细节,与临床专家分级结果的皮尔逊相关系数为84.6%. 这些研究采用的都是传统图像处理方法,最新研究大都采用机器学习方法. 刘琳[12]结合卷积神经网络(convolutional neural networks,CNN)和卷积长短期记忆网络预测生成下一时刻的眼部红反影像,基于生成影像进行后发性白内障严重程度预测;Kronschlger等[13]提取灰度共生矩、一阶特征、Gabor滤波特征和分形特征4种局部纹理特征,在特征选择后利用贝叶斯分类器进行分类;Jiang等[14]构建了代价敏感深度残差卷积神经网络(cost-sensitive deep residual convolutional neural network,CS-ResCNN)解决实验数据不均衡的问题,通过Canny滤波和霍夫圆变换找到后照影像中的瞳孔,送入CS-ResCNN网络进行高阶特征提取以实现最终的检测,准确率为92.24%.

上述研究只利用了单一模态数据(病历数据或后照影像)预测后囊膜混浊并发症,考虑信息不够全面,专业医生在诊断后囊膜混浊时往往会综合考虑医学指标和后照影像,以获得患者眼部更加全面的信息,进行更准确的诊断,因此,研究利用多模态机器学习对后囊膜混浊并发症进行更精准的预测是必要的. 每一种信息的来源或者形式,都可以称为一种模态,而多模态机器学习是指利用多个模态数据进行学习的机器学习方法[15]. 多模态学习能利用模态信息之间的互补性,提供捕获模态之间的对应关系和深入理解自然现象的可能性,已有研究利用多模态机器学习在医疗领域进行组织和器官分割[16]、医学影像检索[17]、医学图像配准[18]和计算机辅助诊断[19]等研究.

本研究利用多模态机器学习方法对后照影像和视觉质量参数进行分析,实现后囊膜混浊的计算机辅助诊断. 为了同时利用后照影像和视觉质量参数数据,并避免对后照影像数据的手工特征提取,提出异构低秩多模态融合(heterogeneous low-rank multimodal fusion,HLMF)网络,能同时输入2种模态的数据,并基于反向传播进行端到端的训练. 首先,利用图像处理方法找到瞳孔感兴趣区域(region of interest,ROI),用背景灰度填充白色反光区域;然后将处理好的数据输入HLMF进行训练,使用Focal Loss损失函数避免类别不均衡问题,采用预训练和模态腐蚀的训练技巧避免模型过拟合.

1. 数据来源与处理

1.1. 数据来源

所采用的多模态后囊膜混浊数据集由上海市眼病防治中心提供,上海市眼病防治中心是上海市唯一一家三级眼病专科医院. 该数据集中包含白内障术后IOL眼的后照影像及视觉质量参数2种模态的数据,其中后照影像采用后照法拍摄得到,视觉质量参数包括光程差分析仪(optical path difference,OPD)分析区域大小、含像差的球镜值、散光值、散光轴向、Zernike函数多项式值、调制传递函数(modulation transfer function,MTF)值等共59维数据. 该数据集共包含322个样本,其中214个样本患有后囊膜混浊并发症,108个样本未患有后囊膜混浊并发症,所有样本标签均由2名具有丰富经验的专业医师进行标注后得到. 医师分析混浊位置与视轴的相对关系、增生密度对视力或对比敏感度的影响,将发生于囊袋周边部或不位于瞳孔区的混浊标记为无后囊膜混浊,将二次视力下降或对比敏感度下降标记为有后囊膜混浊.

1.2. 后照影像预处理

在不同样本的后照影像中,瞳孔的尺寸、位置存在个体差异,而与视觉能力直接相关的是瞳孔区域,所以首先要提取瞳孔ROI. 另外,后照影像中白色反光区域由后照法拍摄造成,对于诊断后囊膜混浊并发症没有参考意义,为了避免对模型预测造成影响,使用瞳孔中的背景灰度对白色区域进行填充. 如图1所示为后照影像预处理流程示例,后照影像中圆形区域是瞳孔,瞳孔中灰度较深、形状不规则的区域在医学上称之为后囊膜混浊区域,当混浊区域大小和混浊程度达到一定量级,且视觉质量参数异常时,就称患有后囊膜混浊并发症. 后照影像预处理的具体步骤如下.

图 1

图 1   后照影像预处理流程示例

Fig.1   Example of retro-illumination image preprocessing flow


1)去噪. 以灰度值20为界将影像二值化,该灰度值介于瞳孔与黑色背景之间. 求二值化图像所有四连通域 $D$,令 $D^*$$D$中区域小于400的连通域组成的集合,即噪声点的集合,对 $D^*$用灰度值0填充:

$ I'(x,y)=\left\{\begin{array}{ll}\text{0,} & (x,y)\in D^*; \\ I(x,y), & {\text{其他}}. \end{array}\right. $

式中: $I$为原始影像, $I'$为去掉噪声点后的影像, $ x $$ y $为像素点的横、纵坐标.

2)极坐标转化. 将 $I'$转换为极坐标形式得到 $ P $

$ P(\rho ,\phi ) = I'(\left\lfloor {\rho \cos \;\phi } \right\rfloor + {x_{\text{0}}},\; \left\lfloor {\rho \sin\; \phi } \right\rfloor + {y_{\text{0}}}). $

式中: $ {x_0} $$ {y_0} $$I'$的中心, $ \rho $$ \phi $为极坐标下的幅值与相位, $ \left\lfloor \cdot \right\rfloor $表示向下取整. 此时瞳孔边界近似展开成一条直线,水平方向对应原始图像的角度方向,沿水平方向从左向右扫描第1个灰度值小于20的点即瞳孔边界,以此边界将影像二值化得到 $ P' $.

3)寻找外接圆. 将 $ P' $转换回直角坐标形式得到 $ I'' $

$ I''(x,y) = P'\left({\text{ }}\left\lfloor {{{\left[ {{{(x - {x_0})}^2} + {{(y - {y_0})}^2}} \right]}^{1/2}}} \right\rfloor , \; \left\lfloor {\arctan\; \left(\frac{{y - {y_0}}}{{x - {x_0}}}\right)} \right\rfloor {\text{ }}\right). $

$ I'' $上找到瞳孔的最小外接圆.

4)裁剪. 依据外接圆圆心和半径将 $I$裁剪为100×100大小,得到 $I''' $.

5)填充. 后照影像灰度直方图中后2个峰值分别对应背景区域和白色区域(灰度值大于200),用背景区域灰度值 $ {G_{\text{b}}} $填充 $I''' $灰度值大于200的区域,得到处理好的后照影像 $ {I_{\text{P}}} $

$ {I}_{\text{P}}(x,y)=\left\{\begin{array}{ll}{G}_{\text{b}} ,& I'''(x,y) > 200; \\ I'''(x,y), & {\text{其他}}\text{. } \end{array}\right. $

1.3. 数据增强

本研究所采用的数据集样本数量较少,为了保证模型的泛化能力,对数据集进行数据增强. 视觉质量参数和后照影像之间具有相关性,不能简单对单一模态进行增强,本研究采取对后照影像成像过程进行增强,即改变成像过程中的亮度、清晰度. 通过伽马校正改变亮度:

$ {I_{\text{a}}}(x,y) = ({I_{\text{P}}}{(x,y))^\gamma } .$

式中: $ {I_{\text{a}}} $为增强后的图像;γ为校正参数, $\gamma $=[0.65, 0.90]对应增加亮度,γ=[1.3, 1.8]对应降低亮度,取值服从均匀分布.

增加、降低清晰度分别通过图像四邻域像素差值、平均实现. 通过数据增强将训练集扩充为原来的3倍. 如图2所示为对同一后照影像改变亮度、清晰度后的结果示例.

图 2

图 2   数据增强示例

Fig.2   Example of data augmentation


2. 基于HLMF的后囊膜混浊预测

为了同时利用后照影像以及视觉质量参数对后囊膜混浊并发症进行更加准确的预测,提出了能同时提取2种模态数据的特征并进行融合的异构低秩多模态融合网络(见图3).

图 3

图 3   HLMF网络架构

Fig.3   HLMF network architecture


2.1. 异构低秩多模态融合网络

2.1.1. 异构融合

多模态融合常用的方法为双线性融合,而Zadeh等[20]提出张量融合网络(tensor fusion network,TFN)是其中的代表性研究,其首先通过对多种模态的数据进行特征提取得到一维特征张量,对特征张量进行笛卡尔积得到多模态融合特征,最后对融合特征进行全连接以进行后续的输出. 本研究在其基础上针对本实验数据集异构的特点对笛卡尔积的方式进行改进提出通道积融合.

首先对后照影像数据建立卷积神经网络分支,对视觉质量参数建立全连接网络(fully connected,FC)分支,2个分支分别与图3中2个分支一致. 然后对CNN分支得到的特征图 ${{\boldsymbol{Z}}_{\text{C}}} \in {{{\bf{R}}}^{H \times W \times M}}$及FC分支得到的隐含层特征 $ {{\boldsymbol{Z}}_{\text{F}}} \in {{\bf{R}}^N} $进行异构融合,HWM分别为特征图的高、宽、通道数, $N$为隐含层节点个数,本研究中 $H$$W$$M$$N$分别取值23、23、12、100. 异构融合基于通道积进行,如图4所示为通道积的示意图,通道积的数学表示为

图 4

图 4   通道积示意图

Fig.4   Schematic diagram of channel product


$ {\boldsymbol{Z}} = {\boldsymbol{Z}}{}_{\text{C}}\hat \otimes {{\boldsymbol{Z}}_{\text{F}}}. $

式中: ${\boldsymbol{Z}}$为融合表达, $ {\boldsymbol{Z}} \in {{\bf{R}}^{H \times W \times (M \times N)}} $$ \hat \otimes $表示通道积. Z的具体计算方法如下:

$ {\boldsymbol{Z}}(h,w,(n - 1) M + m) = {{\boldsymbol{Z}}_{\text{C}}}(h,w,m) {{\boldsymbol{Z}}_{\text{F}}}(n). $

式中: $h$$w$$m$$n$分别为不大于 $H$$W$$M$$N$的正整数.

对融合表达 ${\boldsymbol{Z}}$依次进行卷积、池化、全连接操作进行最终的结果输出. 设对融合表达 ${\boldsymbol{Z}}$进行卷积得到通道维数为 $K$(本研究取值16)的隐含表达 $ {\boldsymbol{Z}}' $,隐含表达 $ {\boldsymbol{Z}}' $的第k个通道 ${\boldsymbol{Z}}{'_k}$的计算公式为

$ {\boldsymbol{Z}}{'_k} = {{\boldsymbol{W}}_k} * {\boldsymbol{Z}}. $

式中:*表示二维卷积; $ {{\boldsymbol{W}}_k} \in {{\bf{R}}^{f \times f \times (M \times N)}} $f为卷积核大小(本研究取值3), $M \times N$为融合表达 ${\boldsymbol{Z}}$的通道数; $ {{\boldsymbol{W}}_k} $表示第k个卷积核,卷积核参数集 ${{W}} = \left\{ {{{\boldsymbol{W}}_k}} \right\}_{k = 1}^K$.

基于通道积进行异构融合的优点在于可以保持特征图 ${{\boldsymbol{Z}}_{\text{C}}}$的特征结构,同时对融合表达进行卷积,相对于对融合表达进行全连接可以大幅降低模型参数量、避免过拟合.

2.1.2. 卷积核参数低秩分解

融合特征 $ {\boldsymbol{Z}} $的通道数为 $ M \times N $,即使采用卷积进行稀疏连接,卷积核参数 $ {{\boldsymbol{W}}_k} $的通道数仍为 $ M \times N $,在本研究中该值能达到103数量级,高维的卷积核通道数也增加了过拟合的风险. Liu等[21]基于TFN提出将融合表达的全连接参数进行低秩分解得到低秩多模态融合(low-rank multimodal fusion,LMF)网络,其分解的思想是融合表达由笛卡尔积得到,而融合表达与融合表达的全连接参数具有相同的结构,则融合表达参数也可以分解为参数向量的笛卡尔积,从而减少参数量. 受此启发,本研究将融合表达 $ {\boldsymbol{Z}} $的卷积核参数 $ {{\boldsymbol{W}}_k} $分解为通道积的形式,如图5所示为分解示意图,具体形式如下:

$ {{\boldsymbol{W}}_k} = \sum\limits_{i = 1}^R {{\boldsymbol{W}}_{{\text{C}},k}^i} \hat \otimes {\boldsymbol{W}}_{{\text{F}},k}^i. $

式中: $ {\boldsymbol{W}}_{{\text{C}},k}^i \in {{\bf{R}}^{f \times f \times M}} $$ {\boldsymbol{W}}_{{\text{F}},k}^i \in {{\bf{R}}^N} $,即 $ {{\boldsymbol{W}}_k} $可以分解为 $R$$ {\boldsymbol{W}}_{{\text{C}},k}^i $$ {\boldsymbol{W}}_{{\text{F}},k}^i $通道积结果的累加和,其中使得上式分解成立的最小的 $R$称为卷积核参数 $ {{\boldsymbol{W}}_k} $的秩.

在模型实际的构建过程中,指定卷积核参数 $ {{\boldsymbol{W}}_k} $的秩为 $r$,不同的秩 $r$可以控制 $ {{\boldsymbol{W}}_k} $的数据拟合能力. 模型拟合程度最佳时所对应的 $r$未知,因此在实际训练过程中,将秩 $r$作为模型的超参数进行调节,从而使模型达到拟合数据的最佳状态,防止欠拟合与过拟合[21].

进行卷积核参数分解除了避免过拟合问题,还可以将计算融合表达和对融合表达卷积合并为一步进行,无须显式地计算融合表达 $ {\boldsymbol{Z}} $,从而降低模型的计算量. 利用式(6)、(8)、(9),通过推导得到从特征图 ${{\boldsymbol{Z}}_{\text{C}}}$及隐含层特征 $ {{\boldsymbol{Z}}_{\text{F}}} $直接计算隐含表达 ${\boldsymbol{Z}}{'_k}$的方法:

$ \begin{split} {\boldsymbol{Z}}'_{k}=\;&{\boldsymbol{W}}_{k}\ast {\boldsymbol{Z}}=\left({\sum\limits_{i=1}^{R}{\boldsymbol{W}}_{\text{C},k}^{i}}\hat{\otimes }{\boldsymbol{W}}_{\text{F},k}^{i}\right)\ast \left({\boldsymbol{Z}}_{\text{C}}\hat{\otimes }{\boldsymbol{Z}}_{\text{F}}\right)=\\ &\text{ }{\sum\limits_{i=1}^{R}\left[\left({\boldsymbol{W}}_{\text{C},k}^{i}\hat{\otimes }{\boldsymbol{W}}_{\text{F},k}^{i}\right)\ast \left({\boldsymbol{Z}}_{\text{C}}\hat{\otimes }{\boldsymbol{Z}}_{\text{F}}\right)\right]}=\\ &\text{ }{\sum\limits_{i=1}^{R}\left[\left({\boldsymbol{W}}_{\text{C},k}^{i}\ast {\boldsymbol{Z}}_{\text{C}}\right)\text{ } \circ \text{ }\left({\boldsymbol{W}}_{\text{F},k}^{i}{}^{\text{T}} \cdot \text{ }{\boldsymbol{Z}}_{\text{F}}\right)\right]}. \end{split}$

表中: $ \circ $表示逐元素乘积,即对 $\left({\boldsymbol{W}}_{\text{C},k}^{i}\ast {\boldsymbol{Z}}_{\text{C}}\right) $中的每个元素乘上 $\left({\boldsymbol{W}}_{\text{F},k}^{i}{}^{\text{T}} \cdot \text{ }{\boldsymbol{Z}}_{\text{F}}\right)$. 则隐含表达 ${\boldsymbol{Z}}{'_k}$可以通过如下表达式得到:

$ {\boldsymbol{Z}}'_{k}={\sum\limits_{i=1}^{R}\left[\left({\boldsymbol{W}}_{\text{C},k}^{i}\ast {\boldsymbol{Z}}_{\text{C}}\right)\text{ } \circ\text{ }\left({\boldsymbol{W}}_{\text{F},k}^{i}{}^{\text{T}} \cdot \text{ }{\boldsymbol{Z}}_{\text{F}}\right)\right]}. $

式(10)的推导同时利用了 $ {{\boldsymbol{W}}_k} $$ {\boldsymbol{Z}} $的分解,使得模型无须显式地计算融合表达 $ {\boldsymbol{Z}} $,而可以直接得到隐含表达 ${\boldsymbol{Z}}{'_k}$. 同时,观察式(11)可以发现 $ {\boldsymbol{W}}_{{\text{C}},k}^i $是对特征图 ${{\boldsymbol{Z}}_{\text{C}}}$进行卷积, $ {\boldsymbol{W}}_{{\text{F}},k}^i $是对隐含层特征 $ {{\boldsymbol{Z}}_{\text{F}}} $进行全连接,即对融合表达 $ {\boldsymbol{Z}} $卷积可以达到对 ${{\boldsymbol{Z}}_{\text{C}}}$卷积和对 $ {{\boldsymbol{Z}}_{\text{F}}} $全连接的效果,延续了卷积神经网络分支和全连接网络分支的特性,同时对特征进行了融合,这是本研究采用基于通道积的异构融合方法进行特征融合的重要原因之一,如图3所示为利用式(11)计算完整隐含表达 $ {\boldsymbol{Z}}' $的网络架构图.

图 5

图 5   卷积核参数低秩分解示意图

Fig.5   Schematic diagram of convolution kernel parameter low-rank decomposition


2.2. 损失函数

所研究的数据集中正样本(患有后囊膜混浊)占比约66.5%,负样本(未患有后囊膜混浊)占比约33.5%,正负样本比例不均衡,易使模型预测结果偏向为正样本. 为了避免该问题的发生,采用Lin等[22]提出的Focal Loss作为模型的损失函数,其专门用于解决类别不均衡的问题,Focal Loss的定义为

$ {\text{FL}}\left( {{p_{\text{t}}}} \right) = - {\alpha _{\text{t}}}{\left( {1 - {p_{\text{t}}}} \right)^\beta }\log\; \left( {{p_{\text{t}}}} \right). $

式中: $\;\beta $为Focusing参数, $\;\beta \geqslant 0$,其作用是减少易分类样本的损失,使模型更关注于困难的、错分的样本,经Lin等[22]验证, $\;\beta = 2$效果最优. $ {\alpha _{\text{t}}} $$ {p_{\text{t}}} $的表达式如下:

$ {\alpha _{\text{t}}} = \left\{ {\begin{array}{*{20}{l}} {\alpha ,}&{t = {\text{1;}}} \\ {1 - \alpha ,}&{t = 0.} \end{array}} \right. $

$ {p_{\text{t}}} = \left\{ {\begin{array}{*{20}{l}} {p,}&{{\text{ }}t = 1;} \\ {1 - p,}&{{\text{ }}t = 0.} \end{array}} \right. $

式中: $ \alpha $为样本数量较少的负样本占样本总数的比例,本研究取 $ \alpha = 108/322 $$p$为模型预测样本的标签为1的概率; $t$为样本真实标签, $t \in \{ 0,1\} $.

对于数量较少的负样本,利用Focal Loss计算得到的损失值的加权为1−α,加权值大于0.5,因此,模型对负样本错分的情况惩罚更大,从而平衡正负样本的损失,解决类别不均衡的问题.

2.3. 多模态模型训练方法
2.3.1. 分支网络预训练

HLMF模型包含CNN分支和FC分支,若同时输入2种模态的数据,在基于反向传播进行端到端训练时,模态之间会交叉影响分支网络的参数更新,从而影响分支网络的特征提取. 为了使2个分支网络更好地提取2种单模态数据的特征,单独构建CNN预训练模型和FC预训练模型,分别以后照影像和视觉质量参数作为输入. 其网络结构前半部分分别与CNN分支和FC分支相同,CNN预训练模型的后半部分包括Flatten层和Softmax层,FC预训练模型后半部分仅包括Softmax层. 在完成对CNN预训练模型和FC预训练模型的训练之后,用训练好的2个预训练模型的参数去分别初始化2个分支网络,从而使分支网络能更好地提取2种模态的特征.

2.3.2. 模态腐蚀

同时输入2种模态的数据,融合部分的神经元往往只被单一模态所激活,而较少有神经元被交叉模态信息所激活,这不利于特征融合. Ngiam等[23]在训练多模态自编码器以获取融合特征表达的过程中,提出将某一模态的输入置零,利用单一模态重构2种模态,强制模型学习交叉模态信息,使得融合部分的神经元同时被2种模型的特征激活. 受此启发,本研究在训练模型时,将训练集复制为原来的3倍,第1份保持原有数据不变,第2份将后照影像全部置零,第3份将视觉质量参数置零,并称这种方法为模态腐蚀. 这样的训练方式能起到分别训练分支网络、并使融合部分的神经元同时利用2种模态信息的作用. 模态腐蚀使模型在只使用一种模态数据的情况下预测后囊膜混浊并发症,这与医生使用单一模态数据进行诊断是类似的.

3. 实验结果及分析

3.1. 评价指标

本研究解决的是二分类的问题,因此采用准确率Acc、精准率PR、召回率RE、F1分数F1 4种量化指标来评价模型的性能,为了更加准确地对比不同方法和模型的性能,在本研究中,通过对增强后的数据集进行十折交叉验证,取上述指标平均值得到最终结果.

3.2. 秩的设置

在HLMF网络架构中,对融合表达进行卷积核参数低秩分解,秩 $R$可以控制HLMF网络拟合数据的能力,因此可以将 $R$作为一个超参数进行搜索,即在构造模型时指定秩为 $r$,从而找出最优的 $r$. 在本实验中, $r$取值为1~50的整数. 如图6所示为不同秩下十折交叉验证准确率. 图中,红色折线为不同秩下HLMF模型在后囊膜混浊数据集上的十折交叉验证准确率,蓝色虚线为采用最小二乘法拟合出的二次曲线,反映了准确率随秩的变化规律. 可以看出,随着秩的增加,模型性能大致呈先上升后下降的趋势. 当秩较低时模型参数量较少,融合表达能力不强,因此模型性能表现欠佳;当秩较大时模型参数量过大,过拟合严重,相邻秩之间实验结果也逐渐不稳定,这与Liu等[21]所得到的结论一致. 对于本实验数据集,当秩为10~20时,模型性能表现优异并且较为稳定,在本研究中取HLMF模型的秩为16,并与其他模型进行对比分析.

图 6

图 6   不同秩下十折交叉验证准确率

Fig.6   Accuracy of 10-fold cross-validation under different ranks


3.3. 多模态训练方法对比

为了验证预训练和模态腐蚀2种训练方法的有效性,对比不同秩下HLMF模型不使用任何训练方法、使用预训练方法、使用模态腐蚀方法和2种方法都使用的结果. 如图7(a)所示为4种情况下HLMF模型在不同秩下的十折交叉验证准确率,如图7(b)所示为十折交叉验证准确率的标准差. 图中,σ为标准差.

图 7

图 7   不同秩下HLMF网络使用不同多模态训练方法结果对比

Fig.7   Comparison of HLMF network using different multimodal training methods under different ranks


图7(a)可以明显看出,相较于不使用多模态训练方法,采用预训练和模态腐蚀中任意一种训练方法都可以使模型性能得到大幅提升,不同秩下十折交叉验证准确率均值整体提升了1~2个百分点,而同时使用预训练和模态腐蚀能使模型性能达到最佳. 由图7(b)可以看出,采用预训练或模态腐蚀方法,十折交叉验证标准差均有降低,表明模型具有更高的稳定性,而模态腐蚀方法效果更加明显,因为其能使融合部分神经元同时被2种模态数据所激活,融合能力更强. 采用预训练加模态腐蚀的训练方法时,HLMF模型在不同秩下的整体性能得到较好的提升,表明预训练和模态腐蚀方法的有效性.

3.4. 多模态融合网络对比

为了验证异构融合和低秩分解方法的有效性,对比了只进行异构融合的异构张量融合网络(heterogeneous tensor fusion network,HTFN)、只进行低秩分解的LMF[21]网络、不进行异构融合和低秩分解的TFN[20]网络,并与同样基于TFN、LMF改进的多项式张量池化(polynomial tensor pooling,PTP)[24]网络进行对比,在模型训练过程中均采用了预训练和模态腐蚀的训练方法,实验结果均采用十折交叉验证取平均得到. 如表1所示为具体的实验结果. 可以看出,异构融合和低秩分解均能提升模型性能,异构融合带来的性能提升更明显,表明异构融合能较好融合2种模态特征,而未采用异构融合的LMF、TFN、PTP网络精准率较高、召回率较低,表明模型并未学习并融合相应特征,导致模型预测结果偏向负样本;低秩分解能避免过拟合问题,提升模型泛化能力,采用异构融合和低秩分解方法的HLMF网络整体性能最佳,十折交叉验证准确率均值能达到95.63%,表明对于后囊膜混浊并发症这种有图像和数值数据的数据集,HLMF模型能够较好地提取数据特征并进行融合.

表 1   不同多模态融合网络性能对比

Tab.1  Performance comparison of multimodal fusion networks

模型 Acc/% PR/% RE/% F1/%
TFN 91.35 95.60 91.17 93.23
LMF 92.51 95.77 93.01 94.23
PTP 93.46 96.78 93.42 94.95
HTFN 94.71 96.13 96.23 96.04
HLMF 95.63 96.88 96.73 96.72

新窗口打开| 下载CSV


5种模型融合部分的模型复杂度如表2所示. TFN模型将 ${{\boldsymbol{Z}}_{\rm{C}}}$展开为一维张量,使用笛卡尔积进行融合,再对融合表达进行全连接,若得到的隐含表达有 $K'$个隐含节点,则TFN模型复杂度为 $ O\left( {W \times H \times M \times N \times K'} \right) $. LMF模型对全连接参数进行低秩分解,其模型复杂度为 $ O\left( r \times (W \times H \times M + N) \times $ $ K' \right) $$r$远小于 $N$,因此模型复杂度降低. PTP模型在LMF基础上加入高阶多项式表示,其模型复杂度与LMF模型一样. HTFN模型采用通道积进行融合,并对融合表达进行卷积,其模型复杂度为 $ O\left( {{f^2} \times M \times N \times K} \right) $. 一般来说通道数 $ K $小于隐含节点个数 $ K' $,又因卷积的稀疏连接性质, $f^2$远小于 $W \times H$,HTFN相对于TFN模型复杂度大幅降低.

表 2   不同多模态融合网络模型复杂度对比

Tab.2  Comparison of model complexity of different multimodal fusion networks

模型 模型复杂度
TFN $ O\left( {W \times H \times M \times N \times K'} \right) $
LMF $ O\left( {r \times (W \times H \times M + N) \times K'} \right) $
PTP $ O\left( {r \times (W \times H \times M + N) \times K'} \right) $
HTFN $ O\left( {{f^2} \times M \times N \times K} \right) $
HLMF $ O\left( {r \times ({f^2} \times M + N) \times K} \right) $

新窗口打开| 下载CSV


对HTFN模型的融合表达卷积核参数进行低秩分解得到HLMF模型,其目的是进一步降低模型的参数量,同时减少模型的计算量. HLMF模型的复杂度为 $ O\left( {r \times ({f^2} \times M + N) \times K} \right) $,当 $r$=16时,模型的参数量降为HTFN的1/3,从而有效避免模型过拟合. 相对LMF来说,若在相同秩 $r$下,HLMF模型复杂度也是大幅降低的.

3.5. 模态互补性

使用SHAP(SHapley additive explanations)值[25]来解释HLMF模型为何能利用2种模态信息之间的互补性,提高预测准确率,SHAP值基于博弈论中的Shapley值,其利用每个可能的模态组合得到的预测准确率来量化每个模态对模型所做预测的贡献. 本研究可能的模态组合包括后照影像与视觉质量参数、仅后照影像、仅视觉质量参数和无数据4种组合. 如表3所示为分别使用这4种模态组合训练HLMF模型得到的十折交叉验证准确率,其中无数据组合理论情况下准确率为50%.

表 3   4种模态组合下HLMF模型准确率

Tab.3  Accuracy of HLMF network under four modality combination

模态组合 Acc/% SHAP值 IMP/%
无数据 50.00
视觉质量参数 72.99 0.1227 26.89
后照影像 94.08 0.3336 73.11
多模态 95.63

新窗口打开| 下载CSV


根据准确率计算各模态的SHAP值并归一化为重要性(importance,IMP)百分比,视觉质量参数的重要性为26.89%,后照影像重要性为73.11%,2种模态对于预测后囊膜混浊并发症都有贡献,后照影像在预测中起到更显著作用,这与医师诊断后囊膜混浊并发症时参考信息的比重相类似,表明HLMF模型能利用2种模态信息之间的互补性进行更精准的预测.

4. 结 语

提出异构低秩多模态融合网络用于后囊膜混浊并发症的预测,其能同时输入后照影像和视觉质量参数2种模态的数据,基于通道积对2种模态数据进行异构融合,并进行参数低秩分解解决模型过拟合问题,其特点在于异构融合能延续卷积神经网络和全连接网络的特性,更好地进行特征提取与融合. 实验结果表明,提出的异构融合方法相较于其他融合方法具有更好的异构数据融合能力,采用的多模态融合训练方法能使模型性能大幅提升. 相较于只使用单模态数据的方法,本研究所提方法能全面考虑患者信息,进行更精准的预测,与专业医师诊断后囊膜混浊并发症具有一致性. 其意义在于能方便地对后囊膜混浊并发症进行更精准的大规模筛查,使白内障术后人群在二次视力下降后,得以早期发现转诊,及时进行干预处理. 局限性在于HLMF模型只能输入图像和结构化数据的结合,模型通用性较弱,不足之处在于所使用数据集样本较少,没有公共数据集进行验证,后续研究会增加样本数量以进一步保证模型泛化能力.

参考文献

ALLEN D, VASAVADA A

Cataract and surgery for cataract

[J]. BMJ, 2006, 333 (7559): 128- 132

DOI:10.1136/bmj.333.7559.128      [本文引用: 1]

PASCOLINI D, MARIOTTI S P

Global estimates of visual impairment: 2010

[J]. British Journal of Ophthalmology, 2012, 96 (5): 614- 618

DOI:10.1136/bjophthalmol-2011-300539      [本文引用: 1]

VIVEKANAND A, WERGHI N, AL-AHMAD H. Automated image assessment of posterior capsule opacification using Hölder exponents [C]// 2013 IEEE 20th International Conference on Electronics, Circuits, and Systems (ICECS). Abu Dhabi: IEEE, 2013: 538-541.

[本文引用: 2]

AWASTHI N, GUO S, WAGNER B J

Posterior capsular opacification: a problem reduced but not yet eradicated

[J]. Archives of Ophthalmology, 2009, 127 (4): 555- 562

DOI:10.1001/archophthalmol.2009.3      [本文引用: 1]

严宏, 陈曦, 陈颖

白内障术后并发症: 现状与对策

[J]. 眼科新进展, 2019, 39 (1): 1- 7

URL     [本文引用: 1]

YAN Hong, CHEN Xi, CHEN Ying

Postoperative complications of cataract: current status and countermeasures

[J]. Recent Advances in Ophthalmology, 2019, 39 (1): 1- 7

URL     [本文引用: 1]

XU Y, HE J, LIN S, et al

General analysis of factors influencing cataract surgery practice in Shanghai residents

[J]. BMC Ophthalmology, 2018, 18 (1): 102

DOI:10.1186/s12886-018-0767-5      [本文引用: 1]

SZIGIATO A A, SCHLENKER M B, AHMED I I K

Population-based analysis of intraocular lens exchange and repositioning

[J]. Journal of Cataract and Refractive Surgery, 2017, 43 (6): 754- 760

DOI:10.1016/j.jcrs.2017.03.040      [本文引用: 1]

MOHAMMADI S F, SABBAGHI M, HADI Z, et al

Using artificial intelligence to predict the risk for posterior capsule opacification after phacoemulsification

[J]. Journal of Cataract and Refractive Surgery, 2012, 38 (3): 403- 408

DOI:10.1016/j.jcrs.2011.09.036      [本文引用: 1]

章佳. 基于模式识别的小儿白内障红反图像诊断研究及术后并发症预测 [D]. 西安: 西安电子科技大学, 2017.

[本文引用: 1]

ZHANG Jia. Research on automatic diagnosis of pediatric cataract retro-illumination image and postoperative complications prediction based on pattern recognition [D]. Xi'an: Xidian University, 2017.

[本文引用: 1]

WERGHI N, SAMMOUDA R, ALKIRBI F

An unsupervised learning approach based on a Hopfield-like network for assessing posterior capsule opacification

[J]. Pattern Analysis and Applications, 2010, 13 (4): 383- 396

DOI:10.1007/s10044-010-0181-y      [本文引用: 1]

VIVEKANAND A, WERGHI N, AL-AHMAD H

Multiscale roughness approach for assessing posterior capsule opacification

[J]. IEEE Journal of Biomedical and Health Informatics, 2014, 18 (6): 1923- 1931

DOI:10.1109/JBHI.2014.2304965      [本文引用: 1]

刘琳. 基于时序红反影像的后发性白内障预测问题研究 [D]. 西安: 西安电子科技大学, 2019.

[本文引用: 1]

LIU Lin. Research on the prediction of posterior capsular opacification based on time series retro-illumination images [D]. Xi'an: Xidian University, 2019.

[本文引用: 1]

KRONSCHLGER M, SIEGL H, PINZ A, et al

Automated qualitative and quantitative assessment of posterior capsule opacification by Automated Quantification of After-Cataract II (AQUA II) system

[J]. BMC Ophthalmology, 2019, 19 (1): 114

DOI:10.1186/s12886-019-1116-z      [本文引用: 1]

JIANG J, LIU X, ZHANG K, et al

Automatic diagnosis of imbalanced ophthalmic images using a cost-sensitive deep convolutional neural network

[J]. Biomedical Engineering Online, 2017, 16 (1): 132

DOI:10.1186/s12938-017-0420-1      [本文引用: 1]

BALTRUŠAITIS T, AHUJA C, MORENCY L P

Multimodal machine learning: a survey and taxonomy

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41 (2): 423- 443

[本文引用: 1]

KIROS R, POPURI K, COBZAS D, et al. Stacked multiscale feature learning for domain independent medical image segmentation [C]// International Workshop on Machine Learning in Medical Imaging. Boston: Springer, 2014: 25-32.

[本文引用: 1]

GU Y, VYAS K, SHEN M, et al

Deep graph-based multimodal feature embedding for endomicroscopy image retrieval

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 32 (2): 481- 492

[本文引用: 1]

SIMONOVSKY M, GUTIÉRREZ-BECKER B, MATEUS D, et al. A deep metric for multimodal registration [C]// International Conference on Medical Image Computing and Computer-assisted Intervention. Athens: Springer, 2016: 10-18.

[本文引用: 1]

LIU S, LIU S, CAI W, et al

Multimodal neuroimaging feature learning for multiclass diagnosis of Alzheimer's disease

[J]. IEEE Transactions on Biomedical Engineering, 2014, 62 (4): 1132- 1140

URL     [本文引用: 1]

ZADEH A, CHEN M, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: ACL, 2017: 1103-1114.

[本文引用: 2]

LIU Z, SHEN Y, LAKSHMINARASIMHAN V B, et al. Efficient low-rank multimodal fusion with modality-specific factors [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: ACL, 2018: 2247-2256.

[本文引用: 4]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980-2988.

[本文引用: 2]

NGIAM J, KHOSLA A, KIM M, et al. Multimodal deep learning [C]// International Conference on Machine Learning. Bellevue: ACM, 2011: 689-696.

[本文引用: 1]

HOU M, TANG J, ZHANG J, et al

Deep multimodal multilinear fusion with high-order polynomial pooling

[J]. Advances in Neural Information Processing Systems, 2019, 32: 12136- 12145

[本文引用: 1]

LUNDBERG S, LEE S I. A unified approach to interpreting model predictions [EB/OL]. (2017-5-22)[2020-11-11]. https://arxiv.org/abs/1705.07874.

[本文引用: 1]

/