多模态多维信息融合的鼻咽癌MR图像肿瘤深度分割方法
Deep segmentation method of tumor boundaries from MR images of patients with nasopharyngeal carcinoma using multi-modality and multi-dimension fusion
通讯作者:
收稿日期: 2019-03-2
Received: 2019-03-2
作者简介 About authors
洪炎佳(1993—),男,硕士生,从事鼻咽癌智能分割及其预后研究.orcid.org/0000-0002-3953-7935.E-mail:
收集421名鼻咽癌患者头颈部水平位T1加权(T1W)、T2加权(T2W)以及T1增强(T1C)三种模态MR图像,并由2名经验丰富的临床医生对图像中的肿瘤区域进行勾画,将其中346位患者的多模态图像及其标签作为训练集,将剩余75位患者的多模态图像及其标签作为独立测试集;分别构建单模态多维信息融合、两模态多维信息融合以及多模态多维信息融合(MMMDF)的卷积神经网络(CNN),并对模型进行训练和测试;使用Dice、豪斯多夫距离(HD)与面积差占比(PAD)评估3种模型的性能,结果表明,多模态多维融合模型的性能最优,两模态多维信息融合模型性能次之,单模态多维信息融合模型性能最差. 结果证明,多模态二维与三维特征融合的深度卷积网络能够准确有效地分割鼻咽癌MR图像中的肿瘤.
关键词:
First, T1-weighted (T1W), T2-weighted (T2W) and T1 enhanced structural MR images of 421 patients were collected, the tumor boundaries of all images were delineated manually by two experienced doctors as the ground truth, the images and ground truth of 346 patients were considered as training set and the remaining images and corresponding ground truth of 75 patients were selected as independent testing set. Second, three single modality, based multi-dimension deep convolutional neural networks (CNN) and three two-modality multi-dimension fusion deep convolutional networks and a multi-modality multi-dimension fusion (MMMDF) deep convolutional neural network were constructed, and the networks were trained and tested, respectively. Finally, the performance of the three methods were evaluated by using three indexes, including Dice, Hausdorff distance (HD) and percentage area difference (PAD). The experimental results show that the MMMDF CNNs can acquire the best performances, followed by the two-modality multi-dimental fusion CNNs, while the single modlity multi-dimension CNNs achieves the worst measures.. This study demonstrates that the MMMDF-CNN combining multi-modality images and incorporating 2D with 3D images features can effectively fulfill accurate segmentation on tumors of MR images from NPC patients.
Keywords:
本文引用格式
洪炎佳, 孟铁豹, 黎浩江, 刘立志, 李立, 徐硕瑀, 郭圣文.
HONG Yan-jia, MENG Tie-bao, LI Hao-jiang, LIU Li-zhi, LI Li, XU Shuo-yu, GUO Sheng-wen.
MR图像由于具有分辨率高、安全性强等优点,常被应用于NPC的诊断和病灶定位. 在制定治疗计划前,临床医生通常需要检查每张MR图像中是否存在病变,并手动勾画出肿瘤边界,由于不同NPC患者间肿瘤形状、大小、位置复杂多变,因此该过程存在工作负担重、对医生经验要求高、受主观影响大等缺点. 因此,研究者纷纷寻求NPC病灶区域的自动勾画方法.
近年来,卷积神经网络(convolutional neural network,CNN)等深度学习(deep learning,DL)方法由于能够直接自动提取图像中从低阶到高阶、从抽象到具体的特征,被广泛应用于医学图像分类、分割以及配准中. 例如,在NPC分割方面,Men等[8]采用编码-解码的全卷积神经网络对NPC患者的CT图像进行分割,并与VGG网络[9]进行比较。结果表明:该网络能够有效提高NPC的分割效果. 同样,Li等[10]采用编码−解码的全卷积神经网络对27例NPC患者的MR图像进行分割,采用留一交叉验证法实现了NPC的自动有效分割,分割Dice值达到0.89. 另外,Ma等[11]采用卷积神经网络对30例NPC患者的T1W模态MR图像病灶区域进行分割,再利用3D图割算法对分割结果进行改进,得到Dice值为0.851. 以上研究所采用的模型均为2D模型,并未考虑3D空间上图像特征的关联,网络结构较简单,且实验数据较少、仅采用了单一模态的图像进行分割,而单种模态影像数据所反映的NPC肿瘤局部信息有限,故模型鲁棒性有待提高.
虽然2D网络具有参数少、模型拟合速度快的优点,但因其没有有效利用层间拓扑结构信息,易出现分割结果准确性较差、边界不连续的情况. 3D网络能克服此不足,然而,3D网络具有参数量较大、模型拟合慢甚至难拟合等缺点. 为此,本研究在Li等[12]提出的H-DenseUnet模型的基础上,将2D与3D信息融合,即以2D网络的快速分割结果来指导3D模型的学习并实施分割,采用T1W、T2W、T1C三种模态的MR图像,提出一种新的多模态多维信息融合的深度分割方法,建立多模态2D-ResUNet与3D-ResUNet多维特征融合模型,以实现NPC病灶的自动准确分割.
1. 研究方法
1.1. 网络结构
深度卷积神经网络结构如图1所示,主要包括多模态2D-ResUNet结构、3D-ResUNet结构以及2D+3D融合层. 整个模型的输入为3D图像
图 1
图 1 多模态、多维度融合的卷积神经网络结构
Fig.1 Multi-modality and multi-dimension fusion CNN structure
首先,假设函数
式中:
将
式中:
式中:
2D-ResUNet与3D-ResUNet的网络层次结构及相应参数如表1所示,采用带残差结构的ResUNet构建模型是因为残差结构能够有效解决梯度消失等问题,并且在计算机视觉任务中已被证明性能优于简单进行卷积层堆叠的网络.该网络结合了2D网络拟合速度快和3D网络空间信息利用充分的优点,利用2D网络的分割结果去指导3D模型的拟合,从而有效地实现模型的训练和测试.
表 1 2D-ResUNet与3D-ResUNet网络结构
Tab.1
网络层 | 2D-ResUNet | 3D-ResUNet | |||
特征图大小 | 网络层大小 | 特征图大小 | 网络层大小 | ||
输入 | 384×384 | — | 384×384×8 | — | |
残差结构1 | 384×384 | [3×3,16]×5 | 384×384×8 | [3×3×3,16]×5 | |
最大池化层1 | 192×192 | 2×2最大池化 | 192×192×4 | 2×2×2最大池化 | |
残差结构2 | 192×192 | [3×3,32]×5 | 192×192×4 | [3×3×3,32]×5 | |
最大池化层2 | 96×96 | 2×2最大池化 | 96×96×4 | 2×2×1最大池化 | |
残差结构3 | 96×96 | [3×3,64]×5 | 96×96×4 | [3×3×3,64]×5 | |
最大池化层3 | 48×48 | 2×2最大池化 | 48×48×2 | 2×2×2最大池化 | |
残差结构4 | 48×48 | [3×3,128]×5 | 48×48×2 | [3×3×1,128]×5 | |
最大池化层4 | 24×24 | 2×2最大池化 | 24×24×2 | 2×2×1最大池化 | |
残差结构5 | 24×24 | [3×3,256]×5 | 24×24×2 | [3×3×1,256]×5 | |
反卷积1 | 48×48 | 3×3,2×2-[残差结构4] | 48×48×2 | 3×3×1,2×2×1-[残差结构4] | |
反卷积2 | 96×96 | 3×3,2×2-[残差结构3] | 96×96×4 | 3×3×3,2×2×2-[残差结构3] | |
反卷积3 | 192×192 | 3×3,2×2-[残差结构2] | 192×192×4 | 3×3×1,2×2×1-[残差结构2] | |
反卷积4 | 384×384 | 3×3,2×2-[残差结构1] | 384×384×8 | 3×3×3,2×2×2-[残差结构1] | |
卷积层 | 384×384 | 1×1,2 | 384×384×8 | 1×1×1,2 |
1.2. 多模态2D卷积
多模态2D-ResUNet结构如图2所示,主要包括3种模态图像的编码器、多模态卷积结构、解码器以及编码器-解码器间的跳跃连接结构. 编码器由带残差结构的卷积块与最大池化层组成,解码器由带残差结构的卷积块和反卷积层组成,将3种模态图像经编码器中的每一池化层进行池化,再将经池化后的3种特征图进行卷积运算,从而实现多模态2D特征的融合. 具体实现过程如下:3种模态图像经过相同层次的卷积和池化后的特征图具有相同的尺寸,通过在图像深度的方向上对3种特征图进行合并,可生成深度为3的3D特征图,再通过大小为(1,1,3)的卷积核以(1,1,3)为步长对该特征图进行卷积,从而将特征图深度转化为1,实现3种模态特征的深度融合. 经多模态卷积后的特征图,通过跳跃连接结构与解码器相同层次的特征图相加,从而减少反卷积过程中的信息丢失.
图 2
1.3. 多模态3D-ResUNet
如图1所示,多模态3D-ResUNet的输入为多模态2D-ResUNet的分割概率图
1.4. 损失函数计算
本研究的鼻咽癌患者MR图像中,肿瘤区域相对于整幅图像而言,占比很小,即肿瘤区域面积远小于非肿瘤区域面积,因此采用Dice损失[13]作为基本损失函数,Dice定义如下:
式中:P为模型的输出结果,G为真实标签,即人工勾画的肿瘤轮廓.
Dice损失定义为
模型总损失包括两部分:2D-ResUNet的损失L2D以及2D+3D融合层损失LF,模型总损失为这2个损失的加权和:
式中:
2. 实验数据
共收集421名NPC患者T1W、T2W、T1C三种脑结构MR图像,采用1.5T GE MEDICAL SYSTEMS水平位扫描。所有患者同种序列图像的成像参数相同,其中,T1W图像的参数为TR=666 ms,TE=9.17 ms,DFOV=20 0 mm,层厚为5 mm,共32层;T1C图像的参数为TR=650 ms,TE=9.17 ms,DFOV=200 mm,层厚为5 mm,共32层;T2W图像的参数为TR=3 100 ms,TE=82.51 ms,DFOV=200 mm,层厚为5 mm,共32层,所有3D图像水平位切片分辨率均为512×512. 由2名经验丰富的临床医生对T2W模态图像肿瘤区域进行手工勾画,确定分割标签. 从所有421名被试人中随机选择346名患者的图像作为训练集,剩余75名患者的图像作为独立测试集,训练集和测试集的信息如表2所示.
表 2 鼻咽癌(NPC)分割模型的训练集和测试集信息
Tab.2
数据集 | 被试数量 | 人数(男/女) | 年龄(均值±标准差) |
训练集 | 346 | 254/92 | 45.5±11.9 |
测试集 | 75 | 55/20 | 44.9±11.6 |
3. 实验结果
3.1. 评估指标
采用Dice系数、豪斯多夫距离(Hausdorff distance,HD)以及面积差占比(percentage of area difference,PAD)作为模型效果的评估指标. HD以及PAD定义如下:
式中:
HD与PAD的值越小,表明模型分割结果与人工勾画结果越接近,说明模型性能越好.
3.2. 训练与测试
首先利用单模态2D-ResUNet和3D-ResUNet以及2D+3D融合层对T1W、T2W和T1C三种模态数据分别构建单模态多维融合模型,分别为T1W-MDF、T2W-MDF、T1C-MDF;然后,将T1W、T2W和T1C两两分别组合,即将T1W+T2W、T1W+T1C和T2W+T1C共3种双模态图像分别作为3D图像的2个通道,对3D图像进行重组后,将2种模态图像作为多模态2D-ResUNet各编码器的输入,将2D-ResUNet输出概率图与2种模态3D输入图像合并后输入到3D-ResUNet中,再通过2D+3D融合层构建两模态多维信息融合分割模型,分别为T1W+T2W-MDF、T1W+T1C-MDF、T2W+T1C-MDF;最后,将T1W、T2W和T1C三种模态图像分别作为3D图像的三通道,对3D图像进行重组后,将各模态图像作为多模态2D-ResUNet各编码器的输入,而将多模态2D-ResUNet输出概率图与多模态3D输入图像合并后输入到3D-ResUNet中,再通过2D+3D融合层构建多模态多维信息融合(multi-modality multi-dimension fusion, MMMDF)分割模型.
采用Tensorflow[14]软件库构建模型,训练阶段的初始学习率为0.001,每4轮乘以0.9进行衰减,采用Adam优化器进行优化. 显卡为NIVIDIA Titan XP GPU,单模态多维融合模型、双模态多维融合模型与多模态多维融合模型的训练时间分别为23 h 37 min、30 h 24 min以及34 h 47 min. 测试阶段3类模型中每个患者的测试时间分别约为13、18以及22 s.
表 3 不同鼻咽癌分割模型的性能比较
Tab.3
图 3
图 3 7种鼻咽癌分割模型性能箱形图比较
Fig.3 Box plot comparison on performances of seven NPC segmentation models
由表2及图3可知,MMMDF模型的分割性能优于以T1W、T2W和T1C任一单模态作为输入的模型,并优于任一两模态多维融合分割模型. 将MMMDF分割结果与3种两模态多维融合分割结果进行统计检验,结果显示,dice系数、面积差占比以及豪斯多夫距离的P值均小于0.05,表明MMMDF模型的分割性能比任一两模态多维融合模型性能更优,且具有统计性差异. 采用多模态作为2D-ResUNet的输入,在网络卷积过程中,将不同模态的信息进行融合:另外,采用多模态图像作为3D-ResUNet的输入,将不同模态间的信息再次进行融合,因此融合模型的效果优于单模态输入的效果. 此外,由于采用多维度模型串联的方式,同时结合了2D模型拟合速度快和3D模型特征学习充分的优点,最终在测试集上得到了较优的分割效果.
由表2可知,相比于其他文献中提到的方法,本文提出的MMMDF分割模型在NPC分割性能上有显著的提高. 这是由于这些文献中的研究仅采用简单的2D编码-解码网络,或基于此对网络结构进行微调,同时仅采用单种模态图像.
图 4
图 4 7种不同鼻咽癌分割模型的分割结果(部分二维断面)比较
Fig.4 Comparison of segmentation results (part of 2D slices) of seven different NPC segmentation models
图 5
图 5 7种不同鼻咽癌分割模型的分割结果(部分三维断面)比较
Fig.5 Comparison of segmentation results (part of 3D slices) of seven different NPC segmentation models
4. 结 语
为了实现鼻咽癌患者病灶的准确分割,本研究收集了NPC患者头颈部T1W、T2W和T1C三种模态MR图像,建立了一种新的多模态多维信息融合深度学习分割模型. 实验结果表明,与单种模态多维融合模型及公开发表的其他鼻咽癌病灶分割方法相比,多模态多维信息融合模型能更准确地定位病灶,显著提高分割效果. 本文提出的方法能够有效地实现NPC肿瘤的自动准确定位,为NPC的诊断与治疗提供了客观依据,提高了诊治效率与水平.
本研究主要有以下4点不足:1)采集了421名患者的3种模态MR图像,患者样本数量少,继续增加样本量,会有利于提高分割模型的泛化能力;2)MR图像的分辨率较低,层厚为5mm,空间结构信息不连续或部分缺失,一方面,给训练样本的肿瘤区域勾画带来困难,另一方面,不利于3D分割模型有效利用图像的层面拓扑结构信息;3)部分面积非常小的肿瘤区域,模型的分割性能较低,需要重点研究如何利用相邻层的肿瘤区域信息,改山分割结果;4)不同模态图像,部分出现位置差异。保证空间位置一致将有助于提高模型的可靠性与适应性。
参考文献
The enigmatic epidemiology of nasopharyngeal carcinoma
[J].DOI:10.1158/1055-9965.EPI-06-0353 [本文引用: 1]
中国2003—2007年鼻咽癌发病与死亡分析
[J].DOI:10.3781/j.issn.1000-7431.2012.03.007 [本文引用: 1]
Analysis of the incidence and mortality of nasopharyngeal carcinoma in China from 2003 to 2007
[J].DOI:10.3781/j.issn.1000-7431.2012.03.007 [本文引用: 1]
Artificial neural networks for automatic segmentation and identification of nasopharyngeal carcinoma
[J].DOI:10.1016/j.jocs.2017.03.026 [本文引用: 1]
Deep deconvolutional neural network for Target segmentation of nasopharyngeal cancer in Planning computed Tomography images
[J].DOI:10.3389/fonc.2017.00315 [本文引用: 4]
Tumor segmentation in contrast-enhanced magnetic resonance imaging for nasopharyngeal carcinoma: deep learning with convolutional neural network
[J].
Automated nasopharyngeal carcinoma segmentation in magnetic resonance images by combination of convolutional neural networks and graph cut
[J].
H-DenseUNet: hybrid densely connected unet for liver and tumor segmentation from ct volumes
[J].DOI:10.1109/TMI.2018.2845918 [本文引用: 1]
Automatic nasopharyngeal carcinoma segmentation using fully convolutional networks with auxiliary paths on dual-modality PET-CT images
[J].DOI:10.1007/s10278-018-00173-0 [本文引用: 3]
/
〈 |
|
〉 |
