文章快速检索     高级检索
  浙江大学学报(工学版)  2018, Vol. 52 Issue (4): 788-797  DOI:10.3785/j.issn.1008-973X.2018.04.024
0

引用本文 [复制中英文]

王洪凯, 陈中华, 周纵苇, 李迎辞, 陆佩欧, 王文志, 刘宛予, 于丽娟. 机器学习算法诊断PET/CT纵膈淋巴结性能评估[J]. 浙江大学学报(工学版), 2018, 52(4): 788-797.
dx.doi.org/10.3785/j.issn.1008-973X.2018.04.024
[复制中文]
WANG Hong-kai, CHEN Zhong-hua, ZHOU Zong-wei, LI Ying-ci, LU Pei-ou, WANG Wen-zhi, LIU Wan-yu, YU Li-juan. Evaluation of machine learning classifiers for diagnosing mediastinal lymph node metastasis of lung cancer from PET/CT images[J]. Journal of Zhejiang University(Engineering Science), 2018, 52(4): 788-797.
dx.doi.org/10.3785/j.issn.1008-973X.2018.04.024
[复制英文]

基金项目

国家自然科学基金资助项目(61571076,81671771,81171405);国家自然科学基金青年基金资助项目(81401475);辽宁省自然科学基金资助项目(2015020040);国家自然科学基金重大研究计划培育计划资助项目(91546123);大连理工大学星海学者人才培育计划资助项目(844307)

作者简介

作者简介:王洪凯(1981-), 男, 副教授, 从事医学图像处理研究.
orcid.org/0000-0002-1813-2162.
Email: wang.hongkai@dlut.edu.cn

通信联系人

于丽娟, 女, 教授, 主任医师.
orcid.org/0000-0001-7540-4964.
Email: yulijuan2003@126.com

文章历史

收稿日期:2017-02-04
机器学习算法诊断PET/CT纵膈淋巴结性能评估
王洪凯1, 陈中华1, 周纵苇2, 李迎辞3, 陆佩欧3, 王文志3, 刘宛予4, 于丽娟3     
1. 大连理工大学 生物医学工程系, 辽宁 大连 116024;
2. 亚利桑那州立大学 生物信息学院, 斯科茨代尔 85259;
3. 哈尔滨医科大学附属肿瘤医院, 黑龙江 哈尔滨 150081;
4. 哈尔滨工业大学 HIT-INSA中法生物医学图像研究中心, 黑龙江 哈尔滨 150001
摘要: 评估4种主流典型的机器学习方法(随机森林、支持向量机、AdaBoost、反向传播人工神经网络)对(18F-FDG)PET/CT影像中非小细胞肺癌纵膈淋巴结良恶性进行诊断分类的性能.先从168例病人的PET/CT影像中分割出1 397个淋巴结,对每个淋巴结提取出13种图像特征(Dshort、area、volume、HUmean(2D or 3D)、HUcontrast(2D or 3D)、SUVmean(2D or 3D)、SUVmax(2D or 3D)、SUVstd(2D or 3D));将提取出的13种图像特征进行组合,得到4种组合变量(“All features”、“High AUC features”、“Doctor's features”、“3D features”);在4种组合变量下,分别从敏感性、特异性以及ROC曲线下的区域面积(AUCROC)3个方面对随机森林、支持向量机、AdaBoost、反向传播人工神经网络定量地进行诊断性能评估.评估结果显示,4种分类器分割结果的敏感性为77%~84%,特异性为81%~84%,AUCROC为0.86~0.90.在显著性(p < 0.001)条件下对比发现,虽然机器学习方法的特异性略低于人类专家,但是敏感性显著优于人类专家.研究结果表明,三维图像特征及PET/CT影像组合特征可以显著提高AUCROC.基于上述研究结果可以得出结论,虽然4种机器学习方法在(18F-FDG)PET/CT影像的非小细胞肺癌纵膈淋巴结的良恶性诊断中展现了不错的敏感性,但它们的特异性有待进一步提高,在未来需要尝试多种分类方法进行联合实验,使用更高级的机器学习方法如深度学习进行进一步的研究.
关键词: 计算机辅助诊断    纵膈淋巴结    非小细胞肺癌    正电子发射断层成像    机器学习    
Evaluation of machine learning classifiers for diagnosing mediastinal lymph node metastasis of lung cancer from PET/CT images
WANG Hong-kai1 , CHEN Zhong-hua1 , ZHOU Zong-wei2 , LI Ying-ci3 , LU Pei-ou3 , WANG Wen-zhi3 , LIU Wan-yu4 , YU Li-juan3     
1. Department of Biomedical Engineering, Dalian University of Technology, Dalian 116024, China;
2. Department of Biomedical Informatics and the College of Health Solutions, Arizona State University, Scottsdale 85259, US;
3. Center of PET/CT, The Affiliated Tumor Hospital of Harbin Medical University, Harbin 150081, China;
4. HIT-INSA Sino French Research Centre for Biomedical Imaging, Harbin Institute of Technology, Harbin 150001, China
Abstract: The classification performance in diagnosing mediastinal lymph node metastasis of non-small cell lung cancer (NSCLC) was evaluated from (18F-FDG) PET/CT images with four mainstream classical machine-learning classifiers (random forest, support vector machines, adaptive boosting, and back-propagation artificial neural network). 1397 lymph nodes were segmented from 168 patients' PET/CT images, and 13 kinds of image features (Dshort, area, volume, HUmean(2D or 3D), HUcontrast(2D or 3D), SUVmean(2D or 3D), SUVmax(2D or 3D), SUVstd(2D or 3D)) were extracted from each lymph node. The extracted 13 kinds of image features were combined to get 4 kinds of combinatorial variables ("All features", "High AUC features", "Doctor's features", "3D features"). The diagnostic performance of random forest, support vector machines, adaptive boosting, and backpropagation artificial neural networks were quantitatively evaluated according to the four kinds of combinatorial variables in terms of sensitivity, specificity and area under the ROC curve (AUCROC). The evaluation results show that the four classifiers yielded sensitivity are between 77%-84%, specificity between 81%-84% and AUCROC between 0.86-0.90. Under the significant contrast conditions (p < 0.001), although the specificity of machine learning methods is slightly lower than that of human experts, but the sensitivity is significantly better than that of human experts. Results showed that 3D features and PET-CT combined features resulted in significant improvement of AUCROC. Although the 4 kinds of machine learning methods demonstrate promising sensitivities for mediastinal lymph node metastasis of non-small cell lung cancer diagnosis from (18F-FDG) PET/CT images, their specificities still need to be improved. A variety of classification methods are needed to conduct joint experiments in the future, and more advanced machine learning methods such as deep learning will be used for the further study.
Key words: computer-aided diagnosis    mediastinal lymph node    non-small cell lung cancer    positron emission tomography    machine learning    

恶性肿瘤是危害人类健康的严重疾病[1].目前,临床上存在多种模态的影像技术辅助诊断恶性肿瘤[1].近年来,使用PET/CT影像诊断非小细胞肺癌得到了较广泛的研究[2-5].许多研究侧重于评估氟代脱氧葡萄糖(18F-FDG)PET/CT影像在诊断纵膈淋巴结良恶性方面的功效[6-13],诊断方法多是对某种影像特征进行阈值判别,如最大短径、最大标准摄取值(SUVmax)或平均标准摄取值(SUVmean)等.由于影像特征的数量有限,并且基于阈值的判别方法过于简单,使得PET/CT影像的诊断能力可能没有得到充分的利用.根据一篇关于过去10年使用18F-FDG PET/CT诊断非小细胞肺癌纵膈淋巴结转移的最新综述[14]显示,近年来相关研究的敏感性中值仅为62%,这意味着有很大一部分是假阴性判断.为了提高PET/CT影像诊断非小细胞肺癌纵膈淋巴结转移的敏感性,需要更复杂的特征分类策略,结合计算机机器学习算法来进行辅助诊断.

计算机辅助诊断(computer assisted diagnosis, CAD)医学影像的方法已经发展了数十年.利用典型的图像分割方法,结合病变组织的生理学及成像特点进行病变组织提取,是CAD普遍采用的研究策略[15].在该领域的许多方法没有用在核医学上面,而是用于X射线、CT、MR、超声[16-19]等影像模式.近年来,关于纵膈PET或CT影像的机器学习诊断方法成为新的研究方向,但其中大多数集中于淋巴结的定位[20-21]和划分[22-24],只有极少数涉及到肿瘤的定性诊断. Lambin等[25]在基于纵膈PET/CT影像、电子医疗记录和DICOM-RT对象的基础上,使用支持向量机(support vector machines, SVM)对患者的存活率进行建模,但他们的目的不是诊断良恶性.我们研究组在PET/CT[26]影像中使用SVM判断纵膈淋巴结的代谢活性,但该研究作为前期研究,诊断精度需要进一步的改进.

为了进一步探索机器学习技术在PET/CT影像中诊断非小细胞肺癌纵膈淋巴结转移的作用,对4种主流机器学习分类器的性能进行评估.选择的分类器包括随机森林(random forest, RF)、支持向量机(SVM)、AdaBoost(adaptive boosting)以及反向传播人工神经网络(back-propagation artificial neural network, BP-ANN).这些算法被广泛用于CT和MR等影像的CAD系统中,但是没有很好地应用在PET/CT影像中.

研究病变组织的特征提取方法,图像的形状、灰度、纹理是最常提取的特征.研究针对不同病变组织的特异性特征及量化方法,是特征提取的研究热点[15].为了挑选分类器的输入特征,采用临床上医生广泛使用的特征,以便基于相似的特征来对比计算机和人类专家的诊断能力.为了超越人类的视觉感知,将二维影像的特征延伸到三维,以此来验证这种延伸是否可以提高诊断效果.

该研究所用的淋巴结影像是在日常临床诊断中由读片医生人工定位的,因此本文的重点放在了对已经定位的淋巴结的诊断判别.CT图像中的肺部分割及病灶的自动定位是计算机辅助诊断纵膈淋巴结癌变的重要前期处理步骤,这方面的研究可以参见近期文献[27~29].

1 材料和方法 1.1 数据来源

作为回顾性研究,从哈尔滨医科大学附属肿瘤医院的数据库中,获取了2009年6月至2014年9月期间的168例患者的18F-FDG PET/CT影像数据,从中挑选出1 397个发生癌变的淋巴结.所有淋巴结均通过病理诊断,确定恶性(阳性)或良性(阴性)属性,其中阳性和阴性分别是1 270和1 27个,详细情况见图 1表 1.每幅子图中第1行为CT图像,第2行为PET图像,十字线定位淋巴结中心.对比图 1(a)(b)可知,一般情况下,CT图中显示尺寸较小的淋巴结为良性,且在同一部位的PET图中淋巴结的SUV相应较低;相反,CT图中尺寸较大,PET图中SUV较高的淋巴结一般为恶性.另一种情况是,在实际的临床影像中,小尺寸、低SUV的淋巴结有可能是恶性的,大尺寸、高SUV的淋巴结有可能是良性的.当医生在进行实际判断,遇到这种情况时,很容易导致对淋巴结的良恶性判断出错.如在图 1(c)中,如果医生按照图 1(a)的经验将尺寸较小且低SUV的淋巴结判定为良性,这将会导致医生对淋巴结假阴性的误判;图 1(d)中,如果医生按照图 1(b)的经验将尺寸较大并且高SUV的淋巴结判断为恶性,这将会导致医生对淋巴结假阳性的误判.计算机辅助诊断将有利于为医生对淋巴结良恶性判断提供参考信息,所以引入机器学习算法的计算机辅助诊断显得尤为重要.

图 1 PET/CT图像中良、恶性纵膈淋巴结NSCLC的影像 Fig. 1 Images of benign and malignant mediastinal lymph nodes NSCLC in PET/CT images
表 1 患者以及淋巴结的特征 Table 1 Patient and lymph node characteristic

选取的PET/CT影像均采集于患者手术前一周.所使用的成像设备为Discovery ST PET-CT扫描仪(GE医疗,密尔沃基,美国).在进行影像扫描之前,所有患者禁食需要超过4 h,以确保血糖浓度低于6.0 mmol/L.患者静脉注射放射化学纯度≥97%的300~400 MBq的18F-FDG,示踪剂生成设备为GE Minitracer回旋加速器及Tracer Lab FX-FDG合成器.患者在注射后休息1 h,然后接受浅呼吸状态下的全身CT扫描.其中CT扫描仪采用120 kV、140 mA技术,0.5 s/转,1.25:1螺距比,3.75 mm层厚,1.37mm的平面空间分辨率和20~30 s扫描时间.三维采集模式下的PET扫描是在浅呼吸状态下开展的.在以每床位置2.5 min发射时间间隔内,每位患者需要进行6个或者7个床位扫描.所产生的PET影像通过迭代算法进行重建,利用CT影像衰减校正.

基于所得的PET/CT影像,由4名医生(其中2名拥有超过10年经验)完成了淋巴结良恶性的诊断.为了减小不同人之间的主观诊断差异,最终的诊断结果是经过所有医生的共同讨论达成的.医生的诊断依据包括影像中肿瘤的最大短径、最大标准摄取值SUVmax、平均标准摄取值SUVmean、CT影像中肿瘤与周围组织之间的视觉对比以及淋巴结地图中的位置等因素[30].

1.2 机器学习分类器

测试了已广泛应用于医疗领域的4种主流机器学习分类器,即随机森林(RF)、支持向量机(SVM)、AdaBoost和反向传播人工神经网络(BP-ANN).对每个分类器的原理进行简介,受篇幅限制,可以参考文献[31]来详细了解这些算法.测试每个算法所使用的算法参数是通过对参数空间进行遍历性网格采样(grid search)测试来确定最优参数的.

随机森林(RF)是一种集成学习方法.该方法结合多重决策树来处理分类和回归分析的问题.每个决策树用分层的方式来预测类的标签,以便让每个树节点从输入特征集的一个随机样本中判断分裂的决策.整个森林的输出结果是对所有的树决策结果的综合.这种组合与表决的策略克服了单棵树的过度拟合问题.树木的数量和每棵树的深度决定了整个森林的分类能力.使用包含100棵决策树的分类森林.每棵树的深度根据最小叶子节点尺寸为1的原则来确定.每种决策分裂使用的特征数目设定为总特征数目的平方根.

支持向量机(SVM)使用核函数根据映射空间测度,将输入特征从低维空间映射到更高维的特征空间.通过这种基于核函数的映射,支持向量机能够实现比传统线性分类方法更好的分类能力.核函数的选择极大地影响支持向量机的性能,使用半径为2.0的高斯径向基函数作为核函数,同时使用序列最小优化方法寻找分离的超平面.

AdaBoost算法属于集成学习方法,它由一系列弱分类器级联而成.通过这种级联方式,使得前面分类器的错误分类样本能够为后续的分类器训练提供更大的权重.在这种方式下,多个弱分类器可以组合成一个强分类器.该研究采用浅层决策树作为弱分类器,组合中包含300棵最大分裂数目为1的浅层决策树,学习速率设定为0.1.

反向传播人工神经网络(BP-ANN).人工神经网络(ANN)含有数层相互连接的神经元,通过模仿生物神经网络的结构来拟合输入和输出数据之间的复杂的非线性关系.上层的神经元把下层神经元信号的权重总和的输出作为输入.每个连接的权重通过反向传播策略减少层间的反向传播预测误差来进行优化.一个人工神经网络的层数和神经元数取决于自身的预测能力,为了避免出现过度拟合的现象,层数和神经元的数目应为特定的应用进行设定.该研究采用分别含有50个神经元和26个神经元的两个隐层网络,设置学习速率为0.04,最后进行1 000次训练.

1.3 影像特征

为了计算基于影像的特征,对淋巴结所在的每一层断层影像使用区域生长法进行分割,随后对多层分割结果进行三维容积重建.基于这些二维和三维的分割结果,一共计算了13个影像特征,特征的定义详见表 2.需要强调的是,特征HUmean、HUcontrast、SUVmean、SUVmax和SUVstd在二维和三维影像中都进行了计算,其中二维特征是基于经过肿瘤几何中心的轴向横截面计算的,三维特征是基于重建的体积计算的.引入三维特征是为了弥补医生在平面影像上目视检查的局限.在这13个特征中,DshortAV对应淋巴结的空间尺寸,HUmean对应组织密度,SUVmean和SUVmax表示淋巴结糖代谢水平.由于恶性肿瘤容易和周围的组织融合,用HUcontrast测量淋巴结和附近组织之间的密度差.由于某些恶性肿瘤具有坏死性内核,在PET影像上表现为周边亮中心暗的不均匀特征,用SUVstd来衡量淋巴结内代谢水平的不均匀性.

表 2 该研究所采用的13个影像特征 Table 2 13 image features of this study
2 实验结果 2.1 医生诊断

在对1 397个淋巴结进行诊断时,人类医生在PET/CT影像中诊断出了84个阳性和1 181个阴性的淋巴结.诊断的敏感性和特异性分别为66%和93%.参考了过去10年里全球范围17个研究单位的医生诊断的敏感性和特异性[13],17个组的敏感性和特异性中值分别为62%和90%,这些结果和我们的医生诊断结果相似.

2.2 特征分布和判别能力

对于这所有的1 397个样品,13个特征分布见图 2.互相对应的二维和三维特征绘制在同一列中.阳性和阴性组之间的p值被绘制为桥和星号,其中p<0.05,p<0.01和p<0.001分别被绘制为1个、2个和3个星号, 无星号表示不显著.该研究使用Shapiro-Wilk正态性检验来评估每个样品特征的正态分布属性,根据是否符合正态分布,使用独立样本t检验或Wilcoxon符号秩检验来分析阳性和阴性组之间的独立性.对于大多数特征,两组的分布呈现显著不同,证明了所挑选的影像特征的有效性.

图 2 每个特征的病理阳性和阴性的分布线框图 Fig. 2 Distribution Box-plots of pathologically positive and negative groups of each feature

为了进一步检验这13个特征的判别能力,对每个特征绘制了受试者工作特征曲线(response receiver operating characteristic,ROC),计算了图中的曲线下面积(AUC). 图 3中,Sp为特异性,Sen为敏感性.AUC被标记在各曲线的顶部.互相对应的二维和三维特征绘制在同一列中.医生用于诊断的特征Dshort、2D HUcontrast、2D SUVmean和2D SUVmax的AUC都超过了0.7,这意味着医生通过多年的临床实践挑选出了很好的分类特征.

图 3 每个特征的ROC曲线 Fig. 3 ROC curve of each feature
2.3 机器学习分类器的性能

使用机器学习分类器,对由13个特征构成的4种不同组合基础上进行评估,结果如表 3所示.除了“All features”的组合,测试了3种简化的特征集,其中“High AUC features”组合只用了AUC>0.7的特征,“Doctor's features”的组合包含了医生用于诊断的特征,“3D features”包括所有从淋巴结体积计算出的特征(不含“3D HUmean”,因为AUC太小,不具备较强的分类能力,被筛选掉).

表 3 用于测试机器学习的4种影像特征结合 Table 3 Four combinations of image features used for testing machine learning methods

对每个分类器在4种特征组合的基础上进行验证,得到4×4=16对敏感性和特异性.使用交叉验证方案,从1 397个淋巴结中随机挑选出200个样本(100个阴性和100个阳性)进行训练,剩下的作为测试样本.这种交叉验证重复了300次,计算了300次验证的平均值和标准差.

除了二值化的分类结果,每个分类器输出了对每个测试样本的良恶性评分.该评分为[0, 1],0表示阴性,1表示阳性,其他数值介于两者之间,被视为是呈阳性的程度.基于这种良恶性评分,可以绘制出每个分类器的ROC曲线,并可以计算不同特征组合之间差异的显著性.为了验证计算结果的显著性,实验中根据分数的正态分布属性,使用t检验或Wilcoxon秩次检验计算不同特征组合的分数之间的p. SenSp的结果及ROC曲线下面积AUCROC图 4所示.图中,为了便于比较,医生在该研究中的灵敏度和特异性分别被绘制为图 4(a)(b)中的水平线.对于每一个分类器,不同的特征组合之间的p值在图 4(c)中被绘制为桥和星号,其中p<0.05,p<0.01和p<0.001分别被绘制为1个、2个和3个星号,无星号表示不显著.

图 4 基于4种特征组合的4种机器学习分类器的性能 Fig. 4 Performance of four machine learning classifiers based on four combinations of features

图 4(a)(b)可见,所有的分类器具有比医生(66%)更高的敏感性(77%~84%),并且高出了11%~18%.所有分类器的特异性(81%~84%)比医生(93%)低9%~12%.从图 4(c)可以看出,所有分类器的AUCROC均大于0.85,最大的AUCROC(0.91)属于使用“All features”的随机森林.与先前研究中使用的支持向量机(AUCROC= 0.69)相比,该研究的4种机器学习方法有较大的改善.在该研究的所有分类器中,按照“All features”、“High AUC features”、“Doctor's features”和“3D features”排序,AUCROC一直减小,大部分特征组合之间的差异显著,这些结果将在后续的讨论部分详细分析.

为了比较不同算法之间以及各种算法与人工诊断之间的差异性,选择“All features”组合作为各分类器的输入,可以获得所有测试样品的分类结果(阳性或阴性).选择“All features”是因为这种特征组合对于不同分类器均得到了最好的AUCROC(参见图 4(c)).利用4种机器学习方法从1 397幅PET/CT图中进行淋巴结良恶性判断后,从中挑选出具有代表性的部分二维检测结果图,如图 5所示.图 5(a)~(c)是对良性淋巴结得到的算法和医生检测结果对比图,图 5(d)~(f)是对恶性淋巴结得到的算法和医生检测结果对比图.结果发现,医生和算法都趋向于会将大尺寸、高SUV的淋巴结误判为恶性,将小尺寸、低SUV的淋巴结判断为良性.对于尺寸、SUV两个特征值处于中间状态的淋巴结,算法比医生作出了更多的正确判断.另外,由于无论对良性还是恶性淋巴结,未发现4种算法均同时判断错误的个例,因此在图 5中没有展示4种算法均错的示例.

图 5 4种主流机器学习分类算法所获得的典型分类结果图 Fig. 5 Typical classification results of four mainstream machine learning classification algorithms

因为利用不同算法得到的良恶性评分不是依据同样的计算原理,不能通过评分值直接进行对比.对二值化的良恶性判别结果进行对比,使用适用于二值样本的McNemar检测来比较不同分类器结果之间的差异以及每个分类器和医生之间的差异.通过研究发现,4种分类器之间无显著差异,但分类器和医生之间的p低于0.000 1,该结果是相当显著的.

为了进一步比较人类操作者和机器学习分类器,从文献[14]中检索了17组人工操作的灵敏特异性记录.由于随机森林算法产生最大的AUCROC (0.91),挑选随机森林算法作为计算机算法的代表与人进行比较.如图 6所示为这17组人类结果与随机森林算法的ROC曲线的对比效果.图中,圆圈表示来自文献[13]的17例人工分类结果.除了含有100%的敏感性或特异性的4组人类结果之外,大多数人类结果均处于随机森林的ROC曲线下方.

图 6 基于“All features”特征组合的随机森林算法结果的ROC曲线 Fig. 6 ROC curve of random forest algorithm outcome based on combination of 'All features'

在算法速度方面,支持向量机是最快的,在主频为2.2 GHz的双核酷睿i7的CPU上只花了0.38 s训练完200个含有“所有特征”的样本.在同样配置下,随机森林和AdaBoost算法分别花了0.57和4.28 s.反向传播人工神经网络是最慢的,CPU花了309 s对样本进行训练,基于NVIDIA Tesla K40C显卡的GPU加速需要花费13.38 s的时间进行训练.在训练结束后,对于测试来说,所有分类器的速度是很快的,在测试带有“All features”的1 197个样品时,支持向量机、随机森林、AdaBoost花费时间少于0.1 s,反向传播人工神经网络花费的时间为0.33 s.

3 结果讨论 3.1 影像特征

观察每个单一特征的分布和判别能力,将特征结合到不同的集合中来验证机器学习分类器.从图 3可以看出,PET中的特征比CT中的特征具有更高的AUC,验证了PET在淋巴结转移诊断中的价值.三维PET特征相对于二维PET特征具有更大的AUC值,这可能是因为在三维体中计算SUVmean、SUVmax和SUVstd比在二维面中计算更准确. HUcontrast具有相当高的AUC(0.81),这意味着肿瘤和其临近组织之间的HU差异是一个显著的特征.三维影像中的HUmean和HUcontrast的AUC都比对应的二维影像低,这可能是因为CT片厚度(3.75 mm)过大,使得淋巴结和周围组织之间的边界变得模糊,从而影响了三维影像中HUmean和HUcontrast的计算.对于和尺寸大小相关的特征,体积比面积具有更高的AUC,但A的AUC比Dshort低很多.类似的现象已有其他学者观察到[31],即横截面积作为二维特征,分类能力不显著.

3.2 分类器性能

该研究中的一个关键问题是如何比较不同的分类器和不同特征组合的性能.如果仅从图 4(a)(b)的敏感性和特异性判断,无法严格判断哪种分类器或哪些特征组合得到的结果更好.例如,含有“Doctor's features”的支持向量机有最高的平均灵敏度(84.94%),但相应的平均特异性是最低的(76.94%).可以使用ROC来比较不同的分类器及不同的特征组合.从图 4(c)可以看出,对于每个分类器“All features”,给出最高AUCROC. “High AUC features”比“All features”具有更低的AUCROC,但这种区别只是在对比AdaBoost和反向传播人工神经网络时才明显. “High AUC features”总是优于“Doctor's features”,这意味着在医生特征上增加三维特征能够显著改善分类器的性能.该发现在以往的研究中没有提及到.

当比较“Doctor's features”与“3D features”时,前者总是有较大的AUCROC,但仅在反向传播人工神经网络中,这种区别显著.尽管“3D features”集包含具有显著区分能力的PET特征,如3D SUVmean、3D SUVmax和3D SUVstd,但是这个特征集缺乏CT的特征,因此性能有限.这一发现强调了PET和CT两者之间的互补性.

由于实验结果没有表明4种分类器的分类结果之间有显著差异,该实验无法判断哪一种方法最好.考虑到时间性能,建议不使用反向传播人工神经网络.最近,在神经网络的研究领域中,深度神经网络(DNN)(比该研究的神经网络具有更多的神经元层)越来越多地用于改善敏感性和特异性[21, 33-34]. DNN比反向传播人工神经网络需要更多的训练数据,超出了该研究的数据规模,因此不在该研究的范围之内.

3.3 计算机对比人类

基于该研究的结论,不能严格表明机器学习算法的性能显著优于医生,这是目前模式识别算法应用于PET/CT影像诊断的现状.通过和该研究组的医生进行比较,机器学习算法牺牲了9%~12%的特异性,提升了11%~18%的敏感性.和近年来文献[14-19]中的人工操作员相比,计算机算法的ROC高于大多数人工结果(见图 6),这表明本实验的算法性能优于文献[14~19]中人工操作的结果,但这种比较是在不同的数据集基础上开展的,只能代表定性的趋势.总而言之,尽管该研究中计算机算法比人类改善了敏感性,但是综合优势是微弱的.

图 5可知,当样本是良性时,算法和医生都能够对小尺寸、低SUV的淋巴结进行正确判断,对大尺寸、高SUV的淋巴结进行错误判断;当样本是恶性时,算法和医生都能够对大尺寸、高SUV的淋巴结进行正确判断,对小尺寸、低SUV的淋巴结进行错误判断;对于一些尺寸和SUV均处于中间状态(尺寸约为3 mm、SUV为0.5~1.5)的恶性淋巴结,医生难以区分淋巴结的良恶性,算法可以凭借对多种特征的综合判断得出正确结果,造成了机器学习算法比人类医生具有更好的敏感性.另一方面,无论样本是良性还是恶性,均未观察到所有算法都判断错误的情况,这说明不同算法的分类能力具有一定的互补性,表明未来的研究可以考虑联合多种算法来提高分类的正确性.

4 结语

评估了4种机器学习方法(随机森林、支持向量机、AdaBoost、反向传播人工神经网络)对(18F-FDG)PET/CT影像中非小细胞肺癌纵膈淋巴结良恶性进行诊断分类的性能.研究表明:1)在淋巴结PET/CT影像中13种特征组合的基础上,4种机器学习方法在淋巴结的良恶性诊断中特异性略低于人类专家,敏感性显著高于人类专家;2)三维图像特征及PET/CT影像组合特征可以显著提高该研究的4种机器学习方法的AUCROC.在下一步研究中,将测试更多的影像特征来提高算法的性能,在上述研究发现的基础上,尝试多种分类方法联合实验.

参考文献
[1]
齐守良, 岳勇, 辛军, 等. 面向临床肿瘤诊疗决策的多模态医学影像融合[J]. 中国生物医学工程学报, 2013, 32(3): 356-362.
QI Shou-liang, YUE Yong, XIN Jun, et al. Fusion of multi-modality medical imaging information for clinical decision in tumor diagnosis and treatment[J]. Chinese Journal of Biomedical Engineering, 2013, 32(3): 356-362.
[2]
MCFIELD D, BAUER T. A review of noninvasive staging of the mediastinum for non-small cell lung carcinoma[J]. Surgical Oncology Clinics of North America, 2011, 20(4): 681-690.
[3]
SILVESTRI G A, GOULD M K, MARGOLIS M L, et al. Noninvasive staging of non-small cell lung cancer:ACCP evidenced-based clinical practice guidelines (2nd edition)[J]. Chest, 2007, 132(3): 178S-201S. DOI:10.1378/chest.07-1360
[4]
BRODERICK S R, MEYERS B F. PET staging of mediastinal lymph nodes in thoracic oncology[J]. Thoracic Surgery Clinics, 2012, 22(2): 161-166. DOI:10.1016/j.thorsurg.2011.12.004
[5]
KIM S K, ALLEN-AUERBACH M, GOLDIN J, et al. Accuracy of PET/CT in characterization of solitary pulmonary lesions[J]. Journal of Nuclear Medicine, 2007, 48(2): 214-220.
[6]
LI Xiao-lin, ZHANG Hua-qi, XING Li-gang, et al. Mediastinal lymph nodes staging by 18F-FDG PET/CT for early stage non-small cell lung cancer:a multicenter study[J]. Radiotherapy and Oncology, 2012, 102(2): 246-250. DOI:10.1016/j.radonc.2011.10.016
[7]
SCHMIDT-HANSEN M, BALDWIN D R, HASLER E, et al. PET-CT for assessing mediastinal lymph node involvement in patients with suspected resectable non-small cell lung cancer[J]. Cochrane Database of Systematic Reviews, 2014, 11(11): CD009519.
[8]
DE-LEYN P, VANSTEENKISTE J, CUYPERS P, et al. Role of cervical mediastinoscopy in staging of non-small cell lung cancer without enlarged mediastinal lymph nodes on CT scan[J]. European Journal of Cardio-Thoracic Surgery, 1997, 12(5): 706-712.
[9]
ZHENG Yuan-da, SUN Xiao-jiang, WANG Jian, et al. FDG-PET/CT imaging for tumor staging and definition of tumor volumes in radiation treatment planning in non-small cell lung cancer[J]. Oncology Letters, 2014, 7(4): 1015-1020.
[10]
EDET-SANSON A, DUBRAY B, DOYEUX K, et al. Serial assessment of FDG-PET FDG uptake and functional volume during radiotherapy (RT) in patients with non-small cell lung cancer (NSCLC)[J]. Radiotherapy and Oncology, 2012, 102(2): 251-257.
[11]
WANG J, WELCH K, WANG L, et al. Negative predictive value of positron emission tomography and computed tomography for stage T1-2N0 non-small-cell lung cancer:a meta-analysis[J]. Clinical Lung Cancer, 2012, 13(2): 81-89. DOI:10.1016/j.cllc.2011.08.002
[12]
LIAO Chi-ying, CHEN Jin-hua, LIANG Jian, et al. Meta-analysis study of lymph node staging by 18 F-FDG PET/CT scan in non-small cell lung cancer:comparison of TB and non-TB endemic regions[J]. European Journal of Radiology, 2012, 81(11): 3518-3523. DOI:10.1016/j.ejrad.2012.02.007
[13]
AMBROSINI V, FANTI S, CHENGAZI V U, et al. Diagnostic accuracy of FDG PET/CT in mediastinal lymph nodes from lung cancer[J]. European Journal of Radiology, 2014, 83(8): 1301-1302. DOI:10.1016/j.ejrad.2014.04.035
[14]
SILVESTRI G A, GONZALEZ A V, JANTZ M A, et al. Methods for staging non-small cell lung cancer:diagnosis and management of lung cancer, 3rd ed:American College of Chest Physicians evidence-based clinical practice guidelines[J]. Chest, 2013, 143(5): e211S-250S. DOI:10.1378/chest.12-2355
[15]
王伟胜, 骆嘉伟, 林红利. 医学图像计算机辅助诊断数据平台研究[J]. 中国生物医学工程学报, 2013, 32(1): 105-108.
WANG Wei-sheng, LUO Jia-wei, LIN Hong-li. Computer-aided diagnosis data platform by using medical imaging[J]. Chinese Journal of Biomedical Engineering, 2013, 32(1): 105-108.
[16]
WAUGH S A, PURDIE C A, JORDAN L B, et al. Magnetic resonance imaging texture analysis classification of primary breast cancer[J]. European Radiology, 2016, 26(2): 322-330.
[17]
JACOBS C, VAN RIKXOORT E M, MURPHY K, et al. Computer-aided detection of pulmonary nodules:a comparative study using the public LIDC/IDRI database[J]. European Radiology, 2016, 26(7): 2139-2147. DOI:10.1007/s00330-015-4030-7
[18]
PARK H B, LEE B K, SHIN S, et al. Clinical feasibility of 3D automated coronary atherosclerotic plaque quantification algorithm on coronary computed tomography angiography:comparison with intravascular ultrasound[J]. European Radiology, 2015, 25(10): 3073-3083.
[19]
BENNDORF M, KOTTER E, LANGER M, et al. Development of an online, publicly accessible naive Bayesian decision support tool for mammographic mass lesions based on the American College of Radiology (ACR) BI-RADS lexicon[J]. European Radiology, 2015, 25(6): 1768-1775. DOI:10.1007/s00330-014-3570-6
[20]
FEULNER J, ZHOU S K, HAMMON M, et al. Lymph node detection and segmentation in chest CT data using discriminative learning and a spatial prior[J]. Medical Image Analysis, 2013, 17(2): 254-270. DOI:10.1016/j.media.2012.11.001
[21]
ROTH H, LU Le, LIU Jia-min, et al. Improving computer-aided detection using convolutional neural networks and random view aggregation[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1170-1181. DOI:10.1109/TMI.2015.2482920
[22]
KERHET A, SMALL C, QUON H, et al. Application of machine learning methodology for PET-based definition of lung cancer[J]. Radiotherapy and Oncology, 2009, 92(1): 41-47.
[23]
KERHET A, SMALL C, QUON H, et al. Segmentation of lung tumours in positron emission tomography scans: a machine learning approach[C]//Conference on Artificial Intelligence in Medicine: Artificial Intelligence in Medicine. [S. l. ]: Springer, 2009: 146-155. http://dl.acm.org/citation.cfm?id=1600789
[24]
CHEEBSUMON P, BOELLAARD R, DE RUYSSCHER D, et al. Assessment of tumour size in PET/CT lung cancer studies:PET-and CT-based methods compared to pathology[J]. Ejnmmi Research, 2012, 2(1): 1-9. DOI:10.1186/2191-219X-2-1
[25]
LAMBIN P, DEHING-OBERIJE C, PERSOON L, et al. Machine learning based clinical research:the example of lung cancer[J]. Medical Physics, 2008, 35(6): 2900.
[26]
GAO Xuan, CHU Chun-yu, LI Ying-ci, et al. The method and efficacy of support vector machine classifiers based on texture features and multi-resolution histogram from (18)F-FDG PET-CT images for the evaluation of mediastinal lymph nodes in patients with lung cancer[J]. European Journal of Radiology, 2015, 84(2): 312-317. DOI:10.1016/j.ejrad.2014.11.006
[27]
ZHOU S, CHENG Y, TAMURA S. Automated lung segmentation and smoothing techniques for inclusion of juxtapleural nodules and pulmonary vessels on chest CT images[J]. Biomedical Signal Processing and Control, 2014, 13(5): 62-70.
[28]
SHI C, CHENG Y, WANG J, et al. Low-rank and sparse decomposition based shape model and probabilistic atlas for automatic pathological organ segmentation[J]. Medical Image Analysis, 2017, 5(38): 30-49.
[29]
LIU J, HOFFMAN J, ZHAO J, et al. Mediastinal lymph node detection and station mapping on chest CT using spatial priors and random forest[J]. Medical Physics, 2016, 43(7): 4362-4374.
[30]
VALLIERES E, SHEPHERD F A, CROWLEY J, et al. The IASLC lung cancer staging project:proposals regarding the relevance of TNM in the pathologic staging of small cell lung cancer in the forthcoming (seventh) edition of the TNM classification for lung cancer[J]. Journal of Thoracic Oncology, 2009, 4(9): 1049-1059. DOI:10.1097/JTO.0b013e3181b27799
[31]
FRANCIS T. Machine learning: an algorithmic perspective, second edition (eBook)-Taylor & Francis[EB/OL]. https://www.crcpress.com/Machine-Learning-An-Algorithmic-Perspective-Second-Edition/Marsland/p/book/9781466583283.