浙江大学学报(工学版), 2021, 55(7): 1270-1278 doi: 10.3785/j.issn.1008-973X.2021.07.006

计算机与控制工程

基于宽度学习系统的fMRI数据分类方法

刘嘉诚,, 冀俊忠,

北京工业大学 信息学部,北京 100124

Classification method of fMRI data based on broad learning system

LIU Jia-cheng,, JI Jun-zhong,

Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China

通讯作者: 冀俊忠,男,教授. orcid.org/0000-0001-6951-741X. E-mail: jjz01@bjut.edu.cn

收稿日期: 2020-03-4  

基金资助: 国家自然科学基金资助项目(61672065,61906010);北京市教委科技计划一般项目(KM202010005032)

Received: 2020-03-4  

Fund supported: 国家自然科学基金资助项目(61672065,61906010);北京市教委科技计划一般项目(KM202010005032)

作者简介 About authors

刘嘉诚(1995—),男,硕士生,从事人工智能算法研究.orcid.org/0000-0003-3489-2011.E-mail:from_soldier@sina.com , E-mail:from_soldier@sina.com

摘要

提出基于宽度学习系统的功能性磁共振成像(fMRI)数据分类方法,通过简单结构提取fMRI数据的深层特征,加快分类速度. 使用fMRI中感兴趣区域体素均值的时间序列构造输入数据,分别提取fMRI数据的浅层和深层特征,映射为宽度学习的特征节点和增强节点并构建模型框架,利用岭回归逆计算分类模型的连接权值,实现对fMRI数据的分类. 使用ABIDE Ⅰ、ABIDE Ⅱ和ADHD-200数据集,将所提方法与6种分类方法进行对比实验,结果表明,所提方法可以在保持良好的分类准确率的同时,大幅度降低训练时间.

关键词: 功能性磁共振成像(fMRI)数据分类 ; 深度学习 ; 宽度学习系统 ; 随机特征映射 ; 特征增强 ; 岭回归逆

Abstract

A functional magnetic resonance imaging (fMRI) data classification method based on broad learning system was proposed. The deep features of fMRI data were extracted through a simple structure to speed up the classification. Using the time series of the mean values of the voxel in the region of interest in fMRI the input data was constructed. The shallow and deep features of fMRI data were extracted respectively, mapped to feature nodes and enhancement nodes for broad learning, and a model framework was built. Ridge regression was used to inversely calculate the connection weights of the classification model to achieve fMRI data classification. ABIDE I, ABIDE II and ADHD-200 were used to compare the proposed method with six classification methods. Results show that the proposed method can maintain good classification accuracy while reduce training time greatly.

Keywords: functional magnetic resonance imaging (fMRI) data classification ; deep learning ; broad learning system ; random feature mapping ; feature enhancement ; ridge regression inverse

PDF (1078KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘嘉诚, 冀俊忠. 基于宽度学习系统的fMRI数据分类方法. 浙江大学学报(工学版)[J], 2021, 55(7): 1270-1278 doi:10.3785/j.issn.1008-973X.2021.07.006

LIU Jia-cheng, JI Jun-zhong. Classification method of fMRI data based on broad learning system. Journal of Zhejiang University(Engineering Science)[J], 2021, 55(7): 1270-1278 doi:10.3785/j.issn.1008-973X.2021.07.006

功能性磁共振成像(functional magnetic resonance imaging,fMRI)是神经影像学中重要的脑成像方法,其原理是利用磁振造影测量神经元活动引发的血液动力改变,产生大量的三维脑成像数据[1].

近年来,随着计算机技术的发展,大量的fMRI数据分类方法被提出并应用于脑疾病分类领域,这些研究主要可以分为基于传统机器学习的fMRI数据分类方法和基于深度学习的fMRI数据分类方法. 基于传统机器学习的方法使用简单结构建模和分析fMRI数据. Cox等[2]使用支持向量机(support vector machine,SVM)进行fMRI数据分类. 此后,出现了大量基于SVM的fMRI数据分类方法,并被应用于自动诊断抑郁症(major depressive disorder,MDD)[3-5],阿尔茨海默病(Alzheimer’s disease,AD)[6-8]以及孤独症谱系障碍(autism spectrum disorder,ASD)[9-11]等多种疾病中. 随机森林(random forest,RF)是另一种被广泛使用的数据分类方法,目前已有多项工作应用RF进行包括轻度多发性硬化(minimally disabled multiple sclerosis,MDMS)[12]在内的多种疾病的自动诊断中[13-14]. K最邻近算法(K nearest neighbor,KNN)在分类算法中同样有着良好的表现,Arbabshirani等[15]使用包括KNN在内的多种传统机器学习方法对精神分裂症(schizophrenia)患者进行自动诊断.

传统机器学习方法可以快速地完成分类任务,但由于传统机器学习方法使用的简单结构无法提取fMRI数据中的深层特征,故对于fMRI数据的拟合效果不好,容易影响分类的准确性.为了解决这一问题,近年来,许多深度学习方法开始被应用于对fMRI数据的分类中. 卷积神经网络(convolutional neural network,CNN)[16]是近年来成功用做fMRI数据分类的方法之一. Meszlenyi等[17]提出CCNN(connectome convolutional neural network)模型,该模型可以对由fMRI数据计算得到的脑网络数据中携带的不同信息进行特征学习. Parisot等[18-19]使用图卷积神经网络(graph convolutional network,GCN),将模型的顶点与基于fMRI数据的特征向量相关联,同时用被试者的表现型信息作为边缘构建图像,进行fMRI数据的分类. 此外,由于深度神经网络(deep neural network,DNN)具有多隐层结构,能够较好地适应fMRI数据的维度特征. 例如Heinsfeld等[20]通过搭建1000-600-softmax的双隐层DNN,在针对ASD患者的自动诊断和分类中取得良好的效果. 综上,由于深度学习方法使用的是深层复杂结构,这类结构能够较好的提取fMRI数据的深层特征,可以得到良好的分类效果. 但深层复杂结构在实际应用时,须不断调整神经网络的层数和各层节点数,且参数量较大,运算速度缓慢,缺乏良好的时效性.

为了能够在不降低分类准确率的同时加快分类速度,本研究提出基于宽度学习(broad learning,BL)的fMRI数据分类方法.

1. 相关工作

BL是2018年由Chen等[21]提出的新型机器学习方法,该方法将随机向量函数链神经网络(random vector functional link neural network,RVFLNN)的隐藏层与输出层合并,使原本含有一层隐藏层的神经网络变为只有输出和输入的线性系统即宽度学习系统(broad learning system,BLS). BLS首先通过对原始输入做随机特征映射,并对特征映射进行特征增强,分别得到特征节点和增强节点;然后将特征节点和增强节点合并为输入层,连接输出层;最后利用岭回归逆得到输出层与输入层间的连接权值. 由于在生成特征节点和增强节点的过程中,BLS所有的连接权值都是随机产生且始终固定,最终只需求出输入层与输出层之间的连接权值,这使得模型的训练速度得到了很大的提升. 该方法由于拥有结构简单、易于实现、高效等特点,一经提出,就被广泛应用于故障诊断[22]、自动控制[23]和图像识别[24]等多个领域. 目前,fMRI数据分类领域还没有基于BL的研究工作. 如图1所示为BLS的基本结构示意图. 图中, ${\boldsymbol{X}} = {[{\boldsymbol{x}}_1^{\rm{T}},{\boldsymbol{x}}_2^{\rm{T}},\cdots,{\boldsymbol{x}}_N^{\rm{T}}]^{\rm{T}}} \in {{\bf{R}}^{{{N \times K}}}}$,为 $N$${{K}}$维的输入矢量组成的输入矩阵, ${\boldsymbol{O}} = {[{\boldsymbol{o}}_1^{\rm{T}},} {{\boldsymbol{o}}_2^{\rm{T}},\cdots,{\boldsymbol{o}}_N^{\rm{T}}]^{\rm{T}}} \in {{\bf{R}}^{N \times J}}$,为 $N$$J$维的输出矢量组成的输出矩阵, ${{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2},\cdots,{{\boldsymbol{Z}}_n}$为特征节点, ${{\boldsymbol{H}}_1}, {{\boldsymbol{H}}_2},\cdots, {{\boldsymbol{H}}_m}$为增强节点, ${\boldsymbol{W}}$为输入层 ${\boldsymbol{I}}$与输出层 ${\boldsymbol{O}}$之间的连接权值. 各部分功能如下. 1)输入 ${\boldsymbol{X}}$进行 $n$组特征映射,得到 $n$组特征节点 ${{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2},\cdots,{{\boldsymbol{Z}}_n}$

图 1

图 1   宽度学习系统的基本结构

Fig.1   Basic structure of broad learning system


${{\boldsymbol{Z}}_i} = {\phi _i}({\boldsymbol{X}}{{\boldsymbol{W}}_{{f_i}}} + {{\boldsymbol{b}}_{{f_i}}}) \in {{\rm{R}}^{N \times p}};\;i = 1,2,\cdots,n.$

式中: ${\phi _i}$为适当的特征映射策略,权值矩阵 ${{\boldsymbol{W}}_{{f_i}}} \in {{\rm R}^{N \times p}}$和偏置矩阵 ${{\boldsymbol{b}}_{{f_i}}} \in {{\rm R}^p}$都是随机生成的. 将 $n$组特征节点 ${{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2},\cdots,{{\boldsymbol{Z}}_n}$合并,得到特征节点集:

${{\boldsymbol{Z}}^n} \to [{{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2},\cdots,{{\boldsymbol{Z}}_n}] \in {{\rm R}^{N \times np}}.$

2)将 ${{\boldsymbol{Z}}^n}$经过 $m$组特征增强,得到 $m$组增强节点 ${{\boldsymbol{H}}_1},{{\boldsymbol{H}}_2},\cdots,{{\boldsymbol{H}}_m}$

${{\boldsymbol{H}}_j} = {\varphi _j}({{\boldsymbol{Z}}^n}{{\boldsymbol{W}}_{{e_j}}} + {{\boldsymbol{b}}_{{e_j}}}) \in {{\rm R}^{N \times q}};\;j = 1,2,\cdots,m.$

式中: ${\varphi _j}$为适当的特征增强策略,权值矩阵 ${{\boldsymbol{W}}_{{e_j}}} \in $ $ {{\rm R}^{N \times q}}$和偏置矩阵 ${{\boldsymbol{b}}_{{e_j}}} \in {{\rm R}^q}$都是随机生成的. 将 $m$组增强节点 ${{\boldsymbol{H}}_1},{{\boldsymbol{H}}_2},\cdots,{{\boldsymbol{H}}_m}$合并,得到增强节点集:

${{\boldsymbol{H}}^m} \to [{{\boldsymbol{H}}_1},{{\boldsymbol{H}}_2},\cdots,{{\boldsymbol{H}}_m}] \in {{\rm R}^{N \times mq}}.$

3)将特征节点集 ${{\boldsymbol{Z}}^n}$和增强节点集 ${{\boldsymbol{H}}^m}$合并,看作是BLS的输入,这里定义:

${\boldsymbol{I}} = [{{\boldsymbol{Z}}^n}|{{\boldsymbol{H}}^m}] \in {{\rm R}^{N \times (np + mq)}}.$

此时的BLS可以表示为

${{\boldsymbol{O}}_{{\rm{est}}}} = {\boldsymbol{IW}}{\rm{.}}$

式中: ${{\boldsymbol{O}}_{{\rm{est}}}}$为真实输出 ${\boldsymbol{O}}$的估计值,系统的目的是寻找一个合适的 ${\boldsymbol{W}}$使得 ${{\boldsymbol{O}}_{{\rm{est}}}}$${\boldsymbol{O}}$的差异性尽可能的小.

2. 基于BL的fMRI数据分类方法

2.1. 基本思想

本文所提基于BL的fMRI数据分类方法利用BL优化可以提取fMRI数据深层特征的复杂模型完成fMRI数据分类. 1)在提取浅层特征阶段,采用随机特征映射的方式对fMRI数据进行初步的特征提取;2)在提取深层特征阶段,对浅层特征进行随机特征增强,并利用奇异值分解缩减参数数量,得到fMRI数据的深层特征;3)根据宽度学习系统的基本结构进行模型优化,通过将浅层特征映射为特征节点、深层特征映射为增强节点,降低模型的复杂度,利用岭回归逆计算并得到最终的分类模型完成fMRI数据分类.

2.2. 方法流程

图2所示为本文方法的示意图。该方法首先根据图2(a)所示结构提取fMRI数据中的浅层和深层特征,然后根据宽度学习对模型进行优化,优化后模型如图2(b)所示.

图 2

图 2   基于宽度学习的fMRI数据分类方法示意图

Fig.2   Function diagram of classification method of fMRI data based on broad learning


2.2.1. 提取浅层特征

浅层特征是指在fMRI数据中基本、直观的数据特征,通常可以通过简单的特征映射提取得到. fMRI测量的是脑神经元活动所引发的血液动力的改变,因此fMRI数据是时序性数据. 各脑区域内的时序性特征就是fMRI数据中最基本、直观的数据特征,因此将各脑区域内的时序性特征作为fMRI数据的浅层特征.在以fMRI数据 ${\boldsymbol{X}} \in {{\rm{R}}^{N \times ({\boldsymbol{T}} \times {\boldsymbol{M}})}}$作为输入时, ${\boldsymbol{X}}$是包含了 $N$${\boldsymbol{T}} \times {\boldsymbol{M}}$的二维图像数据,其中 ${\boldsymbol{T}}$是fMRI数据的时间序列, ${\boldsymbol{M}}$是fMRI数据的感兴趣区域.

图2(a)所示,通过线性的特征映射,提取fMRI数据的浅层特征,表示为

${{\boldsymbol{Z}}_i} = {{\boldsymbol{XW}}_{{f_i}}} + {{\boldsymbol{b}}_{{f_i}}},i = 1,2,\cdots,n.$

式中: ${{\boldsymbol{Z}}_i}$为第 $i$个特征映射,特征映射权重 ${{\boldsymbol{W}}_{{f_i}}}$和偏置 ${{\boldsymbol{b}}_{{f_i}}}$是随机给定且保持不变的. 随机生成具有不可预测性问题. 因此,使用稀疏自编码器对随机数进行训练,将随机特征调整为稀疏且紧凑的特征,增加浅层特征的多样性和全面性:

$\arg \mathop {\min }\limits_{{{{{\boldsymbol{W}}}}_{\rm{D}}}} :||{\boldsymbol{Z}}{{{{\boldsymbol{W}}}}_{\rm{D}}} - {\boldsymbol{X}}||_2^2 + \lambda ||{{{{\boldsymbol{W}}}}_{\rm{D}}}|{|_1}$

式中: ${{{{\boldsymbol{W}}}}_{\rm{D}}}$为稀疏自编码策略, ${\boldsymbol{Z}}$为特征映射的输出层,且有 ${\boldsymbol{Z}} = {\boldsymbol{X}}{{{{\boldsymbol{W}}}}_{\rm{D}}}$$\lambda $为稀疏正则化系数. 虽然特征映射权重 ${{\boldsymbol{W}}_{{f_i}}}$和偏置 ${{\boldsymbol{b}}_{{f_i}}}$是随机给定且保持不变的,但是在实际训练中,由于需要提取的特征次数较多,随机值对最终结果的影响有限,不会造成分类结果的大范围波动.

2.2.2. 提取深层特征

人脑中的基本功能通常不是由某个体素或脑区域独立完成的,而是由脑的多个区域内的多个体素协同完成的. 不同脑区域之间的关系无法通过提取各脑区域内时序性特征得到,即fMRI数据的浅层特征无法表示各脑区域间的时序性特征. 因此,需要在得到各脑区域内的时序性特征的基础上,寻找不同脑区域间的联系,即寻找各脑区域间的时序性特征,即fMRI数据的深层特征. 如图2(a)通过对浅层特征进行非线性的特征增强,可以更好地挖掘fMRI数据的深层特征,表示为

$ \begin{split} \!\!\!{{{\boldsymbol{H}}_j} = \tan {\rm{sig}}({{\boldsymbol{Z}}^n}{{\boldsymbol{W}}_{{e_j}}} + {{\boldsymbol{b}}_{{e_j}}});\;j = 1,2,\cdots,m.} \\ \end{split} $

其中

式中: ${{\boldsymbol{H}}_j}$为第 $j$组特征增强, ${{\boldsymbol{Z}}^n} $为fMRI数据浅层特征的集合,特征增强的权重 ${{\boldsymbol{W}}_{{e_j}}}$和偏置 ${{\boldsymbol{b}}_{{e_j}}}$是随机给定且保持不变的.

在实际应用中,矩阵多为不对称矩阵,因此在计算时无须考虑全部的参数. 这里根据奇异值分解(singular value decomposition,SVD)进行参数优化,根据SVD定义,任意 $m \times n$的矩阵 ${\boldsymbol{C}}$可以表示为

${\boldsymbol{C}} = {\boldsymbol{U}}{\boldsymbol{\varSigma}} {{\boldsymbol{V}}^{\rm{T}}}$

式中: ${\boldsymbol{U}}$$m \times m$的正交矩阵, ${\boldsymbol{U}}$的列表示 ${\boldsymbol{C}}{{\boldsymbol{C}}^{\rm{T}}}$的特征向量, ${\boldsymbol{V}}$$n \times n$的正交矩阵, ${\boldsymbol{V}}$的列表示 ${{\boldsymbol{C}}^{\rm{T}}}{\boldsymbol{C}}$的特征向量, ${\boldsymbol{\varSigma}} $$m \times n$的对角矩阵. 最终更新特征增强的权重 ${{\boldsymbol{W}}_{{e_j}}}$和偏置 ${{\boldsymbol{b}}_{{e_j}}}$为各自的正交基.

2.2.3. 基于宽度学习的模型优化

为了解决深度结构带来的参数量大、计算缓慢等问题,如图2(b)所示,根据BLS的基本结构,将浅层特征 ${{\boldsymbol{F}}^n} \to [{{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2},\cdots,{{\boldsymbol{F}}_n}]$映射为特征节点,深层特征 ${{\boldsymbol{E}}^m} \to [{{\boldsymbol{E}}_1},{{\boldsymbol{E}}_2},\cdots,{{\boldsymbol{E}}_m}]$映射为增强节点,并将特征节点和增强节点合并为本文方法的输入层,表示为

${\boldsymbol{I}} = [{{\boldsymbol{Z}}^n}|{{\boldsymbol{H}}^m}].$

此时文本方法的模型可以表示为

${\boldsymbol{O}} = [{{\boldsymbol{Z}}^n}|{{\boldsymbol{H}}^m}]{\boldsymbol{W}} = {\boldsymbol{IW}}.$

式中: ${\boldsymbol{O}}$为文本方法的输出层, ${\boldsymbol{W}}$为连接权值. ${\boldsymbol{W}}$需要通过计算输入层 ${\boldsymbol{I}}$的岭回归逆 ${{\boldsymbol{I}}^ + }$得到,根据文献[21]使用的岭回归逆求解方法计算 ${{\boldsymbol{I}}^ + }$,已知岭回归逆可以表示为

$\arg \mathop {\min }\limits_{\boldsymbol{W}} :||{\boldsymbol{IW}} - {\boldsymbol{O}}||_2^2 + \lambda ||{\boldsymbol{W}}||_2^2.$

式中: $\lambda $为正则化参数,当 $\lambda \to 0$时,可得:

${{\boldsymbol{I}}^ + } = \mathop {\lim }\limits_{\lambda \to 0} {(\lambda {\boldsymbol{E}} + {{\boldsymbol{I}}^{\rm{T}}}{\boldsymbol{I}})^{ - 1}}{{\boldsymbol{O}}^{\rm{T}}}.$

式中: ${{\boldsymbol{I}}^ + }$${\boldsymbol{I}}$的岭回归逆, ${\boldsymbol{E}}$为单位矩阵. 根据式(14)给出的岭回归逆计算方法,可以得到连接权值 ${\boldsymbol{W}}$的计算公式,表示为

${\boldsymbol{W}} = \mathop {\lim }\limits_{\lambda \to 0} {(\lambda {\boldsymbol{E}} + {{\boldsymbol{I}}^{\rm{T}}}{\boldsymbol{I}})^{ - 1}} ({{\boldsymbol{I}}^{\rm{T}}}{\boldsymbol{O}}).$

2.3. 算法描述

本文方法的训练过程如算法1所示. 基于算法1的描述,对BL的时间复杂度进行分析. 假设训练样本的输入量为 $N$,则生成特征节点的时间复杂度为 $O(nN)$,生成增强节点的时间复杂度为 $O(mN)$,因此,BL的总体时间复杂度为 $O((n + m)N)$. 根据文献[25]给出的CNN的时间复杂度,基于CNN的fMRI数据分类方法的时间复杂度为

$O\left(\sum\limits_{i = 1}^d {s_l^2 m_l^2 {n_{l - 1}} {n_l}} \right)$

式中: $s$为每个卷积核输出特征图尺寸, $m$为每个卷积核尺寸, $l$为第 $l$个卷积层, $d$为卷积层的深度, ${n_{l - 1}}$为第 $l$层的输入通道数, ${n_l}$为第 $l$层的输出通道数. 可以看出,在样本数相同的情况下,BL算法的时间复杂度 $O(n + m)$是明显优于CNN时间复杂度 $O\left(\displaystyle\sum\limits_{i = 1}^d {s_l^2 m_l^2 {n_{l - 1}} {n_l}} \right)$的.

算法1

输入   fMRI数据

输出   fMRI数据的分类预测

1. 初始化:

2. 设置参数值:特征窗口数n、窗口特征数k、增强节点数m、正则化系数 $ \lambda $、收缩系数s

3. 选取训练样本X

4. for i=1 to n

5. 随机生成 $ {\boldsymbol{W}}_{{e}_{i}},{{\boldsymbol{b}}}_{{e}_{i}}$

6. $ {\boldsymbol{W}}_{{e}_{i}},{{\boldsymbol{b}}}_{{e}_{i}}$X输入稀疏自编码器;

7. 提取浅层特征 $ {{\boldsymbol{Z}}}_{i}={\boldsymbol{X{W}}}_{{f}_{i}}+{{\boldsymbol{b}}}_{{f}_{i}}$

8. end for

9. 将浅层特征映射为特征节点 $ {{\boldsymbol{Z}}}^{n}\to [{{\boldsymbol{Z}}}_{1}, {{\boldsymbol{Z}}}_{2},{\cdots},{{\boldsymbol{Z}}}_{n}]$

10. for j=1 to m

11. 随机生成 $ {{\boldsymbol{W}}}_{{e}_{j}},{{\boldsymbol{b}}}_{{e}_{j}}$

12. 更新 $ {{\boldsymbol{W}}}_{{e}_{j}},{{\boldsymbol{b}}}_{{e}_{j}}$为正交基各自的正交基;

13. 提取深层特征 $ {{\boldsymbol{H}}}_{j}={\rm{tan}}\;{\rm{sig}}{(}{{\boldsymbol{Z}}}^{n}{{\boldsymbol{W}}}_{{e}_{j}}+{{\boldsymbol{b}}}_{{e}_{j}})$

14. end for

15. 合成输入层 $ {\boldsymbol{I}}=[{{\boldsymbol{Z}}}^{n}|{{\boldsymbol{H}}}^{m}]$

16. 计算岭回归逆 $ {{\boldsymbol{I}}}^{+}$

17. 计算连接权值 $ {\boldsymbol{W}}={{\boldsymbol{I}}}^{+}{\boldsymbol{O}}$

18. 选取测试样本 $ {{\boldsymbol{X}}}_{{\rm{Test}}}$

19. 重复步骤4~15,生成测试输入层 $ {{\boldsymbol{I}}}_{{\rm{Test}}}$

20. 计算预测结果 $ {{\boldsymbol{O}}}_{{\rm{est}}}={{\boldsymbol{I}}}_{{\rm{Test}}}W$

21. 输出 $ {{\boldsymbol{O}}}_{{\rm{est}}}$.

3. 实验结果及分析

实验在处理器为Core(TM)i7-9700 CPU、RAM为32.00 GB、操作系统为Windows10的环境下,利用Matlab编写代码并实现.

3.1. 实验数据及预处理

使用3个公开的fMRI数据集:ABIDE Ⅰ数据集、ABIDE Ⅱ数据集、ADHD-200数据集. ABIDE Ⅰ和ABIDE Ⅱ是针对ASD和相应对照组的公开数据集,ADHD-200是针对注意缺陷多动障碍(attention deficit hyperactivity disorder,ADHD)和相应对照组的公开数据集. 3个数据集的基本情况如表1所示. ABIDE Ⅰ、ABIDE Ⅱ数据集可以通过网站( http://fcon_1000.projects.nitrc.org/indi/abide/)下载,ADHD-200数据集可以通过网站( http://fcon_1000.projects.nitrc.org/indi/adhd200/)下载.

表 1   3个数据集的基本情况

Tab.1  Detail of three data sets

数据集 样本量/个 正常被试量/个 患者量/个 机构量/个
ABIDE Ⅰ 1 096 569 527 17
ABIDE Ⅱ 1 043 556 487 16
ADHD-200 445 277 168 4

新窗口打开| 下载CSV


利用DPARSF软件预处理fMRI数据:1)为了排除fMRI扫描仪和被试适应过程的影响,删除前10个时间点;2)对每个脑图像做层间校正和头动校正,使用DARTEL分割并对应到T1结构像,回归滋扰变量的影响,选择24个Friston滋扰变量,去掉白质和脑积液;3)使用0.01~0.10 Hz的滤波器滤波,得到全脑的低频波动信号;4)标准化到MNI空间,并实施空间光滑(FWHM=4 mm); 5)使用AAL模板制作感兴趣区域的掩膜Mask,并通过该Mask提取感兴趣区域内体素的时间序列.

3.2. 评价指标

选用5种常见的评价指标证明算法的有效性,包括:准确率(accuracy,Acc)、精度(precision,Pr)、灵敏度(sensitivity,Sn)、特异性(specificity,Sp)、F度量(F-measure). 对于二分类问题,可将分类结果表示为混淆矩阵的形式,算法的预测结果和样本的真实标签的划分为真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)和假反例(false negative,FN).

准确率是机器学习领域中最常用的评价指标,表示全部样本被正确预测的比例

${\rm{Acc}} = \frac{{{\rm{TP + TN}}}}{{{\rm{TP + TN + FP + FN}}}}.$

在临床诊断中,精度代表着被诊断为患者组中真实患者的比例,精度越高,患者组的确诊率越高;灵敏度代表着患者组被正确诊断的比例,灵敏度越高,漏诊的概率越低;特异性代表着健康组被正确诊断的比例,特异性越高,误诊率越低.

$\Pr = \frac{{{\rm{TP}}}}{{{\rm{TP + FP}}}}.$

${\rm{Sn}} = \frac{{{\rm{TP}}}}{{{\rm{TP + FN}}}}.$

${\rm{Sp}} = \frac{{{\rm{TN}}}}{{{\rm{TN + FP}}}}.$

精度和灵敏度往往互相矛盾,常采用F-measure进行综合考虑

${\rm{F}}{\rm{ - measure}} = \frac{{2 {\rm{Sn}} \times \Pr }}{{{\rm{Sn}} + \Pr }}.$

3.3. 实验参数设置

3.3.1. 本文方法的参数设置

对于不同的fMRI数据集,以准确率Acc作为评价指标,通过控制变量法对数据集的参数进行多次调试实验,以确定针对不同数据集的参数. 3个数据集共有参数:正则化系数 $\lambda\!\! =\!\!$2−30、收缩系数 $s\!\! = $ $ 0.8$. 其余参数的取值方法如下. 以ABIDE-UM数据集(ABIDE I中来自UM机构的数据)为例,以Acc作为评价标准,如图3所示,不同特征窗口数 $N_1$与窗口特征数 $N_2$下Acc的取值情况( $N_3$保持不变). 可以看出,当 $N_1 N_2$接近100时效果较好,并且在 $N_1\!\! =\!\!10$$N_2\!\! =\!\!10$时取得的效果最好. 因此,该数据集最终取 $N_1\!\! =\!\!10$$N_2\!\! =\!\!10$;增强节点数 $n_3$取值也采用此方法,由图可以看出,当 $n_3\!\! =\!\!2\;000$时效果较好,当 $n_3\!\!>\!\! 2\;500$时准确率开始下降,因此,最终取 $n_3\!\! =\!\!2\;000$. 还可以看出,在所有参数中,相对于 $N_1$$N_2$的取值, $n_3$对于Acc的影响较为敏感,对算法性能的影响较大. 根据上述取值方法,对于特征窗口数 $N_1$、窗口特征数 $N_2$以及增强节点数 $n_3$在不同数据集上的具体设置情况如表2所示.

图 3

图 3   在准确率不同参数下的取值

Fig.3   Values of accuracy under different parameters


表 2   3个数据集的参数设置

Tab.2  Parameter settings for three data sets

数据集 N1 N2 n3
ABIDE I 10 10 10 000
ABIDE II 10 10 10 000
ADHD-200 9 11 5 000

新窗口打开| 下载CSV


3.3.2. 对比方法的参数设置

分别选取3种传统机器学习方法和3种深度学习模型进行对比实验.其中,传统机器学习方法包括基于线性支持向量机(linear SVM)的方法、基于RF的方法和基于KNN的方法;深度学习方法包括基于DNN的方法、基于CCNN的方法以及基于GCN的方法. 上述所有传统机器学习方法都基于Python的scikit-learn库实现;所有深度学习方法都基于开源框架Tensorflow实现.如表3所示为对比方法的参数设置,其中传统机器学习算法的参数为默认值.

表 3   对比方法的参数设置

Tab.3  Parameter settings of comparison method

方法 结构
SVM 使用Puthon中的默认模块函数,设置神经节点数为10
RF 使用Puthon中的默认模块函数,设置神经节点数为10
KNN 使用Puthon中的默认模块函数,设置神经节点数为10
DNN [6 670,1 000,600,96,2]
GCN [116*116,32@116*116,64@1*116,128@116*1,96,2]
CCNN [116*116,32@116*116,64@1*116,128@116*1,96,2]

新窗口打开| 下载CSV


3.4. 实验分析与比较

将本文方法与6种经典方法在5项评价指标上进行对比.

3.4.1. 性能指标

将每个数据集在表2提供的参数下独立运行10次,取平均值作为最终的实验结果,将其与SVM、RF、KNN、DNN、CCNN、GCN运行所得结果进行对比. 其中ABIDE Ⅰ和ABIDE Ⅱ数据集采用10折交叉验证,ADHD-200数据集采用5折交叉验证. 7种算法在3种不同脑疾病患者的fMRI数据上的基本检测结果如表4表6所示. 由表可以看出,在3个数据集中,本文方法在5项评价指标中的表现与其他6种算法的相比各有优劣. 1)对于Acc,深度学习方法整体高于传统机器学习方法,本文方法可以得到与深度学习方法相近的Acc. 可能是因为相比于传统机器学习方法,本文方法能够提取深层特征,所以具有高于这类方法的分类准确率;相比于深度学习方法,本文方法虽然不能更好地拟合fMRI数据中复杂的深层特征,但是能够避免因为冗余特征过多而带来的过拟合问题,所以能够高于部分的深度学习方法. 实验结果说明本文方法可以作为有效的fMRI数据分类方法应用于脑疾病分类领域. 2)由于Pr和Sn在脑疾病诊断中发挥的作用不同,两者往往相互矛盾,算法通常不能同时兼顾. 本文方法在2项指标中各有1项是7种算法中最好的,这说明本文方法在不同的脑疾病诊断中可以发挥不同的作用,例如在ABIDE Ⅰ数据集中,本文方法拥有最好的确诊率,能够通过最少的医疗资源治疗更多的ASD患者;而在ADHD-200数据集中,本文方法漏诊的概率最低,能够保证更多的多动症儿童接受治疗. 3)对于Sp指标,本文方法在3个数据集中的表现不稳定,例如在ABIDE Ⅰ数据集中本文方法仅排名第5,这可能是由于在分类ABIDE Ⅰ数据集时,为了提高分类准确率,提取了更多的深层特征,其中夹杂了一些不关键信息,影响了系统的判断. 而在ADHD-200数据集中,提取了相对较少的深层特征,因此本文方法在ADHD-200数据集中的指标排名第2,误诊率较低. 4)对于综合指标F-measure,本文方法在ABIDE Ⅰ和ABIDE Ⅱ数据集中取得了最好的结果,说明本文方法在针对ASD患者的自动诊断中是行之有效的方法;而在ADHD-200数据集中结果不佳,其中Pr的影响较大,说明本文方法适合将多动症作为普适性疾病进行诊断,虽然不适合作为临床诊断的最佳手段,但仍可以应用于多动症的广泛筛查.

表 4   7种算法在ABIDE Ⅰ数据集上的实验结果

Tab.4  Experimental results of seven algorithms on ABIDE Ⅰ data set

方法类别 方法 Acc /% Pr /% Sn /% Sp /% F-measure
传统机器学习 SVM 57.81 55.92 88.37 24.89 68.48
RF 62.40 62.52 69.24 55.09 65.59
KNN 58.80 56.73 87.60 27.77 68.81
深度学习 GCN 64.59 62.62 64.33 58.36 63.33
CCNN 65.60 64.61 76.77 53.49 69.66
DNN 63.98 65.24 67.13 60.71 65.86
宽度学习 本文 64.48 78.21 63.12 50.85 69.91

新窗口打开| 下载CSV


表 5   7种算法在ABIDE Ⅱ数据集上的实验结果

Tab.5  Experimental results of seven algorithms on ABIDE Ⅱ data set

方法类别 方法 Acc /% Pr /% Sn /% Sp /% F-measure
传统机器学习 SVM 54.26 53.90 98.66 3.57 69.70
RF 61.18 61.43 73.38 47.26 66.83
KNN 56.63 58.85 63.74 48.61 60.76
深度学习 GCN 62.03 64.52 72.73 54.17 68.38
CCNN 65.47 66.73 70.69 59.49 68.52
DNN 66.07 66.58 74.11 74.11 69.90
宽度学习 本文 65.29 86.67 62.93 40.28 72.55

新窗口打开| 下载CSV


表 6   7种算法在ADHD-200数据集上的实验结果

Tab.6  Experimental results of seven algorithms on ADHD-200 data set

方法类别 方法 Acc /% Pr /% Sn /% Sp /% F-measure
传统机器学习 SVM 59.04 64.98 36.97 80.65 46.84
RF 59.21 59.83 53.53 64.77 56.40
KNN 58.93 61.93 45.79 71.76 52.22
深度学习 GCN 60.61 57.97 48.57 66.21 50.77
CCNN 60.28 59.27 59.11 60.00 58.88
DNN 62.73 59.40 61.85 63.17 61.82
宽度学习 本文 61.19 51.33 64.11 72.92 56.20

新窗口打开| 下载CSV


综合以上5项评价指标得出的实验结果,可以看出本文方法性能优于传统机器学习方法,与深度学习方法相近. 其中Acc指标项充分说明本文方法可以通过简单结构提取fMRI数据中的深层特征,证明本文方法的有效性,特别地,本文方法的F-measure指标项在多数数据集中表现良好,证明本文方法在fMRI数据分类领域可以发挥良好的作用.

3.4.2. 训练时间与Acc的比较

为了进一步说明本文方法的高效性,将7种算法在3个数据集上的训练时间与Acc进行比较,如图4所示. 图中,BL表示本文方法. 由图可以看出,在3个数据集中,本文方法的Acc均达到了深度学习方法的水平,且训练时间均低于深度学习方法,尤其在ADHD-200数据集中,充分体现了本文方法的有效性和高效性.

图 4

图 4   7种方法在3个数据集上的训练时间与准确率比较

Fig.4   Comparison time and accuracy on three data sets


综合以上,本文方法总体上取得了不错的结果:1)本研究通过特征提取和特征增强,分别提取了数据中的浅层和深层特征,为分类准确率提供了保障;2)基于BL将模型优化,在保留深层特征的前提下,将深层复杂结构变为简单结构,降低了训练时间. 不过,本文方法在分类Acc和训练时间上表现均不是最佳的,主要原因是相比于传统机器学习方法,本文方法须提取深层特征,尤其在提取较多的深层特征时,对训练速度影响较大;相比于深度学习方法,本文方法为了缩短训练时间,采用随机权重提取特征,在一定程度上影响了分类的Acc.

4. 结 语

本文提出基于宽度学习的fMRI数据分类方法. 该方法的主要特点是利用BLS的基本思想,将能够提取fMRI数据深层特征的深层复杂结构简化,降低训练时间. 在3个数据集上进行的实验充分表明本文方法是快速、有效的fMRI数据分类方法. 该方法使用简单结构提取数据的深层特征,须将深层网络中的复杂结构使用随机函数进行替换,因此最终的分类结果受随机值影响较大,分类性能较深度学习方法而言不稳定. 对该方法的研究,不仅拓展了fMRI数据分类的应用领域,而且对神经影像领域的其他研究也有一定的借鉴意义. 该方法的特征提取策略均为随机提取,在未来的工作中,将充分考虑fMRI数据的图像特性,融合适合图像特征的特征提取方式(如卷积特征提取),找到更适用于fMRI数据特性的特征提取策略,提高系统的稳定性,同时将BL应用于fMRI数据分类中,以得到更好的分类结果.

参考文献

BELLIVEAU J W, KENNEDY D N, MCKINSTRY R C, et al

Functional mapping of the human visual cortex by magnetic resonance imaging

[J]. Science, 1991, 254 (5032): 716- 719

DOI:10.1126/science.1948051      [本文引用: 1]

COX D D, SAVOY R L

Functional magnetic resonance imaging (fMRI)“brain reading”: detecting and classifying distributed patterns of fMRI activity in human visual cortex

[J]. Neuro Image, 2003, 19 (2): 261- 270

URL     [本文引用: 1]

CHENG B, LIU M, SHEN D, et al

Multi-domain transfer learning for early diagnosis of Alzheimer ’ s disease

[J]. Brain, 2012, 135 (5): 1498- 1507

DOI:10.1093/brain/aws059      [本文引用: 1]

ROSA M J, PORTUGAL L, HAHN T, et al

Sparse network-based models for patient classification using fMRI

[J]. Neuroimage, 2015, 105: 493- 506

DOI:10.1016/j.neuroimage.2014.11.021     

SACCHET M D, PRASAD G, FOLAND-ROSS L C, et al

Support vector machine classification of major depressive disorder using diffusion-weighted neuroimaging and graph theory

[J]. Frontiers in Psychiatry, 2015, 6: 21

URL     [本文引用: 1]

KHAZAEE A, EBRAHIMZADEH A, BABAJANI-FEREMI A

Application of advanced machine learning methods on resting-state fMRI network for identification of mild cognitive impairment and Alzheimer ’ s disease

[J]. Brain Imaging and Behavior, 2016, 10 (3): 799- 817

DOI:10.1007/s11682-015-9448-7      [本文引用: 1]

KHAZAEE A, EBRAHIMZADEH A, BABAJANI-FEREMI A. Automatic classification of Alzheimer's disease with resting-state fMRI and graph theory [C]// 2014 21th Iranian Conference on Biomedical Engineering (ICBME). Tehran: IEEE, 2014: 252-257.

CHENG B, LIU M, SHEN D, et al

Multi-domain transfer learning for early diagnosis of Alzheimer ’ s disease

[J]. Neuroinformatics, 2017, 15 (2): 115- 132

DOI:10.1007/s12021-016-9318-5      [本文引用: 1]

LI H, XUE Z, ELLMORE T M, et al. Identification of faulty DTI-based sub-networks in autism using network regularized SVM [C]// 2012 9th IEEE International Symposium on Biomedical Imaging(ISBI). Barcelona: IEEE, 2012: 550-553.

[本文引用: 1]

DODERO L, MINH H Q, SAN BIAGIO M, et al. Kernel-based classification for brain connectivity graphs on the Riemannian manifold of positive definite matrices [C]// 2015 IEEE 12th International Symposium on Biomedical Imaging (ISBI), Brooklyn: IEEE, 2015: 42-45.

WEE C Y, YAP P T, SHEN D

Diagnosis of autism spectrum disorders using temporally distinct resting-state functional connectivity networks

[J]. CNS Neuroscience and Therapeutics, 2016, 22 (3): 212- 219

DOI:10.1111/cns.12499      [本文引用: 1]

ANDERSON A, DOUGLAS P K, KERR W T, et al

Non-negative matrix factorization of multimodal MRI, fMRI and phenotypic data reveals differential changes in default mode subnetworks in ADHD

[J]. Neuroimage, 2014, 102: 207- 219

DOI:10.1016/j.neuroimage.2013.12.015      [本文引用: 1]

MITRA J, SHEN K, GHOSE S, et al

Statistical machine learning to identify traumatic brain injury (TBI) from structural disconnections of white matter networks

[J]. Neuroimage, 2016, 129: 247- 259

DOI:10.1016/j.neuroimage.2016.01.056      [本文引用: 1]

RICHIARDI J, GSCHWIND M, SIMIONI S, et al

Classifying minimally disabled multiple sclerosis patients from resting state functional connectivity

[J]. Neuroimage, 2012, 62 (3): 2021- 2033

DOI:10.1016/j.neuroimage.2012.05.078      [本文引用: 1]

ARBABSHIRANI M R, KIEHL K, PEARLSON G, et al

Classification of schizophrenia patients based on resting-state functional network connectivity

[J]. Frontiers in Neuroscience, 2013, 7: 133

URL     [本文引用: 1]

KENDALL A, GAL Y, CIPOLLA R. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7482-7491.

[本文引用: 1]

MESZLENYI R J, BUZA K, VIDNYANSZKY Z

Resting state fMRI functional connectivity-based classification using a convolutional neural network architecture

[J]. Frontiers in Neuroinformatics, 2017, 11: 61

DOI:10.3389/fninf.2017.00061      [本文引用: 1]

PARISOT S, KTENA S I, FERRANTE E, et al. Spectral graph convolutions for population-based disease prediction [C]// International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2017.[S.l.]: Springer, 2017: 177-185.

[本文引用: 1]

PARISOT S, KTENA S I, FERRANTE E, et al

Disease prediction using graph convolutional networks: application to autism spectrum disorder and Alzheimer ’ s disease

[J]. Medical Image Analysis, 2018, 48: 117- 130

DOI:10.1016/j.media.2018.06.001      [本文引用: 1]

HEINSFELD A S, FRANCO A R, CRADDOCK R C, et al

Identification of autism spectrum disorder using deep learning and the ABIDE dataset

[J]. Neuroimage: Clinical, 2018, 17: 16- 23

DOI:10.1016/j.nicl.2017.08.017      [本文引用: 1]

CHEN C L P, LIU Z

Broad learning system: An effective and efficient incremental learning system without the need for deep architecture

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29 (1): 10- 24

URL     [本文引用: 2]

YU W, ZHAO C

Broad convolutional neural network based industrial process fault diagnosis with incremental learning capability

[J]. IEEE Transactions on Industrial Electronics, 2019, 67 (6): 5081- 5091

URL     [本文引用: 1]

CHRN C L P, YU D, LIU L

Automatic leader-follower persistent formation control for autonomous surface vehicles

[J]. IEEE Access, 2018, 7: 12146- 12155

URL     [本文引用: 1]

WANG J, ZHAO C. Broad learning system based visual fault diagnosis for electrical equipment thermography images [C]// 2018 Chinese Automation Congress (CAC). Xi'an: IEEE, 2018: 1632-1637.

[本文引用: 1]

HE K, SUN J. Convolutional neural networks at constrained time cost [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 5353-5360.

[本文引用: 1]

/