<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 宽度学习系统的基本结构

Fig.1 Basic structure of broad learning system

(1) ${{\boldsymbol{Z}}_i} = {\phi _i}({\boldsymbol{X}}{{\boldsymbol{W}}_{{f_i}}} + {{\boldsymbol{b}}_{{f_i}}}) \in {{\rm{R}}^{N \times p}};\;i = 1,2,\cdots,n.$

式中： ${\phi _i}$为适当的特征映射策略，权值矩阵 ${{\boldsymbol{W}}_{{f_i}}} \in {{\rm R}^{N \times p}}$和偏置矩阵 ${{\boldsymbol{b}}_{{f_i}}} \in {{\rm R}^p}$都是随机生成的. 将 $n$组特征节点 ${{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2},\cdots,{{\boldsymbol{Z}}_n}$合并，得到特征节点集：

(2) ${{\boldsymbol{Z}}^n} \to [{{\boldsymbol{Z}}_1},{{\boldsymbol{Z}}_2},\cdots,{{\boldsymbol{Z}}_n}] \in {{\rm R}^{N \times np}}.$

2）将 ${{\boldsymbol{Z}}^n}$经过 $m$组特征增强，得到 $m$组增强节点 ${{\boldsymbol{H}}_1},{{\boldsymbol{H}}_2},\cdots,{{\boldsymbol{H}}_m}$：

(3) ${{\boldsymbol{H}}_j} = {\varphi _j}({{\boldsymbol{Z}}^n}{{\boldsymbol{W}}_{{e_j}}} + {{\boldsymbol{b}}_{{e_j}}}) \in {{\rm R}^{N \times q}};\;j = 1,2,\cdots,m.$

式中： ${\varphi _j}$为适当的特征增强策略，权值矩阵 ${{\boldsymbol{W}}_{{e_j}}} \in $ $ {{\rm R}^{N \times q}}$和偏置矩阵 ${{\boldsymbol{b}}_{{e_j}}} \in {{\rm R}^q}$都是随机生成的. 将 $m$组增强节点 ${{\boldsymbol{H}}_1},{{\boldsymbol{H}}_2},\cdots,{{\boldsymbol{H}}_m}$合并，得到增强节点集：

(4) ${{\boldsymbol{H}}^m} \to [{{\boldsymbol{H}}_1},{{\boldsymbol{H}}_2},\cdots,{{\boldsymbol{H}}_m}] \in {{\rm R}^{N \times mq}}.$

3）将特征节点集 ${{\boldsymbol{Z}}^n}$和增强节点集 ${{\boldsymbol{H}}^m}$合并，看作是BLS的输入，这里定义：

(5) ${\boldsymbol{I}} = [{{\boldsymbol{Z}}^n}|{{\boldsymbol{H}}^m}] \in {{\rm R}^{N \times (np + mq)}}.$

此时的BLS可以表示为

(6) ${{\boldsymbol{O}}_{{\rm{est}}}} = {\boldsymbol{IW}}{\rm{.}}$

式中： ${{\boldsymbol{O}}_{{\rm{est}}}}$为真实输出 ${\boldsymbol{O}}$的估计值，系统的目的是寻找一个合适的 ${\boldsymbol{W}}$使得 ${{\boldsymbol{O}}_{{\rm{est}}}}$与 ${\boldsymbol{O}}$的差异性尽可能的小.

2. 基于BL的fMRI数据分类方法

2.1. 基本思想

本文所提基于BL的fMRI数据分类方法利用BL优化可以提取fMRI数据深层特征的复杂模型完成fMRI数据分类. 1）在提取浅层特征阶段，采用随机特征映射的方式对fMRI数据进行初步的特征提取；2）在提取深层特征阶段，对浅层特征进行随机特征增强，并利用奇异值分解缩减参数数量，得到fMRI数据的深层特征；3）根据宽度学习系统的基本结构进行模型优化，通过将浅层特征映射为特征节点、深层特征映射为增强节点，降低模型的复杂度，利用岭回归逆计算并得到最终的分类模型完成fMRI数据分类.

2.2. 方法流程

如图2所示为本文方法的示意图。该方法首先根据图2（a）所示结构提取fMRI数据中的浅层和深层特征，然后根据宽度学习对模型进行优化，优化后模型如图2（b）所示.

图 2

图 2 基于宽度学习的fMRI数据分类方法示意图

Fig.2 Function diagram of classification method of fMRI data based on broad learning

2.2.1. 提取浅层特征

浅层特征是指在fMRI数据中基本、直观的数据特征，通常可以通过简单的特征映射提取得到. fMRI测量的是脑神经元活动所引发的血液动力的改变，因此fMRI数据是时序性数据. 各脑区域内的时序性特征就是fMRI数据中最基本、直观的数据特征，因此将各脑区域内的时序性特征作为fMRI数据的浅层特征.在以fMRI数据 ${\boldsymbol{X}} \in {{\rm{R}}^{N \times ({\boldsymbol{T}} \times {\boldsymbol{M}})}}$作为输入时， ${\boldsymbol{X}}$是包含了 $N$张 ${\boldsymbol{T}} \times {\boldsymbol{M}}$的二维图像数据，其中 ${\boldsymbol{T}}$是fMRI数据的时间序列， ${\boldsymbol{M}}$是fMRI数据的感兴趣区域.

如图2（a）所示，通过线性的特征映射，提取fMRI数据的浅层特征，表示为

(7) ${{\boldsymbol{Z}}_i} = {{\boldsymbol{XW}}_{{f_i}}} + {{\boldsymbol{b}}_{{f_i}}},i = 1,2,\cdots,n.$

式中： ${{\boldsymbol{Z}}_i}$为第 $i$个特征映射，特征映射权重 ${{\boldsymbol{W}}_{{f_i}}}$和偏置 ${{\boldsymbol{b}}_{{f_i}}}$是随机给定且保持不变的. 随机生成具有不可预测性问题. 因此，使用稀疏自编码器对随机数进行训练，将随机特征调整为稀疏且紧凑的特征，增加浅层特征的多样性和全面性：

(8) $\arg \mathop {\min }\limits_{{{{{\boldsymbol{W}}}}_{\rm{D}}}} :||{\boldsymbol{Z}}{{{{\boldsymbol{W}}}}_{\rm{D}}} - {\boldsymbol{X}}||_2^2 + \lambda ||{{{{\boldsymbol{W}}}}_{\rm{D}}}|{|_1}$

式中： ${{{{\boldsymbol{W}}}}_{\rm{D}}}$为稀疏自编码策略， ${\boldsymbol{Z}}$为特征映射的输出层，且有 ${\boldsymbol{Z}} = {\boldsymbol{X}}{{{{\boldsymbol{W}}}}_{\rm{D}}}$， $\lambda $为稀疏正则化系数. 虽然特征映射权重 ${{\boldsymbol{W}}_{{f_i}}}$和偏置 ${{\boldsymbol{b}}_{{f_i}}}$是随机给定且保持不变的，但是在实际训练中，由于需要提取的特征次数较多，随机值对最终结果的影响有限，不会造成分类结果的大范围波动.

2.2.2. 提取深层特征

人脑中的基本功能通常不是由某个体素或脑区域独立完成的，而是由脑的多个区域内的多个体素协同完成的. 不同脑区域之间的关系无法通过提取各脑区域内时序性特征得到，即fMRI数据的浅层特征无法表示各脑区域间的时序性特征. 因此，需要在得到各脑区域内的时序性特征的基础上，寻找不同脑区域间的联系，即寻找各脑区域间的时序性特征，即fMRI数据的深层特征. 如图2（a）通过对浅层特征进行非线性的特征增强，可以更好地挖掘fMRI数据的深层特征，表示为

(9) $ \begin{split} \!\!\!{{{\boldsymbol{H}}_j} = \tan {\rm{sig}}({{\boldsymbol{Z}}^n}{{\boldsymbol{W}}_{{e_j}}} + {{\boldsymbol{b}}_{{e_j}}});\;j = 1,2,\cdots,m.} \\ \end{split} $

其中

$ {\tan {\rm{sig(}}x{\rm{) = }}\dfrac{2}{{1 + {{\rm{exp}}{ (- 2x)}}}} - 1.} $

式中： ${{\boldsymbol{H}}_j}$为第 $j$组特征增强， ${{\boldsymbol{Z}}^n} $为fMRI数据浅层特征的集合，特征增强的权重 ${{\boldsymbol{W}}_{{e_j}}}$和偏置 ${{\boldsymbol{b}}_{{e_j}}}$是随机给定且保持不变的.

在实际应用中，矩阵多为不对称矩阵，因此在计算时无须考虑全部的参数. 这里根据奇异值分解（singular value decomposition，SVD）进行参数优化，根据SVD定义，任意 $m \times n$的矩阵 ${\boldsymbol{C}}$可以表示为

(10) ${\boldsymbol{C}} = {\boldsymbol{U}}{\boldsymbol{\varSigma}} {{\boldsymbol{V}}^{\rm{T}}}$

式中： ${\boldsymbol{U}}$为 $m \times m$的正交矩阵， ${\boldsymbol{U}}$的列表示 ${\boldsymbol{C}}{{\boldsymbol{C}}^{\rm{T}}}$的特征向量， ${\boldsymbol{V}}$为 $n \times n$的正交矩阵， ${\boldsymbol{V}}$的列表示 ${{\boldsymbol{C}}^{\rm{T}}}{\boldsymbol{C}}$的特征向量， ${\boldsymbol{\varSigma}} $为 $m \times n$的对角矩阵. 最终更新特征增强的权重 ${{\boldsymbol{W}}_{{e_j}}}$和偏置 ${{\boldsymbol{b}}_{{e_j}}}$为各自的正交基.

2.2.3. 基于宽度学习的模型优化

为了解决深度结构带来的参数量大、计算缓慢等问题，如图2（b）所示，根据BLS的基本结构，将浅层特征 ${{\boldsymbol{F}}^n} \to [{{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2},\cdots,{{\boldsymbol{F}}_n}]$映射为特征节点，深层特征 ${{\boldsymbol{E}}^m} \to [{{\boldsymbol{E}}_1},{{\boldsymbol{E}}_2},\cdots,{{\boldsymbol{E}}_m}]$映射为增强节点，并将特征节点和增强节点合并为本文方法的输入层，表示为

(11) ${\boldsymbol{I}} = [{{\boldsymbol{Z}}^n}|{{\boldsymbol{H}}^m}].$

此时文本方法的模型可以表示为

(12) ${\boldsymbol{O}} = [{{\boldsymbol{Z}}^n}|{{\boldsymbol{H}}^m}]{\boldsymbol{W}} = {\boldsymbol{IW}}.$

式中： ${\boldsymbol{O}}$为文本方法的输出层， ${\boldsymbol{W}}$为连接权值. ${\boldsymbol{W}}$需要通过计算输入层 ${\boldsymbol{I}}$的岭回归逆 ${{\boldsymbol{I}}^ + }$得到，根据文献[21]使用的岭回归逆求解方法计算 ${{\boldsymbol{I}}^ + }$，已知岭回归逆可以表示为

(13) $\arg \mathop {\min }\limits_{\boldsymbol{W}} :||{\boldsymbol{IW}} - {\boldsymbol{O}}||_2^2 + \lambda ||{\boldsymbol{W}}||_2^2.$

式中： $\lambda $为正则化参数，当 $\lambda \to 0$时，可得：

(14) ${{\boldsymbol{I}}^ + } = \mathop {\lim }\limits_{\lambda \to 0} {(\lambda {\boldsymbol{E}} + {{\boldsymbol{I}}^{\rm{T}}}{\boldsymbol{I}})^{ - 1}}{{\boldsymbol{O}}^{\rm{T}}}.$

式中： ${{\boldsymbol{I}}^ + }$为 ${\boldsymbol{I}}$的岭回归逆， ${\boldsymbol{E}}$为单位矩阵. 根据式（14）给出的岭回归逆计算方法，可以得到连接权值 ${\boldsymbol{W}}$的计算公式，表示为

(15) ${\boldsymbol{W}} = \mathop {\lim }\limits_{\lambda \to 0} {(\lambda {\boldsymbol{E}} + {{\boldsymbol{I}}^{\rm{T}}}{\boldsymbol{I}})^{ - 1}} ({{\boldsymbol{I}}^{\rm{T}}}{\boldsymbol{O}}).$

2.3. 算法描述

本文方法的训练过程如算法1所示. 基于算法1的描述，对BL的时间复杂度进行分析. 假设训练样本的输入量为 $N$，则生成特征节点的时间复杂度为 $O(nN)$，生成增强节点的时间复杂度为 $O(mN)$，因此，BL的总体时间复杂度为 $O((n + m)N)$. 根据文献[25]给出的CNN的时间复杂度，基于CNN的fMRI数据分类方法的时间复杂度为

(16) $O\left(\sum\limits_{i = 1}^d {s_l^2 m_l^2 {n_{l - 1}} {n_l}} \right)$

式中： $s$为每个卷积核输出特征图尺寸， $m$为每个卷积核尺寸， $l$为第 $l$个卷积层， $d$为卷积层的深度， ${n_{l - 1}}$为第 $l$层的输入通道数， ${n_l}$为第 $l$层的输出通道数. 可以看出，在样本数相同的情况下，BL算法的时间复杂度 $O(n + m)$是明显优于CNN时间复杂度 $O\left(\displaystyle\sum\limits_{i = 1}^d {s_l^2 m_l^2 {n_{l - 1}} {n_l}} \right)$的.

算法1

输入　　fMRI数据

输出　　fMRI数据的分类预测

1. 初始化：

2. 设置参数值:特征窗口数n、窗口特征数k、增强节点数m、正则化系数 $ \lambda $、收缩系数s；

3. 选取训练样本X；

4. for i=1 to n

5. 随机生成 $ {\boldsymbol{W}}_{{e}_{i}},{{\boldsymbol{b}}}_{{e}_{i}}$；

6. $ {\boldsymbol{W}}_{{e}_{i}},{{\boldsymbol{b}}}_{{e}_{i}}$，X输入稀疏自编码器；

7. 提取浅层特征 $ {{\boldsymbol{Z}}}_{i}={\boldsymbol{X{W}}}_{{f}_{i}}+{{\boldsymbol{b}}}_{{f}_{i}}$；

8. end for

9. 将浅层特征映射为特征节点 $ {{\boldsymbol{Z}}}^{n}\to [{{\boldsymbol{Z}}}_{1}, {{\boldsymbol{Z}}}_{2},{\cdots},{{\boldsymbol{Z}}}_{n}]$；

10. for j=1 to m

11. 随机生成 $ {{\boldsymbol{W}}}_{{e}_{j}},{{\boldsymbol{b}}}_{{e}_{j}}$；

12. 更新 $ {{\boldsymbol{W}}}_{{e}_{j}},{{\boldsymbol{b}}}_{{e}_{j}}$为正交基各自的正交基；

13. 提取深层特征 $ {{\boldsymbol{H}}}_{j}={\rm{tan}}\;{\rm{sig}}{(}{{\boldsymbol{Z}}}^{n}{{\boldsymbol{W}}}_{{e}_{j}}+{{\boldsymbol{b}}}_{{e}_{j}})$；

14. end for

15. 合成输入层 $ {\boldsymbol{I}}=[{{\boldsymbol{Z}}}^{n}|{{\boldsymbol{H}}}^{m}]$；

16. 计算岭回归逆 $ {{\boldsymbol{I}}}^{+}$；

17. 计算连接权值 $ {\boldsymbol{W}}={{\boldsymbol{I}}}^{+}{\boldsymbol{O}}$；

18. 选取测试样本 $ {{\boldsymbol{X}}}_{{\rm{Test}}}$；

19. 重复步骤4~15，生成测试输入层 $ {{\boldsymbol{I}}}_{{\rm{Test}}}$；

20. 计算预测结果 $ {{\boldsymbol{O}}}_{{\rm{est}}}={{\boldsymbol{I}}}_{{\rm{Test}}}W$；

21. 输出 $ {{\boldsymbol{O}}}_{{\rm{est}}}$.

3. 实验结果及分析

实验在处理器为Core（TM）i7-9700 CPU、RAM为32.00 GB、操作系统为Windows10的环境下，利用Matlab编写代码并实现.

3.1. 实验数据及预处理

使用3个公开的fMRI数据集：ABIDE Ⅰ数据集、ABIDE Ⅱ数据集、ADHD-200数据集. ABIDE Ⅰ和ABIDE Ⅱ是针对ASD和相应对照组的公开数据集，ADHD-200是针对注意缺陷多动障碍（attention deficit hyperactivity disorder，ADHD）和相应对照组的公开数据集. 3个数据集的基本情况如表1所示. ABIDE Ⅰ、ABIDE Ⅱ数据集可以通过网站（ http://fcon_1000.projects.nitrc.org/indi/abide/）下载，ADHD-200数据集可以通过网站（ http://fcon_1000.projects.nitrc.org/indi/adhd200/）下载.

表 1 3个数据集的基本情况

Tab.1 Detail of three data sets

数据集	样本量/个	正常被试量/个	患者量/个	机构量/个
ABIDE Ⅰ	1 096	569	527	17
ABIDE Ⅱ	1 043	556	487	16
ADHD-200	445	277	168	4

利用DPARSF软件预处理fMRI数据：1）为了排除fMRI扫描仪和被试适应过程的影响，删除前10个时间点；2）对每个脑图像做层间校正和头动校正，使用DARTEL分割并对应到T1结构像，回归滋扰变量的影响，选择24个Friston滋扰变量，去掉白质和脑积液；3）使用0.01~0.10 Hz的滤波器滤波，得到全脑的低频波动信号；4）标准化到MNI空间，并实施空间光滑（FWHM=4 mm）； 5）使用AAL模板制作感兴趣区域的掩膜Mask，并通过该Mask提取感兴趣区域内体素的时间序列.

3.2. 评价指标

选用5种常见的评价指标证明算法的有效性，包括：准确率（accuracy，Acc）、精度（precision，Pr）、灵敏度（sensitivity，Sn）、特异性（specificity，Sp）、F度量（F-measure）. 对于二分类问题，可将分类结果表示为混淆矩阵的形式，算法的预测结果和样本的真实标签的划分为真正例（true positive，TP）、假正例（false positive，FP）、真反例（true negative，TN）和假反例（false negative，FN）.

准确率是机器学习领域中最常用的评价指标，表示全部样本被正确预测的比例

(16) ${\rm{Acc}} = \frac{{{\rm{TP + TN}}}}{{{\rm{TP + TN + FP + FN}}}}.$

在临床诊断中，精度代表着被诊断为患者组中真实患者的比例，精度越高，患者组的确诊率越高；灵敏度代表着患者组被正确诊断的比例，灵敏度越高，漏诊的概率越低；特异性代表着健康组被正确诊断的比例，特异性越高，误诊率越低.

(17) $\Pr = \frac{{{\rm{TP}}}}{{{\rm{TP + FP}}}}.$

(18) ${\rm{Sn}} = \frac{{{\rm{TP}}}}{{{\rm{TP + FN}}}}.$

(19) ${\rm{Sp}} = \frac{{{\rm{TN}}}}{{{\rm{TN + FP}}}}.$

精度和灵敏度往往互相矛盾，常采用F-measure进行综合考虑

(20) ${\rm{F}}{\rm{ - measure}} = \frac{{2 {\rm{Sn}} \times \Pr }}{{{\rm{Sn}} + \Pr }}.$

3.3. 实验参数设置

3.3.1. 本文方法的参数设置

对于不同的fMRI数据集，以准确率Acc作为评价指标，通过控制变量法对数据集的参数进行多次调试实验，以确定针对不同数据集的参数. 3个数据集共有参数：正则化系数 $\lambda\!\! =\!\!$2⁻³⁰、收缩系数 $s\!\! = $ $ 0.8$. 其余参数的取值方法如下. 以ABIDE-UM数据集（ABIDE I中来自UM机构的数据）为例，以Acc作为评价标准，如图3所示，不同特征窗口数 $N_1$与窗口特征数 $N_2$下Acc的取值情况（ $N_3$保持不变）. 可以看出，当 $N_1 N_2$接近100时效果较好，并且在 $N_1\!\! =\!\!10$、 $N_2\!\! =\!\!10$时取得的效果最好. 因此，该数据集最终取 $N_1\!\! =\!\!10$、 $N_2\!\! =\!\!10$；增强节点数 $n_3$取值也采用此方法，由图可以看出，当 $n_3\!\! =\!\!2\;000$时效果较好，当 $n_3\!\!>\!\! 2\;500$时准确率开始下降，因此，最终取 $n_3\!\! =\!\!2\;000$. 还可以看出，在所有参数中，相对于 $N_1$、 $N_2$的取值， $n_3$对于Acc的影响较为敏感，对算法性能的影响较大. 根据上述取值方法，对于特征窗口数 $N_1$、窗口特征数 $N_2$以及增强节点数 $n_3$在不同数据集上的具体设置情况如表2所示.

图 3

图 3 在准确率不同参数下的取值

Fig.3 Values of accuracy under different parameters

表 2 3个数据集的参数设置

Tab.2 Parameter settings for three data sets

数据集	N₁	N₂	n₃
ABIDE I	10	10	10 000
ABIDE II	10	10	10 000
ADHD-200	9	11	5 000

3.3.2. 对比方法的参数设置

分别选取3种传统机器学习方法和3种深度学习模型进行对比实验.其中，传统机器学习方法包括基于线性支持向量机（linear SVM）的方法、基于RF的方法和基于KNN的方法；深度学习方法包括基于DNN的方法、基于CCNN的方法以及基于GCN的方法. 上述所有传统机器学习方法都基于Python的scikit-learn库实现；所有深度学习方法都基于开源框架Tensorflow实现.如表3所示为对比方法的参数设置，其中传统机器学习算法的参数为默认值.

表 3 对比方法的参数设置

Tab.3 Parameter settings of comparison method

方法	结构
SVM	使用Puthon中的默认模块函数，设置神经节点数为10
RF	使用Puthon中的默认模块函数，设置神经节点数为10
KNN	使用Puthon中的默认模块函数，设置神经节点数为10
DNN	[6 670，1 000，600，96，2]
GCN	[116116，32@116116，64@1116，128@1161，96，2]
CCNN	[116116，32@116116，64@1116，128@1161，96，2]

3.4. 实验分析与比较

将本文方法与6种经典方法在5项评价指标上进行对比.

3.4.1. 性能指标

将每个数据集在表2提供的参数下独立运行10次，取平均值作为最终的实验结果，将其与SVM、RF、KNN、DNN、CCNN、GCN运行所得结果进行对比. 其中ABIDE Ⅰ和ABIDE Ⅱ数据集采用10折交叉验证，ADHD-200数据集采用5折交叉验证. 7种算法在3种不同脑疾病患者的fMRI数据上的基本检测结果如表4至表6所示. 由表可以看出，在3个数据集中，本文方法在5项评价指标中的表现与其他6种算法的相比各有优劣. 1）对于Acc，深度学习方法整体高于传统机器学习方法，本文方法可以得到与深度学习方法相近的Acc. 可能是因为相比于传统机器学习方法，本文方法能够提取深层特征，所以具有高于这类方法的分类准确率；相比于深度学习方法，本文方法虽然不能更好地拟合fMRI数据中复杂的深层特征，但是能够避免因为冗余特征过多而带来的过拟合问题，所以能够高于部分的深度学习方法. 实验结果说明本文方法可以作为有效的fMRI数据分类方法应用于脑疾病分类领域. 2）由于Pr和Sn在脑疾病诊断中发挥的作用不同，两者往往相互矛盾，算法通常不能同时兼顾. 本文方法在2项指标中各有1项是7种算法中最好的，这说明本文方法在不同的脑疾病诊断中可以发挥不同的作用，例如在ABIDE Ⅰ数据集中，本文方法拥有最好的确诊率，能够通过最少的医疗资源治疗更多的ASD患者；而在ADHD-200数据集中，本文方法漏诊的概率最低，能够保证更多的多动症儿童接受治疗. 3）对于Sp指标，本文方法在3个数据集中的表现不稳定，例如在ABIDE Ⅰ数据集中本文方法仅排名第5，这可能是由于在分类ABIDE Ⅰ数据集时，为了提高分类准确率，提取了更多的深层特征，其中夹杂了一些不关键信息，影响了系统的判断. 而在ADHD-200数据集中，提取了相对较少的深层特征，因此本文方法在ADHD-200数据集中的指标排名第2，误诊率较低. 4）对于综合指标F-measure，本文方法在ABIDE Ⅰ和ABIDE Ⅱ数据集中取得了最好的结果，说明本文方法在针对ASD患者的自动诊断中是行之有效的方法；而在ADHD-200数据集中结果不佳，其中Pr的影响较大，说明本文方法适合将多动症作为普适性疾病进行诊断，虽然不适合作为临床诊断的最佳手段，但仍可以应用于多动症的广泛筛查.

表 4 7种算法在ABIDE Ⅰ数据集上的实验结果

Tab.4 Experimental results of seven algorithms on ABIDE Ⅰ data set

方法类别	方法	Acc /%	Pr /%	Sn /%	Sp /%	F-measure
传统机器学习	SVM	57.81	55.92	88.37	24.89	68.48
	RF	62.40	62.52	69.24	55.09	65.59
	KNN	58.80	56.73	87.60	27.77	68.81
深度学习	GCN	64.59	62.62	64.33	58.36	63.33
	CCNN	65.60	64.61	76.77	53.49	69.66
	DNN	63.98	65.24	67.13	60.71	65.86
宽度学习	本文	64.48	78.21	63.12	50.85	69.91

表 5 7种算法在ABIDE Ⅱ数据集上的实验结果

Tab.5 Experimental results of seven algorithms on ABIDE Ⅱ data set

方法类别	方法	Acc /%	Pr /%	Sn /%	Sp /%	F-measure
传统机器学习	SVM	54.26	53.90	98.66	3.57	69.70
	RF	61.18	61.43	73.38	47.26	66.83
	KNN	56.63	58.85	63.74	48.61	60.76
深度学习	GCN	62.03	64.52	72.73	54.17	68.38
	CCNN	65.47	66.73	70.69	59.49	68.52
	DNN	66.07	66.58	74.11	74.11	69.90
宽度学习	本文	65.29	86.67	62.93	40.28	72.55

表 6 7种算法在ADHD-200数据集上的实验结果

Tab.6 Experimental results of seven algorithms on ADHD-200 data set

方法类别	方法	Acc /%	Pr /%	Sn /%	Sp /%	F-measure
传统机器学习	SVM	59.04	64.98	36.97	80.65	46.84
	RF	59.21	59.83	53.53	64.77	56.40
	KNN	58.93	61.93	45.79	71.76	52.22
深度学习	GCN	60.61	57.97	48.57	66.21	50.77
	CCNN	60.28	59.27	59.11	60.00	58.88
	DNN	62.73	59.40	61.85	63.17	61.82
宽度学习	本文	61.19	51.33	64.11	72.92	56.20

综合以上5项评价指标得出的实验结果，可以看出本文方法性能优于传统机器学习方法，与深度学习方法相近. 其中Acc指标项充分说明本文方法可以通过简单结构提取fMRI数据中的深层特征，证明本文方法的有效性，特别地，本文方法的F-measure指标项在多数数据集中表现良好，证明本文方法在fMRI数据分类领域可以发挥良好的作用.

3.4.2. 训练时间与Acc的比较

为了进一步说明本文方法的高效性，将7种算法在3个数据集上的训练时间与Acc进行比较，如图4所示. 图中，BL表示本文方法. 由图可以看出，在3个数据集中，本文方法的Acc均达到了深度学习方法的水平，且训练时间均低于深度学习方法，尤其在ADHD-200数据集中，充分体现了本文方法的有效性和高效性.

图 4

图 4 7种方法在3个数据集上的训练时间与准确率比较

Fig.4 Comparison time and accuracy on three data sets

综合以上，本文方法总体上取得了不错的结果：1）本研究通过特征提取和特征增强，分别提取了数据中的浅层和深层特征，为分类准确率提供了保障；2）基于BL将模型优化，在保留深层特征的前提下，将深层复杂结构变为简单结构，降低了训练时间. 不过，本文方法在分类Acc和训练时间上表现均不是最佳的，主要原因是相比于传统机器学习方法，本文方法须提取深层特征，尤其在提取较多的深层特征时，对训练速度影响较大；相比于深度学习方法，本文方法为了缩短训练时间，采用随机权重提取特征，在一定程度上影响了分类的Acc.

4. 结　语

本文提出基于宽度学习的fMRI数据分类方法. 该方法的主要特点是利用BLS的基本思想，将能够提取fMRI数据深层特征的深层复杂结构简化，降低训练时间. 在3个数据集上进行的实验充分表明本文方法是快速、有效的fMRI数据分类方法. 该方法使用简单结构提取数据的深层特征，须将深层网络中的复杂结构使用随机函数进行替换，因此最终的分类结果受随机值影响较大，分类性能较深度学习方法而言不稳定. 对该方法的研究，不仅拓展了fMRI数据分类的应用领域，而且对神经影像领域的其他研究也有一定的借鉴意义. 该方法的特征提取策略均为随机提取，在未来的工作中，将充分考虑fMRI数据的图像特性，融合适合图像特征的特征提取方式（如卷积特征提取），找到更适用于fMRI数据特性的特征提取策略，提高系统的稳定性，同时将BL应用于fMRI数据分类中，以得到更好的分类结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

BELLIVEAU J W, KENNEDY D N, MCKINSTRY R C, et al

Functional mapping of the human visual cortex by magnetic resonance imaging

[J]. Science, 1991, 254 (5032): 716- 719

DOI:10.1126/science.1948051 [本文引用: 1]

[2]

COX D D, SAVOY R L

Functional magnetic resonance imaging (fMRI)“brain reading”: detecting and classifying distributed patterns of fMRI activity in human visual cortex

[J]. Neuro Image, 2003, 19 (2): 261- 270

[3]

CHENG B, LIU M, SHEN D, et al

Multi-domain transfer learning for early diagnosis of Alzheimer ’ s disease

[J]. Brain, 2012, 135 (5): 1498- 1507

DOI:10.1093/brain/aws059 [本文引用: 1]

[4]

ROSA M J, PORTUGAL L, HAHN T, et al

Sparse network-based models for patient classification using fMRI

[J]. Neuroimage, 2015, 105: 493- 506

DOI:10.1016/j.neuroimage.2014.11.021

[5]

SACCHET M D, PRASAD G, FOLAND-ROSS L C, et al

Support vector machine classification of major depressive disorder using diffusion-weighted neuroimaging and graph theory

[J]. Frontiers in Psychiatry, 2015, 6: 21

[6]

KHAZAEE A, EBRAHIMZADEH A, BABAJANI-FEREMI A

Application of advanced machine learning methods on resting-state fMRI network for identification of mild cognitive impairment and Alzheimer ’ s disease

[J]. Brain Imaging and Behavior, 2016, 10 (3): 799- 817

DOI:10.1007/s11682-015-9448-7 [本文引用: 1]

[7]

KHAZAEE A, EBRAHIMZADEH A, BABAJANI-FEREMI A. Automatic classification of Alzheimer's disease with resting-state fMRI and graph theory [C]// 2014 21th Iranian Conference on Biomedical Engineering (ICBME). Tehran: IEEE, 2014: 252-257.

[8]

CHENG B, LIU M, SHEN D, et al

Multi-domain transfer learning for early diagnosis of Alzheimer ’ s disease

[J]. Neuroinformatics, 2017, 15 (2): 115- 132

DOI:10.1007/s12021-016-9318-5 [本文引用: 1]

[9]

LI H, XUE Z, ELLMORE T M, et al. Identification of faulty DTI-based sub-networks in autism using network regularized SVM [C]// 2012 9th IEEE International Symposium on Biomedical Imaging(ISBI). Barcelona: IEEE, 2012: 550-553.

DOI:10.1016/j.neuroimage.2013.12.015 [本文引用: 1]

[10]

DODERO L, MINH H Q, SAN BIAGIO M, et al. Kernel-based classification for brain connectivity graphs on the Riemannian manifold of positive definite matrices [C]// 2015 IEEE 12th International Symposium on Biomedical Imaging (ISBI), Brooklyn: IEEE, 2015: 42-45.

[11]

WEE C Y, YAP P T, SHEN D

Diagnosis of autism spectrum disorders using temporally distinct resting-state functional connectivity networks

[J]. CNS Neuroscience and Therapeutics, 2016, 22 (3): 212- 219

DOI:10.1111/cns.12499 [本文引用: 1]

[12]

ANDERSON A, DOUGLAS P K, KERR W T, et al

Non-negative matrix factorization of multimodal MRI, fMRI and phenotypic data reveals differential changes in default mode subnetworks in ADHD

[J]. Neuroimage, 2014, 102: 207- 219

[13]

MITRA J, SHEN K, GHOSE S, et al

Statistical machine learning to identify traumatic brain injury (TBI) from structural disconnections of white matter networks

[J]. Neuroimage, 2016, 129: 247- 259

DOI:10.1016/j.neuroimage.2016.01.056 [本文引用: 1]

[14]

RICHIARDI J, GSCHWIND M, SIMIONI S, et al

Classifying minimally disabled multiple sclerosis patients from resting state functional connectivity

[J]. Neuroimage, 2012, 62 (3): 2021- 2033

DOI:10.1016/j.neuroimage.2012.05.078 [本文引用: 1]

[15]

ARBABSHIRANI M R, KIEHL K, PEARLSON G, et al

Classification of schizophrenia patients based on resting-state functional network connectivity

[J]. Frontiers in Neuroscience, 2013, 7: 133

[16]

KENDALL A, GAL Y, CIPOLLA R. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7482-7491.

[17]

MESZLENYI R J, BUZA K, VIDNYANSZKY Z

Resting state fMRI functional connectivity-based classification using a convolutional neural network architecture

[J]. Frontiers in Neuroinformatics, 2017, 11: 61

DOI:10.3389/fninf.2017.00061 [本文引用: 1]

[18]

PARISOT S, KTENA S I, FERRANTE E, et al. Spectral graph convolutions for population-based disease prediction [C]// International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2017.[S.l.]: Springer, 2017: 177-185.

[19]

PARISOT S, KTENA S I, FERRANTE E, et al

Disease prediction using graph convolutional networks: application to autism spectrum disorder and Alzheimer ’ s disease

[J]. Medical Image Analysis, 2018, 48: 117- 130

DOI:10.1016/j.media.2018.06.001 [本文引用: 1]

[20]

HEINSFELD A S, FRANCO A R, CRADDOCK R C, et al

Identification of autism spectrum disorder using deep learning and the ABIDE dataset

[J]. Neuroimage: Clinical, 2018, 17: 16- 23

DOI:10.1016/j.nicl.2017.08.017 [本文引用: 1]

[21]

CHEN C L P, LIU Z

Broad learning system: An effective and efficient incremental learning system without the need for deep architecture

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29 (1): 10- 24

URL [本文引用: 2]

[22]

YU W, ZHAO C

Broad convolutional neural network based industrial process fault diagnosis with incremental learning capability

[J]. IEEE Transactions on Industrial Electronics, 2019, 67 (6): 5081- 5091

[23]

CHRN C L P, YU D, LIU L

Automatic leader-follower persistent formation control for autonomous surface vehicles

[J]. IEEE Access, 2018, 7: 12146- 12155

[24]

WANG J, ZHAO C. Broad learning system based visual fault diagnosis for electrical equipment thermography images [C]// 2018 Chinese Automation Congress (CAC). Xi'an: IEEE, 2018: 1632-1637.

[25]

HE K, SUN J. Convolutional neural networks at constrained time cost [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 5353-5360.