基于Boosting-决策树C5.0的岩体结构面粗糙度预测
Prediction of joint roughness coefficient of rock mass based on Boosting-decision tree C5.0
通讯作者:
收稿日期: 2020-02-15
基金资助: |
|
Received: 2020-02-15
Fund supported: | 国家自然科学基金资助项目(42007267,41977244);国家重点研发计划资助项目(2017YFC1501301) |
作者简介 About authors
苗发盛(1989—),男,副教授,从事岩土稳定性评价研究.orcid.org/0000-0001-7760-779X.E-mail:
针对目前岩体结构面粗糙度系数(JRC)定量评价模型构建困难且预测精度较低的问题,搜集包括10条Barton标准剖面线在内的112条岩体结构面JRC,统计各剖面线的8种形态参数. 采用主成分分析降维处理形态参数,共得到5个主成分. 以前102组剖面线参数作为训练样本,采用Boosting-决策树C5.0算法构建模型,以10条Barton标准剖面线验证模型精度. 对比决策树C5.0模型、CHAID决策树模型、支持向量机(SVM)模型、类神经网络模型,分析各模型预测效果. 结果表明,Boosting-决策树C5.0模型的预测结果平均误差、均方根误差均最小. 建立的显式JRC预测模型,包含8层共计68节点的判别阈值.
关键词:
The JRC values of 112 rock joints were collected, including 10 Barton standard profiles, and 8 morphological parameters of each profile were calculated in view of the difficulty and low accuracy for prediction of the current joint roughness coefficient (JRC) quantitative evaluation model. Principal component analysis was used to reduce the dimension of these morphological parameters, and 5 principal components were obtained. 102 groups of profile data were used as training samples, the Boosting-decision tree (DT) C5.0 algorithm was used to build the training model, and Barton 10 standard profiles were used for model verification. The DT C5.0 model, CHAID DT model, support vector machine (SVM) model, and artificial neural network models were selected to verify the prediction accuracy of each model. Results showed that the average error and root mean square error of the Boosting-DT C5.0 model were the least. Established explicit JRC prediction model included 8 layers and 68 nodes.
Keywords:
本文引用格式
苗发盛, 吴益平, 李麟玮, 廖康, 薛阳.
MIAO Fa-sheng, WU Yi-ping, LI Lin-wei, LIAO Kang, XUE Yang.
岩体广泛分布于自然界各处,几乎所有工程建设都要准确获取岩体的强度参数. 岩体由岩块和结构面组成,结构面强度对岩体强度有决定性的影响. 岩体结构面粗糙度的定量评价是获取岩体结构面峰值抗剪强度的基础,在生产实践和工程建设中具有重要的意义.
岩体结构面粗糙度系数(joint roughness coefficient, JRC)由Barton[1]通过测试岩体结构面抗剪强度得到. 在针对136组结构面强度测试的基础上,Barton等[2]总结了10条标准剖面线,JRC为0~20. 至此,工程师可以通过视觉类比的方法获取结构面大致的JRC. 该方法被国际岩石力学学会采纳作为估算JRC的标准方法[3]. 视觉类比往往会产生较大的误差,通过直剪试验测定JRC较烦琐. 为此,大量学者开展了结构面统计参数与JRC关系的研究. Patton等[4]基于规则锯齿状结构面,研究起伏角度与结构面剪切强度的关系. Myers等[5-9]提出结构面的坡度均方根参数与结构面JRC之间的定量关系. Yu等[7]提出岩体结构面起伏角标准差与JRC之间的定量关系. Barton等[10-11]研究结构面表面相对起伏高度与JRC的关系. 葛云峰等[12]提出基于光亮面积百分比的岩体结构面JRC表征方法. 陈世江等[13-15]提出用岩体结构面分形维数表征JRC的新方法. 蔡毅等[16]研究岩体结构面在垂直方向投影面积与水平投影面积之比,将其定义为粗糙度指标,提出描述结构面三维粗糙程度的新参数. 上述研究均是基于单一或少量结构面剖面线形态参数,建立综合多种形态参数的JRC评价模型尚待开展.
岩体结构面粗糙度研究经历了从力学试验到统计参数研究的过渡,不但使JRC的评价更加便捷,而且节约了大量成本. 在大数据信息化的时代,如若能够建立基于智能算法的多参量JRC评价预测模型,则能够将JRC的研究再次向前推进一步. 在结构面JRC评价预测方面,Wang等[17-19]作了初步尝试. 其中,Wang等[17-18]通过支持向量机模型(support vector machine, SVM)建立各统计参数与结构面JRC的隐式关系. 宋康明等[19]提出基于随机森林(random forest,RF)算法研究JRC的新方法. 由于机器学习所构建的隐式模型的局限性,Wang等[17-19]建立的模型均不具有普遍性与可推广性. 本研究尝试采用Boosting-决策树(decision tree, DT)C5.0模型,建立岩体结构面统计参数与JRC的决策树模型,并致力于推广其在岩土工程中的应用. 决策树是流行的分类算法和决策支持方法. 在分类和预测方面遵循一系列树状图规则,其中树状图的结点为样本属性,分支为属性取值. 决策树的算法很多,DT C5.0是比较常用的一种. 目前,DT C5.0模型在岩土工程领域中的应用多集中在滑坡与岩石力学的研究方面. 王朋伟[20]建立滑坡主要诱发因素与稳定性状态的决策树模型,结合规律与滑坡地质环境特征解释滑坡演化趋势. 乔建平等[21]提出基于不确定决策树算法在滑坡危险性预测的方法. 王正海等[22]建立基于决策树的SVM多类分类器,利用矿区采集的野外实测岩性波谱数据进行分类实验. 陈顺满等[23]建立岩石3种评价指标与岩爆烈度之间的决策树模型.
本文搜集112条岩体结构面JRC值,统计包括结构面平均相对起伏高度、结构面平均起伏角、结构面剖面线粗糙系数等在内的8种形态参数. 采用主成分分析(principal component analysis,PCA)的方法,对形态参数进行降维处理. 以前102组剖面线数据作为训练样本,基于Boosting-DT C5.0算法构建决策树模型,采用Barton10条标准剖面线进行验证. 选取多种机器学习模型作为对比,验证各模型的预测精度.
1. 模型介绍
1.1. DT C5.0的生长
决策树模型在估计过程和解释参数方面具有优势,与其他统计方法不同,决策树模型无须作统计假设,可以处理代表不同尺度的数据,且计算速度较快,这是较SVM等模型比较明显的优点. DT C5.0是基于ID 3算法发展而来的. 其计算方法是由熵的概念引出,即在信息源被发出之前的平均不确定性. 假设N为整个样本集合,C是一组目标变量,t为C的分类数. 熵被定义为
式中:
新分裂的节点与原节点熵的差值为信息增益,表示为
一般情况下,
1.2. DT C5.0的修剪方法
DT C5.0算法对训练集使用统计的置信区间估计的方法来评估误差. 若节点n包含En个预测错误的样本,则该节点的错误率为
定义节点n的估计误差为
式中:z为阈值,一般等于1.15. 当待剪子树中叶节点的加权误差大于父节点的估计误差时,可以将该叶节点剪去,表示为
式中:r为还未修剪子树叶节点的数量,pn为叶节点中样本量占子树样本量的比值,e为父节点的估计误差.
1.3. Boosting技术
Boosting技术可以提高DT C5.0算法的稳健性,主要包括建模阶段和模型投票阶段.
在建模阶段,该技术通过对现有加权样本进行重复采样来增加模拟样本集. 设整个过程需要k次迭代,训练样本T的样本量为N,则建模过程可以表示如下.
1)初始化样本权重,
式中:
2)根据
3)根据Ti得到模型Ci,计算该模型的误差e(i).
4)当
式中:
错误分类的样本权重保持不变:
进行归一化处理:
5)重复迭代步骤1)~4),得到k个模型和k个误差.
在投票阶段,对新的样本集X的投票过程可以概括如下.
a)对每个模型
k个模型将给出k个
b)根据类别分别计算权重的总和,总和最高的类别即为该集合X的最终分类结果.
结合交叉验证方法与Boosting技术,可以提高DT C5.0模型的泛化能力,防止模型过度拟合.
1.4. 主成分分析
主成分分析(PCA)是统计学中常见的降维算法. 核心思想是通过正交变换,将可能存在相关性的变量转换为线性不相关的变量,转换后的这组变量叫主成分. PCA基本流程如下:1)求取n维向量各平均值;2)求n维向量特征协方差矩阵,并求解协方差的特征值和特征向量;3)将特征值按从大到小依次排序,选择其中最大的k个特征向量分别作为列向量组成特征向量矩阵;4)将样本点投影到选取的特征向量上. 经过上述处理,可将原始的n维向量降维至k维.
2. 参数及数据来源
2.1. 岩体结构面粗糙度评价参数
式中:τ为结构面峰值剪切强度,σn为结构面法向应力,JCS为结构面的壁岩强度,φr为结构面的残余摩擦角.
为了便于上式在工程实践中的应用,Barton和Choubey在对136个结构面进行直剪试验的基础上,给出JRC为0~20时的10条标准剖面线,用于视觉对比确定目标结构面的JRC.
1)结构面平均相对起伏高度:
式中:L为结构面剖面线的取样长度,have为结构面的平均起伏高度,yi为第i个离散点的y坐标(y轴方向为剖面线起伏方向),N为结构面剖面线上的取样个数.
2)结构面起伏高度标准差:
3)结构面平均起伏角:
式中:xi为第i个离散点的x坐标(x轴方向为剖面线延伸方向).
4)结构面起伏角标准差:
5)结构面最大相对起伏高度:
式中:hp为结构面剖面线各取样测量点距中心线的最大正高差;hv为结构面剖面线各取样测量点距中心线的最大负高差,取负值.
6)结构面剖面线粗糙系数Rp. Maerz等[24]研究表明,JRC与Rp存在一定的线性关系,剖面线粗糙系数如下:
式中:Lt为结构面剖面线的真实迹线长度.
Yang等[8]采用傅里叶变换的方法重构标准剖面线,给出相关性更高的JRC与Z2的回归关系式:
上述结构面形态参数均是在确定结构面中心线的基础上得到的. 结构面中心线如图1所示,求得上、下部分面积Au、Ad相等,即可得到结构面中心线.
图 1
2.2. 数据来源
图 2
3. 岩体结构面粗糙度预测
3.1. 数据预处理
训练样本共有102组,每组由8个输入因子和1 个输出因子组成. 由于输入因子个数相对较多,且可能存在两两相关性,使得决策树模型构建缓慢且支数过多,须对模型的8个输入因子作预处理. 采用PCA方法对输入因子进行降维处理,共得到5个主成分,各主成分均为8个输入因子的线性函数,如下所示.
在PCA基础上,将5个主成分作为输入因子、JRC作为目标函数,对102组数据进行训练学习,建立 Boosting-DT C5.0模型. 决策树模型构建完毕后,将10条Barton标准剖面线作为测试样本,检验构建的决策树模型的准确性. 决策树模型训练预测流程如图3所示.
图 3
图 3 决策树模型训练预测流程图
Fig.3 Training and prediction flow chart of decision tree model
3.2. 模型参数设置
为了提高模型的泛化能力,防止模型过度拟合,在构建决策树模型时,采用将交叉验证与Boosting技术相结合的方法. Boosting的试验次数设置为20,交叉验证折叠次数设置为10,预期噪声设置为10%. 经过对102组数据的学习训练,Boosting-DT C5.0模型构建完毕,共生成了8层、68个节点,各节点判别条件及训练结果如图4所示.
图 4
3.3. 模型训练及预测结果
Boosting-DT C5.0模型训练预测结果如图5所示. 由结果可知,训练样本拟合优度为0.896,误差小于1.0的训练样本为83.33%,平均训练误差为0.24,均根误差MSE为1.077,均方根误差为1.038. 在预测样本中,前2组偏差较大. 由模型训练结果可知,最小JRC为5,而在预测样本中,前2组JRC分别为0.4和2.8. 学习样本中的训练组JRC较大,因此,样本预测时将这2组的JRC判别为5,造成了较大的误差. 在预测样本后8组数据中,取得了较理想的效果,误差小于1.0的样本达到100%. 由此可见,构建的Boosting-DT C5.0模型在预测JRC>5的样本时具有良好的效果.
图 5
图 5 Boosting-DT C5.0模型训练及预测结果
Fig.5 Training and prediction results of Boosting-DT C5.0
3.4. 多模型预测结果对比
图 6
表 1 各模型预测结果对比
Tab.1
模型 | R2 /% | E1 /% | Ea | MSE | RMSE |
Boosting-DT C5.0 | 95.19 | 100 | 0.06 | 0.186 | 0.432 |
DT C5.0 | 92.27 | 100 | 0.51 | 0.481 | 0.694 |
CHAID DT | 93.62 | 100 | 0.24 | 0.328 | 0.573 |
SVM | 94.10 | 100 | 0.28 | 0.280 | 0.529 |
ANN | 89.94 | 75 | 0.38 | 0.815 | 0.903 |
从预测结果的拟合优度上来看,各模型预测结果精度排序为 Boosting- DTC5.0 > SVM > CHAID DT > DT C5.0 > ANN. 从误差小于1的样本率上来看:除了ANN模型,其余4种均为100%. 预测结果误差显示,Boosting-DT C5.0 > SVM > CHAID DT > DT C5.0 > ANN. 综合5种模型预测结果可知,本文构建的Boosting-DT C5.0模型拟合优度最佳,且预测结果平均误差、均方根误差均最小. Boosting-DT C5.0模型可以用于岩体结构面粗糙度指标的预测.
4. 结 论
(1)岩体结构面JRC与结构面形态参数具有紧密的联系,选取结构面8种形态参数,采用PCA方法将输入因子降维至5个主成分,大大提高了预测模型构建速度.
(2)相较于DT C5.0模型、CHAID DT模型、SVM模型、ANN模型,基于Boosting-DT C5.0模型的岩体结构面JRC预测精度最高. 因此,Boosting-DT C5.0模型可以用于岩体结构面粗糙度指标的预测.
(3)采用智能算法构建JRC预测模型可更加便捷地获取结构面粗糙度参数,从而有效评价岩体结构面的峰值剪切强度,对于生产实践中工程岩体的稳定性分析评价具有重要的理论意义和应用价值.
(4)由于数据量有限,构建的Boosting-DT C5.0模型仅考虑了结构面剖面线的8种形态参数,未能考虑分形特征参数,需在下一步研究中予以补充.
参考文献
Review of a new shear-strength criterion for rock joints
[J].DOI:10.1016/0013-7952(73)90013-6 [本文引用: 2]
The shear strength of rock joints in theory and practice
[J].
Suggested methods for the quantitative description of discontinuities in rock masses
[J].DOI:10.1016/0148-9062(78)91472-9 [本文引用: 1]
Characterization of surface roughness
[J].DOI:10.1016/0043-1648(62)90002-9 [本文引用: 2]
Estimating joint roughness coefficients
[J].DOI:10.1016/0148-9062(79)90241-9 [本文引用: 1]
Joint profiles and their roughness parameters
[J].DOI:10.1016/0148-9062(91)90598-G [本文引用: 1]
Reasessing the joint roughness coefficient (JRC) estimation using Z2
[J].DOI:10.1007/s006030170012 [本文引用: 2]
Uncertainties in estimating the roughness coeffcient of rock fracture surfaces
[J].DOI:10.1007/s10064-016-0994-z [本文引用: 1]
A new method estimating the 2D joint roughness coefficient for discontinuity surfaces in rock masses
[J].
岩体结构面三维粗糙度系数表征新方法
[J].
A new representation method for three-dimensional joint roughness coefficient of rock mass discontinuities
[J].
考虑各向异性特征的三维岩体结构面峰值剪切强度研究
[J].
Peak shear strength of 3D rock discontinuities based on anisotropic properties
[J].
基于数字图像处理技术的岩石节理分形描述
[J].
Fractal description of rock joints based on digital image processing technique
[J].
岩体结构面三维粗糙度评价的新方法
[J].
A new method for evaluating the roughness of three-dimensional discontinuity surface of rock
[J].
Determination of two-dimensional joint roughness coefficient using support vector regression and factor analysis
[J].DOI:10.1016/j.enggeo.2017.09.010 [本文引用: 5]
基于统计参数的二维节理粗糙度系数非线性确定方法
[J].
A nonlinear method for determining two-dimensional joint roughness coefficient based on statistical parameters
[J].
基于随机森林方法的岩石节理粗糙度系数研究
[J].
Method to calculate the joint roughness coefficient based on random forest
[J].
基于决策树模型的抗滑桩破坏概率
[J].
Failure probability of anti-slide pile based on decision tree method
[J].
基于决策树多分类支持向量机岩性波谱分类
[J].
Hyperspectral rock spectral classification based on the decision tree-support vector machine (DT-SVMs)
[J].
基于决策树模型的岩爆烈度预测
[J].
Prediction of rock burst intensity based on decision tree model
[J].
Laser profilometry for concrete substrate characterization prior to FRP laminate application
[J].
Quantitative estimation of joint roughness coefficient using statistical parameters
[J].DOI:10.1016/j.ijrmms.2015.03.016 [本文引用: 1]
/
〈 |
|
〉 |
