预测生物质热解动力学参数的随机森林模型
Random forest model for predicting kinetic parameters of biomass devolatilization
通讯作者:
收稿日期: 2018-08-16
Received: 2018-08-16
作者简介 About authors
邢江宽(1993—),男,博士生,从事气固两相燃烧的热物理模型及数值模拟研究.orcid.org/0000-0002-2423-5627.E-mail:
基于大量已发表的生物质热解实验数据,采用数值方法拟合全局反应热解模型的动力学参数,建立生物质热解的训练和验证数据库,并利用随机森林算法研究生物质热解动力学参数与生物质种类和加热条件之间的非线性关系,发展预测生物质热解动力学参数的随机森林模型. 训练和验证的结果显示:随机森林模型能够较好地预测训练数据库中的生物质热解的动力学参数(R2>0.92),并能够准确预测验证数据库中的多种生物质的热解过程(R2>0.93). 此外,变量重要性分析结果显示:纤维素质量分数对于反应级数和活化能影响较大,木质素对于反应级数的影响最大. 加热条件对于活化能的影响可以忽略,但是对指前因子和反应级数的影响显著.
关键词:
Two biomass devolatilization databases, including the training and validation databases, were constructed from diverse available experiments in literature. The kinetic parameters were fitted under the framework of order-based global biomass devolatilization model. The random forest (RF) method was employed to investigate the complex nonlinear correlations between the kinetic parameters with chemical compositions and heating condition, in order to develop the RF model to accurately predict the kinetic parameters of biomass devolatilization based on its chemical compositions and heating condition. The training and validation results show that the RF model can well predict the kinetic parameters of different biomass types under different heating rates (determination coefficient R2>0.92), also with an accurate prediction of the biomass devolatilization process (R2>0.93). The variable importance measurement (VIM) results show that the fraction of cellulose (CL) has significant effect on the reaction order and activation energy, and the fraction of lignin (LIG) has the maximum effect on the reaction order. The effect of heating rate is negligible for activation energy, but considerable for the frequency factor and reaction order.
Keywords:
本文引用格式
邢江宽, 王海鸥, 罗坤, 白云, 樊建人.
XING Jiang-kuan, WANG Hai-ou, LUO Kun, BAI Yun, FAN Jian-ren.
生物质能源相比传统的化石能源具有可再生性. 同时,相比其他可再生能源,生物质是唯一可转化成固态、液态和气态燃料及其他化工燃料或产品的碳能源. 因此生物质能的利用是二十一世纪能源发展的主要研究方向之一. 当前生物质热化学转化方式主要有燃烧、气化和热解等[1],而热解是生物质的众多热化学转化方式的基础,一直以来,生物质的热解过程及其模型构建都是学者们研究的重点.
生物质热解是一个非常复杂的物理化学过程,涉及到复杂的化学组分(纤维素、半纤维素和木质素)和反应路径. 国内外的学者开展了大量的实验研究,提出了针对生物质热解表观失重动力学模型,比如分布式活化能模型[2]. 近期一些学者提出了微观网络类的生物质模型,例如化学渗透挥发分模型[3]和动力学蒙特卡洛模型[4],对热解的详细组分信息作了预测. 但是需要注意的是,在上述模型研究中,针对的生物质种类以及所处的加热条件都十分有限,因此这些模型的动力学参数不具备生物质种类和加热条件的通用性. 事实上,生物质热解的动力学与生物质种类(化学成分)及其所处的加热条件存在非常复杂的非线性关系. 这种非线性关系对于提出通用的生物质热解模型至关重要,但是至今还没有完全被认知,需要进一步的研究[5].
一些学者采用了传统的经验拟合方法来研究这种非线性关系[6-7],但是结果显示,采用传统拟合方法发展的经验拟合表达式不能很好地表达这种关系[5]. 随着人工智能方法的提出和发展,发现神经网络[8]、随机森林[9]等算法被能够较好地处理非线性问题. 最近Xing等[10-11]采用神经网络建立了煤粉热解动力学参数与煤种、加热条件之间的非线性关系,准确预测了不同煤种在广泛加热条件下的热解过程. Lei等[12]采用随机森林模型较为精确地预测了煤粉自燃现象. 针对生物质热解,Sunphorka等[13]采用神经网络(artificial neural network,ANN)方法来研究动力学参数与生物质种类之间的非线性关系,但忽略了加热条件的影响,且提出的模型只在一种生物质上加以验证,其通用性有待商榷. 作为目前最先进的集成人工智能算法之一,随机森林方法的应用潜力很大.
本文首次尝试利用该方法建立生物质热解的动力学参数与生物质化学组成及其所处加热条件之间的非线性关系. 基于大量已发表的生物质热解实验数据,并采用数值方法拟合全局反应热解模型的动力学参数,建立生物质热解的训练和验证数据库. 利用随机森林(random forest,RF)算法,建立生物质的化学组成和加热条件与动力学参数的复杂非线性关系,发展预测生物质热解动力学参数的随机森林模型,并在验证数据库上对该模型的准确性进行验证. 此外采用排列精度重要性方法研究生物质化学组成与加热条件对于其热解动力学参数的相对影响大小.
1. 生物质热解的数学描述
式中:X为生物质颗粒的失重率,
其中,w0、w 和 wf 分别为生物质颗粒样本的初始质量、热解过程中的瞬时质量和最终的颗粒质量. K为热解反应的指前因子,E为反应的活化能,n为反应的级数,T为颗粒的温度,t为时间,R为气体摩尔常数. 假设加热速率为常数 β=dT/dt,式(1)可以转化为下式:
对上式进行变换可以得到
对式(3)两边进行积分,则有
式(5)等号右侧的式子没有解析解,采用Coats-Redfern提出的渐近级数展开法逼近方法[16],可以得到下式:
假设n≠1,可以变化得到
图1显示了桉树叶(eucalyptus leaves,EL)在2种不同加热速率条件下利用拟合出的动力学参数预测的热解过程和实验值的比较,其中实验值来源于文献[19],预测的热解过程是利用拟合后的动力学参数(n、K和E),结合已知的升温速率,通过式(1)计算得出. 该生物质中纤维素、半纤维素和木质素的质量分数分别为11.28%、17.93%和9.25%,在不同加热条件下拟合出的动力学参数如表1所示. 从图1中可以发现,实验结果和拟合结果吻合得很好,相关系数在0.98以上. 这说明本文采用的拟合方法可以准确获得热解动力学参数,也为后续的模型发展奠定了基础. 需要说明的是,本研究样本库中的生物质热解结果均来自于实验测量,采用何种生物质热解动力学架构进行动力学参数拟合不是本文的研究重点. 不同的动力学架构,如分布式活化能等,可能会产生不同的热解动力学参数. 本文的研究重点在于对动力学参数与生物质化学组成和加热条件的非线性关系的建模研究,且本文的建模方法同样适用于不同的生物质热解动力学架构.
表 1 桉树叶生物质在不同升温速率条件下拟合出的动力学参数
Tab.1
β/(K·min−1) | K/s−1 | E/(J·mol-1) | n |
10 | 1.606×107 | 9.794×104 | 2.089 |
40 | 5.329×108 | 1.111×105 | 2.294 |
图 1
图 1 采用拟合出的动力学参数预测的桉树叶生物质热解过程与实验值的比较
Fig.1 Comparisons of devolatilization processes predicted by fitted kinetic parameters and experimental data for Eucalyptus leaves biomass
一般地,生物质热解的动力学参数
式中:
2. 研究方法
2.1. 随机森林方法
随机森林算法是由多棵分类回归树(classification and regression tree,CART)组合构成的新型机器学习算法[9]. 如图2所示,首先,采用有放回(bootstrap)抽样技术有放回地从原始数据集中随机抽取N个训练样本,每个训练集的大小约为原始数据集的2/3[22],剩余的未被选中的数据称为袋外(out of bag, OOB)的数据,OOB数据不参与回归树的训练;然后,分别为每个训练集建立分类回归树,产生由Ntree棵CART决策树组成的森林,在每棵树生长过程中,从全部M个特征变量中随机抽选m个(m≤M),在这m个属性中根据Gini系数最小原则选出最优属性进行内部节点分支;最后,集合Ntree棵决策树的预测结果,对于分类问题,采用结果的众多树投票结果的众数作为分类的结果,对于回归问题,采用众多树的预测值的平均值作为回归的预测结果.
图 2
图 2 随机森林(RF)算法的流程示意图
Fig.2 Schematic diagram of procedures for random forest (RF) method
在本文的研究中,纤维素、半纤维素和木质素的质量分数被用来表征生物质种类的影响,热解速率被用来表征加热条件的影响. 需要说明的是,为了保留所有影响因素的特征,m的值设置为4. 此外,袋外的数据的误差被用来作为评判标准,通过试错法来确定最优化的分类回归树的数目:
式中:
2.2. 样本库
基于大量已发表的生物质热解实验数据,本文分别建立了用于训练随机森林模型的训练数据库和用于验证提出的随机森林模型的验证数据库. 训练和验证的数据分布可见图3,其中左侧的散点表示样本中参数的值. 右侧代表样本数据的统计信息: 倒三角表示最大值,正三角表示最小值,菱形代表中位数的值,方框内的横线代表平均数的值,详细的训练和验证数据库信息见附录文件. 训练数据库一共包含115个样本,其中样本的纤维素,半纤维素,木质素和加热速率的值的分布范围分别为0~100%、0~100%、0~100%和2~80 K/min. 验证数据库一共包含48个样本,这48个样本均没有包含在训练数据库中,其中纤维素,半纤维素,木质素和加热速率样本的分布范围分别为14.59%~53.60%、4.83%~55.92%、4.88%~45.59%和5~60 K/min.
图 3
图 3 训练和验证数据库中样本的分布
Fig.3 Data distribution in training and validation database
需要说明的是,由于生物质的化学组成和加热速率具有不同的量纲,所有的输入参数都需要进行一个无量纲化的预处理[23],具体的方法如下:
式中:
式中:
3. 结果和分析
3.1. 随机森林模型训练结果
在发展生物质热解的随机森林模型过程中,最优的树的数目Ntree-best需要经过试错法进行确定. 在本文中,测试的树的数目为1~300棵,优化的指标为OOB数据的预测误差. 图4显示了测试的结果,可以发现对于所有的动力学参数,随着树的数目的增加,袋外数据的预测误差先急剧下降,然后保持平稳,相关性系数先逐渐增加然后也保持平稳. 最优化的树的数目的评判指标即是以较少的分类回归树,获得较好的预测结果. 针对log (n)、log (E)和log (K),最优化的树的数目分别为139、120和123,最优的相关性系数分别为0.923 1、0.957 2和0.983 0.
图 4
图 4 不同棵树的随机森林模型的测试结果
Fig.4 Test results for determining optimal tree number in RF model
图5显示了RF模型的对于整个训练数据库的训练结果,其中纵轴为预测值,横轴为实验值. 从图中可以看出,对于3个动力学参数,其训练结果的相关性系数都达到了0.92以上,对于指前因子甚至达到了0.98,这表明RF模型能够很好地表征生物质热解动力学参数和生物质化学组成及加热条件间的复杂的非线性关系. 但需要指出的是,对于反应级数的训练结果相对较差,这和Sunphorka等[13]采用ANN方法的研究结果相一致,这说明了反应级数与生物质种类、加热速率具有更加强烈的非线性关系. 这可能是由于生物质热解过程中多组分的多个反应路径造成的,在未来的研究中可以考虑采用多步机理的热解动力学架构来提高对于化学反应级数的预测.
图 5
图 5 RF模型对于所有动力学参数的训练结果(实线代表最佳的预测效果)
Fig.5 Training results of RF model for all three kinetic parameters (solid line in each subgraph means best performance)
3.2. 随机森林模型验证结果
为了检验训练出的RF模型对不同生物质种类和加热条件下的热解动力学参数的预测能力,采用训练出的RF模型对验证数据库内的样本的热解动力学参数进行预测,并与从实验值拟合得到的动力学参数进行比较,比较的结果如图6所示. 可以发现对于验证数据库的样本,RF模型能够很好的预测3个动力学参数,对log (n)、log (E)和log (K)的预测,其相应的相关性系数分别为0.962 8,0.968 5和0.934 3,均超过了0.93. 综上,本文提出的RF模型能够很好地预测生物质热解的动力学参数与化学组成和加热条件之间的非线性关系. 此外RF模型预测结果的相关性系数要优于Sunphorka等[13]提出的ANN方法,且在更多的生物质和加热条件下得到了验证,说明了RF模型的通用性较ANN方法要好.
图 6
图 6 RF模型对于所有动力学参数的验证结果(实线代表最佳的预测效果)
Fig.6 Validation results of RF model for all three kinetic parameters (solid line in each subgraph represents best performance)
除了进行预测的动力学参数的比较,本文还采用由RF模型预测的动力学参数,利用式(1),对2种不同生物质(桉树皮,eucalyptus bark,EB;桉树木屑,eucalyptus sawdust,ESD)在不同加热条件下的热解过程进行预测,并与实验值进行比较. 图7展示了采用RF模型预测的动力学参数计算出的生物质热解过程和实验值的比较结果,可以发现所预测的热解过程与实验值吻合较好. 这也更进一步验证了采用随机森林方法所得到的非线性关系能够较好地反应生物质的化学组成和加热条件对于热解过程的影响.
图 7
图 7 不同加热速率条件下采用RF模型计算的动力学参数所预测的桉树皮和桉树木屑的热解过程与实验值的比较
Fig.7 Comparisons of devolatilization process predicted through kinetic parameters from RF model and experiments for eucalyptus bark and eucalyptus sawdust under different heating rates
3.3. 相关性分析
生物质的化学组成和加热条件对于生物质的热解过程有着很明显的影响,但是对于这种影响的相对大小,至今还没有定量或者定性的描述. 基于提出的RF模型能够较好地描述热解过程,本文采用序列精度重要性方法(permutation accuracy importance,PAI)来研究不同影响因素的相对影响力
图8显示了生物质的化学组成和加热条件对于每一个动力学参数的相对影响大小. 可以看出,对于热解反应的指前因子,半纤维素和木质素的质量分数起到了至关重要的影响,且升温速率和纤维素质量分数的影响相当. 对于热解反应的活化能,纤维素的质量分数影响最大,而升温速率的影响基本可以忽略. 对于反应级数,纤维素和半纤维素的质量分数影响最大,升温速率和木质素的影响相对较小.
图 8
图 8 不同输入参数对于热解动力学参数的相对影响大小
Fig.8 Measured relative importance of each input parameter on each kinetic parameter
4. 结 论
(1)训练的结果显示,随机森林模型能够较好地预测不同加热条件下生物质热解的动力学参数. 基于训练数据库的相关性系数达到0.92以上,说明对于训练库RF模型能够很好地描述热解动力学参数与生物质化学组成和加热条件之间的非线性关系.
(2)RF模型的验证结果表明,RF模型预测出的动力学参数与实验拟合值吻合的很好,其相关性系数大于0.93,且采用RF模型计算出的动力学参数能够获得与实验值很接近的生物质热解过程. 需要说明的是,本文收集的样本数量有限,在后续的工作中将收集更多的训练和验证样本,拓展RF模型的训练和验证数据库,进一步验证和提高随机森林算法,预测生物质热解的动力学参数的能力.
(3)变量重要性分析结果显示,对于热解反应的指前因子,半纤维素和木质素的质量分数起到了至关重要的影响,且升温速率和纤维素质量分数的影响相当. 对于热解反应的活化能,纤维素的质量分数影响最大,而升温速率的影响基本可以忽略. 对于反应级数,纤维素和半纤维素的质量分数影响最大,升温速率和木质素的影响相对较小.
参考文献
Bio-fuels from thermochemical conversion of renewable resources: a review
[J].DOI:10.1016/j.rser.2006.07.014 [本文引用: 1]
New distributed activation energy model: numerical solution and application to pyrolysis kinetics of some types of biomass
[J].DOI:10.1016/j.biortech.2007.06.033 [本文引用: 1]
Modeling biomass devolatilization using the chemical percolation devolatilization model for the main components
[J].DOI:10.1016/S1540-7489(02)80054-2 [本文引用: 1]
Kinetic simulation of the thermal degradation of phenethyl phenyl ether, a model compound for the β-O-4 linkage in lignin
[J].
Is it possible to predict gas yields of any biomass after rapid pyrolysis at high temperature from its composition in cellulose, hemicellulose and lignin?
[J].DOI:10.1016/j.fuel.2008.09.019 [本文引用: 2]
Prediction of pyrolysis of pistachio shells based on its components hemicellulose, cellulose and lignin
[J].DOI:10.1016/j.fuproc.2011.05.023 [本文引用: 1]
Prediction of product distribution in fine biomass pyrolysis in fluidized beds based on proximate analysis
[J].DOI:10.1016/j.biortech.2014.10.107 [本文引用: 1]
Backpropagation applied to handwritten zip code recognition
[J].DOI:10.1162/neco.1989.1.4.541 [本文引用: 1]
Predicting kinetic parameters for coal devolatilization by means of artificial neural networks
[J].
Prediction of product distribution in coal devolatilization by an artificial neural network model
[J].DOI:10.1016/j.combustflame.2018.03.016 [本文引用: 1]
A random forest approach for predicting coal spontaneous combustion
[J].DOI:10.1016/j.fuel.2018.03.005 [本文引用: 1]
Artificial neural network model for the prediction of kinetic parameters of biomass pyrolysis from its constituents
[J].DOI:10.1016/j.fuel.2016.12.046 [本文引用: 3]
Thermogravimetric analysis and kinetic study of poplar wood pyrolysis
[J].DOI:10.1016/j.apenergy.2011.12.056 [本文引用: 1]
Non-isothermal kinetics of biomass-pyrolysis-derived-tar (BPDT) thermal decomposition via thermogravimetric analysis
[J].DOI:10.1016/j.enconman.2017.02.013 [本文引用: 1]
Kinetic parameters from thermogravimetric data
[J].DOI:10.1038/201068a0 [本文引用: 1]
A dynamic mathematical model of an ultrasupercritical coal fired once-through boiler-turbine unit
[J].
Pyrolysis behaviors and kinetic studies on Eucalyptus residues using thermogravimetric analysis
[J].DOI:10.1016/j.enconman.2015.07.077 [本文引用: 1]
Prediction of pyrolysis kinetic parameters from biomass constituents based on simplex-lattice mixture design
[J].DOI:10.1016/j.cjche.2016.01.004 [本文引用: 1]
Thermal behavior and reaction kinetics analysis of pyrolysis and subsequent in-situ gasification of torrefied biomass pellets
[J].DOI:10.1016/j.enconman.2018.02.003 [本文引用: 1]
Identifying the influential features on the regional energy use intensity of residential buildings based on Random Forests
[J].DOI:10.1016/j.apenergy.2016.08.096 [本文引用: 1]
Neural networks in multivariate calibration
[J].DOI:10.1039/a805562i [本文引用: 1]
Correlation and variable importance in random forests
[J].
/
〈 |
|
〉 |
