基于增强数据训练的机器学习模型对生物炭产率预测方法技术

技术编号:39745753 阅读:10 留言:0更新日期:2023-12-17 23:44
本发明专利技术提出基于增强数据训练的机器学习模型对生物炭产率预测方法,属于生物质技术领域

【技术实现步骤摘要】
基于增强数据训练的机器学习模型对生物炭产率预测方法


[0001]本申请涉及生物炭产率预测方法,尤其涉及基于增强数据训练的机器学习模型对生物炭产率预测方法,属于生物质



技术介绍

[0002]近些年,随着计算机技术的飞速发展,机器学习技术广泛应用于各个领域,用于分析和预测非线性反应过程的复杂结果

以元素分析

工业分析和热解条件
(
升温速率,温度
)
作为输入,利用
FFN

CFN
模型对生物质热解的固



液三相产物的产率进行预测,结果表明,对固体

气体的预测结果不佳,而对于生物质油预测效果较好

使用
RF
算法将生物炭的结构组分
(
纤维素

半纤维素

木质素

灰分
)、
元素组分
(C、H、O、N)、
粒径以及热解条件作为输入变量,对生物炭的产量和生物炭的
C
含量进行预测,并对输入特征与输出结果进行相关性分析,结果显示预测精度较好,并且得出热解温度对热解输出的影响最大以及结构组分对生物炭产率影响较大的结论,证明了
RF
在热解领域的巨大潜力

基于
RF、SVM、XGB

MLP
四种模型,以生物质基础性质组合了7种输入选择,预测了三相产物的回收率以及生物质油的
HHV
,比较发现
RF
预测效果较好,并且通过分析得知热解温度是最重要的影响因素

综上所述,机器学习模型在生物炭领域的预测已经取得重大突破,但是现有训练的模型需要测量的输入特征过多,没有对特征进行筛选,而过多的特征会使模型过于复杂,从而影响生物炭产率预测精度


技术实现思路

[0003]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解

应当理解,这个概述并不是关于本专利技术的穷举性概述

它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围

其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序

[0004]鉴于此,为解决生物炭产率预测精度差的技术问题,本专利技术提供基于增强数据训练的机器学习模型对生物炭产率预测方法

本专利技术使用扩展数据进行强化模型训练从而突破当前生物炭产率预测精度瓶颈问题

[0005]方案一

基于增强数据训练的机器学习模型对生物炭产率预测方法,包括以下步骤:
[0006]S1.
根据生物质结构组分和热解温度构建最优特征子集;
[0007]S2.
对生物质结构组分进行数据增强,将生物质结构组分进行生物质热解反应,将生物质三组分单独热解数据

三组分混合热解数据作为增强数据;
[0008]S3.
收集模型样本数据;
[0009]S4.
对样本数据进行预处理,将经过预处理后的样本数据进行分类;
[0010]S5.
基于
DNN
模型和
LightGBM
模型构建生物炭产率预测模型,并训练生物炭产率预测模型;
[0011]S6、
对生物炭产率预测模型进行特征评估

[0012]优选的,生物质的结构组分包括纤维素提纯物

半纤维素提纯物

木质素提纯物和灰分

[0013]优选的,样本数据包括生物质热解数据

三组分单独热解的数据和三组分单独热解与混合热解的数据

[0014]优选的,样本数据进行分类方法是:将样本数据分为三种类别,类别1为:样本中仅有生物质热解数据,类别2为:样本中加入三组分单独热解的数据,类别3为:样本中加入三组分单独热解与混合热解的数据

[0015]优选的,基于
DNN
模型和
LightGBM
模型构建生物炭产率预测模型,并训练生物炭产率预测模型方法是:
[0016]DNN
模型:
[0017]DNN
内部神经网络层为输入层

隐藏层和输出层,隐藏层设为3层第一层
32
个神经节点,第二层
64
个神经节点,第三层
32
个神经节点,第
l
层第
j
个神经元的输出为:
[0018][0019]式中,为连接第
l
层第
j
个神经节点的权重,为第
l
‑1层输出,为连接第
l
层第
j
个神经节点的偏置项;
[0020]激活函数使用
Relu
函数,损失函数优化值求解使用梯度下降法迭代,使用均方差来度量损失,对于每个样本,期望最小化为:
[0021][0022]式中,
a
L

y
为特征维度为
n_out
的向量;
[0023]LightGBM
模型:
[0024]在传统梯度提升决策树基础上引入梯度单边采样算法和互斥特征捆绑算法,基于
Histogram
决策树算法使用直方图存储特征,在
Leaf

wise
之上增加了
max_depth
的限制,将
PSO
算法引进
LightGBM
中优化算法中的超参数;
[0025]Histogram
的决策树算法:
[0026]把连续的浮点特征值离散化成
n
个整数,同时构造一个宽度为
n
的直方图;
[0027]遍历数据,根据离散化后的值作为索引在直方图中累积统计量,遍历一次数据后,根据直方图的离散值,遍历寻找最优分割点,构建叶子节点,循环操作;
[0028]寻找分割点并构建叶子节点的直方图时,先计算直方图小的叶子节点,利用直方图做差获得直方图大的叶子节点,其实先过程为遍历每一个
bin
并累加所有节点的梯度
S
P
和节点数量
n
P
,求得增益,选择最大的增益节点作为最优分割点;
[0029]S
R

S
P

S
L
[0030]n
R

n
P

n本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于增强数据训练的机器学习模型对生物炭产率预测方法,其特征在于,包括以下步骤:
S1.
根据生物质结构组分和热解温度构建最优特征子集;
S2.
对生物质结构组分进行数据增强,将生物质结构组分进行生物质热解反应,将生物质三组分单独热解数据

三组分混合热解数据作为增强数据;
S3.
收集模型样本数据;
S4.
对样本数据进行预处理,将经过预处理后的样本数据进行分类;
S5.
基于
DNN
模型和
LightGBM
模型构建生物炭产率预测模型,并训练生物炭产率预测模型;
S6、
对生物炭产率预测模型进行特征评估
。2.
根据权利要求1所述基于增强数据训练的机器学习模型对生物炭产率预测方法,其特征在于,生物质的结构组分包括纤维素提纯物

半纤维素提纯物

木质素提纯物和灰分
。3.
根据权利要求2所述基于增强数据训练的机器学习模型对生物炭产率预测方法,其特征在于,样本数据包括生物质热解数据

三组分单独热解的数据和三组分单独热解与混合热解的数据
。4.
根据权利要求3所述基于增强数据训练的机器学习模型对生物炭产率预测方法,其特征在于,样本数据进行分类方法是:将样本数据分为三种类别,类别1为:样本中仅有生物质热解数据,类别2为:样本中加入三组分单独热解的数据,类别3为:样本中加入三组分单独热解与混合热解的数据
。5.
根据权利要求4所述基于增强数据训练的机器学习模型对生物炭产率预测方法,其特征在于,基于
DNN
模型和
LightGBM
模型构建生物炭产率预测模型,并训练生物炭产率预测模型方法是:
DNN
模型:
DNN
内部神经网络层为输入层

隐藏层和输出层,隐藏层设为3层第一层
32
个神经节点,第二层
64
个神经节点,第三层
32
个神经节点,第
l
层第
j
个神经元的输出为:式中,为连接第
l
层第
j
个神经节点的权重,为第
l
‑1层输出,为连接第
l
层第
j
个神经节点的偏置项;激活函数使用
Relu
函数,损失函数优化值求解使用梯度下降法迭代,使用均方差来度量损失,对于每个样本,期望最小化为:式中,
a
L

y
为特征维度为
n_out
的向量;
LightGBM
模型:在传统梯度提升决策树基础上引入梯度单边采样算法和互斥特征捆绑算法,基于
Histogram
决策树算法使用直方图存储特征,在
Leaf

wise
之上增加了
max_depth
的限制,将
PSO
算法引进
LightGBM
中优化算法中的超参数;
Histogram
的决策树算法:把连续的浮点特征值离散化成
n
个整数,同时构造一个宽度为
n
的直方图;遍历数据,根据离散化后的值作为索引在直方图中累积统计量,遍历一次数据后,根据直方图的离散值,遍历寻找最优分割点,构建叶子节点,循环操作;寻找分割点并构建叶子节点的直方图时,先计算直方图小的叶子节点,利用直方图做差获得直方图大的叶子节点,遍历每一个
bin
并累加所有节点的梯度
S
L
和节点数量
n
L
,求得增益,选择最大的增益节点作为最优分割点;
S
R

S
P

S
L
n
R

n
P

n
L
式中,
S
P
为所有节点的梯度和,
n
P
为所有节点数量,
S
L
为分割点左边所有节点梯度和,
n
L
为分割点左边所有节点数量,
S
R
为分割点右边所有节点梯度和,
n
R
为分割点左边所有节点数量;单边梯度采...

【专利技术属性】
技术研发人员:赵晨希姜子昊陆雪莹涂欢宇王思雨马欢
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1