利用小样本数据增强技术建立煤润湿性预测模型的方法技术

技术编号:39809145 阅读:10 留言:0更新日期:2023-12-22 02:44
本发明专利技术公开了利用小样本数据增强技术建立煤润湿性预测模型的方法,包括以下步骤:获取多组煤样中的煤化参数和接触角;从煤化参数中筛选出与接触角相关性显著的参数类型,并生成每组煤样的原始样本集;利用

【技术实现步骤摘要】
利用小样本数据增强技术建立煤润湿性预测模型的方法


[0001]本专利技术涉及煤润湿性预测
,具体涉及利用小样本数据增强技术建立煤润湿性预测模型的方法


技术介绍

[0002]润湿性
(
即接触角
)
作为重要的煤基础参数之一,在煤矿开采过程中的煤尘防治和煤层气开发过程中的气水传质等方面发挥着重要作用,润湿性是流体保持与固体表面接触的能力

[0003]现大多通过数学建模的方式来确定煤的工业组分

化学元素

结构参数

表面官能团和接触角之间的线性关系,建立多元线性逐步回归的煤润湿性预测方法,由于煤物化参数与接触角之间存在复杂的非线性关系,传统数学方法难以达到较高的预测精度,预测效果难以保证

[0004]而目前提出通过机器学习方法构建煤润湿性预测方法,可有效解决煤物化参数与接触角之间的非线性关系,主要是选取煤物化参数利用各种机器学习方法构建接触角预测模型,通过均方误差

平均绝对百分比误差

拟合优度等指标对模型进行评估,来确定该煤润湿性预测方法能否满足准确度需求

[0005]机器学习方法是需要大量的数据进行学习的,机器学习方法是需要大量样本进行学习的,一般情况下,样本数量越大,学习效果往往越好,但是获取接触角和相关参数的数量是有限的,小样本一直是制约机器学习方法在煤润湿性预测应用的瓶颈,样本数目太少会导致机器学习方法在小样本数据的训练集上出现严重的过拟合现象,而在测试集上缺乏基本的泛化能力

[0006]虽然能够从不同学者的文献中摘取大量的实验数据,然而,不同学者在煤样处理方式存在的差异会影响接触角测量,使得即使在影响接触角的参数相同的情况下,不同学者实测的接触角差异大,进而会使得机器学习方法在收集到的大样本数据上存在严重的欠拟合现象


技术实现思路

[0007]本专利技术的目的在于提供利用小样本数据增强技术建立煤润湿性预测模型的方法,以解决现有技术中样本数目太少会导致机器学习方法在小样本数据的训练集上出现严重的过拟合现象,不同学者在煤样处理方式存在的差异会影响接触角测量,进而会使得机器学习方法在收集到的大样本数据上存在严重的欠拟合现象的技术问题

[0008]为解决上述技术问题,本专利技术具体提供下述技术方案:
[0009]利用小样本数据增强技术建立煤润湿性预测模型的方法,包括以下步骤:
[0010]步骤
100、
获取多组煤样中的煤化参数和接触角;
[0011]步骤
200、
从所述煤化参数中筛选出与所述接触角相关性显著的参数类型,并生成多组煤样的原始样本集;
[0012]步骤
300、
对所述原始样本集扩充数据体量,构建虚拟煤样的虚拟样本集,将所述虚拟样本集结合所述原始样本集组建数据增强数据集;
[0013]步骤
400、
利用反向传播神经网络构建煤润湿性预测模型,输入所述数据增强数据集至该模型内生成接触角的预测值,根据接触角的预测值与其实测值之间的偏差度训练所述煤润湿性预测模型,直至训练结果达到目标精度;
[0014]步骤
500、
利用所述煤润湿性预测模型对所述原始样本集进行测试,来评价所述煤润湿性预测模型的在小样本数据的准确性

[0015]作为本专利技术的一种优选方案,在所述步骤
100
中,所述煤化参数包括所述煤样的工业组分参数和成分参数,其中,所述工业组分参数包括水分

灰分

挥发分

固定碳,所述成分参数包括所述煤样中的碳元素

氢元素

氮元素和氧元素

[0016]作为本专利技术的一种优选方案,在所述步骤
200
中,先利用皮尔逊相关系数定量描述每个所述工业组分参数与所述接触角之间的相关性,以及每个所述成分参数与所述接触角之间的相关性;
[0017]再对每个所述工业组分参数与所述接触角之间,以及每个所述成分参数与所述接触角之间进行显著性水平计算,基于显著性水平值来筛选出与所述接触角相关关系密切的所述工业组分参数和成分参数;
[0018]将筛选出的工业组分参数和成分参数形成样本,将所有组煤样中的样本组成原始样本集

[0019]作为本专利技术的一种优选方案,所述皮尔逊相关系数的计算公式为:
[0020][0021]式中,
r
是接触角与某个工业组分参数或成分参数之间的相关系数,
x
i
是第
i
组煤样对应的某一工业组分参数或成分参数的数值,是所有组煤样中的某一工业组分参数或成分参数的平均数,
CA
i
是第
i
组煤样中的接触角,是所有组煤样中的接触角的平均数

[0022]作为本专利技术的一种优选方案,对皮尔逊相关系数进行了显著性检验,并根据所述显著性水平值来筛选所述工业组分参数和成分参数;
[0023]筛除所述显著性水平值大于
0.05
的工业组分参数或成分参数,且保留所述显著性水平值小于等于
0.05
的工业组分参数或成分参数

[0024]作为本专利技术的一种优选方案,在步骤
300
中,利用
SMOTE
过采样算法对所述原始样本集的多组数据扩充体量,构建虚拟煤样的虚拟样本集的实现步骤为:
[0025]步骤
301、
基于采样不平衡比例设置采样比例,所述原始样本集中的所有组数据随机分成组数不等的少数类和多数类,以确定采样倍率;
[0026]步骤
302、SMOTE
过采样算法以少数类为基础,利用插值方法对所述少数类合成新生的数据组,直至少数类与新生数据组的总体量与多数类的体量相同;
[0027]步骤
303、
将新生成的数据组不置于所述原始样本集中,重复步骤
302
至步骤
303
,继续将原始样本集随机分成数据量不等的少数类和多数类,以新生多个所述数据组;
[0028]步骤
304、
新生的数据组形成虚拟煤样的虚拟样本集将虚拟样本集和原始样本集组合形成数据增强样本集

[0029]作为本专利技术的一种优选方案,在步骤
302
中,
SMOTE
过采样算法以少数类为基础,利用插值方法对所述少数类合成样本的实现方式为:
[0030]选择少数类中的某个样本作为中心样本,计算该中心样本与其他样本的距离,得到该中心样本的
n
个近邻样本,从该中心样本的
n
个近邻样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
利用小样本数据增强技术建立煤润湿性预测模型的方法,其特征在于,包括以下步骤:步骤
100、
获取多组煤样中的煤化参数和接触角;步骤
200、
从所述煤化参数中筛选出与所述接触角相关性显著的参数类型,并生成多组煤样的原始样本集;步骤
300、
对所述原始样本集扩充数据体量,构建虚拟煤样的虚拟样本集,将所述虚拟样本集结合所述原始样本集组建数据增强数据集;步骤
400、
利用反向传播神经网络构建煤润湿性预测模型,输入所述数据增强数据集至该模型内生成接触角的预测值,根据接触角的预测值与实测值之间的偏差度训练所述煤润湿性预测模型,直至训练结果达到目标精度;步骤
500、
利用所述煤润湿性预测模型对所述原始样本集进行测试,来评价所述煤润湿性预测模型的在小样本数据的准确性
。2.
根据权利要求1所述的利用小样本数据增强技术建立煤润湿性预测模型的方法,其特征在于,在所述步骤
100
中,所述煤化参数包括所述煤样的工业组分参数和成分参数,其中,所述工业组分参数包括水分

灰分

挥发分

固定碳,所述成分参数包括所述煤样中的碳元素

氢元素

氮元素和氧元素
。3.
根据权利要求2所述的利用小样本数据增强技术建立煤润湿性预测模型的方法,其特征在于,在所述步骤
200
中,先利用皮尔逊相关系数定量描述每个所述工业组分参数与所述接触角之间的相关性,以及每个所述成分参数与所述接触角之间的相关性;再对每个所述工业组分参数与所述接触角之间,以及每个所述成分参数与所述接触角之间进行显著性水平计算,基于显著性水平值来筛选出与所述接触角相关关系密切的所述工业组分参数和成分参数;将筛选出的工业组分参数和成分参数形成样本,将所有组煤样中的样本组成原始样本集
。4.
根据权利要求3所述的利用小样本数据增强技术建立煤润湿性预测模型的方法,其特征在于,所述皮尔逊相关系数的计算公式为:式中,
r
是接触角与某个工业组分参数或成分参数之间的相关系数,
x
i
是第
i
组煤样对应的某一工业组分参数或成分参数的数值,是所有组煤样中的某一工业组分参数或成分参数的平均数,
CA
i
是第
i
组煤样中的接触角,是所有组煤样中的接触角的平均数
。5.
根据权利要求3或4所述的利用小样本数据增强技术建立煤润湿性预测模型的方法,其特征在于,对皮尔逊相关系数进行了显著性检验,并根据所述显著性水平值来筛选所述工业组分参数和成分参数;
筛除所述显著性水平值大于
0.05
的工业组分参数或成分参数,且保留所述显著性水平值小于等于
0.05
的工业组分参数或成分参数;在步骤
300
中,利用
SMOTE
过采样算法对所述原始样本集的多组数据扩充体量,构建虚拟煤样的虚拟样本集的实现步骤为:步骤
301、
基于采样不平衡比例设置采样比例,所述原始样本集中的所有组数据随机分成组数不等的少数类和多数类,以确定采样倍率;步骤
302、
通过
SMOTE
过采样算法以少数类为基础,利用插值方法对所述少数类合成新生的数据组,直至少数类与新生数据组的总体量与多数类的体量相同;步骤
303、
将新生成的数据组不置于所述原始样本集中,重复步骤
302
至步骤
303
,继续将原始样本集随机分成数据量不等的少数类和多数类,以新生多个所述数据组;步骤
304、
将新生的数据组形成虚拟煤样的虚拟样本集,将虚拟样本集和原始样本集组合形成数据增强样本集;其中:在步骤
302
中,
SMOTE
过采样算法以少数类...

【专利技术属性】
技术研发人员:王敬宇唐书恒张松航郗兆栋
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1