随机森林模型构建与参数优化方法以及储层类别划分方法技术

技术编号:34513663 阅读:10 留言:0更新日期:2022-08-13 21:00
本发明专利技术涉及人工智能领域,具体涉及一种随机森林模型构建与参数优化方法以及储层类别划分方法,旨在解决现有模型判别的黑盒问题。本发明专利技术的随机森林模型参数优化方法包括:对原始数据文件进行预处理,从预处理后的数据集中按预设的百分比划分出第一训练数据集;按照重要性从高到低的顺序,每次从待优化参数中选定一个参数,按照先粗放后精准的原则利用网格搜索法和交叉验证法为选定的参数确定最优值;其中,第一训练数据集用于交叉验证法中的训练和验证。本发明专利技术的优化方法减少了网格搜索时间提高了模型精度。本发明专利技术的储层类别划分方法,将待划分储层的测量数据输入到随机森林模型得到该储层的分类结果,提高了判别精度,而且具有极强的可解释性。有极强的可解释性。有极强的可解释性。

【技术实现步骤摘要】
随机森林模型构建与参数优化方法以及储层类别划分方法


[0001]本专利技术涉及人工智能领域,具体涉及一种随机森林模型构建与参数优化方法以及储层类别划分方法。

技术介绍

[0002]人类居住的地球,表层是由岩石圈组成的地壳,石油和天然气就埋藏于地壳的岩石中。由于组成地壳的不同岩层介质往往在密度、弹性、导电性、磁性、放射性以及导热性等方面存在差异,这些差异将引起相应的地球物理场的局部变化。地球物理勘探,是指通过研究和观测各种地球物理场的变化来探测地层岩性、地质构造等地质条件。
[0003]地球物理勘探中对储层类别进行识别的方法通常是采用人工划分,但由于每个划分人员经验的差别以及可参考资料的匮乏等原因,导致划分储层类别成为一项极其复杂的任务。
[0004]为了改善人工划分带来的高耗时、高误差的现状,人们寄希望于通过智能地提取测井曲线间各参数与储层类别的联系,对储层类别进行划分。随着大数据时代的到来,机器学习已广泛应用于各种领域如自然语言处理、图像处理、语音识别等,可成功处理各类问题,如分类问题、回归问题等。其中较为典型的可用于解决分类问题的方法有深度神经网络(Deep Neural Networks,DNN)、逻辑回归(Logistic Regression,LR)、多层感知机(Multilayer Perceptron,MLP)、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayesian Model,NBM)等。但上述方法均由单个分类器组成,在处理高维复杂数据时,判别结果仅依赖单分类器,若该分类器未全部学习到数据的内在联系,将带来判别上的误差。以深度神经网络为例,模型中大量的非线性网络层的复杂组合使得该模型能够在各种抽象层面上提取特征。图1是神经网络的基本结构示意图,如图1所示,x1和x2为输入,y为输出,在输入与输出之间的所有网络结构称为隐藏层,隐藏层不直接接受外界的信号,也不直接向外界发送信息,因此可将隐藏层视为一个黑盒子。虽然使用这一模型可以解决分类问题,但对于用户来说,模型内部的工作机理以及运行机制都是未知的,用户得到的仅仅是没有任何解释的结果。

技术实现思路

[0005]为了解决现有技术中的上述问题,本专利技术提出了一种随机森林模型构建与参数优化方法以及储层类别划分方法,不但提高了判别精度,而且能够清楚地让用户明白其中的划分逻辑,具有极强的可解释性。
[0006]本专利技术的第一方面,提出了一种随机森林模型参数优化方法,所述方法包括:
[0007]基于第一训练数据集,利用网格搜索法和交叉验证法来确定所述模型中每个待优化参数的值。
[0008]优选地,“基于第一训练数据集,利用网格搜索法和交叉验证法来确定所述模型中每个待优化参数的值”的步骤包括:
[0009]按照重要性从高到低的顺序,从所述待优化参数中选定一个参数,并利用网格搜索法和交叉验证法为选定的参数确定最优值;
[0010]重复执行,直到为每一个所述待优化参数确定最优值;
[0011]其中,所述第一训练数据集用于所述交叉验证法中的训练和验证。
[0012]优选地,“利用网格搜索法和交叉验证法为选定的参数确定最优值”的步骤包括:
[0013]固定其他参数不变,按照先粗放后精准的原则逐步缩小取值范围和取值间隔,利用网格搜索法为所述选定的参数取值,并分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值确定为该参数的最优值。
[0014]优选地,“固定其他参数不变,按照先粗放后精准的原则逐步缩小取值范围和取值间隔,利用网格搜索法为所述选定的参数取值,并分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值确定为该参数的最优值”的步骤包括:
[0015]固定其他参数不变,在预设的第一取值范围内按照预设的第一间隔为所述选定的参数取值,分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值作为优选值;
[0016]固定其他参数不变,以所述优选值为中心,根据预设的区间长度确定第二取值范围,在所述第二取值范围内按照预设的第二间隔为所述选定的参数取值,分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值确定为该参数的最优值;
[0017]其中,
[0018]所述预设的第二间隔小于所述预设的第一间隔;
[0019]所述第二取值范围包含在所述预设的第一取值范围内。
[0020]优选地,所述第一训练数据集为经过预处理的数据集;
[0021]在“基于第一训练数据集,利用网格搜索法和交叉验证法来确定所述模型中每个待优化参数的值”的步骤之前,所述方法还包括:
[0022]对原始数据文件进行预处理,得到预处理后的数据集;
[0023]从所述预处理后的数据集中按预设的百分比划分出所述第一训练数据集;
[0024]其中,所述预处理包括:根据所述原始数据文件的类型,对所述原始数据文件进行解析,并删除冗余信息、将曲线名与对应数据进行位置对齐、对缺失数据进行填补、对数据进行平滑处理和进行类不均衡处理。
[0025]优选地,所述对缺失数据进行填补的方法包括:将与所述缺失数据相邻的元素取均值作为要填补的缺失值;
[0026]所述对数据进行平滑处理的方法包括:对曲线上的某点取该点左右8个点的均值作为该点的值;
[0027]所述进行类不均衡处理的方法包括:通过随机复制少数类样本,以达到最终的类别均衡。
[0028]优选地,所述随机森林模型用于储层类别划分;
[0029]所述原始数据文件中的数据为测井曲线数据;
[0030]所述预处理还包括:
[0031]根据预设的曲线种类集,从所述原始数据文件中剔除所述预设的曲线种类集之外的曲线;
[0032]所述预设的曲线种类集包括:声波时差曲线(AC)、井径曲线(CALI)、补偿中子曲线(CNL)、补偿密度曲线(DEN)、自然伽马曲线(GR)、地层真电阻率曲线(RT)和冲洗带地层电阻率RXO。
[0033]本专利技术的第二方面,还提出了一种随机森林模型构建方法,所述方法包括:
[0034]搭建随机森林模型的框架;
[0035]按照上面所述的随机森林模型参数优化方法对所述模型的参数进行优化;
[0036]对所述模型进行训练和测试。
[0037]优选地,“对所述模型进行训练和测试”的步骤包括:
[0038]对第二训练数据集进行有放回随机抽样,得到若干个决策树训练集,且所述决策树训练集的个数等于所述模型中决策树的个数;
[0039]利用所述决策树训练集对所述模型中的各决策树分别进行训练;
[0040]利用模型测试集对所述模型进行测试;
[0041]其中,所述第二训练数据集与所述第一训练数据集相同或不同。
[0042]本专利技术的第三方面,还提出了一种储层类别划分方法,所述方法包括:
[0043]将待划分储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种随机森林模型参数优化方法,其特征在于,所述方法包括:基于第一训练数据集,利用网格搜索法和交叉验证法来确定所述模型中每个待优化参数的值。2.根据权利要求1所述的随机森林模型参数优化方法,其特征在于,“基于第一训练数据集,利用网格搜索法和交叉验证法来确定所述模型中每个待优化参数的值”的步骤包括:按照重要性从高到低的顺序,从所述待优化参数中选定一个参数,并利用网格搜索法和交叉验证法为选定的参数确定最优值;重复执行,直到为每一个所述待优化参数确定最优值;其中,所述第一训练数据集用于所述交叉验证法中的训练和验证。3.根据权利要求2所述的随机森林模型参数优化方法,其特征在于,“利用网格搜索法和交叉验证法为选定的参数确定最优值”的步骤包括:固定其他参数不变,按照先粗放后精准的原则逐步缩小取值范围和取值间隔,利用网格搜索法为所述选定的参数取值,并分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值确定为该参数的最优值。4.根据权利要求3所述的随机森林模型参数优化方法,其特征在于,“固定其他参数不变,按照先粗放后精准的原则逐步缩小取值范围和取值间隔,利用网格搜索法为所述选定的参数取值,并分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值确定为该参数的最优值”的步骤包括:固定其他参数不变,在预设的第一取值范围内按照预设的第一间隔为所述选定的参数取值,分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值作为优选值;固定其他参数不变,以所述优选值为中心,根据预设的区间长度确定第二取值范围,在所述第二取值范围内按照预设的第二间隔为所述选定的参数取值,分别计算每次取值时对应的交叉验证的精度,选取精度最高时对应的数值确定为该参数的最优值;其中,所述预设的第二间隔小于所述预设的第一间隔;所述第二取值范围包含在所述预设的第一取值范围内。5.根据权利要求1

4中任一项所述的随机森林模型参数优化方法,其特征在于,所述第一训练数据集为经过预处理的数据集;在“基于第一训练数据集,利用网格搜索法和交叉验证法来确定所述模型中每个待优化参数的值”的步骤之前,所述...

【专利技术属性】
技术研发人员:申瑞彩李昊庆徐东兴袁龙涛赵飘雪
申请(专利权)人:北京月新时代科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1