一种基于随机森林优化的固井质量分析方法技术

技术编号：41677006 阅读：8 留言：0更新日期：2024-06-14 15:31

本发明专利技术提供了一种基于随机森林优化的固井质量分析方法，包括以下步骤，获取固井质量的影响因素以及固井第二界面胶结质量结果的数据集，对获取到的数据集进行预处理，得到准确度较高的数据集，然后将数据集按照8：2的比例划分为训练集和测试集；构建模型，然后使用贝叶斯搜索结合十折交叉验证方法对随机森林模型的超参数进行调优，获取最优的超参数，根据最优超参数构建三分类固井质量评价模型，最后再根据评价指标对模型进行评估；本发明专利技术中采用随机森林算法旨在提高模型整体的性能和泛化能力，此方法相对于传统固井质量评价方法具有更强的预测性能、更好的鲁棒性和解释性、适用于多源数据、更高的数据效率以及现代化和自适应性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于油气井固井，尤其涉及一种基于随机森林优化的固井质量分析方法。

技术介绍

1、固井作为油气井钻探过程中的关键一环，其目的是向钻开的井眼中下入刚性套管，并在套管与地层环形空间中替入水泥浆，固化后的水泥环与套管及地层相胶结，以封隔地下油气水层。固井质量好坏主要取决于第二界面(即水泥环与地层界面)胶结强度。

2、固井质量受诸多因素影响，主要包含地质因素、钻井因素及固井因素，这些因素相互关联、制约，难以建立一个多条件下的固井质量评价体系。传统的固井质量评价方法往往受限于有限的数据量和对复杂地质和工程条件的适应性。在复杂多变的井下环境中，这些方法难以提供准确的评价，导致在固井过程中的预测和决策存在困难。随着人工智能的兴起，机器学习为固井质量评价及预测提供了一种新的思路和研究方向。

3、现有专利cn110020785a提供了基于深度学习的稠油热采井固井评价系统，该专利技术提供了一种基于深度学习的稠油热采井固井评价系统，在收集测井装置提供的测井资料后，将测井资料作为数据，导入神经网络，将数据与深度学习结合，训练神经网络，将数据集的低层特征提取出高级特征，通过训练后的神经网络评价油井的固井质量，但现实中若使用的数据质量较低或者数据样本不足，可能会影响模型的性能。

技术实现思路

1、本专利技术的主要目的是解决传统的固井质量评价方法受限于有限的数据量和对复杂地质和工程条件的适应性的问题。

2、为实现上述目的，本专利技术提供了一种基于随机森林优化的固井质量分析方法，包括以下步骤：

3、步骤一：获取现场固井数据集

4、获取影响固井质量的因素以及固井第二界面胶结质量结果；

5、步骤二：对固井数据进行预处理

6、进行数据编码、数据删除与均值填补缺失值，进行数据标准化处理；若数据集中存在着样本不均衡现象，采用随机过采样方法解决；

7、步骤三：划分数据集，构建模型和模型调优

8、(1)将数据集按照8:2的比例划分为训练集和测试集；

9、(2)随机森林模型是由多个决策树组成，而对于每棵决策树，通过从训练集中随机选择样本和特征进行建立；

10、(3)通过对超参数进行调优，采用贝叶斯搜索结合十折交叉验证的方法进行超参数调优；

11、步骤四：模型评估和结果分析

12、(1)基于训练好的模型，采用混淆矩阵和roc曲线作为评价工具；

13、(2)利用shap值表示每个特征对于该样本的模型输出的影响程度，当shap值大于0时，它对预测固井质量有积极影响；当shap值小于0时，对预测固井质量有负面影响；通过shap值来表示井斜角对固井质量的正负贡献；其中shap值的计算公式如下：

14、shap_k＝∑[p(s)×(f_k(x_s)-f_k(x_{s\i}))]

15、shap_k表示的是特定样本和特征的类别k的shap值；p(s)是特征子集s被选择的概率，用于平均化特征子集的贡献；f_k(x_s)是包含特征子集s的样本的模型对于类别k的预测输出；f_k(x_{s\i})是不包含特征i的特征子集s的样本的模型对于类别k的预测输出。

16、所述步骤二中通过数据编码将文字型数据转换为数值型，然后删除缺失值较多的样本，再采用均值填补缺失值，再进行数据标准化处理。

17、所述步骤三中的步骤(2)中所述随机森林模型是通过构建多个决策树，每棵树在从原始数据中有放回地随机抽样得到的训练子集上进行训练；在每次节点分裂时，模型随机选择一部分特征进行考虑，增加树之间的差异性；最终，通过投票机制，选择多棵树中得票最多的类别作为随机森林的分类结果；其中控制决策树节点分裂的指标包括信息增益或gini指数；信息增益计算公式如下：

18、

19、其中ig(t,a)是关于特征a的信息增益，tv是特征a取值为v时的子集，|t|是数据集的大小；h(t)是信息熵，信息熵的计算公式为pi是目标变量属于第i个类别的概率；

20、gini指数计算公式如下：

21、

22、其中g(t)是关于目标变量的基尼不纯度，pi是目标变量属于第i个类别的概率；

23、投票机制为以下公式：

24、

25、其中表示随机森林对样本x的预测结果，t表示随机森林中决策树的数量，表示第t棵决策树对样本x的预测结果。

26、所述步骤三中的步骤(3)的超参数包括：n_estimators、max_depth、max_features、min_samples_leaf、criterion。

27、所述步骤四中混淆矩阵中的分类评价指标为precision，recall，f1-score；precision的计算公式如下：

28、

29、recall的计算公式如下：

30、

31、f1-score的计算公式如下：

32、

33、tp：实际上属于某一类别，同时被正确预测为该类别；fp：实际上不属于某一类别，但被错误地预测为该类别；fn：实际上属于某一类别，但被错误地预测为另外一个类别。

34、所述步骤四中的步骤(2)结合井斜角特征对应的shap数值，井斜角数据越小，固井质量越好，在固井施工方案设计中应使井斜角参数保持在10°-40°范围内，以提高固井质量；井径扩大率数据值越大，对固井质量差的影响越大，当该值越小，固井质量越好；井径扩大率增大时，固井浆液在井眼与固井套管之间的空隙变大，浆液在空隙中的分布不均匀，导致固井质量下降；尾浆spn值在调控在0-3.1范围内是对固井质量起正向反馈作用，但超过范围会降低固井质量。

35、有益效果：

36、1、本专利技术的固井质量评价方法是通过对固井数据集的获取、处理和分析，结合机器学习算法，构建三分类固井质量评价模型，进而对模型进行可视化解释。该方法相较于传统固井质量评价方法具有更强的预测性能、更好的鲁棒性和解释性、适用于多源数据、更高的数据效率以及现代化和自适应性，为工程实践提供了可靠和高效的解决方案。

37、2、随机森林在固井领域的表现出较高鲁棒性、对高维数据的处理能力、抗过拟合能力强、易于调参、能够评估特征重要性，以及相对高的性能和效率，使得随机森林成为固井分析的有力工具，尤其适用于处理复杂、噪声较大或数据量不足的情况。

本文档来自技高网...

【技术保护点】

1.一种基于随机森林优化的固井质量分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于随机森林优化的固井质量分析方法，其特征在于，所述步骤二中通过数据编码将文字型数据转换为数值型，然后删除缺失值较多的样本，再采用均值填补缺失值，再进行数据标准化处理。

3.根据权利要求1所述的一种基于随机森林优化的固井质量分析方法，其特征在于，所述步骤三中的步骤(2)中所述随机森林模型是通过构建多个决策树，每棵树在从原始数据中有放回地随机抽样得到的训练子集上进行训练；在每次节点分裂时，模型随机选择一部分特征进行考虑，增加树之间的差异性；最终，通过投票机制，选择多棵树中得票最多的类别作为随机森林的分类结果；其中控制决策树节点分裂的指标包括信息增益或Gini指数；信息增益计算公式如下：

4.根据权利要求1所述的一种基于随机森林优化的固井质量分析方法，其特征在于，所述步骤三中的步骤(3)的超参数包括：n_estimators、max_depth、max_features、min_samples_leaf、criterion。

5.根据权利

6.根据权利要求1所述的一种基于随机森林优化的固井质量分析方法，其特征在于，所述步骤四中的步骤(2)结合井斜角特征对应的SHAP数值，井斜角数据越小，固井质量越好，在固井施工方案设计中应使井斜角参数保持在10°-40°范围内，以提高固井质量；井径扩大率数据值越大，对固井质量差的影响越大，当该值越小，固井质量越好；井径扩大率增大时，固井浆液在井眼与固井套管之间的空隙变大，浆液在空隙中的分布不均匀，导致固井质量下降；尾浆SPN值在调控在0-3.1范围内是对固井质量起正向反馈作用，但超过范围会降低固井质量。

...

【技术特征摘要】

1.一种基于随机森林优化的固井质量分析方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的一种基于随机森林优化的固井质量分析方法，其特征在于，所述步骤三中的步骤(3)的超参数包括：n_est...

【专利技术属性】
技术研发人员：石悦，孙劲飞，李早元，黄盛，刘健，苏东华，杨涪杰，杨鑫，罗倩梅，
申请(专利权)人：西南石油大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人