System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于CART决策树的砂堵关键因素识别方法技术_技高网
当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于CART决策树的砂堵关键因素识别方法技术

技术编号:41246231 阅读:8 留言:0更新日期:2024-05-09 23:56
本发明专利技术提供了一种基于CART决策树的砂堵关键因素识别方法,包括:(S1)根据现场取得的不同状况下的砂堵发生情况作为样本并划分训练集和测试集;(S2)数据预处理,基于正态分布的假设,移除异常值以及处理数据集中不完整和不一致的数据;(S3)进行CART分析并计算最优树深度,建立CART分类决策树;(S4)通过代价复杂性剪枝获得最佳树深度;(S5)输入测试集进行是否发生砂堵的预测,验证模型的准确性;(S6)量化变量重要性,度量在决策树形成过程中某个特征变量的贡献程度。本发明专利技术所建立的砂堵关键因素识别模型在输入特征参数后,能够有效的判断出是否会发生砂堵且给出造成砂堵的关键因素,对指导现场压裂增产改造开发具有一定的实际意义。

【技术实现步骤摘要】

本专利技术涉及大数据人工智能技术与储层增产改造,具体涉及一种基于cart决策树的砂堵关键因素识别方法。


技术介绍

1、在水力压裂操作中,砂堵异常是指在施工过程中,由于压裂滤失导致压裂液中支撑剂浓度升高,引起支撑剂桥堵或裂缝内脱砂,使得施工压力瞬间飙升并达到限压,不得不紧急中止施工的现象。砂堵可能影响施工时效,导致丢段、弃段,无法满足设计指标要求;增加的返排和井筒清洗成本,严重损害套管;引发管线刺漏,对人员安全构成威胁;甚至还可能导致油气井废弃。除此之外,还需承担高昂的设备租金、人员费用,以北美eagle ford盆地为例,每次砂堵后返排需额外耗费10万至40万美元,砂堵后清洗井筒及注入性测试需耗费80万至150万美元。因此,迫切需要研发砂堵预警技术。经过长期的实践积累,钻探企业已经收集海量的压裂施工数据。基于海量压裂施工数据与人工智能算法,可以实现砂堵预警。不过,当前油气大数据的规模已远超传统建模方法(如曲线拟合)的分析能力。传统建模方法不仅可能过于复杂且耗时,而且难以处理变量之间的依赖关系或相关性。通过对这些数据进行特征工程处理,有助于挖掘潜在的信息,以更好地选择适用于重复压裂井的最佳解决方案。

2、cart树指分类回归树算法(classification and regression tree,cart),该算法既可以用于分类任务,也可以用于回归分析。cart算法通过自助法(bootstrap)重采样技术,从原始训练样本集中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。cart算法使用基尼系数选择特征,基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。当数据集的因变量为离散型数值时,该算法就是一个分类树,可以很好地指导现场解决压裂是否会发生砂堵的问题。


技术实现思路

1、针对上述问题,本专利技术提供一种基于cart决策树的砂堵关键因素识别方法。所建立的砂堵关键因素识别模型在输入特征参数后,能够有效的判断出是否会发生砂堵并且给出造成砂堵的关键因素,能够有效的指导现场解决压裂是否会发生砂堵的问题,对压裂增产改造开发具有一定的实际意义。

2、本专利技术采用下述的技术方案:

3、一种基于cart决策树的砂堵关键因素识别方法,包括以下步骤:

4、步骤1:根据现场取得的不同状况下的砂堵发生情况作为样本并划分训练集和测试集,定义不同特征变量为输入变量,砂堵发生情况为输出变量;

5、步骤2:数据预处理,包括移除异常值以及处理数据集中不完整和不一致的数据,基于正态分布的假设,通过移除连续变量中被定义为超过均值3σ的值来清除异常值;

6、步骤3:进行cart分析并计算最优树深度,计算各个特征的各个值的基尼系数,选择基尼系数最小的特征及其对应的取值作为最优切分点,建立cart分类决策树;

7、步骤4:通过代价复杂性剪枝获得最佳树深度;

8、步骤5:输入测试集进行是否发生砂堵的预测,验证模型的准确性;

9、步骤6:量化变量重要性,度量在决策树形成过程中某个特征变量的贡献程度。

10、进一步的,所述步骤1定义的输入变量包括垂深、平均泵速、平均压力、支撑剂质量和总液量,输出变量为是否发生砂堵。

11、进一步的,所述步骤2具体包括以下子步骤:

12、步骤201:标准差定义是总体各单位标准值与其平均数离差平方和的算术平均数的平方根,用σ表示,即

13、

14、式(1)中,n表示样本数;xi表示特征变量的取值;表示特征变量的平均值。

15、步骤202:移除特征变量值超出其均值3σ的样本,得到新的样本集。

16、进一步的,所述步骤3具体包括以下子步骤:

17、步骤301:输入训练集d,基尼系数的阈值,切分的最少样本个数阈值,从根节点开始,用训练集递归建立cart决策树。对于当前节点的训练集d,如果样本个数小于阈值或没有特征,则返回决策子树,当前节点停止递归;

18、步骤302:计算训练集d的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归,其中基尼系数的计算公式为

19、

20、式(2)中,gdi表示基尼系数;t表示cart决策树的节点序号;i表示是否发生砂堵;p2(i)表示节点t中是否发生砂堵i的概率。

21、步骤303:利用式(2)所述公式计算当前节点现有各个特征的各个值的基尼系数;

22、步骤304:在计算出来的各个特征的各个值的基尼系数中,选择基尼系数最小的特征及其对应的取值作为最优特征和最优切分点。然后根据最优特征和最优切分点,将本节点的训练集d划分成两部分d1和d2,同时生成当前节点的两个子节点,左节点的数据集为d1,右节点的数据集为d2;

23、步骤305:对左右的子节点递归调用步骤301-304,生成cart决策树。

24、进一步的,所述步骤4具体包括以下子步骤:

25、步骤401:在进行预测、分析或分类之前,优化树的水平非常重要。利用代价复杂性剪枝法,以使交叉验证误差最小化;对于分类回归树中的每一个非叶子节点计算它的表面误差率增益值α,即

26、

27、式(3)中,|tt|表示子树中包含的叶子节点个数;c(tt)表示总的误差代价;c(t)表示以t为节点的误差代价,该节点被剪枝;。

28、c(t)=r(t)*p(t)         (4)

29、式(4)中,r(t)表示节点t的误差率;p(t)表示节点t上的数据占所有数据的比例。

30、步骤402:找到α值最小的非叶子节点,令其左、右子节点为空。当多个非叶子节点的α值同时达到最小时,取最大的进行剪枝。

31、进一步的,所述步骤5对生成的cart决策树做砂堵发生情况预测时,假如测试集里的样本落到了某个叶子节点,而该节点里有多个训练样本。则该测试样本的砂堵发生情况为这个叶子节点里概率最大的类别。

32、进一步的,所述步骤6具体包括以下子步骤:

33、步骤601:将数据集划分为相等大小的v个子样本,记作n1,n2,...,nv;

34、步骤602:对于cart决策树,v折交叉验证误差εcv被定义为误分类概率为

35、

36、式(5)中,表示使用n1-nv个样本构建的树计算出的样本预测值;yi为样本期望值;nv为子样本个数。

37、通过对每个特征变量进行的分裂引起的误分类概率求和,即节点数量的总和,得到特征变量重要性的排序。

38、本专利技术的有益效果是:

39、基于压裂施工大数据集和cart决策树算法,能够有效的判断出是否会发生砂堵,并且对砂堵的关键因素进行了准确识别,为构建砂堵实时预测算法奠定了坚实基本文档来自技高网...

【技术保护点】

1.一种基于CART决策树的砂堵关键因素识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于CART决策树的砂堵关键因素识别方法,其特征在于,所述步骤1定义的输入变量包括垂深、平均泵速、平均压力、支撑剂质量和总液量,输出变量为是否发生砂堵。

3.根据权利要求1所述的一种基于CART决策树的砂堵关键因素识别方法,其特征在于,所述步骤2具体包括以下子步骤:

4.根据权利要求1所述的一种基于CART决策树的砂堵关键因素识别方法,其特征在于,所述步骤3具体包括以下子步骤:

5.根据权利要求1所述的一种基于CART决策树的砂堵关键因素识别方法,其特征在于,所述步骤4具体包括以下子步骤:

6.根据权利要求1所述的一种基于CART决策树的砂堵关键因素识别方法,其特征在于,所述步骤5对生成的CART决策树做砂堵发生情况预测时,假如测试集里的样本落到了某个叶子节点,而该节点里有多个训练样本,则该测试样本的砂堵发生情况为这个叶子节点里概率最大的类别。

7.根据权利要求1所述的一种基于CART决策树的砂堵关键因素识别方法,其特征在于,所述步骤6具体包括以下步骤:

...

【技术特征摘要】

1.一种基于cart决策树的砂堵关键因素识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于cart决策树的砂堵关键因素识别方法,其特征在于,所述步骤1定义的输入变量包括垂深、平均泵速、平均压力、支撑剂质量和总液量,输出变量为是否发生砂堵。

3.根据权利要求1所述的一种基于cart决策树的砂堵关键因素识别方法,其特征在于,所述步骤2具体包括以下子步骤:

4.根据权利要求1所述的一种基于cart决策树的砂堵关键因素识别方法,其特征在于,所述步骤3具体包括以下子步骤:...

【专利技术属性】
技术研发人员:贾靖王李昌高士娟余红广
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1