一种基于不平衡数据的Adaboost有利储层发育区预测方法技术

技术编号:20546691 阅读:25 留言:0更新日期:2019-03-09 19:36
本发明专利技术公开了一种基于不平衡数据的Adaboost有利储层发育区预测方法,其特征在于能够解决不平衡数据分类偏向多数类的问题,将能够反应分类器综合性能的AUC指标引入Adaboost弱分类器的权重计算,通过误差以及AUC共同决定弱分类的权重,实现了Adaboost的有效改进;针对Adaboost迭代过程中会产生具有较大权重的冗余或无用弱分类器的问题,采用PSO优化算法,进一步修正弱分类器的权重产生强分类器,实现了未知区域有利区的高效预测。本发明专利技术提供的方法可以有效的提高有利区预测的准确率,辅助地质人员快速地圈定有利目标。

A Prediction Method of Adaboost Favorable Reservoir Development Area Based on Unbalanced Data

The invention discloses an Adaboost favorable reservoir development area prediction method based on unbalanced data, which is characterized by solving the problem that unbalanced data classification is biased towards most classes, introducing AUC indicators that can reflect the comprehensive performance of classifiers into the weight calculation of Adaboost weak classifier, determining the weight of weak classifier through errors and AUC, and realizing the effective improvement of Adaboost. In order to solve the problem of redundant or useless weak classifiers with large weights in the process of Adaboost iteration, PSO optimization algorithm is used to further modify the weights of weak classifiers to generate strong classifiers, which realizes efficient prediction of favorable areas in unknown regions. The method provided by the invention can effectively improve the accuracy of prediction of favorable areas and assist geologists to quickly delineate favorable targets.

【技术实现步骤摘要】
一种基于不平衡数据的Adaboost有利储层发育区预测方法
本专利技术属于地球物理勘探领域和人工智能领域,具体涉及一种基于不平衡数据的Adaboost有利储层发育区预测方法。
技术介绍
随着勘探技术的发展,岩性地层的油气藏数量在不断增加,无论是在东部高成熟探区还是中西部的低程度探区,油气藏的比例仍在持续扩大,具有巨大的勘探潜力。而有利区预测则是油气藏开发的关键环节之一,但由于地质条件复杂,受限于现有的理论和方法,传统有利区预测常用的地震属性相关性差,导致预测精度低。机器学习中分类预测的相关技术可应用到有利区预测,通过分类算法能够得到地震属性与类别标签的映射关系,快速解决多解性问题,为地质人员圈定有利储层发育区起到了辅助作用,但由于标记为有利储层发育区的样本数量远少于标记为非有利储层发育区的样本数量,所以在预测过程中需要考虑数据不平衡问题。虽然现有的分类方法已经相对成熟,可以很好的解决大多数分类问题,然而对于不平衡数据,分类结果往往偏向于多数类,导致少数类的准确率很低。综上,解决有利区预测中的不平衡性,提出一种高效的预测模型对有利储层发育区进行圈定,是迫切需要解决的问题。
技术实现思路
为了克服有利区预测过程中遇到的样本不平衡问题,辅助地质人员快速圈定有利储层发育区,本专利技术提供了一种基于不平衡数据的Adaboost有利储层发育区预测方法,对有利区数据进行建模,能有效地对有利区进行分类识别。Adaboost算法通过将多个弱分类器组合成一个强分类器,大大提升了分类的精确度,但是弱分类的系数都是在每一次迭代的过程中就已经确定下来的,且后期无法更改,难免会产生冗余或者无用的弱分类器拥有较大权重的现象。针对Adaboost存在的问题,可利用PSO算法优化Adaboost弱分类器权重。为实现上述目的,本专利技术技术方案主要包括以下四个步骤:A.数据采集及处理:从勘探数据库、地震数据体等数据源中提取地震属性以及岩性剖面数据,采用规范化方法对地震属性进行预处理,通过时深转换,匹配地震属性对应的岩性数据,获得带有类别标签的样本集。B.训练基于改进的Adaboost的分类器:(1)初始化训练数据的权值分布其中,N为样本数,w1i为样本在第1轮迭代中的权重;(2)对m=1,2,…,M(a)使用具有权值分布Dm的训练数据集学习,得到基本分类器Gm(x)={-1,+1}(b)计算Gm(x)在训练数据集上的分类误差率em其中yi表示第i个样本的真实标签值;(c)计算Gm(x)的系数,针对Adaboost算法更加关注于错误分类的样本,而不是少数类样本,将可以从整体上评估分类器性能的AUC指标引入弱分类器的权值计算中,重新定义弱分类器的权值函数(d)更新训练数据集的权值分布这里Zm是规范化因子,使得Dm成为一个概率分布;(3)构建基本分类器的线性组合得到最终分类器C.采用PSO优化Adaboost弱分类器系数:针对弱分类系数在每一次迭代过程中一旦确定,后期无法更改,难免会产生冗余或者无用的弱分类器拥有较大权重的问题,采用PSO算法优化Adaboost弱分类器权重,使得精确度高的弱分类器得到较大的权重,无用或者冗余的弱分类器得到很小权重,从而进一步提升Adaboost的准确率和可读性。通过计算Adaboost的误差率ei作为每个粒子的适应度值:Q表示样本的个数,ei表示第i个粒子的误差率即适应度值,m是弱分类器的个数,xik表示第i个例子的第k个权重值,ys表示第s个样本的真实类别。通过PSO优化,得到修正后的强分类器,对有利区进行预测。本专利技术的有益效果是:Adboost是一种集成算法,具有很高的分类精度,但不能很好的处理不平衡数据下的分类问题,通过引入AUC指标,修正弱分类器权重,使其更关注于错误分类的少数类样本;采用PSO算法进一步优化弱分类器的权重,利用修正后的强分类器训练得到地震属性与类别标签的映射关系,大大提高了有利区预测的准确率,为地质人员快速圈定有利区提供了辅助作用。附图说明图1是本专利技术的流程图上图中:11.井震数据,12.弱分类器,13.Adaboost强分类器,14.PSO优化算法,15.优化后的Adaboost强分类器,16.未标记的地震属性样本。具体实施方式下面结合图1对本专利技术作进一步详细的描述:A.数据采集预处理:从勘探数据库、地震数据体等数据源中提取地震属性以及岩性剖面数据等井震数据11,因井震数据获取手段不同,导致数据存储格式多样化,数据的衡量尺度有很大不同,于是采用规范化方法对地震属性进行预处理,将属性数值映射到[0,1]区间,通过时深转换,匹配地震属性对应的岩性数据,获得带有类别标签的样本集。本专利技术采用十折交叉验证,将数据集划分为十份,其中九份用于训练,一份用于测试。B.训练基于改进的Adaboost的分类器:(1)初始化训练数据的权值分布其中,N为样本数,w1i为样本在第1轮迭代中的权重;(2)进行M次循环训练弱分类器Gm(x),迭代次数m=1,2,…,M(a)使用具有权值分布Dm的训练数据集学习,得到基本弱分类器12,其中将有利储层发育区标记为1,非有利储层发育区标记为-1;Gm(x)={-1,+1}(b)计算Gm(x)在训练数据集上的分类误差率em其中yi表示第i个样本的真实标签值,I(Gm(x)≠yi)说明参与分类错误率em计算的是被误分类的样本;(c)计算Gm(x)的系数,针对Adaboost算法更加关注于错误分类的样本,而不是少数类样本,将可以从整体上评估分类器性能的AUC指标引入弱分类器的权值计算中,重新定义弱分类器的权值函数(d)更新训练数据集的权值分布这里Zm是规范化因子,使得Dm成为一个概率分布;(3)构建基本分类器的线性组合得到最终Adaboost强分类器13C.采用PSO优化Adaboost弱分类器系数:针对弱分类系数在每一次迭代过程中一旦确定,后期无法更改,难免会产生冗余或者无用的弱分类器拥有较大权重的问题,采用PSO算法14优化Adaboost弱分类器权重,使得精确度高的弱分类器得到较大的权重,无用或者冗余的弱分类器得到很小权重,从而进一步提升Adaboost的准确率和可读性。(1)PSO优化的原理:每一个弱分类器的权重看作是一只鸟,称之为“粒子”,每个粒子都有一个适应值,代表自身解的优劣。在每次迭代的过程中,每个粒子根据全局最优解以及粒子本身所找到的最优解,调整自己的移动方向和速度大小,逐渐向最优粒子靠近。(2)通过计算Adaboost的误差率ei作为每个粒子的适应度值:Q表示样本的个数,ei表示第i个粒子的误差率即适应度值,m是弱分类器的个数,xik表示第i个例子的第k个权重值,ys表示第s个样本的真实类别。通过PSO优化,得到修正后的强分类器15,以未标记的地震属性样本16为输入,对有利区进行预测。以上所述,仅是本专利技术的较佳实施例,任何熟悉本专业的技术人员可能利用上述阐述的技术方案加以改型或变更为等同变化的等同实例。凡未脱离本专利技术技术方案内容,依据专利技术的技术方案对上述实施例进行的任何简单修改、变更或改型,均属于专利技术技术方案的保护范围。本文档来自技高网...

【技术保护点】
1.一种基于不平衡数据的Adaboost有利储层发育区预测方法,其特征在于,包括以下步骤:从勘探数据库、地震数据体等数据源中提取地震属性以及岩性剖面数据,对其进行规范化处理,将地震属性数值映射到[0,1]区间,有利区划分为有利储层发育区和非有利储层发育区两类,通过时深匹配,获得带有类别标签的样本集;通过将分类器综合评价指标AUC引入Adaboost弱分类器的权重计算,综合分类误差以及AUC指标的共同作用决定弱分类的权重,从而解决了不平衡数据分类偏向于多数类的问题,提高了Adaboost的分类准确率;通过引入PSO算法,进一步优化Adaboost弱分类器的权重,实现优质弱分类器具有较高的权重,以经过规范化处理的样本集作为输入,采用修正后的Adaboost强分类器用于未知区域的有利区的预测。

【技术特征摘要】
1.一种基于不平衡数据的Adaboost有利储层发育区预测方法,其特征在于,包括以下步骤:从勘探数据库、地震数据体等数据源中提取地震属性以及岩性剖面数据,对其进行规范化处理,将地震属性数值映射到[0,1]区间,有利区划分为有利储层发育区和非有利储层发育区两类,通过时深匹配,获得带有类别标签的样本集;通过将分类器综合评价指标AUC引入Adaboos...

【专利技术属性】
技术研发人员:李克文周广悦刘文英苏兆鑫
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1