“直线逼近”异常下限确定方法技术

技术编号:22974646 阅读:22 留言:0更新日期:2019-12-31 23:24
本发明专利技术涉及一种“直线逼近”异常下限确定方法,该方法基于测试数据背景部分服从正态分布,服从直线分布必定服从高度正态分布的规律。编写算法模型,借助计算机通过重复(迭代)使用统计学直线拟合逐步逼近的方法将测试数字集中的背景部分精确地分离出来,所分离出的背景部分的上限和下限,分别为该数字集正异常的下限值和负异常的上限值,该方法可以快速、简易、精确的确定异常下限。

A method to determine the lower limit of \straight line approximation\ anomaly

【技术实现步骤摘要】
“直线逼近”异常下限确定方法
本专利技术属于数据分析研究领域,具体涉及一种“直线逼近”异常下限确定方法。
技术介绍
基于测试数据背景部分服从正态分布的规律,传统的异常下限确定方法有近十种之多,不同方法计算结果相差悬殊,至今没有一种让所有人信服的确定方法,严重影响着研究结果的统一性和标准化。归纳现有异常下限确定方法有两类:1、计算方法:以“统计迭代”计算方法(《中华人民共和国地质矿产行-业标准1:5万地球化学普查规范(DZ/T0011—91)》推荐方法)为代表,T=x±kδ,(T为异常下限,x为研究数据总体的平均值,δ为标准离差,k:2~3之间的常数)。剔除超差(大于x+kδ和小于x-kδ)的数据,重复该方法(迭代计算),直到没有超差数据(使剩余数据服从正态分布),确定x+kδ值为所研究数字集的异常下限。2、图解法:此类方法有近十种之多,最近提出的“含量排列法”(2009年,杨大欢等)简便且具有代表性。该方法首先对Excel文件中数字集排升序,利用“插入—平滑线散点图”功能生成数字集散点图,利用“插入—形状(直线)”功能分别对散点图背景值和高异常值(近直线分布)两个部分做充分拟合,选取弧形散点1/2处(弧线与其切线的交点)数值为该元素数字集的异常下限值。该而上述方法存在如下不足:1、“统计迭代”计算方法:该公式和方法确定的异常下限很大程度的影响数据处理的精度。对k值取2或3时,同一数字集所计算得异常下限相差较大,当标准离差较大(数据分布不均匀)时,k值取2或3计算的异常下限可相差倍数级别。2、含量排列图解方法:图解方法确定的异常下限与“统计迭代法”计算结果相比较极不稳定,当数字集标准离差较大时,确定的异常下限值远大于“统计迭代法”计算结果。3、传统的异常下限确定方法只能确定数字集的正异常下限,均无法确定负异常的上限。不符合测试数据集的三分分布特征(正异常、背景、负异常),如无法研究地球化学元素亏损这一地质事实,无法满足大数据时代对数据精确研究。4、传统的异常下限确定的方法,由于k值不定(由成图效果确定),图解异常下限确定方法只能手工绘制。因此,传统的异常下限确定的方法无法编制计算机软件,无法满足多图幅、多元素大量数据的处理要求,计算、处理效率极低,无法满足大数据时代对大量数据的快速处理要求。因此,研发一种可以编程由计算机自动准确、快速确定正异常下限、负异常上限等相关参数的方法,是大数据时代数字科学和计算技术的必然需求。
技术实现思路
本专利技术的目的是提供一种提高数据处理精度和效率的“直线逼近”异常下限确定方法。本专利技术的另一个目的是提供一种能够全面的研究数据分布特征的“直线逼近”异常下限确定方法。由于测试数字集均由背景、正异常和负异常三部分组成,背景部分服从正态分布,服从直线分布必定服从高度正态分布的规律,提出“直线逼近”异常下限确定方法。为了解决上述技术问题,本专利技术公开了一种“直线逼近”异常下限确定方法,包括以下步骤:(1)对数字集由大到小排降序,剔除奇异值,得到第二数字集;(2)对第二数字集排降序,以测试值为(y)值,序号为(x)值编写算法模型对新数字集做直线拟合并计算其拟合度(R2),按照相等数字为一级,不相等数字一个为一级,对数字集高值端逐级剔除数据,拟合度逐级增大或不变则继续剔除,直至拟合度相对前一数值变小时停止剔除并记录剔除前的数字,该数字称为顶端值,剔除第二数字集中大于顶端值的数字,剩余数字形成第三数字集;(3)对第三数字集做直线拟合处理,由数字集低值端逐级剔除并比较剔除前后拟合度的大小变化,拟合度逐级增大或不变则继续剔除,直至拟合度相对前一数字变小,停止剔除并记录剔除前的数字,将该数值称为底端值,剔除第三数字集中小于底端值的数字,形成第四数字集;(4)重复上述步骤2、3的方法若干次,直至剩余数字集直线拟合的拟合度≥0.98,则剩余数字集上限为测试数字集正异常下限,下限为测试数字集负异常上限。进一步地,采用“统计迭代”法编制算法模型,K取2-3任意值,计算数字集初步异常下限作为所述奇异值;进一步地,直线拟合、拟合度计算公式如下:进一步地,采用“统计迭代”法计算数字集异常下限作为所述奇异值,选取K=3,经6次迭代;提供一种“直线逼近”异常下限图解方法,采用数据处理数据库实施,步骤如下:1、首先在所述数据处理数据库中对测试数字集排降序,选准数字集用插入功能生成线状散点分布图,选准散点线,添加对数趋势线并显示公式和拟合度(R2),在数字集中逐级剔除高值,使R2大于等于0.95;2、用插入功能在图形中插入直线,移动直线使其与散点图平直部分充分吻合,读取直线和散点线上部分叉点为正异常下限,下部分叉点为负异常上限。进一步地,所述数据处理数据库为Excel、Spass或MATLAB。进一步地,采用如下步骤:A、在数据处理数据库中,对由正异常初步下限和负异常初步上限构成的数字集,由数字集中的高值端逐级剔除,采用相等的数字为一级,不相等的数字一个为一级的方式分级,并比较剔除前后拟合度R2的大小变化,拟合度逐级增大或不变则继续剔除,直至拟合度相对前一数字变小,停止剔除并记录剔除前的数字;B、继续对数字集低端逐级剔除,如此反复直到两端均无数据可剔除为止,剩余数字集上限为正异常下限,数字集下限为负异常上限。本专利技术的“直线逼近”异常下限确定方法,具有以下优点:1、相对于传统方法,“直线逼近”异常下限确定方法不需要人为确定参数(k值)和手工绘制图解,确保被分离出的背景部分为全体数字集中直线拟合度最高(服从高度正态分布)、数据数量最多的部分,其结果合理、精确且具有唯一性。2、“直线逼近”异常下限确定方法可以确定出负异常的上限值,符合测试数据集的三分分布特征(正异常、背景、负异常),可以实现对如同地球化学元素亏损这一地质事实的研究,符合大数据时代对数据深度挖掘的要求和精度。3、“直线逼近”异常下限确定方法建立在统计学、计算机和计算技术基础之上,可以编制基于“人工智能”思想的算法模型(软件),具有对海量数据、多个参量同时进行计算处理的能力,适应当今“大数据”时代对海量数据进行大规模精细研究处理的要求。4、编制的“直线逼近”异常下限确定算法模型(软件),在一次完成甘肃省西秦岭地区32幅地球化学图,每幅图39个测试素的异常下限、负异常上限等33个参数的计算处理用时不超过3分钟,大幅提高了地球化学数据计算处理的效率,为“大数据”时代实现测试数据深度挖掘奠定了基础。附图说明图1为含量排列图解方法Au、Ag、Mn、Cd元素异常下限确定图。图2为“统计迭代法”、“含量排列法”Au元素异常下限确定值对比图。图3为“实施例”中Au、Ag、Mn、Cd元素背景、异常部分分布特征图。图4为Au元素直线拟合迭代逼近背景过程示意图;图5为Ag、Mn、Cd元素直线拟合迭代逼近背景本文档来自技高网
...

【技术保护点】
1.“直线逼近”异常下限确定方法,其特征在于,包括以下步骤:/n(1)对数字集由大到小排降序,剔除奇异值,得到第二数字集;/n(2)对第二数字集排降序,以测试值为y值,序号为x值编写算法模型对新数字集做直线拟合并计算其拟合度(R

【技术特征摘要】
1.“直线逼近”异常下限确定方法,其特征在于,包括以下步骤:
(1)对数字集由大到小排降序,剔除奇异值,得到第二数字集;
(2)对第二数字集排降序,以测试值为y值,序号为x值编写算法模型对新数字集做直线拟合并计算其拟合度(R2),按照相等数字为一级,不相等数字一个为一级,对数字集高值端逐级剔除数据,拟合度逐级增大或不变则继续剔除,直至拟合度相对前一数值变小时停止剔除并记录剔除前的数字,该数字称为顶端值,剔除第二数字集中大于顶端值的数字,剩余数字形成第三数字集;
(3)对第三数字集做直线拟合处理,由数字集低值端逐级剔除并比较剔除前后拟合度的大小变化,拟合度逐级增大或不变则继续剔除,直至拟合度相对前一数字变小,停止剔除并记录剔除前的数字,将该数值称为底端值,剔除第三数字集中小于底端值的数字,形成第四数字集;
(4)重复上述步骤(2)-(3)的方法若干次,直至剩余数字集直线拟合的拟合度≥0.98,则剩余数字集上限为测试数字集正异常下限,下限为测试数字集负异常上限。


2.如权利要求1所述的“直线逼近”异常下限确定方法,其特征在于,采用“统计迭代”法编制算法模型,K取2-3任意值,计算数字集初步异常下限作为所述奇异值。


3.如权利要求1所述的“直线逼近”异常下限确定方法,其特征在于,对于所述顶端值和底端值的范围内的数字集重复上述步骤2和步骤3的方法,直至上下均无可剔除数字为止,以剩余数字集上限为数字集的正异常下限,数字集下限为数字集的负异常上限。

【专利技术属性】
技术研发人员:罗建民
申请(专利权)人:甘肃省地质调查院
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1