一种应用于数据曲线过渡阶段的特征提取及界限识别方法技术

技术编号:35177637 阅读:17 留言:0更新日期:2022-10-12 17:45
本发明专利技术公开了一种应用于数据曲线过渡阶段的特征提取及界限识别方法,本发明专利技术属于数据分析技术领域。采用数据切割的方法剔除无关数据,保留目标区间的数据,并将目标区间的数据转换为散点图,运用K

【技术实现步骤摘要】
一种应用于数据曲线过渡阶段的特征提取及界限识别方法


[0001]本专利技术属于数据处理
,具体涉及一种应用于数据曲线过渡阶段的特征提取及界限识别方法。

技术介绍

[0002]在实际数据分析中,为方便研究试验数据,往往需要将采集的数据绘制成可视化曲线,对于数据曲线变化趋势的判断和重要特征的提取是研究分析的重要内容。其中,曲线过渡区段通常是不同变化阶段划分的重要依据。因此,如何提取过渡阶段的数据变化特征、确定不同阶段的界限值在数据处理中显得尤为重要。然而,在实际的数据分析过程中经常会遇到关键特征难以提取的问题,导致数据关键特性不易凸显、特征界限难以确定、影响曲线趋势判断等问题,不利于数据的深入挖掘。
[0003]目前,对于数据曲线重要特征的提取主要分为两大类,一类是是依据曲线图的变化趋势直观划分数据的重要特征,受人为主观因素影响大,缺乏系统性的数据分析作为支撑。另一类是构建相应的数学模型,如分类网络、机器学习、深度学习,根据自身的数据特点通过建立标签集进行模型迭代训练,得到优化后的模型用于数据特征提取,这一类专利针对性强在各自的目标领域有较为优异的表现,但模型构建复杂且缺乏普适性不能较好地运用于具有过渡特征的数据曲线的特征提取和阶段界限识别。

技术实现思路

[0004]本专利技术提供了一种应用于数据曲线过渡阶段的特征提取及界限识别方法,目的在于能够快速提取数据过渡特征、识别阶段变化界限,填补该领域内相关方法的空白,解决现有技术方法中对于数据过渡特征的提取过于复杂、效率偏低、准确度不高的问题,同时为准确识别数据不同变化阶段的界限提供有效方法。
[0005]为此,本专利技术采用如下技术方案:一种应用于数据曲线过渡阶段的特征提取及界限识别方法,包括以下步骤:1)绘制数据曲线:导入试验数据,按照试验数据类型和试验要求绘制试验数据对应的数据曲线图;2)确定特征的目标区间:根据数据曲线特性分析步骤1)绘制的数据曲线图,划定数据曲线拐点、上升、下降或其他关键节点的特征数据所在的变化区间,将变化区间作为目标区间;3)数据切割:择取步骤2)确定的目标区间,根据该目标区间内数据曲线的波动趋势和波动幅度,划分上、下水平分界线或左、右垂直分界线,确保特征数据位于两条分界线划定的区间内;4)K

Means数据分类:将步骤3)两条分界线所围成的数据曲线转化为直角坐标散点图,并根据散点图中数据点的分布密集程度确定分类数量K的数值,然后采用K

Means算法对散点图进行聚类;
通过K

Means算法聚类,确定散点密度最大的一类数据,并将该类数据所对应的分布区间作为核心目标区间,对比所述核心目标区间和步骤2)划定的目标区间;若核心目标区间的大部或全部落至目标区间内,则进行下一步;若核心目标区的大部或全部未落至目标区间内,则调整K值大小再次进行聚类,直至核心目标区间的大部或全部落至目标区间内,再进行下一步;5)确定特征界限:对步骤4)确定的核心目标区间内的数据进行数学分析获取数据曲线的特征界限,求取核心目标区间内的各个散点对应的横轴或纵轴数据值的平均值,平均值即为横向或纵向的特征界限。
[0006]进一步地,所述步骤3)在划分分界线之前,首先对目标区间内数据曲线进行数据处理,加大目标区间内数据曲线的变化频率或变化幅度,并绘制数据处理后的曲线图,再对数据处理后的曲线图划分分界线。
[0007]进一步地,所述数据处理的方法为求导、作差或积分处理。
[0008]K

means算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类是由距离靠近的对象组成的,因此把得到紧凑且独立的类作为最终目标。具体计算原理如下:假设数据集合为(x1,x2,...,x
n
),并且每个x
i
为d维的向量,K

means聚类的目的是,在给定分类组数k(k<=n)值的条件下,将原始数据分成k类:S = {S1, S2, ..., S
k
}在数值模型上,即对以下表达式求最小值:数学表达式:n:样本数;k:样本分为k类;r
nk
:第n个样本点是否属于第k类,属于则r
nk
=1,不属于则r
nk
=0;u
k
:第k个中心点;K

means寻找的是距离最小化:迭代方法:1)固定u
k
,得到r
nk
2)固定r
nk
,求出最优的u
k
算法过程:1)随机选取K个对象作为初始聚类中心;2)将数据样本集合中的样本按照最小距离原则分配到最邻近聚类;3)根据聚类的结果,重新计算K个聚类的中心,并作为新的聚类中心;4)重复步骤2)和3)直到聚类中心不再变化。
[0009]本专利技术步骤3)数据处理的原理如下:作差法:根据数据曲线的变化特征,选取适当的间隔区间,将间隔区间左右两侧的纵坐标值作差,则提取新的坐标点绘制成差值曲线。
[0010]积分法:拟合得到数据曲线的多项式计算公式,将曲线左端点对应的横坐标X

作为积分下限,其余时刻的横坐标 QUOTE 作为积分上限,对曲线多项式计算公式进行积分运算可以求解得到任意时刻的曲线积分值,将其绘制成积分曲线。
[0011]求导法:将数据曲线相邻两点的横纵坐标值分别作差,则,,则数据曲线任一时刻导数值为,导数点的横坐标为提取新的坐标点绘制成导数曲线。
[0012]针对不同的数据曲线特征,合理选择上述数据处理方式,通过数据处理加大目标区间内数据曲线的变化频率或变化幅度,便于准确划分分界线,有助于提高特征提取和界限识别的准确性。
[0013]本专利技术的有益效果在于:1.本专利技术根据数据曲线的变化特点,采用数据切割的方式保留过渡阶段的重要信息,放大数据的关键特征,进而引入K

Means算法对重要信息进行深入筛选,由筛选结果确定数据的特征界限,完成数据曲线关键特征的提取;2.本专利技术提供了一种快速提取数据曲线过渡特征、识别变形阶段界限的方法,填补了该类数据曲线特征提取的空白,简化了特征提取的过程、提升了特征提取的效率,通过放大数据特征运用机器学习算法显著提高了特征提取和阶段界限识别的准确度;3.本专利技术面向的对象为具有过渡特征的数据曲线,并不指定所采集的数据类型,可广泛应用于各类实测数据的处理,具有更高的普适性。
附图说明
[0014]图1是本专利技术的流程框图;图2是本专利技术实施例温度

时间曲线图;图3是本专利技术实施例绝对温度速率

时间曲线;图4是本专利技术实施例分界线的划分示意图;
图5是图4中目标区间局部放大示意图;图6是本专利技术实施例的散点图;图7是本专利技术核心目标区的示意图;图8是本专利技术特征界限确定的示意图。
具体实施方式
[0015本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于数据曲线过渡阶段的特征提取及界限识别方法,其特征在于,包括以下步骤:1)绘制数据曲线:导入试验数据,按照试验数据类型和试验要求绘制试验数据对应的数据曲线图;2)确定特征的目标区间:根据数据曲线特性分析步骤1)绘制的数据曲线图,划定数据曲线拐点、上升、下降或其他关键节点的特征数据所在的变化区间,将变化区间作为目标区间;3)数据切割:择取步骤2)确定的目标区间,根据该目标区间内数据曲线的波动趋势和波动幅度,划分上、下水平分界线或左、右垂直分界线,确保特征数据位于两条分界线划定的区间内;4)K

Means数据分类:将步骤3)两条分界线所围成的数据曲线转化为直角坐标散点图,并根据散点图中数据点的分布密集程度确定分类数量K的数值,然后采用K

Means算法对散点图进行聚类;通过K

Means算法聚类,确定散点密度最大的一类数据,并将该类数据所对应...

【专利技术属性】
技术研发人员:吴红刚陈浩袁中夏孔庆祥袁荣涛康万鹏李永强张俊德王永翔赖国泉张良峰朱兆荣赵守全程飞杨景川黄强斌游朝勇王涛李亮尹威江冯文强张乾翼任庆钊王德双
申请(专利权)人:中铁西北科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1