一种多源时序数据的预处理方法和装置制造方法及图纸

技术编号:14704698 阅读:115 留言:0更新日期:2017-02-25 04:29
本发明专利技术提供了一种多源时序数据的预处理方法和装置。所述方法包括:多源时序数据的采集和解析步骤,分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据转换为具有统一结构的多个时序数据;数据清洗步骤,对所述具有统一结构的多个时序数据进行清洗;针对时序数据特性的预处理步骤,根据时序数据特有的属性,利用描述同一对象的多个时序数据进行相互校验和补充。本发明专利技术解决了现有技术中多源时序数据无法被彻底预处理的问题,从而能够获得更完整、可信度更高的结构化时序数据,有利于后续数据分析与预测。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,具体地涉及一种多源时序数据的预处理方法和装置
技术介绍
近几年随着科技的发展,出现了越来越多的以时间和空间为维度的数据。例如在生物医学方面,基因数据就是以空间为维度的数据,针对基因数据的异常检测可以发现疾病;在金融方面,持卡人的消费记录就是以时间为维度的数据,通过检测持卡人的消费记录所对应的时序数据,可以找到异常持卡人;在工业方面,温度传感器、压力传感器等的数据都是以时间和空间为维度的数据。这些时序数据中蕴含了大量的信息,因此希望通过数据挖掘算法发现和利用蕴含在时序数据中的信息。时序数据的特点可以总结为以下四个方面:第一,时序数据通常根据时间或空间的变化而变化,所以都具有维度高的特点;第二是异构性,互联网中的时序数据并不单一,可包括视频、音频、文本等;第三是稀疏性,时序数据的稀疏性造成了算法选择的局限性;第四是动态增加,时序数据和传统的静态数据最大的不同是时序数据随着时间或空间的增加而增加,所以是动态增量型的。由于时序数据和传统的静态数据有明显的差异,使用传统的数据预处理算法和数据挖掘算法对时序数据进行处理,得不到理想的效果。这样,很多传统的数据挖掘算法就不能直接用于处理时序数据。目前针对时序数据的算法大致分成三个方向:(1)基于原始数据的算法,就是改变时序数据的相似性度量;(2)基于特征提取的算法,即先对原始的时序数据做特征提取,然后应用数据挖掘算法;(3)基于模型的算法,即使用不同的模型去描述时序数据,认为相同的模型产生的时序数据具有较高的相似度。可以从不同的数据源中获得描述同一对象的多个时序数据,例如可以从数据源应用商店1、应用商店2、……、应用商店n、和社交网络1、社交网络2、……、社交网络n中获得针对某app的描述。在针对时序数据做数据挖掘的时候,60%的时间安排在预处理上面,因为高效的算法离不开高质量的数据。但现有技术中时序数据预处理方法通常是不彻底的,这会影响后续的数据挖掘效果。
技术实现思路
有鉴于此,本专利技术实施例提供了一种多源时序数据的预处理方法和装置,以解决现有技术中时序数据无法被彻底预处理的问题。第一方面,提供了一种多源时序数据的预处理方法,包括:多源时序数据的采集和解析步骤,用于分别从不同的数据源中获取原始的不同结构的数据,将所述原始的不同结构的数据解析为具有统一结构的多个时序数据;数据清洗步骤,用于对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;针对时序数据特性的预处理步骤,用于利用描述同一对象的所有时序数据进行相互校验和补充。结合第一方面,在第一方面的第一种可能的实现方法中,所述针对时序数据特性的预处理步骤包括:修复时序数据缺失导致的跳跃,修复时序数据中异常高或者异常低的数值,并修复不符合实际的时序数据,最后进行数据归约。结合在第一方面的第一种可能的实现方法,在第一方面的第二种可能的实现方法中,所述修复时序数据缺失导致的跳跃,包括:当一个对象的第一时序数据在第一时间点上出现数据缺失时,分别计算描述同一对象的其他多个时序数据中所述第一时间点的前一时间点上的数值到在所述第一时间点上数值的斜率和截距,并分别求截距均值和斜率均值,根据所述截距均值、斜率均值和所述第一时序数据在所述第一时间点的前一时间点的数值,得到第一时序数据在所述第一时间点的预测数值,用以修复数据缺失导致的跳跃。结合第一方面的第一种或第二种可能的实现方法,在第一方面的第三种可能的实现方法中,所述修复时序数据中异常高或者异常低的数值,包括:当一个对象的第二时序数据在第二时间点上出现异常高或异常低的数值时,通过计算同一对象的其他多个时序数据在所述第二时间点上的趋势,设定一个阈值;如果所述第二时序数据在所述第二时间点上的数值超过了所述设定的阈值,则计算所述第二时序数据中所述第二时间点的前后时间点的均值、或者计算所述第二时序数据在预设时间段内的期望,将所述均值或期望作为所述第二时序数据中所述第二时间点的数值,以完成异常高或者异常低的数据的修复;如果所述第二时序数据中所述第二时间点上的数值没有超过所述设定的阈值,则不进行处理。结合第一方面的第一种、第二种或第三种可能的实现方法,在第一方面的第四种可能的实现方法中,所述修复不符合实际的时序数据,包括:当检测出第三时序数据中在第三时间点上或第一时间段内出现不符合实际的数据时,将所述第三时序数据中所述第三时间点上或所述第一时间段内的数据设置为所述第三时序数据中与所述第三时间点或所述第一时间段相邻的正常时序数据的均值。结合以上任何一种可能的实现方法,在第一方面的第五种可能的实现方法中,所述数据清洗步骤包括:对象识别步骤,将解析出的每个时序数据对应到一个ID,将所述多个时序数据中的描述同一对象的时序数据标注为具有相同的ID;消除属性冗余步骤,用于检测并删除同一对象的冗余属性。删除重复数据步骤,用于在对同一对象采集或解析了多次的情况下,删除重复的时序数据。第二方面,提供了一种多源时序数据的预处理装置,包括:多源时序数据的采集和解析单元,用于分别从不同的数据源中获取原始的不同结构的数据,将所述原始的不同结构的数据解析为具有统一结构的多个时序数据;数据清洗单元,用于对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;针对时序数据特性的预处理单元,用于利用描述同一对象的所有时序数据进行相互校验和补充。结合第二方面,在第二方面的第一种可能的实现方法中,所述针对时序数据特性的预处理单元包括:第一修复模块,用于修复时序数据缺失导致的跳跃;第二修复模块,用于修复时序数据中异常高或者异常低的数值;第三修复模块,用于修复不符合实际的时序数据;以及数据规约模块,用于数据归约。第三方面,提供了一种多源时序数据的预处理装置,包括:存储器,所述存储器中存储有程序指令;至少一个处理器,用于执行所述程序指令;所述程序指令被所述处理器执行时,使得所述处理器执行第一方面的方法。本专利技术的有益效果如下:本专利技术充分利用数据本身的特点,借助现有的多源时序数据,互相校验,从而达到精准的数据预处理的目的,解决了现有技术中多源时序数据无法被彻底预处理的问题,从而能够获得更完整、可信度更高的结构化时序数据,有利于后续进行准确的数据分析与预测。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种多源时序数据的预处理方法的流程图;图2为本专利技术实施例提供的一个应用实例的示意图;图3为本专利技术实施例提供的数据清洗方法的流程图;图4为本专利技术实施例提供的针对时序数据特性的预处理方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的一种多源时序数据的预处理方法的流程图。如图1本文档来自技高网
...
一种多源时序数据的预处理方法和装置

【技术保护点】
一种多源时序数据的预处理方法,其特征在于,包括:多源时序数据的采集和解析步骤,用于分别从不同的数据源中获取原始的不同结构的数据,将所述原始的不同结构的数据解析为具有统一结构的多个时序数据;数据清洗步骤,用于对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;针对时序数据特性的预处理步骤,用于利用描述同一对象的所有时序数据进行相互校验和补充。

【技术特征摘要】
1.一种多源时序数据的预处理方法,其特征在于,包括:多源时序数据的采集和解析步骤,用于分别从不同的数据源中获取原始的不同结构的数据,将所述原始的不同结构的数据解析为具有统一结构的多个时序数据;数据清洗步骤,用于对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;针对时序数据特性的预处理步骤,用于利用描述同一对象的所有时序数据进行相互校验和补充。2.如权利要求1所述的多源时序数据的预处理方法,其特征在于,所述针对时序数据特性的预处理步骤包括:修复时序数据缺失导致的跳跃,修复时序数据中异常高或者异常低的数值,并修复不符合实际的时序数据,最后进行数据归约。3.如权利要求2所述的多源时序数据的预处理方法,其特征在于,所述修复时序数据缺失导致的跳跃,包括:当一个对象的第一时序数据在第一时间点上出现数据缺失时,分别计算描述同一对象的其他多个时序数据中所述第一时间点的前一时间点上的数值到在所述第一时间点上数值的斜率和截距,并分别求截距均值和斜率均值,根据所述截距均值、斜率均值和所述第一时序数据在所述第一时间点的前一时间点的数值,得到第一时序数据在所述第一时间点的预测数值,用以修复数据缺失导致的跳跃。4.如权利要求2或3所述的多源时序数据的预处理方法,其特征在于,所述修复时序数据中异常高或者异常低的数值,包括:当一个对象的第二时序数据在第二时间点上出现异常高或异常低的数值时,通过计算同一对象的其他多个时序数据在所述第二时间点上的趋势,设定一个阈值;如果所述第二时序数据在所述第二时间点上的数值超过了所述设定的阈值,则计算所述第二时序数据中所述第二时间点的前后时间点的均值、或者计算所述第二时序数据在预设时间段内的期望,将所述均值或期望作为所述第二时序数据中所述第二时间点的数值,以完成异常高或者异常低的数据的修复;如果所述第二时序数据中所述第二时间点上的...

【专利技术属性】
技术研发人员:秦臻崔岩沈雷
申请(专利权)人:北京协力筑成金融信息服务股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1