一种多源时序数据的预处理方法和装置制造方法及图纸

技术编号：14704698 阅读：132 留言：0更新日期：2017-02-25 04:29

本发明专利技术提供了一种多源时序数据的预处理方法和装置。所述方法包括：多源时序数据的采集和解析步骤，分别从不同的数据源中获取原始的不同结构的数据，将原始的不同结构的数据转换为具有统一结构的多个时序数据；数据清洗步骤，对所述具有统一结构的多个时序数据进行清洗；针对时序数据特性的预处理步骤，根据时序数据特有的属性，利用描述同一对象的多个时序数据进行相互校验和补充。本发明专利技术解决了现有技术中多源时序数据无法被彻底预处理的问题，从而能够获得更完整、可信度更高的结构化时序数据，有利于后续数据分析与预测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域，具体地涉及一种多源时序数据的预处理方法和装置。
技术介绍
近几年随着科技的发展，出现了越来越多的以时间和空间为维度的数据。例如在生物医学方面，基因数据就是以空间为维度的数据，针对基因数据的异常检测可以发现疾病；在金融方面，持卡人的消费记录就是以时间为维度的数据，通过检测持卡人的消费记录所对应的时序数据，可以找到异常持卡人；在工业方面，温度传感器、压力传感器等的数据都是以时间和空间为维度的数据。这些时序数据中蕴含了大量的信息，因此希望通过数据挖掘算法发现和利用蕴含在时序数据中的信息。时序数据的特点可以总结为以下四个方面：第一，时序数据通常根据时间或空间的变化而变化，所以都具有维度高的特点；第二是异构性，互联网中的时序数据并不单一，可包括视频、音频、文本等；第三是稀疏性，时序数据的稀疏性造成了算法选择的局限性；第四是动态增加，时序数据和传统的静态数据最大的不同是时序数据随着时间或空间的增加而增加，所以是动态增量型的。由于时序数据和传统的静态数据有明显的差异，使用传统的数据预处理算法和数据挖掘算法对时序数据进行处理，得不到理想的效果。这样，很多传统的数据挖掘算法就不能直接用于处理时序数据。目前针对时序数据的算法大致分成三个方向：(1)基于原始数据的算法，就是改变时序数据的相似性度量；(2)基于特征提取的算法，即先对原始的时序数据做特征提取，然后应用数据挖掘算法；(3)基于模型的算法，即使用不同的模型去描述时序数据，认为相同的模型产生的时序数据具有较高的相似度。可以从不同的数据源中获得描述同一对象的多个时序数据，例如可以从数据源应用商...
一种多源时序数据的预处理方法和装置

【技术保护点】
一种多源时序数据的预处理方法，其特征在于，包括：多源时序数据的采集和解析步骤，用于分别从不同的数据源中获取原始的不同结构的数据，将所述原始的不同结构的数据解析为具有统一结构的多个时序数据；数据清洗步骤，用于对所述具有统一结构的多个时序数据进行清洗，识别出描述同一对象的多个时序数据；针对时序数据特性的预处理步骤，用于利用描述同一对象的所有时序数据进行相互校验和补充。

【技术特征摘要】
1.一种多源时序数据的预处理方法，其特征在于，包括：多源时序数据的采集和解析步骤，用于分别从不同的数据源中获取原始的不同结构的数据，将所述原始的不同结构的数据解析为具有统一结构的多个时序数据；数据清洗步骤，用于对所述具有统一结构的多个时序数据进行清洗，识别出描述同一对象的多个时序数据；针对时序数据特性的预处理步骤，用于利用描述同一对象的所有时序数据进行相互校验和补充。2.如权利要求1所述的多源时序数据的预处理方法，其特征在于，所述针对时序数据特性的预处理步骤包括：修复时序数据缺失导致的跳跃，修复时序数据中异常高或者异常低的数值，并修复不符合实际的时序数据，最后进行数据归约。3.如权利要求2所述的多源时序数据的预处理方法，其特征在于，所述修复时序数据缺失导致的跳跃，包括：当一个对象的第一时序数据在第一时间点上出现数据缺失时，分别计算描述同一对象的其他多个时序数据中所述第一时间点的前一时间点上的数值到在所述第一时间点上数值的斜率和截距，并分别求截距均值和斜率均值，根据所述截距均值、斜率均值和所述第一时序数据在所述第一时间点的前一时间点的数值，得到第一时序数据在所述第一时间点的预测数值，用以修复数据缺失导致的跳跃。4.如权利要求2或3所述的多源时序数据的预处理方法，其特征在于，所述修复时序数据中异常高或者异常低的数值，包括：当一个对象的第二时序数据在第二时间点上出现异常高或异常低的数值时，通过计算同一对象的其他多个时序数据在所述第二时间点上的趋势，设定一个阈值；如果所述第二时序数据在所述第二时间点上的数值超过了所述设定的阈值，则计算所述第二时序数据中所述第二时间点的前后时间点的均值、或者计算所述第二时序数据在预设时间段内的期望，将所述均值或期望作为所述第二时序数据中所述第二时间点的数值，以完成异常高或者异常低的数据的修复；如果所述第二时序数据中所述第二时间点上的...

【专利技术属性】
技术研发人员：秦臻，崔岩，沈雷，
申请(专利权)人：北京协力筑成金融信息服务股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人