基于频繁项集挖掘的数据处理方法技术

技术编号：12528772 阅读：80 留言：0更新日期：2015-12-17 23:56

本发明专利技术提供了一种基于频繁项集挖掘的数据处理方法，包括以下步骤：获取多项历史数据表，提取出具有价值字段的数据表；在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表；对时间序列数据表进行分割，对非时间序列数据表进行清理得到初始购物篮数据；对初始购物篮数据中的多个数据表进行合并，得到合并后的购物篮数据；对所述初始购物篮数据、合并后的购物篮数据分别进行频繁项集挖掘，得到指定支持度的频繁项结果。本发明专利技术通过对历史数据进行频繁项集挖掘，得到各个历史数据表的频繁项集支持度，可以查询出任意维度的频繁数据，方便分析人员对数据的获取；同时对时间序列数据进行分割，方便分析人员根据时间标签查询相关数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据查询统计领域，特别是一种基于频繁项集挖掘进行各种历史字段出现的频率的获取方法。
技术介绍
随着数据挖掘技术的发展以及公安业务的发展，传统对数据查询统计功能不再符合公安业务的需求，为了获取历史数据中频繁出现的可获得的知识和价值，当前处理的方式是通过查询各种历史字段出现的频率。人工统计查询出各种条件出现的频率等。现有的历史数据频繁模式查询都是基于人工模式，单一查询或者联合指定几个字段得到查询结果，且无法针对时间序列数据获取频繁项目查询结果。
技术实现思路
为解决上述技术问题，本专利技术提供了一种，包括以下步骤:获取多项历史数据表，在所述各历史数据表中提取出具有价值字段的数据表；在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表；根据预设的时间分割单位以及所述时间序列数据的时间范围对所述时间序列数据表进行分割，对所述非时间序列数据表进行清理得到初始购物篮数据；对获取的初始购物篮数据中的多个数据表进行合并，得到合并后的购物篮数据；对所述初始购物篮数据、合并后的购物篮数据分别进行频繁项集挖掘，得到所述初始购物篮数据、合并后的购物篮数据的指定支持度的所有频繁项集结果。较佳地，对所述非时间序列数据表进行清理过程包括:去除所述具有价值字段的数据表中的无效数据，所述无效数据包括错误数据、重复数据。较佳地，对购物篮数据中的多个数据表进行合并方式为:对所述购物篮数据中中拥有相同字段的数据表进行合并。较佳地，所述购物篮数据格式如下:IDl, ITEM11, ITME12,…ID2, ITEM21, ITEM22,…其中，ID表示数据表的唯...

【技术保护点】
一种基于频繁项集挖掘的数据处理方法，其特征在于，包括以下步骤：获取多项历史数据表，在所述各历史数据表中提取出具有价值字段的数据表；在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表；根据预设的时间分割单位以及所述时间序列数据的时间范围对所述时间序列数据表进行分割，对所述非时间序列数据表进行清理得到初始购物篮数据；对获取的初始购物篮数据中的多个数据表进行合并，得到合并后的购物篮数据；对所述初始购物篮数据、合并后的购物篮数据分别进行频繁项集挖掘，得到所述初始购物篮数据、合并后的购物篮数据的指定支持度的所有频繁项集结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：任新华，刘业政，杜飞，崔春，向士庭，
申请(专利权)人：安徽新华博信息技术股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人