本发明专利技术提供了一种基于频繁项集挖掘的数据处理方法,包括以下步骤:获取多项历史数据表,提取出具有价值字段的数据表;在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表;对时间序列数据表进行分割,对非时间序列数据表进行清理得到初始购物篮数据;对初始购物篮数据中的多个数据表进行合并,得到合并后的购物篮数据;对所述初始购物篮数据、合并后的购物篮数据分别进行频繁项集挖掘,得到指定支持度的频繁项结果。本发明专利技术通过对历史数据进行频繁项集挖掘,得到各个历史数据表的频繁项集支持度,可以查询出任意维度的频繁数据,方便分析人员对数据的获取;同时对时间序列数据进行分割,方便分析人员根据时间标签查询相关数据。
【技术实现步骤摘要】
本专利技术涉及数据查询统计领域,特别是一种基于频繁项集挖掘进行各种历史字段出现的频率的获取方法。
技术介绍
随着数据挖掘技术的发展以及公安业务的发展,传统对数据查询统计功能不再符合公安业务的需求,为了获取历史数据中频繁出现的可获得的知识和价值,当前处理的方式是通过查询各种历史字段出现的频率。人工统计查询出各种条件出现的频率等。现有的历史数据频繁模式查询都是基于人工模式,单一查询或者联合指定几个字段得到查询结果,且无法针对时间序列数据获取频繁项目查询结果。
技术实现思路
为解决上述技术问题,本专利技术提供了一种,包括以下步骤:获取多项历史数据表,在所述各历史数据表中提取出具有价值字段的数据表;在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表;根据预设的时间分割单位以及所述时间序列数据的时间范围对所述时间序列数据表进行分割,对所述非时间序列数据表进行清理得到初始购物篮数据;对获取的初始购物篮数据中的多个数据表进行合并,得到合并后的购物篮数据;对所述初始购物篮数据、合并后的购物篮数据分别进行频繁项集挖掘,得到所述初始购物篮数据、合并后的购物篮数据的指定支持度的所有频繁项集结果。较佳地,对所述非时间序列数据表进行清理过程包括:去除所述具有价值字段的数据表中的无效数据,所述无效数据包括错误数据、重复数据。较佳地,对购物篮数据中的多个数据表进行合并方式为:对所述购物篮数据中中拥有相同字段的数据表进行合并。较佳地,所述购物篮数据格式如下:IDl, ITEM11, ITME12,…ID2, ITEM21, ITEM22,…其中,ID表示数据表的唯一标志,ITEM表示字段值;对所述购物篮数据中拥有相同字段的数据表进行合并的方式为:对具有相同ID字段的数据表进行连接操作。较佳地,对所述时间序列数据按照其时间范围与时间分割单位进行分割的步骤包括:获取所述时间序列数据的时间范围,将所述时间范围按照预设的时间分割单位进行分割得到分割后的时间序列数据。较佳地,对所述时间序列数据表进行分割的过程包括:获取所述时间序列数据表的时间范围,将所述时间范围按照预设的时间分割单位进行分割得到分割后的时间序列数据。较佳地,通过使用频繁项集发现算法挖掘指定支持度的频繁项集。本专利技术具有以下有益效果:本专利技术提供的利用数据挖掘算法通过频繁项集发现算法对历史数据进行频繁项集挖掘,得到各个历史数据表的频繁项集支持度,避免人工操作查询排序历史数据,避免人工查询比较共同出现的频繁项集;可以查询出任意维度的频繁数据,方便分析人员对数据的获取。同时对时间序列数据进行分割,方便分析人员根据时间标签查询相关数据。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的流程示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种,其包括以下步骤:获取多项历史数据表,在所述各历史数据表中提取出具有价值字段的数据表;在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表;根据预设的时间分割单位以及所述时间序列数据的时间范围对所述时间序列数据表进行分割,对所述非时间序列数据表进行清理得到初始购物篮数据;对获取的初始购物篮数据中的多个数据表进行合并,得到合并后的购物篮数据;对所述初始购物篮数据、合并后的购物篮数据分别进行频繁项集挖掘,得到所述初始购物篮数据、合并后的购物篮数据的指定支持度的所有频繁项集结果。其中,对所述非时间序列数据表进行清理过程包括:去除所述具有价值字段的数据表中的无效数据,所述无效数据包括错误数据、重复数据。对所述时间序列数据表进行分割的过程包括:获取所述时间序列数据表的时间范围,将所述时间范围按照预设的时间分割单位进行分割得到分割后的时间序列数据。本实施例中,对多个购物篮数据中的数据表进行合并过程包括:对所述购物篮数据中拥有相同字段的数据表进行合并;其中所述购物篮数据格式如下:IDl, ITEMl 1,ITME12,…ID2, ITEM21, ITEM22,…其中,ID表示数据表的唯一标志,ITEM表示字段值;对所述购物篮数据中拥有相同字段的数据表进行合并的方式为:对购物篮数据中具有相同ID字段的数据表进行连接操作。本实施例提供了重点人员与驾驶员信息两个数据表的操作,本实施例可以单独选择重点人员的数据表,选择关联分析,即可通过本专利技术提供的频繁项集挖掘算法得到重点人员最频繁出现的特征,可以是重点人员的籍贯、重点标记原因以及籍贯与重点标记原因等共同频繁出现的特征。同时,用户也可同时选择分析重点人员信息数据表和驾驶员信息两个数据表,挖掘重点人员和驾驶员合并后的频繁项集,如重点人员标记类别与其驾驶证件类型共同频繁出现的结果、累计积分和重点人员共同频繁出现的记录等。本实施例中,频繁项集是指在所有记录中频繁出现的字段结果及字段联合的结果,每条频繁项集都有一个支持度以区别其频繁出现的程度,如在历史犯罪嫌疑人中,男性和汉族共同出现的比例超过1%,如果我们的支持度设置为1%,那么“男,汉族”这就是频繁2项集,这就是本实施例需要的频繁项集结果。最终的频繁项集包括从频繁I项集,频繁2项集到所有可能出现的符合支持度的结果。本专利技术实施例通过使用频繁项集发现算法挖掘出超过指定支持度的所有频繁项集。本专利技术还进行以下操作:获取所述具有价值字段的数据表中包含时间标签的序列数据;根据设定的时间范围、时间分割单位生成时间序列,按照时间分割单位和时间范围在所述含时间标签的对象数据中查询时间序列结果,并将结果向所述时间序列中填充,得到时间序列的对象数据。本专利技术提供的利用数据挖掘算法通过频繁项集发现算法对历史数据进行频繁项集挖掘,得到各个历史数据表的频繁项集支持度,避免人工操作查询排序历史数据,避免人工查询比较共同出现的频繁项集;可以查询出任意维度的频繁数据,方便分析人员对数据的获取。同时对时间序列数据进行分割,方便分析人员根据时间标签查询相关数据。以上公开的本专利技术优选实施例只是用于帮助阐述本专利技术。优选实施例并没有详尽叙述所有的细节,也不限制该专利技术仅为所述的【具体实施方式】。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本专利技术的原理和实际应用,从而使所属
技术人员能很好地理解和利用本专利技术。本专利技术仅受权利要求书及其全部范围和等效物的限制。【主权项】1.一种,其特征在于,包括以下步骤: 获取多项历史数据表,在所述各历史数据表中提取出具有价值字段的数据表; 在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表; 根据预设的时间分割单位以及所述时间序列数据的时间本文档来自技高网...
【技术保护点】
一种基于频繁项集挖掘的数据处理方法,其特征在于,包括以下步骤:获取多项历史数据表,在所述各历史数据表中提取出具有价值字段的数据表;在所述具有价值字段的数据表中获取时间序列数据表与非时间序列数据表;根据预设的时间分割单位以及所述时间序列数据的时间范围对所述时间序列数据表进行分割,对所述非时间序列数据表进行清理得到初始购物篮数据;对获取的初始购物篮数据中的多个数据表进行合并,得到合并后的购物篮数据;对所述初始购物篮数据、合并后的购物篮数据分别进行频繁项集挖掘,得到所述初始购物篮数据、合并后的购物篮数据的指定支持度的所有频繁项集结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:任新华,刘业政,杜飞,崔春,向士庭,
申请(专利权)人:安徽新华博信息技术股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。