System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据,特别是涉及一种数据构建方法、装置、计算机设备和存储介质。
技术介绍
1、频繁项集是数据挖掘中的一个概念,具体是指在一个数据集频繁出现的项集。fp-grouth算法是一种挖掘频繁项集的算法,主要用于将代表频繁项集的数据库压缩到一个频繁模式树(fp-tree树形结构数据,以下简称fp树),该树仍保留项集的关联信息。
2、在商品营销领域中,通过对顾客的“购物篮”进行频繁项集的挖掘,发现顾客放入他们“购物篮”中的商品之间的关联,并分析顾客的购物习惯,可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们制定更好的营销策略。
3、目前,关于频繁项集的挖掘,主要是通过fp-grouth算法挖掘出数据集中的频繁项集,然而,当数据集的数据量很大时,通过fp-grouth算法挖掘频繁项集会存在数据处理效率低下的问题。
技术实现思路
1、本申请提供一种数据构建方法、装置、计算机设备和计算机可读存储介质。
2、第一方面,本申请提供了一种数据构建方法。所述方法包括:
3、遍历事务数据集,创建频繁模式树的项头表和根节点;
4、分批读取事务数据集中的事务,在每一次完成事务的批量读取后,将已读取的事务分配至多个第一工作线程,第一工作线程用于基于已分配的事务中的项、项头表以及根节点,在内存中构建频繁模式子树;
5、在事务数据集分配完毕、且第一工作线程均构建得到频繁模式子树的情况下,将各第一工作线程构建的频繁模式子树存储
6、第二方面,本申请还提供了一种数据构建装置。所述装置包括:
7、数据创建模块,用于遍历事务数据集,创建频繁模式树的项头表和根节点。
8、数据分配模块,用于分批读取事务数据集中的事务,在每一次完成事务的批量读取后,将已读取的事务分配至多个第一工作线程,第一工作线程用于基于已分配的事务中的项、所述项头表以及所述根节点,在内存中构建频繁模式子树;
9、数据存储模块,用于在事务数据集分配完毕、且所述第一工作线程均构建得到频繁模式子树的情况下,将各第一工作线程构建的频繁模式子树存储于数据库。
10、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各数据构建方法实施例中的步骤。
11、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各数据构建方法实施例中的步骤。
12、可以看出,在本申请实施例中,一方面,分批读取数据集中的事务,将读取的批量数据分配至多个工作线程,通过多线程并发构建频繁模式子树的方式,能够显著提高频繁模式树的构建效率,另一方面,区别于传统的每读取一个事务就构建频繁模式树路径并立即落库存储的方式,每一工作线程在得到分配的事务后,先在内存中构建频繁模式子树,只在所有事务数据集分配完毕、且各工作线程均构建得到频繁模式子树的情况下,再统一将各工作线程构建的频繁模式子树落库存储,以得到完整的频繁模式树,如此,能够充分利用内存计算速度快的优势,极大程度上减少对数据库的频繁读写操作和通信开销,降低了系统的内存占用。整个方案,充分利用了多线程并发处理和内存计算的优势,显著提高了数据处理效率。
本文档来自技高网...【技术保护点】
1.一种数据构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述大型频繁模式子树拆分为多个频繁模式子树包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,将拆分后的多个频繁模式子树分配至多个第二工作线程之前,所述方法还包括:
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述分批读取所述事务数据集中的事务之前,所述方法还包括:
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述方法还包括:
8.一种数据构建装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任
...【技术特征摘要】
1.一种数据构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述大型频繁模式子树拆分为多个频繁模式子树包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,将拆分后的多个频繁模式子树分配至多个第二工作线程之前,所述方法还包括:
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述分批读取...
【专利技术属性】
技术研发人员:黄波,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。