【技术实现步骤摘要】
—种基于GPU的并行时间序列挖掘方法
本专利技术涉及数据库挖掘技术,尤其是涉及一种基于GPU的并行时间序列挖掘方法。
技术介绍
互联网技术的快速发展把我们带进了一个信息大爆炸的时代,大数据已经成为不可逆转的时代潮流。随着数据存储设备成本的不断降低,以及数据采集方式和渠道的多样化,越来越多的公司和组织构建了自己的数据库,用于存储海量的用户数据。然而,数据的快速积累带来了信息超载的问题,企业和用户真正感兴趣的信息被湮没在大量纷繁复杂的数据当中,有用的信息难以被有效的挖掘。数据挖掘技术则被认为是当前解决信息超载问题的有效工具之一。通过对海量数据的分析和挖掘,我们可以从中获取大量有价值的信息,使大数据更好的为人们服务。序列模式挖掘是作为数据挖掘领域的一个重要研究方向,越来越受到研究人员的关注。其目的在于寻找海量数据库中频繁出现的序列模式。序列模式是指数据库中按照一定的次序频繁出现的有序序列。传统的数据挖掘任务仅仅是找出用户可能会购买的物品集合,而不关心这些物品集合之间的次序问题,但序列模式挖掘则把时间信息考虑在内,不仅挖掘出用户购买的物品集合,还要指出这些物品集合在时间上的先后次序。如此以来,我们就可以更加准确的根据用户当前购买的物品预测下一步的购买行为,进而为用户提供一些更具价值的推荐信息,帮助用户更快的找到所需。正是由于序列模式挖掘引入了模式之间的相互次序信息,因此在实践中有着十分重要和广泛的应用。现实生活中的许多科学问题和商业问题都可以转化为寻找具有先后次序的序列问题。在网页实时推荐系统中,通过对网络访问日志中的记录进行序列挖掘,可以确定各个被访问页 ...
【技术保护点】
一种基于GPU的并行时间序列挖掘方法,其特征在于,包括以下步骤:步骤101:扫描输入序列数据库中的记录到CPU的内存缓冲区中;步骤102:根据所述序列数据库中的记录,计算长度为1的候选序列以及所述长度为1的候选序列的支持度;步骤103:根据所述长度为1的候选序列的支持度,计算得到长度为1的频繁序列;步骤104:扫描所述输入序列数据库中的记录,计算候选序列信息矩阵和候选事件信息矩阵;步骤105:将所述候选序列信息矩阵和候选事件信息矩阵拷贝到GPU的显存中,采用CUDA在所述GPU上并行计算长度为2的候选序列以及所述长度为2的候选序列的支持度,并将结果保存在GPU的显存中;步骤106:将所述长度为2的候选序列和长度为2的候选序列的支持度拷贝到CPU的内存缓冲区中,计算得到长度为2的频繁序列;步骤107:根据所述输入序列数据库计算得到垂直格式数据库;步骤108:将所述长度为1的频繁序列、长度为2的频繁序列和所述垂直格式数据库拷贝到GPU的显存中,在GPU中并行计算得到其余长度的频繁序列。
【技术特征摘要】
1.一种基于GPU的并行时间序列挖掘方法,其特征在于,包括以下步骤: 步骤101:扫描输入序列数据库中的记录到CPU的内存缓冲区中; 步骤102:根据所述序列数据库中的记录,计算长度为I的候选序列以及所述长度为I的候选序列的支持度; 步骤103:根据所述长度为I的候选序列的支持度,计算得到长度为I的频繁序列;步骤104:扫描所述输入序列数据库中的记录,计算候选序列信息矩阵和候选事件信息矩阵; 步骤105:将所述候选序列信息矩阵和候选事件信息矩阵拷贝到GPU的显存中,采用CUDA在所述GPU上并行计算长度为2的候选序列以及所述长度为2的候选序列的支持度,并将结果保存在GPU的显存中; 步骤106:将所述长度为2的候选序列和长度为2的候选序列的支持度拷贝到CPU的内存缓冲区中,计算得到长度为2的频繁序列; 步骤107:根据所述输入序列数据库计算得到垂直格式数据库; 步骤108:将所述长度为I的频繁序列、长度为2的频繁序列和所述垂直格式数据库拷贝到GPU的显存中,在GPU中并行计算得到其余长度的频繁序列。2.根据权利要求1所述的方法,其特征在于,所述步骤101包括: 将存储设备中的输入序列数据库中的记录分块读入到CPU的内存缓冲区中,所述内存缓冲区的容量大于预设的最小缓冲区阈值,小于系统的最大可用内存,当所述内存缓冲区中的记录被处理完毕时,从存储设备中的输入序列数据库中读取下一块数据到所述内存缓冲区进行处理,直至所述序列数据库中的所有记录被扫描完毕。3.根据权利要求2所述的方法,其特征在于,所述步骤102包括: 扫描一条内存缓冲区中的序列数据库记录,当所述序列数据库记录中第一次出现某项时,如果在之前的序列数据库记录中未出现过所述项,则将所述项保存作为一个长度为I的候选序列,并将所述项的支持度增加I; 如果在所述序列数据库记录中多次出现所述项,则仅在第一次出现所述项时保存并增加其支持度,在所述序列数据库记录中再次出现所述项时不作任何处理,如果在其它任一序列数据库记录中首次出现所述项时,则将所述项的支持度增加I。4.根据权利要求1所述的方法,其特征在于,所述步骤103包括: 将每一个长度为I的候选序列的支持度与预设的最小支持度阈值进行比较,如果所述支持度大于等于所述最小支持度阈值,则将该长度为I的候选序列保存为一个长度为I的频繁序列,如果所述支持度小于所述最小支持度阈值,则将该长度为I的候选序列保存为一个长度为I的非频繁序列。5.根据权利要求1所述的方法,其特征在于,所述步骤104包括: 将所述输入序列数据库中的记录读入CPU的内存缓冲区中,采用迭代算法依次处理所述内存缓冲区中的每一...
【专利技术属性】
技术研发人员:杨世权,袁博,
申请(专利权)人:清华大学深圳研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。