一种判别式的序列模式挖掘方法及装置制造方法及图纸

技术编号:15791967 阅读:87 留言:0更新日期:2017-07-09 22:48
本发明专利技术实施例公开了一种判别式的序列模式挖掘方法及装置,涉及数据挖掘领域,能够解决原始数据集规模较大时,现有技术的执行过程低效,运算耗时过长,浪费时间的问题。本发明专利技术的方法包括:将所述原始序列确定所述初始节点;当初始节点不是叶子节点时,根据第一预设阈值确定子序列,并进行频繁序列挖掘得出频繁序列模式候选集;根据序列模式的判别性确定最优序列模式集合;根据判别性最高的序列模式确定初始节点的左支子节点和右支子节点;当左支子节点为叶子节点且右支子节点为叶子节点时,提取原始序列对应的判别式的序列模式。

【技术实现步骤摘要】
一种判别式的序列模式挖掘方法及装置
本专利技术涉及数据挖掘领域,尤其涉及一种判别式的序列模式挖掘方法及装置。
技术介绍
序列数据是数据的一种重要类型,它由具有有序元素或事件的序列组成,序列模式挖掘是序列数据挖掘的一个重要分支,在序列事务及有关信息处理中有着广泛的应用,如顾客购物习惯、互联网Web访问模式、科学实验过程分析、自然灾害预测、疾病治疗、药物检验以及DNA(DeoxyribonucleicAcid,脱氧核糖核酸)等。判别式的序列模式是序列模式中的一种,是指该序列模式对不同分类标签的主序列进行精确分类的能力,判别式的序列模式可以对数据进行有效分类,据此训练出的精确分类模型,在推荐、预测、分类多个领域有广泛应用。现有技术中判别式的序列模式挖掘方法为,使用频繁序列模式对原始数据集进行序列模式挖掘,产生频繁序列模式候选集,然后将候选集中的序列模式根据判别性降序排列确定前K个为判别式的序列模式。现有技术中至少存在如下问题:原始数据集规模较大时直接使用频繁序列模式算法进行挖掘,会产生规模很大的频繁序列模式候选集,这就导致从候选集中筛选有判别意义的序列模式的过程会非常繁琐、低效,运算耗时过长,浪费时间。
技术实现思路
本专利技术的实施例提供一种判别式的序列模式挖掘方法及装置,能够解决原始数据集规模较大时,现有技术的执行过程非常繁琐、低效,运算耗时过长,浪费时间的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种判别式的序列模式挖掘方法,包括:将原始序列确定为初始节点对应的序列;当所述初始节点不是叶子节点时,根据第一预设阈值确定所述初始节点对应序列的子序列;根据频繁序列模式算法对所述子序列进行频繁序列挖掘得出所述频繁序列模式候选集,所述频繁序列模式候选集为所述子序列的子集;根据序列模式的判别性确定所述频繁序列模式候选集的序列模式中的最优序列模式集合以及所述最优序列模式集合内各个序列模式的判别性;根据所述最优序列模式集合中所述判别性最高的序列模式确定所述初始节点的左支子节点和右支子节点,以及所述左支子节点对应的序列和所述右支子节点对应的序列;当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式。结合第一方面,在第一方面的第一种实现方式中,在所述当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式之前,所述方法还包括:分别判断所述左支子节点和所述右支子节点是否为叶子节点;当所述左支子节点不为叶子节点时,将所述左支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列及后续步骤;当所述右支子节点不为叶子节点时,将所述右支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列以及后续步骤。结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,在所述当所述初始节点不是叶子节点时,对所述初始节点对应的序列进行频繁序列挖掘得出频繁序列模式候选集之前,所述方法还包括:判断所述初始节点对应的序列的大小是否小于第二预设阈值;当所述初始节点对应的序列的大小小于所述第二预设阈值时,确定所述初始节点为叶子节点;当所述初始节点对应的序列的大小不小于所述第二预设阈值时,判断所述初始节点对应序列的分类标签是否相同;当所述初始节点对应序列的分类标签相同时,确定所述初始节点为叶子节点;当所述初始节点对应序列的分类标签不相同时,确定所述初始节点不是叶子节点。结合第一方面的第二种实现方式,在第一方面的第三种实现方式中,在所述当所述左支子节点不为叶子节点时,将所述左支子节点作为所述初始节点执行所述步骤对所述初始节点对应的序列进行频繁序列挖掘之前,所述方法还包括:判断所述左支子节点对应的序列的大小是否小于所述第二预设阈值;当所述左支子节点对应的序列的大小小于所述第二预设阈值时,确定所述左支子节点为叶子节点;当所述左支子节点对应的序列的大小不小于所述第二预设阈值时,判断所述左支子节点对应序列的分类标签是否相同;当所述左支子节点对应序列的分类标签相同时,确定所述左支子节点为叶子节点;当所述左支子节点对应序列的分类标签不相同时,确定所述左支子节点不是叶子节点;在所述当所述右支子节点不为叶子节点时,将所述右支子节点作为所述初始节点执行所述步骤对所述初始节点对应的序列进行频繁序列挖掘之前,所述方法还包括:判断所述右支子节点对应的序列的大小是否小于所述第二预设阈值;当所述右支子节点对应的序列的大小小于所述第二预设阈值时,确定所述右支子节点为叶子节点;当所述右支子节点对应的序列的大小不小于所述第二预设阈值时,判断所述右支子节点对应序列的分类标签是否相同;当所述右支子节点对应序列的分类标签相同时,确定所述右支子节点为叶子节点;当所述右支子节点对应序列的分类标签不相同时,确定所述右支子节点不是叶子节点。结合第一方面,在第一方面的第四种实现方式中,所述根据序列模式的判别性确定所述频繁序列模式候选集的序列模式中的最优序列模式集合包括:根据所述序列模式的信息熵、基尼系数或费舍得分确定所述最优序列模式集合。第二方面,本专利技术的实施例提供一种判别式的序列模式挖掘装置,包括:确定单元,用于将原始序列确定为初始节点对应的序列;所述确定单元还用于当所述初始节点不是叶子节点时,根据第一预设阈值确定所述初始节点对应的序列的子序列;挖掘单元,用于根据频繁序列模式算法对所述子序列进行频繁序列挖掘得出所述频繁序列模式候选集,所述频繁序列模式候选集为所述子序列的子集;所述确定单元还用于根据序列模式的判别性确定所述频繁序列模式候选集的序列模式中的最优序列模式集合以及所述最优序列模式集合内各个序列模式的判别性;所述确定单元还用于根据所述最优序列模式集合中所述判别性最高的序列模式确定所述初始节点的左支子节点和右支子节点,以及所述左支子节点对应的序列和所述右支子节点对应的序列;提取单元,用于当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式。结合第二方面,在第二方面的第一种实现方式中,所述装置还包括:判断单元,用于分别判断所述左支子节点和所述右支子节点是否为叶子节点;所述确定单元还用于当所述左支子节点不为叶子节点时,并将所述左支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列以及后续步骤;以及,用于当所述右支子节点不为叶子节点时,将所述右支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列以及后续步骤。结合第二方面的第一种实现方式,在第二方面的第二种实现方式中,所述判断单元还用于判断所述初始节点对应的序列的大小是否小于第二预设阈值;所述确定单元还用于当所述初始节点对应的序列的大小小于所述第二预设阈值时,确定所述初始节点为叶子节点;所述判断单元还用于当所述初始节点对应的序列的大小不小于所述第二预设阈值时,判断所述初始节点对应序列的分类标签是否相同;所述确定单元还用于当所述初始节点对应序本文档来自技高网...
一种判别式的序列模式挖掘方法及装置

【技术保护点】
一种判别式的序列模式挖掘方法,其特征在于,包括:将原始序列确定为初始节点对应的序列;当所述初始节点不是叶子节点时,根据第一预设阈值确定所述初始节点对应序列的子序列;根据频繁序列模式算法对所述子序列进行频繁序列挖掘得出所述频繁序列模式候选集,所述频繁序列模式候选集为所述子序列的子集;根据序列模式的判别性确定所述频繁序列模式候选集的序列模式中的最优序列模式集合以及所述最优序列模式集合内各个序列模式的判别性;根据所述最优序列模式集合中所述判别性最高的序列模式确定所述初始节点的左支子节点和右支子节点,以及所述左支子节点对应的序列和所述右支子节点对应的序列;当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式。

【技术特征摘要】
1.一种判别式的序列模式挖掘方法,其特征在于,包括:将原始序列确定为初始节点对应的序列;当所述初始节点不是叶子节点时,根据第一预设阈值确定所述初始节点对应序列的子序列;根据频繁序列模式算法对所述子序列进行频繁序列挖掘得出所述频繁序列模式候选集,所述频繁序列模式候选集为所述子序列的子集;根据序列模式的判别性确定所述频繁序列模式候选集的序列模式中的最优序列模式集合以及所述最优序列模式集合内各个序列模式的判别性;根据所述最优序列模式集合中所述判别性最高的序列模式确定所述初始节点的左支子节点和右支子节点,以及所述左支子节点对应的序列和所述右支子节点对应的序列;当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式。2.根据权利要求1所述的方法,其特征在于,在所述当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式之前,所述方法还包括:分别判断所述左支子节点和所述右支子节点是否为叶子节点;当所述左支子节点不为叶子节点时,将所述左支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列及后续步骤;当所述右支子节点不为叶子节点时,将所述右支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列以及后续步骤。3.根据权利要求2所述的方法,其特征在于,在所述当所述初始节点不是叶子节点时,对所述初始节点对应的序列进行频繁序列挖掘得出频繁序列模式候选集之前,所述方法还包括:判断所述初始节点对应的序列的大小是否小于第二预设阈值;当所述初始节点对应的序列的大小小于所述第二预设阈值时,确定所述初始节点为叶子节点;当所述初始节点对应的序列的大小不小于所述第二预设阈值时,判断所述初始节点对应序列的分类标签是否相同;当所述初始节点对应序列的分类标签相同时,确定所述初始节点为叶子节点;当所述初始节点对应序列的分类标签不相同时,确定所述初始节点不是叶子节点。4.根据权利要求3所述的方法,其特征在于,在所述当所述左支子节点不为叶子节点时,将所述左支子节点作为所述初始节点执行所述步骤对所述初始节点对应的序列进行频繁序列挖掘之前,所述方法还包括:判断所述左支子节点对应的序列的大小是否小于所述第二预设阈值;当所述左支子节点对应的序列的大小小于所述第二预设阈值时,确定所述左支子节点为叶子节点;当所述左支子节点对应的序列的大小不小于所述第二预设阈值时,判断所述左支子节点对应序列的分类标签是否相同;当所述左支子节点对应序列的分类标签相同时,确定所述左支子节点为叶子节点;当所述左支子节点对应序列的分类标签不相同时,确定所述左支子节点不是叶子节点;在所述当所述右支子节点不为叶子节点时,将所述右支子节点作为所述初始节点执行所述步骤对所述初始节点对应的序列进行频繁序列挖掘之前,所述方法还包括:判断所述右支子节点对应的序列的大小是否小于所述第二预设阈值;当所述右支子节点对应的序列的大小小于所述第二预设阈值时,确定所述右支子节点为叶子节点;当所述右支子节点对应的序列的大小不小于所述第二预设阈值时,判断所述右支子节点对应序列的分类标签是否相同;当所述右支子节点对应序列的分类标签相同时,确定所述右支子节点为叶子节点;当所述右支子节点对应序列的分类标签不相同时,确定所述右支子节点不是叶子节点。5.根据权利要求1所述的方法,其特征在于,所述根据序列模式的判别性确定所述频繁序列模式候选集...

【专利技术属性】
技术研发人员:赫彩凤何诚
申请(专利权)人:杭州华为数字技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1