【技术实现步骤摘要】
一种判别式的序列模式挖掘方法及装置
本专利技术涉及数据挖掘领域,尤其涉及一种判别式的序列模式挖掘方法及装置。
技术介绍
序列数据是数据的一种重要类型,它由具有有序元素或事件的序列组成,序列模式挖掘是序列数据挖掘的一个重要分支,在序列事务及有关信息处理中有着广泛的应用,如顾客购物习惯、互联网Web访问模式、科学实验过程分析、自然灾害预测、疾病治疗、药物检验以及DNA(DeoxyribonucleicAcid,脱氧核糖核酸)等。判别式的序列模式是序列模式中的一种,是指该序列模式对不同分类标签的主序列进行精确分类的能力,判别式的序列模式可以对数据进行有效分类,据此训练出的精确分类模型,在推荐、预测、分类多个领域有广泛应用。现有技术中判别式的序列模式挖掘方法为,使用频繁序列模式对原始数据集进行序列模式挖掘,产生频繁序列模式候选集,然后将候选集中的序列模式根据判别性降序排列确定前K个为判别式的序列模式。现有技术中至少存在如下问题:原始数据集规模较大时直接使用频繁序列模式算法进行挖掘,会产生规模很大的频繁序列模式候选集,这就导致从候选集中筛选有判别意义的序列模式的过程会非常繁琐、低效,运算耗时过长,浪费时间。
技术实现思路
本专利技术的实施例提供一种判别式的序列模式挖掘方法及装置,能够解决原始数据集规模较大时,现有技术的执行过程非常繁琐、低效,运算耗时过长,浪费时间的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种判别式的序列模式挖掘方法,包括:将原始序列确定为初始节点对应的序列;当所述初始节点不是叶子节点时,根据第一预设阈值 ...
【技术保护点】
一种判别式的序列模式挖掘方法,其特征在于,包括:将原始序列确定为初始节点对应的序列;当所述初始节点不是叶子节点时,根据第一预设阈值确定所述初始节点对应序列的子序列;根据频繁序列模式算法对所述子序列进行频繁序列挖掘得出所述频繁序列模式候选集,所述频繁序列模式候选集为所述子序列的子集;根据序列模式的判别性确定所述频繁序列模式候选集的序列模式中的最优序列模式集合以及所述最优序列模式集合内各个序列模式的判别性;根据所述最优序列模式集合中所述判别性最高的序列模式确定所述初始节点的左支子节点和右支子节点,以及所述左支子节点对应的序列和所述右支子节点对应的序列;当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式。
【技术特征摘要】
1.一种判别式的序列模式挖掘方法,其特征在于,包括:将原始序列确定为初始节点对应的序列;当所述初始节点不是叶子节点时,根据第一预设阈值确定所述初始节点对应序列的子序列;根据频繁序列模式算法对所述子序列进行频繁序列挖掘得出所述频繁序列模式候选集,所述频繁序列模式候选集为所述子序列的子集;根据序列模式的判别性确定所述频繁序列模式候选集的序列模式中的最优序列模式集合以及所述最优序列模式集合内各个序列模式的判别性;根据所述最优序列模式集合中所述判别性最高的序列模式确定所述初始节点的左支子节点和右支子节点,以及所述左支子节点对应的序列和所述右支子节点对应的序列;当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式。2.根据权利要求1所述的方法,其特征在于,在所述当所述左支子节点为叶子节点且所述右支子节点为叶子节点时,根据所述初始节点对应的最优序列模式集合提取所述原始序列对应的判别式的序列模式之前,所述方法还包括:分别判断所述左支子节点和所述右支子节点是否为叶子节点;当所述左支子节点不为叶子节点时,将所述左支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列及后续步骤;当所述右支子节点不为叶子节点时,将所述右支子节点作为所述初始节点执行所述步骤根据第一预设阈值确定所述初始节点对应的序列的子序列以及后续步骤。3.根据权利要求2所述的方法,其特征在于,在所述当所述初始节点不是叶子节点时,对所述初始节点对应的序列进行频繁序列挖掘得出频繁序列模式候选集之前,所述方法还包括:判断所述初始节点对应的序列的大小是否小于第二预设阈值;当所述初始节点对应的序列的大小小于所述第二预设阈值时,确定所述初始节点为叶子节点;当所述初始节点对应的序列的大小不小于所述第二预设阈值时,判断所述初始节点对应序列的分类标签是否相同;当所述初始节点对应序列的分类标签相同时,确定所述初始节点为叶子节点;当所述初始节点对应序列的分类标签不相同时,确定所述初始节点不是叶子节点。4.根据权利要求3所述的方法,其特征在于,在所述当所述左支子节点不为叶子节点时,将所述左支子节点作为所述初始节点执行所述步骤对所述初始节点对应的序列进行频繁序列挖掘之前,所述方法还包括:判断所述左支子节点对应的序列的大小是否小于所述第二预设阈值;当所述左支子节点对应的序列的大小小于所述第二预设阈值时,确定所述左支子节点为叶子节点;当所述左支子节点对应的序列的大小不小于所述第二预设阈值时,判断所述左支子节点对应序列的分类标签是否相同;当所述左支子节点对应序列的分类标签相同时,确定所述左支子节点为叶子节点;当所述左支子节点对应序列的分类标签不相同时,确定所述左支子节点不是叶子节点;在所述当所述右支子节点不为叶子节点时,将所述右支子节点作为所述初始节点执行所述步骤对所述初始节点对应的序列进行频繁序列挖掘之前,所述方法还包括:判断所述右支子节点对应的序列的大小是否小于所述第二预设阈值;当所述右支子节点对应的序列的大小小于所述第二预设阈值时,确定所述右支子节点为叶子节点;当所述右支子节点对应的序列的大小不小于所述第二预设阈值时,判断所述右支子节点对应序列的分类标签是否相同;当所述右支子节点对应序列的分类标签相同时,确定所述右支子节点为叶子节点;当所述右支子节点对应序列的分类标签不相同时,确定所述右支子节点不是叶子节点。5.根据权利要求1所述的方法,其特征在于,所述根据序列模式的判别性确定所述频繁序列模式候选集...
【专利技术属性】
技术研发人员:赫彩凤,何诚,
申请(专利权)人:杭州华为数字技术有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。