【技术实现步骤摘要】
一次性条件下自适应高平均效用的序列模式挖掘方法
本专利技术的技术方案涉及电数字数据处理
,具体地说是一次性条件下自适应高平均效用序列模式挖掘方法。
技术介绍
计算机和信息技术飞速发展,互联网正不断渗透着人们生活和工作的各个领域,与之伴随的是海量数据的产生和存储,如何在大量数据中挖掘潜在有用的信息,已经成为一个研究热点。人们不仅希望能够从大数据中提取出有价值的信息,更希望发现能够有效支持生产生活中需要决策的更深层次的规律。随着互联网的发展,序列模式挖掘成为计算机中重要的一个研究方向。序列模式挖掘的应用领域十分广泛,不仅应用于生物领域,还应用于商业领域。在模式挖掘问题中,对于无先验知识的用户,无法设置合理的间隙,会因为间隙设置的不合理而导致挖掘不到有价值的模式,而在自适应条件下则有效避免了这一问题,下面例A对自适应条件下模式匹配问题进行了详细解释:例A.给定序列S=s1s2s3s4s5s6s7=AGAGAGA;模式P=p1p2p3=A[3,4]G[3,4]A,由A[3,4]G可知字符A与字符G之间有3或4个间隔,将其称之为间隙约束;而A与G之间的间隔为0到无穷大的情况称为自适应模式,用“*”表示。给定间隙:找到的出现个数为0,在满足间隙约束条件下,p1与s1相同,成功匹配;p2与s6相同,成功匹配;但是无法找到满足条件的p3,不满足给定的间隙约束[3,4],所以未找到一组出现。自适应条件:找到出现,因为p1与s1相同,成功匹配;p2与s2相同,成功匹配;p3与s3相同,成功匹配,由于 ...
【技术保护点】
1.一次性条件下自适应高平均效用序列模式挖掘方法,其特征在于:通过设置支持度下界,利用模式拼接缩减候选模式的空间、采用队列结构计算模式支持度来解决一次性条件下自适应高平均效用序列模式挖掘,具体步骤是:/n第一步,读入序列数据库SDB、平均效用阈值minunity、每个项的效用值U(P):/n读入给定序列数据库SDB,确定其大小为N,该序列数据库SDB中的每个序列分别记为序列S
【技术特征摘要】
1.一次性条件下自适应高平均效用序列模式挖掘方法,其特征在于:通过设置支持度下界,利用模式拼接缩减候选模式的空间、采用队列结构计算模式支持度来解决一次性条件下自适应高平均效用序列模式挖掘,具体步骤是:
第一步,读入序列数据库SDB、平均效用阈值minunity、每个项的效用值U(P):
读入给定序列数据库SDB,确定其大小为N,该序列数据库SDB中的每个序列分别记为序列S1、序列S2、…、序列Sk、…、序列SN,其中1≤k≤N,序列Sk中的每个字符分别记作字符s1、字符s2、…、字符si…、字符sn,给定平均效用阈值minunity、每个项的效用值U(P);
第二步,计算支持度下界lowsup:
根据第一步读入的平均效用阈值minunity,每个项的效用值U(P),计算得到支持度下界lowsup,如下公式(1)所示,
lowsup=┌minunity/Umax┐(1),
公式(1)中,Umax为每个项的效用值U(P)的最大值;
第三步,获得模式长度为1的高下界模式集Hcand1与高平均效用模式集Hau1:
按照上述第一步读入序列数据库SDB,统计出该序列数据库SDB中长度为1的模式支持度sup(P),将上述第一步的序列S中的模式支持度sup(P)大于等于上述第二步计算得到的支持度下界lowsup的长度为1的模式存入高下界模式集Hcand1中,生成模式长度为1的高下界模式集Hcand1,接着根据如下公式(2)计算模式长度为1的高下界模式集Hcand1的平均效用值PAU(P),将平均效用值PAU(P)大于等于上述第一步的给定的平均效用阈值minunity的高下界模式存入到高平均效用模式集Hau1中,
公式(2)中,PU(P)为模式P的效用值,U(pj)为模式P中第j项的效用值,m为模式P的长度,
由此获得模式长度为1的高下界模式集Hcand1与高平均效用模式集Hau1;
第四步,利用高下界模式集Hcandm生成模式长度为m+1的候选模式集candm+1:
采用模式拼接的方法生成候选模式集candm+1,其中m表示模式的长度,其中:
①当m=1时,将上述第三步处理获得的模式长度为1的高下界模式集Hcand1中的字符相互组合,生成模式长度为m+1的候选模式集candm+1;
②当m>1时,在生成候选模式的过程中,模式B=b1b2…bj-1bj,prefix(B)为模式B的前缀,除去模式B的最后一个子模式bj剩余的部分称为模式B的前缀,即prefix(B)=b1b2…bj-1,suffix(B)为模式B的后缀,除去模式B的第一个子模式b1剩余的部分称为模式B的后缀,即suffix(B)=b2…bj-1bj;当两个模式长度为m的模式B的后缀与模式Q的前缀相等时,能够拼接为模式长度为m+1的模式P,即suffix(B)=b2b3…bm=prefix(Q)=q1q2…qm-1时,模式
采用上述模式拼接的方法生成模式长度为m+1的候选模式集candm+1的具体处理方法如下:
当模式长度为m的高下界模式集Hcandm不为空时,从左到右遍历高下界模式集Hcandm,依次取出高下界模式集Hcandm中的模式Ba,计算suffix(Ba),然后从左到右寻找满足suffix(Ba)=prefix(Bb)条件的模式Bb,对模式Ba与模式Bb进行拼接为模式长度为m+1的模式将模式Ph加入模式长度为m+1的候选模式集candm+1中,对高下界模式集Hcandm中的所有满足suffix(Ba)=prefix(Bb)条件的模式Bb进行拼接,直到在高下界模式集Hcandm中模式Bb的下一个模式Bc,suffix(Ba)≠prefix(Bc)时,对模式Ba的拼接结束,从高下界模式集Hcandm中模式Ba的下一个模式开始,继续重复上述步骤,直到最后一个模式拼接结束,模式长度为m+1的候选模式集candm+1生成完毕;
第五步,计算候选模式集candm+1中的候选模式Ph在序列数据库SDB中的模式支持度sup(Ph,SDB):
第(5.1)步,计算候选模式Ph在序列Sk中的模式支持度sup(Ph,Sk):
计算上述第四步中...
【专利技术属性】
技术研发人员:柴欣,雷荣,耿萌,户倩,武优西,马鹏飞,刘锦,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。