一次性条件下自适应高平均效用的序列模式挖掘方法技术

技术编号:25087085 阅读:72 留言:0更新日期:2020-07-31 23:30
本发明专利技术一次性条件下自适应高平均效用序列模式挖掘方法,涉及电数字数据处理技术领域,通过设置支持度下界,利用模式拼接缩减候选模式的空间、采用队列结构计算模式中支持度来解决一次性条件下自适应高平均效用序列模式挖掘,该方法在一次性条件下,自适应地挖掘出高平均效用模式,克服了现有技术针对一次性条件下自适应高平均效用序列模式挖掘问题存在的很难兼顾求解一般性、准确性和灵活性,以及在保证结果集非冗余的同时不能够挖掘到有价值信息的缺陷。

【技术实现步骤摘要】
一次性条件下自适应高平均效用的序列模式挖掘方法
本专利技术的技术方案涉及电数字数据处理
,具体地说是一次性条件下自适应高平均效用序列模式挖掘方法。
技术介绍
计算机和信息技术飞速发展,互联网正不断渗透着人们生活和工作的各个领域,与之伴随的是海量数据的产生和存储,如何在大量数据中挖掘潜在有用的信息,已经成为一个研究热点。人们不仅希望能够从大数据中提取出有价值的信息,更希望发现能够有效支持生产生活中需要决策的更深层次的规律。随着互联网的发展,序列模式挖掘成为计算机中重要的一个研究方向。序列模式挖掘的应用领域十分广泛,不仅应用于生物领域,还应用于商业领域。在模式挖掘问题中,对于无先验知识的用户,无法设置合理的间隙,会因为间隙设置的不合理而导致挖掘不到有价值的模式,而在自适应条件下则有效避免了这一问题,下面例A对自适应条件下模式匹配问题进行了详细解释:例A.给定序列S=s1s2s3s4s5s6s7=AGAGAGA;模式P=p1p2p3=A[3,4]G[3,4]A,由A[3,4]G可知字符A与字符G之间有3或4个间隔,将其称之为间隙约束;而A与G之间的间隔为0到无穷大的情况称为自适应模式,用“*”表示。给定间隙:找到的出现个数为0,在满足间隙约束条件下,p1与s1相同,成功匹配;p2与s6相同,成功匹配;但是无法找到满足条件的p3,不满足给定的间隙约束[3,4],所以未找到一组出现。自适应条件:找到出现,因为p1与s1相同,成功匹配;p2与s2相同,成功匹配;p3与s3相同,成功匹配,由于间隙为[0,+∞],找到出现<1,2,3>。通过例A,当模式相同的情况下,自适应条件下能找到更多的出现,在不具备充分先验知识的情况下,无法给定恰当的间隙进而导致不能发现有价值的模式。当例A中AGA为有价值的模式,但是设置了不恰当的约束,在挖掘中将无法被挖掘。自适应条件下的序列模式挖掘依据支持度的计算方法又分为无特殊条件的序列模式挖掘、无重叠条件的序列模式挖掘以及一次性条件下的序列模式挖掘。对匹配到的序列中字符位置没有任何限制的称为无特殊条件的序列模式挖掘,序列中的字符在模式的不同位置重复使用,称为无重叠条件的序列模式挖掘,序列中的所有字符只能被使用一次称为一次性条件的序列模式挖掘。下面通过例B简单说明序列模式挖掘的核心问题模式匹配:例B给定序列S=s1s2s3s4s5s6s7=AGAGAGA;模式P=p1p2p3=A*G*A,在无特殊条件的序列模式挖掘下匹配到的出现为<1,2,3>,<1,2,5>,<1,2,7>,<1,4,5>,<1,4,7>,<1,6,7>,<3,4,5>,<3,4,7>,<3,6,7>,<5,6,7>;在无重叠条件的序列模式挖掘下匹配到的出现为<1,2,3>,<3,4,5>,<5,6,7>在一次性条件的序列模式挖掘下匹配到的出现为<1,2,3>,<5,6,7>。数据挖掘的核心是模式匹配,模式匹配是在在序列S中寻找与模式P相同或者相似子序列的过程。CN110232084A公开了一种具有局部-整体约束的近似模式匹配方法,此方法模式在无特殊条件下近似匹配,序列中的字符在模式的任意位置重复使用。CN110232140A公开了具有局部-整体约束的一次性近似模式匹配方法。此方法模式在一次性条件下近似匹配,序列中的字符只使用一次。CN110245167A公开了具有局部-整体约束的无重叠近似模式匹配方法,此方法模式在无重叠条件下近似匹配,序列中的字符在模式的不同位置重复使用。这三项专利技术都是研究模式的近似匹配,不涉及模式的精确挖掘。传统的序列模式挖掘仅仅考虑了模式的出现个数,而未考虑模式中每个字符的效用。与传统模式挖掘相比,现有技术将效用引入到模式挖掘中,虽然使得问题更加难于求解,但能够挖掘出更有实用价值的模式,然而现有技术仅考虑效用而忽略了模式长度造成的影响,会挖掘出许多长度过长而无价值的模式,这些模式虽然整体效用值很大,然而平均到每个项的效用值却很小。所以综合考虑模式长度与效用值,会使挖掘模式更具有潜在价值。下面例C通过证明挖掘高平均效用模式更有意义。例C.给定序列S=s1s2s3s4s5s6s7=AGAGAGA;模式P1=p1p2p3=A*G*A,P2=p1p2p3p4p5p6p7=A*G*A*G*A*G*A,给定字符的效用值U(A)=10,U(G)=7,最小平均效用值minunity为12,判断P1是否为高平均效用模式,PU(P)=∑1≤j≤mU(pj)×sup(P)(C1)公式(C1)中,U(pj)为pj这一项的效用值,sup(P)为模式P的支持度,PU(P)为模式的效用值,m为模式的长度,公式(C2)中,m为模式的长度,PAU(P)为模式的平均效用值,根据公式(1)得到:PU(P1)=(10+7+10)×2=54;根据公式(2)得到PAU(P1)=54/3=18>12,所以P1是高平均效用模式。根据公式(C1)得到:PU(P2)=(10+7+10+7+10+7+10)×1=61;根据公式(C2)得到PAU(P2)=61/7=8.7<12,所以P2不是高平均效用模式。通过例C看出,虽然P2比P1的效用值大,但是P2不是高平均效用模式,P1确是,显然加入平均效用值能够挖掘到有价值的模式,不会导致挖掘到效用值过大而无用的模式。通过例C了解到高平均效用在序列挖掘中的潜在价值,例如在商店里,珠宝的平均效用比其他商品的平均效用高。模式挖掘问题要求具备一般性、准确性和灵活性,并且解集要非冗余,能够降低对数据分析和处理的难度,但现有的相关技术很难同时满足这些条件,例如CN106469171A公开的时间序列中频繁序列模式挖掘方法,研究挖掘海量时间序列中连续出现的频繁序列模式,存在没有考虑模式间隙约束的缺陷。吴等人发表的文献“带通配符和One-Off条件的序列模式挖掘”与赵培发表的“一次性条件约束的序列模式挖掘”均为在一次性条件下序列模式挖掘,但是该文献报道的方法存在没有考虑模式各项的外部效用对于模式重要程度的影响的缺陷。例如在生物序列中,频率本身可能不足以挖掘出与某种疾病相关的基因序列,一个基因可能不经常出现,但是它的高表达性会导致该基因在外观上非常显著,反之,一个抑制基因可能出现次数很高但是并没有实际意义。挖掘模式时考虑模式的效用值更具有研究意义。Lan等人发表的“ApplyingtheMaximumUtilityMeasureinHighUtilitySequentialPatternMining”采用投影方式的高效用序列模式挖掘算法,在该方法中,模式的效用将随着其长度的增加而增大,所以只考虑模式的整体效用还是有很多不足之处,例如在百货商店里,钻石的销售量可能比小商品的销售量少,这样会导致挖掘出一些效用值低的小商品,本文档来自技高网...

【技术保护点】
1.一次性条件下自适应高平均效用序列模式挖掘方法,其特征在于:通过设置支持度下界,利用模式拼接缩减候选模式的空间、采用队列结构计算模式支持度来解决一次性条件下自适应高平均效用序列模式挖掘,具体步骤是:/n第一步,读入序列数据库SDB、平均效用阈值minunity、每个项的效用值U(P):/n读入给定序列数据库SDB,确定其大小为N,该序列数据库SDB中的每个序列分别记为序列S

【技术特征摘要】
1.一次性条件下自适应高平均效用序列模式挖掘方法,其特征在于:通过设置支持度下界,利用模式拼接缩减候选模式的空间、采用队列结构计算模式支持度来解决一次性条件下自适应高平均效用序列模式挖掘,具体步骤是:
第一步,读入序列数据库SDB、平均效用阈值minunity、每个项的效用值U(P):
读入给定序列数据库SDB,确定其大小为N,该序列数据库SDB中的每个序列分别记为序列S1、序列S2、…、序列Sk、…、序列SN,其中1≤k≤N,序列Sk中的每个字符分别记作字符s1、字符s2、…、字符si…、字符sn,给定平均效用阈值minunity、每个项的效用值U(P);
第二步,计算支持度下界lowsup:
根据第一步读入的平均效用阈值minunity,每个项的效用值U(P),计算得到支持度下界lowsup,如下公式(1)所示,
lowsup=┌minunity/Umax┐(1),
公式(1)中,Umax为每个项的效用值U(P)的最大值;
第三步,获得模式长度为1的高下界模式集Hcand1与高平均效用模式集Hau1:
按照上述第一步读入序列数据库SDB,统计出该序列数据库SDB中长度为1的模式支持度sup(P),将上述第一步的序列S中的模式支持度sup(P)大于等于上述第二步计算得到的支持度下界lowsup的长度为1的模式存入高下界模式集Hcand1中,生成模式长度为1的高下界模式集Hcand1,接着根据如下公式(2)计算模式长度为1的高下界模式集Hcand1的平均效用值PAU(P),将平均效用值PAU(P)大于等于上述第一步的给定的平均效用阈值minunity的高下界模式存入到高平均效用模式集Hau1中,



公式(2)中,PU(P)为模式P的效用值,U(pj)为模式P中第j项的效用值,m为模式P的长度,
由此获得模式长度为1的高下界模式集Hcand1与高平均效用模式集Hau1;
第四步,利用高下界模式集Hcandm生成模式长度为m+1的候选模式集candm+1:
采用模式拼接的方法生成候选模式集candm+1,其中m表示模式的长度,其中:
①当m=1时,将上述第三步处理获得的模式长度为1的高下界模式集Hcand1中的字符相互组合,生成模式长度为m+1的候选模式集candm+1;
②当m>1时,在生成候选模式的过程中,模式B=b1b2…bj-1bj,prefix(B)为模式B的前缀,除去模式B的最后一个子模式bj剩余的部分称为模式B的前缀,即prefix(B)=b1b2…bj-1,suffix(B)为模式B的后缀,除去模式B的第一个子模式b1剩余的部分称为模式B的后缀,即suffix(B)=b2…bj-1bj;当两个模式长度为m的模式B的后缀与模式Q的前缀相等时,能够拼接为模式长度为m+1的模式P,即suffix(B)=b2b3…bm=prefix(Q)=q1q2…qm-1时,模式
采用上述模式拼接的方法生成模式长度为m+1的候选模式集candm+1的具体处理方法如下:
当模式长度为m的高下界模式集Hcandm不为空时,从左到右遍历高下界模式集Hcandm,依次取出高下界模式集Hcandm中的模式Ba,计算suffix(Ba),然后从左到右寻找满足suffix(Ba)=prefix(Bb)条件的模式Bb,对模式Ba与模式Bb进行拼接为模式长度为m+1的模式将模式Ph加入模式长度为m+1的候选模式集candm+1中,对高下界模式集Hcandm中的所有满足suffix(Ba)=prefix(Bb)条件的模式Bb进行拼接,直到在高下界模式集Hcandm中模式Bb的下一个模式Bc,suffix(Ba)≠prefix(Bc)时,对模式Ba的拼接结束,从高下界模式集Hcandm中模式Ba的下一个模式开始,继续重复上述步骤,直到最后一个模式拼接结束,模式长度为m+1的候选模式集candm+1生成完毕;
第五步,计算候选模式集candm+1中的候选模式Ph在序列数据库SDB中的模式支持度sup(Ph,SDB):
第(5.1)步,计算候选模式Ph在序列Sk中的模式支持度sup(Ph,Sk):
计算上述第四步中...

【专利技术属性】
技术研发人员:柴欣雷荣耿萌户倩武优西马鹏飞刘锦
申请(专利权)人:河北工业大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1