【技术实现步骤摘要】
保序序列模式挖掘方法
本专利技术的技术方案涉及电数字数据处理
,具体地说是保序序列模式挖掘方法。
技术介绍
序列模式挖掘已成为数据挖掘中的重要任务之一,它在序列分析、分类和预测等方面都有广泛的应用,其任务是在海量的序列数据中发现频繁出现的模式。目前序列数据通常分为两种:字符序列和时间序列。常见的字符序列有DNA序列、蛋白质序列等,挖掘其中的频繁模式可以帮助人们解决生物学中的问题;时间序列是随时间推移进行测量记录的数值型数据,如每日的股价、石油的产量、每日的温度等都是常见的时间序列,单纯关注其数值的大小意义不大,人们对于数据所呈现的趋势更感兴趣,例如,在股市中,分析师可能想知道一个公司的股价是否存在连续10天下跌然后在接下来的5天内上涨的时期,在这种情况下,股价的变化模式比股价价格的实际价值更有意义。故从时间序列中发现频繁发生的趋势,将帮助人们了解事情发展规律,为人们预测和决策提供理论依据。频繁模式是指模式支持度≥最小支持度阈值minsup的模式,即模式在数据集中的出现数≥最小支持度阈值minsup。目前已经提出很多针对字符序列的频繁模式挖掘方法,然而它们却不能直接运用到时间序列挖掘中,因为时间序列具有高维性、连续性、数据量大等显著特点,在时间序列挖掘前,通常需要对时间序列进行一步预处理,使数值型数据转换为其他域的数据。常用的方法是将时间序列符号化处理,如常用的SAX方法,将时间序列的数值型数据转换为字符数据后再进行挖掘,但是此预处理步骤存在的缺陷是:它需要人为设定参数,过程中容易丢失一些重要信息,并且一 ...
【技术保护点】
1.保序序列模式挖掘方法,其特征在于:利用模式融合方法生成候选模式,减少了候选模式的个数、通过一系列转换和验证步骤计算候选模式的支持度,具体步骤如下:/n第一步,输入时间序列S和最小支持度阈值minsup:/n输入时间序列S,确定其长度为n,该时间序列S中的每个元素分别记作元素s
【技术特征摘要】
1.保序序列模式挖掘方法,其特征在于:利用模式融合方法生成候选模式,减少了候选模式的个数、通过一系列转换和验证步骤计算候选模式的支持度,具体步骤如下:
第一步,输入时间序列S和最小支持度阈值minsup:
输入时间序列S,确定其长度为n,该时间序列S中的每个元素分别记作元素s1、元素s2、…、元素sn,输入最小支持度阈值minsup,它是由用户所指定的、所期望的模式在时间序列S中的最小出现数;
第二步,获得模式长度为2的频繁模式集合fre2:
模式长度为2的候选模式集合cand2={(1,2),(2,1)},按照如下所述的模式支持度的计算步骤,依次计算模式长度为2的候选模式集合cand2={(1,2),(2,1)}中各候选模式Pd在时间序列S中的模式支持度,当候选模式的模式支持度≥最小支持度阈值minsup,该候选模式Pd就是模式长度为2的频繁模式,并将该候选模式Pd加入到模式长度为2的频繁模式集合fre2中,由此获得模式长度为2的频繁模式集合fre2,
模式支持度的计算步骤如下:
首先将当前所处理的候选模式集合中的候选模式Pd的元素按照从小到大的顺序进行排序,将排名第i的元素在候选模式Pd中的位置下标记为index[i],在候选模式Pd中有pindex[i]<pindex[i+1]条件成立,其中pindex[i]为候选模式Pd中排名第i的元素,pindex[i+1]是候选模式Pd中排名第i+1的元素,1≤i≤m-1,其中m为当前所处理的候选模式Pd的模式长度,
然后将候选模式Pd按照如下公式(1)转换为二进制数字串P’,二进制数字串P’中的每个元素分别记作元素a1、…、元素ai、…、元素am-1,将时间序列S按照如下公式(2)转换为二进制数字串S’,二进制数字串S’中的每个元素分别记作元素b1、…、元素bj、…、元素bn-1,公式(1)和(2)如下所示,
公式(1)和(2)中,m为当前所处理的候选模式Pd的模式长度,m的初值为2,n为时间序列S的长度,ai为二进制数字串P’中各元素的值,其中1≤i≤m-1,将候选模式Pd中连续两个元素pi和pi+1进行比较,其中1≤i≤m-1,当pi<pi+1,那么ai等于1,当pi>pi+1,那么ai等于0;bj为二进制数字串S’中各元素的值,其中1≤j≤n-1,将时间序列S中连续两个元素sj和sj+1进行比较,其中1≤j≤n-1,当sj<sj+1,那么bj等于1,当sj>sj+1,那么bj等于0;
应用经典模式匹配算法在二进制数字串S’中找出二进制数字串P’的出现,每找到一个出现,就根据该出现保留时间序列S中的对应子序列作为候选子序列,并验证此候选子序列的第一个元素的位置下标l1是否满足条件满足,候选模式Pd的模式支持度加一,不满足,候选模式Pd的模式支持度不变,其中,为候选子序列中与候选模式Pd的元素pindex[i]的位置相对应的元素,为候选子序列中与候选模式Pd的元素pindex[i+1]的位置相对应的元素,1≤i≤m-1,当所有的出现被找到且所有候选子序列被验证完成,即可得到候选模式Pd的模式支持度;
第三步,生成模式长度为L+1的候选模式集合candL+1:
采用模式融合方法,由模式长度为L的频繁模式集合freL生成模式长度为L+1的候选模式集合candL+1,其中,L表示当前所处理的频繁模式的模式长度,L的初始值为2,在生成候选模式集合的过程中,对于频繁模式P,它的每个元素分别为元素p1、元素p2、…、元素pL,将频繁模式P的最后一个元素pL除去,剩余的部分称为频繁模式P的前缀,记作prefix(P),频繁模式P的前缀的相对顺序记作prefixorder(P);将频繁模式P的第一个元素p1除去,剩余的部分称为频繁模式P的后缀,记作suffix(P),频繁模式P的后缀的相对顺序记作suffixorder(P),
模式融合方法有以下两种不同情况下的融合规则:
1)普通情况:对于两个模式长度都为L的频繁模式P和频繁模式Q,频繁模式P的每个元素分别为元素p1、元素p2、…、元素pL,频繁模式Q的每个元素分别为元素q1、元素q2、…、元素qL,当频繁模式P的后缀的相...
【专利技术属性】
技术研发人员:武优西,户倩,郭媛,王晓慧,赵晓倩,王珠林,崔文峰,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。