保序序列模式挖掘方法技术

技术编号:25396562 阅读:35 留言:0更新日期:2020-08-25 23:01
本发明专利技术保序序列模式挖掘方法,涉及电数字数据处理技术领域,该方法利用模式融合方法生成候选模式,减少了候选模式的个数、通过一系列转换和验证步骤来计算候选模式的模式支持度,克服了现有的技术针对从时间序列中挖掘频繁模式,存在很难兼顾求解的准确性、一般性和完备性,很难保证在对时间序列处理时重要信息不被丢失,很难通过挖掘频繁模式来对关键趋势进行分析的缺陷。

【技术实现步骤摘要】
保序序列模式挖掘方法
本专利技术的技术方案涉及电数字数据处理
,具体地说是保序序列模式挖掘方法。
技术介绍
序列模式挖掘已成为数据挖掘中的重要任务之一,它在序列分析、分类和预测等方面都有广泛的应用,其任务是在海量的序列数据中发现频繁出现的模式。目前序列数据通常分为两种:字符序列和时间序列。常见的字符序列有DNA序列、蛋白质序列等,挖掘其中的频繁模式可以帮助人们解决生物学中的问题;时间序列是随时间推移进行测量记录的数值型数据,如每日的股价、石油的产量、每日的温度等都是常见的时间序列,单纯关注其数值的大小意义不大,人们对于数据所呈现的趋势更感兴趣,例如,在股市中,分析师可能想知道一个公司的股价是否存在连续10天下跌然后在接下来的5天内上涨的时期,在这种情况下,股价的变化模式比股价价格的实际价值更有意义。故从时间序列中发现频繁发生的趋势,将帮助人们了解事情发展规律,为人们预测和决策提供理论依据。频繁模式是指模式支持度≥最小支持度阈值minsup的模式,即模式在数据集中的出现数≥最小支持度阈值minsup。目前已经提出很多针对字符序列的频繁模式挖掘方法,然而它们却不能直接运用到时间序列挖掘中,因为时间序列具有高维性、连续性、数据量大等显著特点,在时间序列挖掘前,通常需要对时间序列进行一步预处理,使数值型数据转换为其他域的数据。常用的方法是将时间序列符号化处理,如常用的SAX方法,将时间序列的数值型数据转换为字符数据后再进行挖掘,但是此预处理步骤存在的缺陷是:它需要人为设定参数,过程中容易丢失一些重要信息,并且一定程度上破坏了时间序列的连续性。以SAX方法为例,它会使得不同趋势的两条时间序列符号化后得到相同的字符序列,如说明书附图的图1的(a)和(b)显示,两段趋势差异显著的时间序列,采用SAX进行符号化后,均被符号化为了“beccde”,这对于时间序列的趋势分析十分不利,故需要更完备的挖掘方法。保序的概念为时间序列的趋势分析提供了新的思路,目前已被运用在保序匹配问题上,该思路是在人们感兴趣的领域中寻找受相对顺序影响,而不是受它们的绝对值影响的模式,当子序列与给定模式的相对顺序相同时则代表匹配成功。下例A对相对顺序概念和保序序列模式匹配问题进行了详细说明。例A.给定时间序列S=(s1,s2,s3,s4,s5,s6,s7,s8,s9,s10,s11,s12,s13,s14,s15,s16,s17)=(9,12,11,17,16,21,14,18,15,19,21,19,26,18,25,26,27),模式P=(p1,p2,p3,p4,p5)=(6,5,8,4,7)。例A中,对于给定模式P=(6,5,8,4,7),它的相对顺序为(3,2,5,1,4),因为在模式长度为5的模式P中,p4=4是在模式P的5个数中最小的数,因此记p4的相对顺序为1,同理p5是在模式P的5个数中第四小的数,故记p5的相对顺序为4。保序序列模式匹配任务就是在时间序列S中找出与模式P具有相同相对顺序的子序列。说明书附图的图2表明,(s4,s5,s6,s7,s8)=(17,16,21,14,18)就为一组出现,因为它的相对顺序也为(3,2,5,1,4),与模式P具有相同的相对顺序;同理,(s11,s12,s13,s14,s15)=(21,19,26,18,25)为另一组出现。通过说明书附图的图2我们可以看出,匹配出的两个子序列的数据波动趋势都与模式P的数据波动趋势十分相似,这就是保序序列模式的特点所在,即它能够很好的表示时间序列的趋势特征。虽然通过例A可以看出,现有的保序模式匹配技术可以在时间序列上找到与给定模式P趋势变化相同的子序列,但是这并不能满足用户需求,因为有时用户并不存在先验知识,不会提前给出具体模式,并且人们对那些频繁发生的但未知的模式更感兴趣。为此本专利技术提出了保序序列模式挖掘方法,挖掘出时间序列中频繁出现的保序序列模式,所产生的每一个频繁保序序列模式都代表一种频繁趋势,这样用户根据挖掘结果既能得出一段时间内的数据变化规律,又能据此预测未来数据的走势,则更具有实际意义和实用价值。下例B对保序序列模式挖掘问题进行详细说明。例B.给定时间序列S=(s1,s2,s3,s4,s5,s6,s7,s8,s9,s10,s11,s12,s13,s14,s15,s16)=(12,11,22,26,13,15,19,20,27,14,17,21,25,31,16,18),最小支持度阈值minsup=3。对于子序列(s3,s4,s5,s6)=(22,26,13,15),它的相对顺序为(3,4,1,2),同理可以发现子序列(s8,s9,s10,s11)和子序列(s13,s14,s15,s16)的相对顺序也为(3,4,1,2),因此,相对顺序为(3,4,1,2)的子序列一共出现了3次,称(3,4,1,2)这种以相对顺序表示的模式为保序序列模式。由说明书附图的图3可以看出子序列(s3,s4,s5,s6)、子序列(s8,s9,s10,s11)和子序列(s13,s14,s15,s16)的变化趋势十分相似,它们的趋势都可以表示为(3,4,1,2)。保序序列模式挖掘问题的求解目标是在给定的时间序列上挖掘出所有频繁的保序序列模式。对于例B,时间序列S中一共有7个频繁保序序列模式,即(1,2)、(2,1)、(1,2,3)、(2,3,1)、(3,1,2)、(1,2,3,4)和(3,4,1,2),它们都是时间序列S上频繁发生的重要趋势,用户可以根据此挖掘结果开展下一步预测决策等工作,故具有十分重要的实际意义。时间序列模式挖掘问题一般要求具备准确性、一般性和完备性。在对高维的时间序列进行处理时,要求避免有价值信息的丢失和时空复杂度过高的问题,且要求通过发现频繁模式达到对时间序列中的关键趋势进行分析的目的,但现有的相关技术很难同时满足这些条件。CN107451293A公开了一种对比序列模式挖掘方法和装置,其研究了在多类别序列数据集中挖掘对比模式的方法,但是此技术针对的数据是字符型数据,由于时间序列的高维性,若此方法直接运用到时间序列挖掘中,存在时空复杂度将过高的缺陷;陈等人发表的文献“基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法,山东大学学报”,研究了从中文网络评论数据转换成的特征向量中挖掘保序子矩阵的方法,但是该文献是将文本数据向量化并构造出矩阵,需要同时考虑矩阵的行和列,并不符合一维时间序列的特点,所提方法也不能运用到时序分析中,不具备求解的一般性。Keogh等人发表的文献“HOTSAX:Efficientlyfindingthemostunusualtimeseriessubsequence,IEEEInternationalConferenceonDataMining.”研究了从时间序列中发现异常模式的挖掘方法,但是该文献在对时间序列挖掘前需要采用SAX方法进行一步预处理,这一过程会引起重要信息的丢失,并且一定程度上破坏了原始时间序列的连续性,这是它的不足之处;Kim等人发表的文献“Order-preservingmatching,Theo本文档来自技高网...

【技术保护点】
1.保序序列模式挖掘方法,其特征在于:利用模式融合方法生成候选模式,减少了候选模式的个数、通过一系列转换和验证步骤计算候选模式的支持度,具体步骤如下:/n第一步,输入时间序列S和最小支持度阈值minsup:/n输入时间序列S,确定其长度为n,该时间序列S中的每个元素分别记作元素s

【技术特征摘要】
1.保序序列模式挖掘方法,其特征在于:利用模式融合方法生成候选模式,减少了候选模式的个数、通过一系列转换和验证步骤计算候选模式的支持度,具体步骤如下:
第一步,输入时间序列S和最小支持度阈值minsup:
输入时间序列S,确定其长度为n,该时间序列S中的每个元素分别记作元素s1、元素s2、…、元素sn,输入最小支持度阈值minsup,它是由用户所指定的、所期望的模式在时间序列S中的最小出现数;
第二步,获得模式长度为2的频繁模式集合fre2:
模式长度为2的候选模式集合cand2={(1,2),(2,1)},按照如下所述的模式支持度的计算步骤,依次计算模式长度为2的候选模式集合cand2={(1,2),(2,1)}中各候选模式Pd在时间序列S中的模式支持度,当候选模式的模式支持度≥最小支持度阈值minsup,该候选模式Pd就是模式长度为2的频繁模式,并将该候选模式Pd加入到模式长度为2的频繁模式集合fre2中,由此获得模式长度为2的频繁模式集合fre2,
模式支持度的计算步骤如下:
首先将当前所处理的候选模式集合中的候选模式Pd的元素按照从小到大的顺序进行排序,将排名第i的元素在候选模式Pd中的位置下标记为index[i],在候选模式Pd中有pindex[i]<pindex[i+1]条件成立,其中pindex[i]为候选模式Pd中排名第i的元素,pindex[i+1]是候选模式Pd中排名第i+1的元素,1≤i≤m-1,其中m为当前所处理的候选模式Pd的模式长度,
然后将候选模式Pd按照如下公式(1)转换为二进制数字串P’,二进制数字串P’中的每个元素分别记作元素a1、…、元素ai、…、元素am-1,将时间序列S按照如下公式(2)转换为二进制数字串S’,二进制数字串S’中的每个元素分别记作元素b1、…、元素bj、…、元素bn-1,公式(1)和(2)如下所示,






公式(1)和(2)中,m为当前所处理的候选模式Pd的模式长度,m的初值为2,n为时间序列S的长度,ai为二进制数字串P’中各元素的值,其中1≤i≤m-1,将候选模式Pd中连续两个元素pi和pi+1进行比较,其中1≤i≤m-1,当pi<pi+1,那么ai等于1,当pi>pi+1,那么ai等于0;bj为二进制数字串S’中各元素的值,其中1≤j≤n-1,将时间序列S中连续两个元素sj和sj+1进行比较,其中1≤j≤n-1,当sj<sj+1,那么bj等于1,当sj>sj+1,那么bj等于0;
应用经典模式匹配算法在二进制数字串S’中找出二进制数字串P’的出现,每找到一个出现,就根据该出现保留时间序列S中的对应子序列作为候选子序列,并验证此候选子序列的第一个元素的位置下标l1是否满足条件满足,候选模式Pd的模式支持度加一,不满足,候选模式Pd的模式支持度不变,其中,为候选子序列中与候选模式Pd的元素pindex[i]的位置相对应的元素,为候选子序列中与候选模式Pd的元素pindex[i+1]的位置相对应的元素,1≤i≤m-1,当所有的出现被找到且所有候选子序列被验证完成,即可得到候选模式Pd的模式支持度;
第三步,生成模式长度为L+1的候选模式集合candL+1:
采用模式融合方法,由模式长度为L的频繁模式集合freL生成模式长度为L+1的候选模式集合candL+1,其中,L表示当前所处理的频繁模式的模式长度,L的初始值为2,在生成候选模式集合的过程中,对于频繁模式P,它的每个元素分别为元素p1、元素p2、…、元素pL,将频繁模式P的最后一个元素pL除去,剩余的部分称为频繁模式P的前缀,记作prefix(P),频繁模式P的前缀的相对顺序记作prefixorder(P);将频繁模式P的第一个元素p1除去,剩余的部分称为频繁模式P的后缀,记作suffix(P),频繁模式P的后缀的相对顺序记作suffixorder(P),
模式融合方法有以下两种不同情况下的融合规则:
1)普通情况:对于两个模式长度都为L的频繁模式P和频繁模式Q,频繁模式P的每个元素分别为元素p1、元素p2、…、元素pL,频繁模式Q的每个元素分别为元素q1、元素q2、…、元素qL,当频繁模式P的后缀的相...

【专利技术属性】
技术研发人员:武优西户倩郭媛王晓慧赵晓倩王珠林崔文峰
申请(专利权)人:河北工业大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1