保序序列模式挖掘方法技术

技术编号：25396562 阅读：35 留言：0更新日期：2020-08-25 23:01

本发明专利技术保序序列模式挖掘方法，涉及电数字数据处理技术领域，该方法利用模式融合方法生成候选模式，减少了候选模式的个数、通过一系列转换和验证步骤来计算候选模式的模式支持度，克服了现有的技术针对从时间序列中挖掘频繁模式，存在很难兼顾求解的准确性、一般性和完备性，很难保证在对时间序列处理时重要信息不被丢失，很难通过挖掘频繁模式来对关键趋势进行分析的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】
保序序列模式挖掘方法
本专利技术的技术方案涉及电数字数据处理
，具体地说是保序序列模式挖掘方法。
技术介绍
序列模式挖掘已成为数据挖掘中的重要任务之一，它在序列分析、分类和预测等方面都有广泛的应用，其任务是在海量的序列数据中发现频繁出现的模式。目前序列数据通常分为两种：字符序列和时间序列。常见的字符序列有DNA序列、蛋白质序列等，挖掘其中的频繁模式可以帮助人们解决生物学中的问题；时间序列是随时间推移进行测量记录的数值型数据，如每日的股价、石油的产量、每日的温度等都是常见的时间序列，单纯关注其数值的大小意义不大，人们对于数据所呈现的趋势更感兴趣，例如，在股市中，分析师可能想知道一个公司的股价是否存在连续10天下跌然后在接下来的5天内上涨的时期，在这种情况下，股价的变化模式比股价价格的实际价值更有意义。故从时间序列中发现频繁发生的趋势，将帮助人们了解事情发展规律，为人们预测和决策提供理论依据。频繁模式是指模式支持度≥最小支持度阈值minsup的模式，即模式在数据集中的出现数≥最小支持度阈值minsup。目前已经提出很多针对字符序列的频繁模式挖掘方法，然而它们却不能直接运用到时间序列挖掘中，因为时间序列具有高维性、连续性、数据量大等显著特点，在时间序列挖掘前，通常需要对时间序列进行一步预处理，使数值型数据转换为其他域的数据。常用的方法是将时间序列符号化处理，如常用的SAX方法，将时间序列的数值型数据转换为字符数据后再进行挖掘，但是此预处理步骤存在的缺陷是：它需要人为设定参数，过程中容易丢失一些重要信息，并且一...

【技术保护点】
1.保序序列模式挖掘方法，其特征在于：利用模式融合方法生成候选模式，减少了候选模式的个数、通过一系列转换和验证步骤计算候选模式的支持度，具体步骤如下：/n第一步，输入时间序列S和最小支持度阈值minsup：/n输入时间序列S，确定其长度为n，该时间序列S中的每个元素分别记作元素s

【技术特征摘要】
1.保序序列模式挖掘方法，其特征在于：利用模式融合方法生成候选模式，减少了候选模式的个数、通过一系列转换和验证步骤计算候选模式的支持度，具体步骤如下：
第一步，输入时间序列S和最小支持度阈值minsup：
输入时间序列S，确定其长度为n，该时间序列S中的每个元素分别记作元素s1、元素s2、…、元素sn，输入最小支持度阈值minsup，它是由用户所指定的、所期望的模式在时间序列S中的最小出现数；
第二步，获得模式长度为2的频繁模式集合fre2：
模式长度为2的候选模式集合cand2＝{(1,2),(2,1)}，按照如下所述的模式支持度的计算步骤，依次计算模式长度为2的候选模式集合cand2＝{(1,2),(2,1)}中各候选模式Pd在时间序列S中的模式支持度，当候选模式的模式支持度≥最小支持度阈值minsup，该候选模式Pd就是模式长度为2的频繁模式，并将该候选模式Pd加入到模式长度为2的频繁模式集合fre2中，由此获得模式长度为2的频繁模式集合fre2，
模式支持度的计算步骤如下：
首先将当前所处理的候选模式集合中的候选模式Pd的元素按照从小到大的顺序进行排序，将排名第i的元素在候选模式Pd中的位置下标记为index[i]，在候选模式Pd中有pindex[i]<pindex[i+1]条件成立，其中pindex[i]为候选模式Pd中排名第i的元素，pindex[i+1]是候选模式Pd中排名第i+1的元素，1≤i≤m-1，其中m为当前所处理的候选模式Pd的模式长度，
然后将候选模式Pd按照如下公式(1)转换为二进制数字串P’，二进制数字串P’中的每个元素分别记作元素a1、…、元素ai、…、元素am-1，将时间序列S按照如下公式(2)转换为二进制数字串S’，二进制数字串S’中的每个元素分别记作元素b1、…、元素bj、…、元素bn-1，公式(1)和(2)如下所示，

公式(1)和(2)中，m为当前所处理的候选模式Pd的模式长度，m的初值为2，n为时间序列S的长度，ai为二进制数字串P’中各元素的值，其中1≤i≤m-1，将候选模式Pd中连续两个元素pi和pi+1进行比较，其中1≤i≤m-1，当pi<pi+1,那么ai等于1，当pi>pi+1,那么ai等于0；bj为二进制数字串S’中各元素的值，其中1≤j≤n-1，将时间序列S中连续两个元素sj和sj+1进行比较，其中1≤j≤n-1，当sj<sj+1,那么bj等于1，当sj>sj+1,那么bj等于0；
应用经典模式匹配算法在二进制数字串S’中找出二进制数字串P’的出现，每找到一个出现，就根据该出现保留时间序列S中的对应子序列作为候选子序列，并验证此候选子序列的第一个元素的位置下标l1是否满足条件满足，候选模式Pd的模式支持度加一，不满足，候选模式Pd的模式支持度不变，其中，为候选子序列中与候选模式Pd的元素pindex[i]的位置相对应的元素，为候选子序列中与候选模式Pd的元素pindex[i+1]的位置相对应的元素，1≤i≤m-1，当所有的出现被找到且所有候选子序列被验证完成，即可得到候选模式Pd的模式支持度；
第三步，生成模式长度为L+1的候选模式集合candL+1：
采用模式融合方法，由模式长度为L的频繁模式集合freL生成模式长度为L+1的候选模式集合candL+1，其中，L表示当前所处理的频繁模式的模式长度，L的初始值为2，在生成候选模式集合的过程中，对于频繁模式P，它的每个元素分别为元素p1、元素p2、…、元素pL，将频繁模式P的最后一个元素pL除去，剩余的部分称为频繁模式P的前缀，记作prefix(P)，频繁模式P的前缀的相对顺序记作prefixorder(P)；将频繁模式P的第一个元素p1除去，剩余的部分称为频繁模式P的后缀，记作suffix(P)，频繁模式P的后缀的相对顺序记作suffixorder(P)，
模式融合方法有以下两种不同情况下的融合规则：
1)普通情况：对于两个模式长度都为L的频繁模式P和频繁模式Q，频繁模式P的每个元素分别为元素p1、元素p2、…、元素pL，频繁模式Q的每个元素分别为元素q1、元素q2、…、元素qL，当频繁模式P的后缀的相...

【专利技术属性】
技术研发人员：武优西，户倩，郭媛，王晓慧，赵晓倩，王珠林，崔文峰，
申请(专利权)人：河北工业大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人