基于弱通配符的石油生产数据频繁模式挖掘方法技术

技术编号:13983029 阅读:186 留言:0更新日期:2016-11-12 16:52
本发明专利技术公开了一种基于弱通配符的石油生产数据频繁模式挖掘方法,涉及数据挖掘领域,一种基于弱通配符的石油生产数据频繁模式挖掘方法,S1将油田日产液量时序数据转换为编码序列;S2通过对编码序列进行挖掘,得到不同类型的频繁序列模式,从各种角度对油井进行全面刻画。本发明专利技术有益效果,定义了三种频繁序列模式挖掘问题,可以从实际的油井生产数据中挖掘出不同类型的频繁模式,从不同的角度对油井进行全面的刻画;算法简单,高效,具有剪枝算法,时间复杂度低,便于实时实现;提出模式过滤技术,可以针对不同的需要,过滤得到不同类型的频繁模式,比如强模式,特殊模式,流行模式;该方法在各种时序数据中可以广泛应用。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及一种基于弱通配符的石油生产数据频繁模式挖掘方法
技术介绍
时间序列是按时间次序排列的观测值集合。在工程、经济、自然科学和社会科学等等领域中,存在大量这样的观察数据。这类数据的顺序与大小反映了数据所包含的信息,反映了数据内部的相互联系。正是这种相互联系或相关性表征了产生这些数据的现象、过程、系统的“动态”或“记忆”。这种相关性一旦被定量地描述出来,就可以从系统的过去值预测其将来的值。时间序列分析是分析各种相依有序的离散数据集合的方法。其研究对象是一串随时间变化而又相互关联的动态数据。由于各自的物理背景不同,这种动态数据所包含的信息和呈现的规律也不同。处理的主要手段之一是根据数据的特征用相应的数学模型去作近似的描述。目前比较成熟的平稳序列的时间序列模型有MA模型、AR模型和ARMA模型。序列模式挖掘,序列模式挖掘是数据挖掘研究的一个重要的研究领域。目前,成熟的序列模式挖掘算法主要有三类:基于Apriori性质的候选码生成-测试的算法;基于垂直格式的候选码生成-测试的算法;基于投影数据库的模式增长算法。近年来,序列模式挖掘在分布式环境下的应用的研究逐渐成为热点,提出了各种算法。现有技术一的方案:根据图2的结果可知道,采用指数平滑的方法,在参数分别是0.2,0.5的情况下,平均误差分别为0.0275,0.01183。为了比较,设计一种朴素预测法方法,也就是假设今天的产量是x,直接预测明天的产量也将是x,用这种方法计算出来的产量的平均误差也仅仅只有0.0069。换而言之,指数平滑预测方法并没有优于直接的朴素预测。传统的预测方法无法取得好的效果,原因在于石油日产液量本身的特性。从图1可以看出,石油日产液量并没有出现很光滑的改变。在某些情况下,其变化非常剧烈。根据专业经验,这些突然的改变多事由于人为的干预造成的。它们可以被人为是事件驱动,而非自然改变,根据这种数据特征,需要考虑其他的预测方法。现有技术二的方案:论文“基于通配符的序列模式挖掘Apriori属性研究”,修正了基于通配符的序列模式挖掘算法的频繁度的计算。修正后,新的频繁度的定义保证了Apriori算法的性质,使其在各种领域中可以得到更加方便的使用。以前的方案中, o f s ( P , S ) = [ L - ( l - 1 ) ( M + N 2 + 1 ) ] W l - 1 ]]>修正后的定义ofs*(P,S)=LWl-1这种修正使定义更完备,同时具备Apriori算法的性质,然而此算法仅仅考虑了通配符,但通配符的含义不够丰富,也没有具体应用在某个领域验证其有效性。符号表T:时间序列S:编码序列P:频繁模式{P本文档来自技高网...

【技术保护点】
一种基于弱通配符的石油生产数据频繁模式挖掘方法,其特征在于,S1将油田日产液量时序数据转换为编码序列;S2通过对编码序列进行挖掘,得到不同类型的频繁序列模式,从各种角度对油井进行全面刻画。

【技术特征摘要】
1.一种基于弱通配符的石油生产数据频繁模式挖掘方法,其特征在于,S1将油田日产液量时序数据转换为编码序列;S2通过对编码序列进行挖掘,得到不同类型的频繁序列模式,从各种角度对油井进行全面刻画。2.根据权...

【专利技术属性】
技术研发人员:汪敏闵帆邓魁苏赋李志伟
申请(专利权)人:西南石油大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1