一种时间序列数据挖掘方法及系统技术方案

技术编号:10909796 阅读:196 留言:0更新日期:2015-01-14 17:29
本发明专利技术公开了一种时间序列数据挖掘方法及系统,该方法包括以下步骤:对原始数据进行划分,并进行平滑处理,形成临时表;按时间序列相似性度量聚类,形成不同类别;对不同类别进行单条时间序列模式发现,生成不同元模式集;对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;利用时间序列频繁模式预测产品价格变化。本发明专利技术为中小企业提供企业产品价格、原材料市场库存等变化规律发现和预测。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种时间序列数据挖掘方法及系统,该方法包括以下步骤:对原始数据进行划分,并进行平滑处理,形成临时表;按时间序列相似性度量聚类,形成不同类别;对不同类别进行单条时间序列模式发现,生成不同元模式集;对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;利用时间序列频繁模式预测产品价格变化。本专利技术为中小企业提供企业产品价格、原材料市场库存等变化规律发现和预测。【专利说明】 一种时间序列数据挖掘方法及系统
本专利技术涉及数据网络
,尤其涉及一种时间序列数据挖掘方法及系统。
技术介绍
竞争情报的定义可概括为一个地区或企业为了取得市场竞争优势,对竞争环境、竞争对手进行合法的情报研究,结合本地区或企业进行量化分析对比,由此得出提高竞争力的策略和方法。竞争情报主要包括三个要素:本企业和竞争对手、竞争环境(包括政策、市场、技术等)、竞争策略。 目前国内竞争情报系统的提厂商一般把信息检索作为重要环节,主要支持信息采集、管理、发布等流程处理。例如,在企业经营活动中,经常需要对多个时间序列进行分析,发现不同时间序列间可能存在的关联关系。这种关联关系一般表现为不同序列中频繁地同时或依次出现的变化模式。发现这种多时间序列中的频繁结构模式对于人们更彻底的认识各个时间序列的相互影响并据此做出合理的决策具有重要的参考价值。 然而,目前的竞争情报系统比较适合于大型企业,建立自己的情报部门,管理和分析竞争情报。而广大中小企业,由于没有独立的情报部门,缺乏情报人员和分析手段,对这些竞争情报系统收集来的情报无法有效分析利用。中小企业竞争情报部门全职人员较少,同时中小企业竞争情报人员常用的分析方法不多,主要是由于中小企业缺乏高素质的专职竞争情报人员,竞争情报人员的知识结构普遍比较单一,且多缺乏市场营销、企业管理等相关领域的知识,情报分析预测能力较差。
技术实现思路
为了解决
技术介绍
中存在的技术问题,本专利技术提出了一种时间序列数据挖掘方法及系统,为中小企业提供企业产品价格、原材料市场库存等变化规律发现和预测。 本专利技术提出的一种时间序列数据挖掘方法,包括以下步骤: 对原始数据进行划分,并进行平滑处理,形成临时表; 按时间序列相似性度量聚类,形成不同类别; 对不同类别进行单条时间序列模式发现,生成不同元模式集; 对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式; 利用时间序列频繁模式预测产品价格变化。 优选地,所述按时间序列相似性度量聚类中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。 优选地,通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。 优选地,聚类通常按照对象间的相似性进行分组,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度,或两个对象的相似度是与它们取值相同的属性的个数有关。 优选地,所述聚类样本点之间的亲疏远近程度主要有以下两类函数: 相似系数函数:两个样本点愈相似,则相似系数值愈接近I ;样本点愈不相似,则相似系数值愈接近O ; 距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。 本专利技术提出的一种时间序列数据挖掘系统,包括: 划分模块,用于对原始数据进行划分,并进行平滑处理,形成临时表; 聚类模块,与所述划分模块连接,用于按时间序列相似性度量聚类,形成不同类别; 元模式集生成模块,与所述聚类模块连接,用于对不同类别进行单条时间序列模式发现,生成不同元模式集; 频繁模式生成模块,与所述元模式集生成模块连接,用于对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式; 预测模块,与所述频繁模式生成模块连接,用于利用时间序列频繁模式预测产品价格变化。 优选地,所述按时间序列相似性度量聚类中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。 优选地,通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。 优选地,聚类通常按照对象间的相似性进行分组,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度,或两个对象的相似度是与它们取值相同的属性的个数有关。 优选地,所述聚类样本点之间的亲疏远近程度主要有以下两类函数: 相似系数函数:两个样本点愈相似,则相似系数值愈接近I ;样本点愈不相似,则相似系数值愈接近O ; 距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。 本专利技术中,从多个时间序列找出相同的或相似的变化模式,用以发现企业产品、原材料价格或库存等变化规律,预测其走势。 【专利附图】【附图说明】 图1为本专利技术实施例提出的一种时间序列数据挖掘方法流程图; 图2为本专利技术实施例提出的一种时间序列数据挖掘系统结构图。 【具体实施方式】 如图1所示,本专利技术实施例提出了一种时间序列数据挖掘方法,包括以下步骤: SI,对原始数据进行划分,并进行平滑处理,形成临时表。 例如,将产品价格、原材料价格、库存等用户感兴趣的数据变化规律和走势生成图表,使用户清晰明了的知道价格等数据的变化。对于企业来说,将产品推广出去是第一要务,及时发现潜在客户和潜在销售机会,能帮助销售人员在第一时间抓住客户,极大的促进企业打开销路。 S2,按时间序列相似性度量聚类,形成不同类别。其中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列受到各种偶然因素的影响,往往表现出某种随机性,彼此之间存在着统计上的依赖关系。如果对某一过程中的某个变量或一组变量,x(t)进行观察测量,在一系列时刻tl,t2,......, tn,(t为自变量,且tl〈t2〈......<tn)得到的离散有序集合X (tl),X(t2),......,X(tn) 称为离散数字时间序列。另外,可以通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。 时序挖掘从多个时间序列找出相同的或相似的变化模式,用以发现企业产品、原材料价格或库存等变化规律,预测其走势。为了进行深度挖掘,必须先对数据分类,例如按市场、省份划分成一系列的时间序列,对这些时间序列进行平滑处理,再进行聚类分析,对属于同一类的这些时间序列,挖掘其潜在模式。 其中,相似性的度量方法很多,有的用于专门领域,也有的适用于特定类型的数据。聚类通常按照对象间的相似性进行分组,因此如何描述对象间相似性是聚类的重要问题。数据的类型不同,相似性的含义也不同。例如,对数值型数据而言,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度;而对分类型数据来说,两个对象的相似度是与它们取值相同的属性的个数有关。聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度,刻画聚类样本点之间的亲疏本文档来自技高网
...

【技术保护点】
一种时间序列数据挖掘方法,其特征在于,包括以下步骤:对原始数据进行划分,并进行平滑处理,形成临时表;按时间序列相似性度量聚类,形成不同类别;对不同类别进行单条时间序列模式发现,生成不同元模式集;对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;利用时间序列频繁模式预测产品价格变化。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾岩
申请(专利权)人:安徽华贞信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1