一种基于聚类的大数据态势分析预警方法及系统技术方案

技术编号:10643337 阅读:184 留言:0更新日期:2014-11-12 17:09
本发明专利技术公开了一种基于聚类的大数据态势分析预警方法及系统。本方法为:1)服务器从各终端采集样本,并按照时间段对样本划分;2)对于每一时间段的样本数据集聚类,得到的簇作为样本的标签进行标注,然后根据选取的属性降维指标计算已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,对属性进行排序,选取若干属性作为大数据降维后保留的属性;3)对每一属性降维后的样本数据集聚类,将得到的簇作为样本数据集的态势指数,建一态势指数时间序列,确定一常态区域;4)计算当前时刻所采集样本数据的态势指数,如果超出常态区域,则对其监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出常态区域,则预警。

【技术实现步骤摘要】

本专利技术涉及一种预警方法,尤其涉及一种基于聚类的大数据态势分析预警方法及系统
技术介绍
在现实生活中,我们经常会面对具有一定周期性的复杂时间序列数据,在每个时间点对应的截面上,都对应一组样本数据,各个时间点之间的样本数据没有必然的联系,从而不是公知的面板数据,甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下,确定每个截面上数据之间的相似性,判断不同属性对这种相似性的影响程度,以及这些蕴含在数据中的关系在时间序列上如何传递和变化,并由此作出异常情况的预警。由于我们对数据的了解非常缺乏,我们常常需要依据经验、主观地将属性进行分类,一般进行后续的研究。例如,对于消费者的购物篮数据,我们将消费者按照消费金额分为高、中、低三类,或者按照消费者年龄分为老、中、青三类,再比较各个分类的众多数据的均值、方差等指标随时间序列的变化,由此作出预警。这种分类方法存在两大缺陷:其一,严重依赖于主观的分类,使分析结果丧失客观性;其二,将众多数据压缩成均值、方差等指标,丧失了大量的信息,使分析结果不能充分反映情况,预警效果差强人意。对具有一定周期性的复杂时间序列数据做出预警时,还会遇到“大数据”的问题。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大,形成了维数大、规模大、复杂性大的大数据形态,要挖掘其中有意义的知识和内容以指导实际生产和具体应用,需要首先进行降维处理,即维数约简,它一方面可以解决“维数灾难”,缓解大数据中“信息丰富但知识贫乏”的问题,降低计算的复杂度;另一方面可以引导人们更好地认识和理解数据。数据降维的方法很多,例如:根据数据本身的特性,可以分为线性降维和非线性降维两种;根据是否考虑和利用数据的监督信息,可以分为无监督降维、有监督降维和半监督降维三种;根据是否需要保持数据的结构,可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种基于聚类的大数据态势分析预警方法和系统。我们首先根据实际需要选择时间段,根据时间段划分样本,以便进行比较。其次使用“抽样->聚类->计算降维指标”的流程进行大数据降维,将聚类获得的簇作为已知的标签,采用完全客观的算法来选择对样本的已知标签具有较大影响力的维度。也就是说,这些在降维中被保留下来的维度不是主观确定的,不依赖于经验模型。再次针对降维后的数据,使用聚类分析(clustering)算法将样本进行聚类,获得数据客观蕴含的相似性,再将聚类结果(簇,cluster)的个数定义为态势指数。最后,将各个时间段的态势指数形成时间序列,使用拐点分析方法进行异常值预警,预警方法简便、效果较好。本专利技术公开的基于聚类的态势分析预警方法,其创新点在于定义了一种全新的宏观指标“态势指数”,即截面数据中聚类获得的簇的数量,它反映了数据内部蕴含的子结构的数量,由此可以对每个时间点的截面数据中蕴含的子结构的数量变化进行预警,是常用的截面数据样本量指标的有力补充。本专利技术的技术方案为:一种基于聚类的大数据态势分析预警方法,其步骤为:1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)对每一属性降维后的所述样本数据集进行聚类,将聚类得到的簇作为所述样本数据集的态势指数;5)根据各个时间段的态势指数构建一态势指数时间序列;然后根据该态势指数时间序列确定一常态区域;6)计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警;其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。进一步的,对该属性i所有属性值的属性值辨识度平方平均数作为该属性i的属性辨识度。进一步的,采用基于条件概率和贝叶斯算法计算所述辨识度。进一步的,将属性i所有属性值的属性重要性的平方平均数作为该属性的属性重要性。进一步的,对每一时间段的样本数据进行系统抽样得到所述抽样样本集合。本专利技术的系统如图3所示,其主要包括:1、数据降维模块对采集的样本进行抽样和聚类分析,得到若干簇,将聚类得到的簇作为样本的标签,对样本进行标注。计算标注样本每一属性的属性值辨识度、属性辨识度以及属性值重要性、属性重要性,提取由数据本身决定的“属性对相似性的影响力”指标;然后根据指标计算结果对属性排序;选取排序靠前的属性对样本数据进行降维。本专利技术定义了四个相互关联但又互不相同的影响力指标:属性值辨识度、属性辨识度、属性值重要性、属性重要性,从而更加全面准确的刻画“属性对分类的影响力”大小。下面简要介绍这四个指标的概念,具体计算方法详见下文“具体实施方式”部分。(1)属性值辨识度和属性辨识度我们常说的“辨识度”有两种理解:第一,拥有该属性的样本是被辨认出来的能力,一个歌声辨识度高的歌手只需要演唱一句就可以让大家认出他是谁,一个相貌辨识度高的演员即使穿着平常走在人群中也可以被大家发现。第二,是拥有该属性的样本被准确分类的能力,例本文档来自技高网
...
一种基于聚类的大数据态势分析预警方法及系统

【技术保护点】
一种基于聚类的大数据态势分析预警方法,其步骤为:1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个时间段对应一样本数据集;2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)对每一属性降维后的所述样本数据集进行聚类,将聚类得到的簇作为所述样本数据集的态势指数;5)根据各个时间段的态势指数构建一态势指数时间序列;然后根据该态势指数时间序列确定一常态区域;6)计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监控,并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警;其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。...

【技术特征摘要】
1.一种基于聚类的大数据态势分析预警方法,其步骤为:
1)中央服务器从各终端服务器采集样本数据,并按照时间段对样本数据进行划分,每个
时间段对应一样本数据集;
2)对于每一时间段的样本数据集,从中抽取若干样本构建一抽样样本集合,并对其进行
聚类分析,得到若干簇;将聚类得到的簇作为样本的标签,对样本进行标注,然后根
据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识
度、属性辨识度和或属性值重要性、属性重要性;
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,
选取若干属性作为大数据降维后保留的属性;
4)对每一属性降维后的所述样本数据集进行聚类,将聚类得到的簇作为所述样本数据集
的态势指数;
5)根据各个时间段的态势指数构建一态势指数时间序列;然后根据该态势指数时间序列
确定一常态区域;
6)计算当前时刻所采集样本数据的态势指数,如果超出所述常态区域,则对其进行监控,
并计算下一时刻所采集样本数据的态势指数,如果仍超出所述常态区域,则进行预警;
其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属
性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的
概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨
识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值
辨识度;
属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;
属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该
属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将
该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;
属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。
2.如权利要求1所述的方法,其特征在于对该属性i所有属性值的属性值辨识度平方平均数
作为该属性i的属性辨识度。
3.如权利要求1或2所述的方法,其特征在于采用基于条件概率和贝叶斯算法计算所述辨识
度。
4.如权利要求1所述的方法,其特征在于将属性i所有属性值的属性重要性的平方平均数作
为该属性的属性重要性。
5.如权利要求1所述的方法,其特征在于对每一时间段的样本数据进行系统抽样得到所述抽
样样本集合。
6.一种基于聚类的大数据态势分析预警系统,其特征在于包括多个终端服务器和一中央服务
器,所述终端服务器通过网络与所述中...

【专利技术属性】
技术研发人员:王电魏毅黄煜可
申请(专利权)人:中国软件与技术服务股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1