一种基于聚类的大数据态势分析预警方法及系统技术方案

技术编号：10643337 阅读：197 留言：0更新日期：2014-11-12 17:09

本发明专利技术公开了一种基于聚类的大数据态势分析预警方法及系统。本方法为：1)服务器从各终端采集样本，并按照时间段对样本划分；2)对于每一时间段的样本数据集聚类，得到的簇作为样本的标签进行标注，然后根据选取的属性降维指标计算已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性，对属性进行排序，选取若干属性作为大数据降维后保留的属性；3)对每一属性降维后的样本数据集聚类，将得到的簇作为样本数据集的态势指数，建一态势指数时间序列，确定一常态区域；4)计算当前时刻所采集样本数据的态势指数，如果超出常态区域，则对其监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出常态区域，则预警。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种预警方法，尤其涉及一种基于聚类的大数据态势分析预警方法及系统。
技术介绍
在现实生活中，我们经常会面对具有一定周期性的复杂时间序列数据，在每个时间点对应的截面上，都对应一组样本数据，各个时间点之间的样本数据没有必然的联系，从而不是公知的面板数据，甚至各时间点的样本数量都不具有相等关系。我们希望在对这些数据缺乏足够了解的情况下，确定每个截面上数据之间的相似性，判断不同属性对这种相似性的影响程度，以及这些蕴含在数据中的关系在时间序列上如何传递和变化，并由此作出异常情况的预警。由于我们对数据的了解非常缺乏，我们常常需要依据经验、主观地将属性进行分类，一般进行后续的研究。例如，对于消费者的购物篮数据，我们将消费者按照消费金额分为高、中、低三类，或者按照消费者年龄分为老、中、青三类，再比较各个分类的众多数据的均值、方差等指标随时间序列的变化，由此作出预警。这种分类方法存在两大缺陷：其一，严重依赖于主观的分类，使分析结果丧失客观性；其二，将众多数据压缩成均值、方差等指标，丧失了大量的信息，使分析结果不能充分反映情况，预警效果差强人意。对具有一定周期性的复杂时间序列数据做出预警时，还会遇到“大数据”的问题。随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。经过清洗的已知标签样本数据汇总到中央数据库。由于样本量巨大，形成了维数大、规模大、复杂性大的大数据形态，要挖掘...
一种基于聚类的大数据态势分析预警方法及系统

【技术保护点】
一种基于聚类的大数据态势分析预警方法，其步骤为：1)中央服务器从各终端服务器采集样本数据，并按照时间段对样本数据进行划分，每个时间段对应一样本数据集；2)对于每一时间段的样本数据集，从中抽取若干样本构建一抽样样本集合，并对其进行聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性；3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序，选取若干属性作为大数据降维后保留的属性；4)对每一属性降维后的所述样本数据集进行聚类，将聚类得到的簇作为所述样本数据集的态势指数；5)根据各个时间段的态势指数构建一态势指数时间序列；然后根据该态势指数时间序列确定一常态区域；6)计算当前时刻所采集样本数据的态势指数，如果超出所述常态区域，则对其进行监控，并计算下一时刻所采集样本数据的态势指数，如果仍超出所述常态区域，则进行预警；其中，属性值辨识度的计算方法为：选取样本一属性i的一属性值a，计算具有该属性值a的样本属于标签j的条件概率值，以及未增加该...

【技术特征摘要】
1.一种基于聚类的大数据态势分析预警方法，其步骤为：
1)中央服务器从各终端服务器采集样本数据，并按照时间段对样本数据进行划分，每个
时间段对应一样本数据集；
2)对于每一时间段的样本数据集，从中抽取若干样本构建一抽样样本集合，并对其进行
聚类分析，得到若干簇；将聚类得到的簇作为样本的标签，对样本进行标注，然后根
据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识
度、属性辨识度和或属性值重要性、属性重要性；
3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序，
选取若干属性作为大数据降维后保留的属性；
4)对每一属性降维后的所述样本数据集进行聚类，将聚类得到的簇作为所述样本数据集
的态势指数；
5)根据各个时间段的态势指数构建一态势指数时间序列；然后根据该态势指数时间序列
确定一常态区域；
6)计算当前时刻所采集样本数据的态势指数，如果超出所述常态区域，则对其进行监控，
并计算下一时刻所采集样本数据的态势指数，如果仍超出所述常态区域，则进行预警；
其中，属性值辨识度的计算方法为：选取样本一属性i的一属性值a，计算具有该属
性值a的样本属于标签j的条件概率值，以及未增加该属性值条件时样本属于该标签j的
概率值；将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨
识度；将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值
辨识度；
属性辨识度的计算方法为：根据属性i所有属性值辨识度计算该属性i的属性辨识度；
属性值重要性的计算方法为：将样本属性i取属性值a时属于标签j的样本量乘以该
属性值a对于该标签j的属性辨识度，得到该属性值a对于该标签j的属性值重要性；将
该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性；
属性重要性的计算方法为：根据属性i所有属性值重要性计算该属性i的属性重要性。
2.如权利要求1所述的方法，其特征在于对该属性i所有属性值的属性值辨识度平方平均数
作为该属性i的属性辨识度。
3.如权利要求1或2所述的方法，其特征在于采用基于条件概率和贝叶斯算法计算所述辨识
度。
4.如权利要求1所述的方法，其特征在于将属性i所有属性值的属性重要性的平方平均数作
为该属性的属性重要性。
5.如权利要求1所述的方法，其特征在于对每一时间段的样本数据进行系统抽样得到所述抽
样样本集合。
6.一种基于聚类的大数据态势分析预警系统，其特征在于包括多个终端服务器和一中央服务
器，所述终端服务器通过网络与所述中...

【专利技术属性】
技术研发人员：王电，魏毅，黄煜可，
申请(专利权)人：中国软件与技术服务股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人