一种基于知识重用的演化聚类方法技术

技术编号：10668764 阅读：172 留言：0更新日期：2014-11-20 13:57

本发明专利技术公开了一种基于知识重用的演化聚类方法，其通过截取t时刻和以时间窗口长度为限制的有限个历史时刻的数据，应用任一静态聚类方法对数据进行聚类分析，并将聚类结果生成离散化0-1矩阵，之后按时间衰减加权离散化0-1矩阵获得加权0-1矩阵，最后用静态聚类方法对加权0-1矩阵进行静态聚类分析，获得t时刻的演化聚类结果。本发明专利技术是通过融合历史时刻的多时间截面静态聚类结果，形成知识积累；从短期来看，可以消除数据噪音提高聚类准确率，从长期来看，可以防止数据扰动保持聚类的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，其通过截取t时刻和以时间窗口长度为限制的有限个历史时刻的数据，应用任一静态聚类方法对数据进行聚类分析，并将聚类结果生成离散化0-1矩阵，之后按时间衰减加权离散化0-1矩阵获得加权0-1矩阵，最后用静态聚类方法对加权0-1矩阵进行静态聚类分析，获得t时刻的演化聚类结果。本专利技术是通过融合历史时刻的多时间截面静态聚类结果，形成知识积累；从短期来看，可以消除数据噪音提高聚类准确率，从长期来看，可以防止数据扰动保持聚类的稳定性。【专利说明】
本专利技术涉及属于数据挖掘和机器学习领域，特别涉及一种基于知识重用的演化聚类方法，用于多时间截面数据集的演化聚类分析，并可防止数据扰动、抵抗数据噪音。
技术介绍
数据质量指数据满足明确或隐含需求程度的指标，是对于现实世界的真实写照。数据质量问题不仅仅指出现不正确的数据，还指数据不一致性问题。随着数据量的增加，数据的内部一致性问题变得极为重要，是广泛存在于各学科数据使用中的一个主题。噪声作为测量误差的随机部分，它可能涉及到值的失真或加入了伪造的对象数据。传统的静态聚类方法只能针对单一时间截面的数据进行聚类，无法处理数据演化过程中可能出现的抖动和数据噪音。现有的演化聚类方法只能针对t时刻和前一时刻的动态数据的静态聚类结果进行聚类融合，知识利用程度不高。同时，这些模型往往需要设定参数，求解过程也极为复杂。另外，现有分析对于静态聚类结果的数量变化十分敏感，针对演化过程中点的变化情况也没有较好的应对策略。鉴于上述描述，本专利技术提供，其为一种面向动 ...

【技术保护点】
一种基于知识重用的演化聚类方法，其特征在于，包括以下步骤：步骤一、截取数据库中动态社区中或者金融产品中t时刻n个样本的数据作为基础数据；步骤二、设定时间窗口长度为k，k＜10，若t‑k＜0，则按相同时间间隔连续跟踪截取n个样本的t‑1个单时间窗口的变化数据，应用任一静态聚类方法将获得的t时刻的基础数据和t‑1个单时间窗口的变化数据进行分析获得包括样本数n，n个样本所属聚类数m以及n个样本与所属聚类的对应关系的t个静态聚类结果，并将t个静态聚类结果分别转化为对应t个的离散化0‑1矩阵；步骤三、若t‑k＞0，则按相同时间间隔连续跟踪截取n个样本的k‑1个单时间窗口的变化数据，应用任一静态聚类方法将获得的t时刻的基础数据和k‑1个单时间窗口的变化数据进行分析获得包括样本数n，n个样本所属聚类数m以及n个样本与所属聚类的对应关系的k个静态聚类结果，并将k个静态聚类结果分别转化为对应的k个离散化0‑1矩阵；步骤四、通过时间顺序将步骤二的t个的离散化0‑1矩阵或者步骤三的k个离散化0‑1矩阵加权获得加权0‑1矩阵I或II；步骤五、最后应用所述静态聚类分析所述加权0‑1矩阵I或II，剔除其中的数据噪...

【技术特征摘要】

【专利技术属性】
技术研发人员：张玉超，邓波，彭甫阳，李冬红，李海龙，
申请(专利权)人：北京系统工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人