一种基于知识重用的演化聚类方法技术

技术编号:10668764 阅读:159 留言:0更新日期:2014-11-20 13:57
本发明专利技术公开了一种基于知识重用的演化聚类方法,其通过截取t时刻和以时间窗口长度为限制的有限个历史时刻的数据,应用任一静态聚类方法对数据进行聚类分析,并将聚类结果生成离散化0-1矩阵,之后按时间衰减加权离散化0-1矩阵获得加权0-1矩阵,最后用静态聚类方法对加权0-1矩阵进行静态聚类分析,获得t时刻的演化聚类结果。本发明专利技术是通过融合历史时刻的多时间截面静态聚类结果,形成知识积累;从短期来看,可以消除数据噪音提高聚类准确率,从长期来看,可以防止数据扰动保持聚类的稳定性。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,其通过截取t时刻和以时间窗口长度为限制的有限个历史时刻的数据,应用任一静态聚类方法对数据进行聚类分析,并将聚类结果生成离散化0-1矩阵,之后按时间衰减加权离散化0-1矩阵获得加权0-1矩阵,最后用静态聚类方法对加权0-1矩阵进行静态聚类分析,获得t时刻的演化聚类结果。本专利技术是通过融合历史时刻的多时间截面静态聚类结果,形成知识积累;从短期来看,可以消除数据噪音提高聚类准确率,从长期来看,可以防止数据扰动保持聚类的稳定性。【专利说明】
本专利技术涉及属于数据挖掘和机器学习领域,特别涉及一种基于知识重用的演化聚 类方法,用于多时间截面数据集的演化聚类分析,并可防止数据扰动、抵抗数据噪音。
技术介绍
数据质量指数据满足明确或隐含需求程度的指标,是对于现实世界的真实写照。 数据质量问题不仅仅指出现不正确的数据,还指数据不一致性问题。随着数据量的增加,数 据的内部一致性问题变得极为重要,是广泛存在于各学科数据使用中的一个主题。噪声作 为测量误差的随机部分,它可能涉及到值的失真或加入了伪造的对象数据。 传统的静态聚类方法只能针对单一时间截面的数据进行聚类,无法处理数据演化 过程中可能出现的抖动和数据噪音。现有的演化聚类方法只能针对t时刻和前一时刻的动 态数据的静态聚类结果进行聚类融合,知识利用程度不高。同时,这些模型往往需要设定参 数,求解过程也极为复杂。另外,现有分析对于静态聚类结果的数量变化十分敏感,针对演 化过程中点的变化情况也没有较好的应对策略。 鉴于上述描述,本专利技术提供,其为一种面向动 态变化数据的聚类方法,广泛应用在社区识别、金融产品分析等应用领域,基于知识重用的 演化聚类方法是通过融合历史时刻的多时间截面聚类结果,形成知识积累;短期来看,可以 消除数据噪音提高聚类准确率,从长期来看,可以防止数据扰动保持聚类的稳定性。
技术实现思路
本专利技术的目的在于提供,本专利技术所述基于知识 重用的演化聚类方法是通过融合历史时刻的多时间截面静态聚类结果,形成知识积累,以 时间为轴构建出知识重用框架,从短期来看,可以消除数据噪音提高聚类准确率,从长期来 看,可以防止数据扰动保持聚类的稳定性。 为了实现上述目的及一些其他目的,本专利技术提供的技术方案为: -种基于知识重用的演化聚类方法,其特征在于,包括以下步骤: 步骤一、截取数据库中动态社区中或者金融产品中t时刻η个样本的数据作为基 础数据; 步骤二、设定时间窗口长度为k,k < 10,若t-k < 0,则按相同时间间隔连续跟踪 截取η个样本的t-ι个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的 基础数据和t-Ι个单时间窗口的变化数据进行分析获得包括样本数η,η个样本所属聚类数 m以及η个样本与所属聚类的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转 化为对应t个的离散化0-1矩阵; 步骤三、若t-k > 0,则按相同时间间隔连续跟踪截取η个样本的k-ι个单时间窗 口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-Ι个单时间窗口的 变化数据进行分析获得包括样本数η,η个样本所属聚类数m以及η个样本与所属聚类的对 应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0-1矩 阵; 步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散 化0-1矩阵加权获得加权0-1矩阵I或II ; 步骤五、最后应用所述静态聚类分析所述加权0-1矩阵I或II,剔除其中的数据噪 音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确η个样本在动态 社区中或者金融产品中的所属聚类,其中,t> 1,η> 1以及m> 1。 优选的是,所述步骤三中将静态聚类结果生成离散化o-l矩阵具体方法为:矩阵 中"行"代表样本,"列"代表该时刻的聚类,矩阵中每一行向量代表样本在对应聚类中是否 出现,出现为1,否则为0。 优选的是,所述步骤三中将静态聚类结果生成离散化0-1矩阵具体方法中当生成 离散化0-1矩阵时,如果出现了与静态聚类结果中不同的样本则在矩阵中相应"行"和"列" 均记为0。 优选的是,步骤四中获得加权0-1矩阵,其中,权重值设置为以t时刻的权重值为 最大,之前的单个时间窗口的权重值逐渐减小,加权方法为:所述"行"不变,所述"列"相接。 优选的是,所述步骤三中相邻两个单时间窗口的时间间隔值为任何时间单位的1。 优选的是,所述步骤二中t个静态聚类结果分别或者步骤三中k个静态聚类结果 会储存在数据库中形成以时间为轴的知识重用框架。 优选的是,当服务器检测到在分析同一个动态社区或者金融产品中用到储存在数 据库中相同时刻的知识重用框架的静态聚类结果时,可直接从数据库中调取相应的静态聚 类结果。 优选的是,所述动态社区可以为"新浪微博",所述样本为"新浪微博用户",所述聚 类为"新浪微博社团",所述金融产品可以为"股票市场",所述样本为不同的"股票",所述聚 类为按价格高低分成的"价格区"。 优选的是,还包括: 步骤一、截取数据库中"新浪微博" t时刻η个"新浪微博用户"的数据作为基础数 据; 步骤二、设定时间窗口长度为k,k < 10,若t_k < 0,则按相同时间间隔连续跟踪 截取η个样本的t-Ι个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的 基础数据和t-Ι个单时间窗口的变化数据进行分析获得包括η个"新浪微博用户"的数量, η个"新浪微博用户"属于哪个"新浪微博社团",以及所具有的m个"新浪微博社团"数量的 对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0-1 矩阵; 步骤三、若t-k > 0,则按相同时间间隔连续跟踪截取η个样本的k-Ι个单时间窗 口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-Ι个单时间窗口的 变化数据进行分析获得包括η个"新浪微博用户"的数量,η个"新浪微博用户"属于哪个 "新浪微博社团",以及所具有的m个"新浪微博社团"数量的对应关系的k个静态聚类结果, 并将k个静态聚类结果分别转化为对应的k个离散化0-1矩阵; 步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散 化0-1矩阵加权获得加权0-1矩阵I或II,其中,具体方法为矩阵中"行"代表"新浪微博 用户","列"代表k时刻的"新浪微博社团",矩阵中每一行向量代表"新浪微博用户"在对应 "新浪微博社团"中是否出现,出现为1,否则为0 ; 步骤五、最后应用所述静态聚类分析所述加权0-1矩阵I或II,剔除其中的数据噪 音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确η个"新浪微博用 户"在"新浪微博"中所属的"新浪微博社团",其中,t> 1,η> 1以及m> 1。 本专利技术所提供基于知识重用的演化聚类方法的有益效果是: 本专利技术所述基于知识重用的演化聚类方法是通过融合历史时刻的多时间截面静 态聚类结果,形成知识积累,以时间为轴本文档来自技高网
...

【技术保护点】
一种基于知识重用的演化聚类方法,其特征在于,包括以下步骤:步骤一、截取数据库中动态社区中或者金融产品中t时刻n个样本的数据作为基础数据;步骤二、设定时间窗口长度为k,k<10,若t‑k<0,则按相同时间间隔连续跟踪截取n个样本的t‑1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和t‑1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0‑1矩阵;步骤三、若t‑k>0,则按相同时间间隔连续跟踪截取n个样本的k‑1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k‑1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0‑1矩阵;步骤四、通过时间顺序将步骤二的t个的离散化0‑1矩阵或者步骤三的k个离散化0‑1矩阵加权获得加权0‑1矩阵I或II;步骤五、最后应用所述静态聚类分析所述加权0‑1矩阵I或II,剔除其中的数据噪音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确n个样本在动态社区中或者金融产品中的所属聚类,其中,t>1,n>1以及m>1。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张玉超邓波彭甫阳李冬红李海龙
申请(专利权)人:北京系统工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1