非独立同分布下基于K均值算法的数据分析方法及系统技术方案

技术编号:20746290 阅读:25 留言:0更新日期:2019-04-03 10:34
本发明专利技术公开了非独立同分布下基于K均值算法的数据分析方法及系统,属于计算机数据挖掘领域,解决的问题是如何捕获数据集中的全局信息、且基于K均值聚类算法下获得更准确高效的结果;其方法包括获取数据集并将数据集定义为信息表,信息表中列表示属性,行表示对象,行对应的列表示属性值;基于属性与其扩展幂以及属性与其他属性及扩展幂之间的相关性构造属性间耦合关系矩阵,并将属性间耦合关系矩阵应用于信息表,得到具有耦合关系的信息表;基于K均值聚类方法对数据集进行聚类分析。其结构包括耦合关系矩阵生成模块、数据集处理模块和K均值聚类分析模块。通过该方法可捕获连续属性之间的依赖关系以获取数据集中的全局信息,避免信息遗漏。

【技术实现步骤摘要】
非独立同分布下基于K均值算法的数据分析方法及系统
本专利技术涉及计算机数据挖掘领域,具体地说是非独立同分布下基于K均值算法的数据分析方法及系统。
技术介绍
统计学、数据挖掘和机器学习中的大多数经典理论系统和工具都建立在独立同分布的基础上,都假设基础对象、属性和属性值是具有独立性且服从同一分布的。然而,在真实世界地数据中,属性或多或少都会通过显式或者隐式关系相互作用和耦合。当前阶段,已经有一些基于K均值聚类算法的数据分析应用,但是基本都是基于传统独立同分布思想下进行的,不能完善捕获数据集中的全局信息从而产生一些信息遗漏。如何捕获数据集中的全局信息,且基于K均值聚类算法下获得更准确、更高效的结果,从而能够更好地作用于实际应用中,是需要解决的技术问题。
技术实现思路
本专利技术的技术任务是提供一种非独立同分布下基于K均值算法的数据分析方法及系统,来解决如何捕获数据集中的全局信息、且基于K均值聚类算法下获得更准确高效的结果的问题。本专利技术的技术任务是按以下方式实现的:非独立同分布下基于K均值算法的数据分析方法,包括如下步骤:S100、获取数据集并将数据集定义为信息表,信息表中列表示属性,行表示对象,行对应的列表示属性值;S200、基于属性与其扩展幂以及属性与其他属性及扩展幂之间的相关性构造属性间耦合关系矩阵,并将属性间耦合关系矩阵应用于信息表,得到具有耦合关系的信息表;S300、基于K均值聚类方法对数据集进行聚类分析。该方法中基于属性与其扩展幂以及属性与其他属性及扩展幂之间的相关性构造属性间耦合关系矩阵,并将属性间耦合关系矩阵应用于信息表,可捕获连续属性之间的全局依赖关系,便于更全面的获取数据集中所要表达的信息。进一步的,步骤S300基于K均值聚类方法对数据进行聚类分析过程中,通过最大最小距离方法选取初始中心点。该方法中通过最大最小距离方法选取初始中心点,可克服传统K均值算法中初始点选取不当造成的结果不佳的问题。进一步的,通过最大最小距离方法选取初始中心点包括如下分步骤:S310、从数据表中选取一个对象作为初始中心点C1;S320、遍历数据集中除第一个初始中心点C1之外的剩余对象,选择与第一个初始中心点C1距离最大的对象作为第二个初始中心点C2;S330、数据集中除作为初始中心点之外的对象为剩余对象,遍历数据集中的剩余对象,并逐对象进行如下计算:分别计算当前剩余对象与每一个初始中心点的距离,并将取值最小的距离存储至集合D;S340、判断集合D中的最大值是否满足检验条件,如果集合D中的最大值满足校验条件,集合D中的最大值对应的剩余对象选取为初始中心点;S350、根据步骤S330-步骤S340依次进行初始中心点选择,直至找不到新的初始中心点;步骤S340中,检验条件为:max(min(di1,di2,......,dik))>m×[avg(|C2-C1|,|C3-C2|,......|Ck-Ck-1|)]其中,m为检验参数,1/2≤m<1,dik表示第i个剩余对象与第k个初始中心点之间的距离,Ck表示第k个初始中心点,k和i均为正整数。上述方法适用于数据集中初始中心点的个数已知或未知的情况,且当数据集中初始中心点的个数未知时,必须要通过检验条件验证在步骤S340中选取的集合D中的最大值对应的剩余对象是否能够作为初始中心点。进一步的,通过最大最小距离方法选取初始中心点包括如下分步骤:S310、从数据表中选取一个对象作为初始中心点C1;S320、遍历数据集中除第一个初始中心点C1之外的剩余对象,选择与第一个初始中心点C1距离最大的点作为第二个初始中心点C2;S330、数据集中除作为初始中心点之外的对象为剩余对象,遍历数据集中的剩余对象,并逐对象进行如下计算:分别计算当前剩余对象与每一个初始中心点的距离,并将取值最小的距离存储至集合D;S340、将集合D中的最大值对应的剩余对象选取为初始中心点;S350、根据步骤S330-步骤S340依次进行初始中心点选择,直至选取到已知数量的初始中心点。上述方法适用于数据集中初始中心点的已知的情况,当数据集中初始中心点的个数已知时,可直接将步骤S340中选取的集合D中的最大值对应的剩余对象作为初始中心点,无需进行检验。进一步的,步骤S310中基于密度参数从数据集中选取一个对象作为第一个初始中心点,包括如下步骤:S311、计算数据集中任何两个对象之间距离,并计算上述距离的平均值,平均值计算公式为:其中,Xm表示第m个对象,Xn表示第n个对象,k表示数据集中对象的个数;S312、对数据集中每个对象进行如下计算:以当前对象为圆心,以θ×avgD为半径,计算与当前对象相应的圆内所包含对象的个数,并记为圆内对象个数;其中,θ为调节系数;S313、判断上述圆内对象个数中是否存在唯一的最大值,如果存在唯一的最大值,则选取与唯一最大值所对应的对象作为第一个初始中心点,如果最大值不唯一,则返回步骤S312调节θ的取值。进一步的,步骤S200包括如下分步骤:S210、对信息表中的每一列属性进行幂扩展得到其扩展幂;S220、对信息表中的每一列属性进行如下计算:计算当前列属性与其扩展幂之间的皮尔森相关系数以及当前列属性与其它列属性及扩展幂之间的皮尔森相关系数,皮尔森相关系数的计算公式为:其中,am表示第m列属性,fm(u)表示属性am对应的属性值,μm为属性am下所有属性值的均值;S230、基于p_value值越小相关性越显著的原则,划分p_value并生成新的皮尔森相关系数,新的皮尔森相关系数的计算公式为:其中,p_value为皮尔森相关系数中用于衡量相关性的参数;S240、将新的皮尔森相关系数保存至对应的耦合关系矩阵中,耦合关系矩阵包括用于表示属性与其扩展幂之间的耦合关系的耦合关系矩阵CIa以及用于表示属性与其他属性及扩展幂之间的耦合关系的耦合关系矩阵CIb,其中,表示为am的p次幂与am的q次幂之间的皮尔森相关系数;{an}n≠m={an1,...,ank-1},表示属性集合中除am之外的其他集合;表示为am的p次幂与ani的q次幂之间的皮尔森相关系数;S250、基于类似泰勒展开式的思想将耦合关系矩阵CIa和耦合关系矩阵CIb合并并应用于信息表,生成具有耦合关系的信息表,其表达式为:其中,表示属性am的p次幂下的所有属性值。非独立同分布下基于K均值算法的数据分析系统,用于实现如上述任一项所述的非独立同分布下基于K均值算法,包括:耦合关系矩阵生成模块,用于基于属性与其扩展幂以及属性与其他属性及扩展幂之间的相关性构造属性间耦合关系矩阵;数据集处理模块,用于获取数据集并将数据集定义为信息表,信息表中列表示属性,行表示对象,行对应的列表示属性值,并用于将属性间耦合关系矩阵应用于信息表,得到具有耦合关系的信息表;K均值聚类分析模块,用于对数据集进行K均值聚类分析。进一步的,耦合关系处理模块为具有如下功能的模块:对信息表中的每一列属性进行幂扩展得到其扩展幂;对信息表中的每一列属性进行如下计算:计算当前列属性与其扩展幂之间的皮尔森相关系数以及当前列属性与其它列属性及扩展幂之间的皮尔森相关系数,皮尔森相关系数的计算公式为:其中,am表示第m列属性,fm(u)表示属性am对应的属性值,μm为属性am下所有属性值的均值;本文档来自技高网...

【技术保护点】
1.非独立同分布下基于K均值算法的数据分析方法,其特征在于包括如下步骤:S100、获取数据集并将数据集定义为信息表,信息表中列表示属性,行表示对象,行对应的列表示属性值;S200、基于属性与其扩展幂以及属性与其他属性及扩展幂之间的相关性构造属性间耦合关系矩阵,并将属性间耦合关系矩阵应用于信息表,得到具有耦合关系的信息表;S300、基于K均值聚类方法对数据集进行聚类分析。

【技术特征摘要】
1.非独立同分布下基于K均值算法的数据分析方法,其特征在于包括如下步骤:S100、获取数据集并将数据集定义为信息表,信息表中列表示属性,行表示对象,行对应的列表示属性值;S200、基于属性与其扩展幂以及属性与其他属性及扩展幂之间的相关性构造属性间耦合关系矩阵,并将属性间耦合关系矩阵应用于信息表,得到具有耦合关系的信息表;S300、基于K均值聚类方法对数据集进行聚类分析。2.根据权利要求1所述的非独立同分布下基于K均值算法的数据分析方法,其特征在于步骤S300基于K均值聚类方法对数据进行聚类分析过程中,通过最大最小距离方法选取初始中心点。3.根据权利要求2所述的非独立同分布下基于K均值算法的数据分析方法,其特征在于通过最大最小距离方法选取初始中心点包括如下分步骤:S310、从数据表中选取一个对象作为初始中心点C1;S320、遍历数据集中除第一个初始中心点C1之外的剩余对象,选择与第一个初始中心点C1距离最大的对象作为第二个初始中心点C2;S330、数据集中除作为初始中心点之外的对象为剩余对象,遍历数据集中的剩余对象,并逐对象进行如下计算:分别计算当前剩余对象与每一个初始中心点的距离,并将取值最小的距离存储至集合D;S340、判断集合D中的最大值是否满足检验条件,如果集合D中的最大值满足校验条件,集合D中的最大值对应的剩余对象选取为初始中心点;S350、根据步骤S330-步骤S340依次进行初始中心点选择,直至找不到新的初始中心点;步骤S340中,检验条件为:max(min(di1,di2,......,dik))>m×[avg(|C2-C1|,|C3-C2|,......|Ck-Ck-1|)]其中,m为检验参数,1/2≤m<1,dik表示第i个剩余对象与第k个初始中心点之间的距离,Ck表示第k个初始中心点,k和i均为正整数。4.根据权利要求2所述的非独立同分布下基于K均值算法的数据分析方法,其特征在于通过最大最小距离方法选取初始中心点包括如下分步骤:S310、从数据表中选取一个对象作为初始中心点C1;S320、遍历数据集中除第一个初始中心点C1之外的剩余对象,选择与第一个初始中心点C1距离最大的点作为第二个初始中心点C2;S330、数据集中除作为初始中心点之外的对象为剩余对象,遍历数据集中的剩余对象,并逐对象进行如下计算:分别计算当前剩余对象与每一个初始中心点的距离,并将取值最小的距离存储至集合D;S340、将集合D中的最大值对应的剩余对象选取为初始中心点;S350、根据步骤S330-步骤S340依次进行初始中心点选择,直至选取到已知数量的初始中心点。5.根据权利要求3或4所述的非独立同分布下基于K均值算法的数据分析方法,其特征在于步骤S310中基于密度参数从数据集中选取一个对象作为第一个初始中心点,包括如下步骤:S311、计算数据集中任何两个对象之间距离,并计算上述距离的平均值,平均值计算公式为:其中,Xm表示第m个对象,Xn表示第n个对象,k表示数据集中对象的个数;S312、对数据集中每个对象进行如下计算:以当前对象为圆心,以θ×avgD为半径,计算与当前对象相应的圆内所包含对象的个数,并记为圆内对象个数;其中,θ为调节系数;S313、判断上述圆内对象个数中是否存在唯一的最大值,如果存在唯一的最大值,则选取与唯一最大值所对应的对象作为第一个初始中心点,如果最大值不唯一,则返回步骤S312调节θ的取值。6.根据权利要求1、2、3或4所述的非独立同分布下基于K均值算法的数据分析方法,其特征在于步骤S200包括如下分步骤:S210、对信息表中的每一列属性进行幂扩展得到其扩展幂;S220、对信息表中的每一列属性进行如下计算:计算当前列属性与其扩展幂之间的皮尔森相关系数以及当前列属性与其它列属性及扩展幂之间的皮尔森相关系数,皮尔森相关系数的计算公式为:其中,am表示第m列属性,fm(u)表示属性am对应的属性值,μm为属性am下所有属性值的均值;S230、基于p_value值越小相关性越显著的原则,划分p_value并生成新的皮尔森相关系数,新的皮尔森相关系数的计算公式为:其中,p_value为皮尔森相关系数中用于衡量相关性的参数;S240、将新的皮尔森相关系数保存至对应的耦合关系矩阵中,耦合关系矩阵包括用于表示属性与其扩展幂之间的耦合关系的耦合关系矩阵CIa以及用于表示属性与其他属性及扩展幂之间的耦合关系的耦合关系矩阵CIb,其中,表示为am的p次幂与am的q次幂之间的皮尔森相关系数;{an}n≠m={an1,...,ank-1},表示属性集合中除am之外的其他集合;表示为am的p次幂与ani的q次幂之间的皮尔森相关系数;S250、基于类似泰勒展开式的思想将耦合关系矩阵CIa和耦合关系矩阵CIb合并并应用于信息表,生成具有耦合关系的信息表,其表达式为:其中,表示属性am的p次幂下的所有属...

【专利技术属性】
技术研发人员:姜合潘品臣李秀芳
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1