一种数据分类方法和装置制造方法及图纸

技术编号:18426376 阅读:25 留言:0更新日期:2018-07-12 02:00
本发明专利技术公开了一种数据分类方法和装置,用以提高数据分类结果准确性。所述数据分类方法,包括:获取预处理后的待分类样本数据集合;针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。

A method and device for data classification

The invention discloses a data classification method and a device to improve the accuracy of data classification results. The data classification method includes: obtaining the set of pre processed sample data, and using the presupposed data classification algorithm to cluster the sample data sets to obtain the corresponding number of clusters according to each cluster number contained in the range of the predetermined number of clusters, and to determine the aggregation for each cluster number. The cluster number corresponding to the clustering results is used to evaluate the index value, and the cluster number of the sample data sets is determined by clustering results with the highest index value of the clustering results.

【技术实现步骤摘要】
一种数据分类方法和装置
本专利技术涉及数据挖掘
,尤其涉及一种数据分类方法和装置。
技术介绍
现有的电信用户分类过程如图1所示,包括以下几个步骤:数据收集、属性选择、数据预处理、聚类分析、模型调整、营销策略,这几个步骤形成一个闭环,通过不断的优化数据来提高用户分类结果的准确性。上述分类方法中,聚类分析为核心模块,仅根据在数据中发现的对象及其之间的关系,将数据对象分组,使得组内的对象间有较高相似度,不同组中的对象有较高的差异度。当前主流的数据分析工具(如SPSS)和数据挖掘建模平台(如TipDM),大多采用K-means算法实现,算法描述如下:输入:样本数据集X={x1,x2,x3,…,xn},期望划分的类簇数目k。输出:满足终止条件的k个簇。算法实施的具体流程如下:开始(Begin):在数据集X中随机选取k个初始聚类中心,表示为其中,上标表示迭代次数,为了便于描述以下记为p。重复(Repeat)如下步骤:1.对任意xj∈X,若则将xj指派到所代表的类簇中;2.重新计算每个类簇的聚类中心,即其中,mi为聚类Ci中的样本点数。直到满足以下条件(Until):或最小。在K-means算法中,dist(xj,ci)表示样本点xj与聚类中心点ci之间的欧式距离,SSE为簇内误差平方和。K-means算法的实质就是通过重复迭代得到k个最优聚类中心,并将其他样本点指派到离它最近的聚类中心,使簇内误差平方和SSE最小的过程。现有的分类方法中,需要预先输入期望划分的类簇的数目k,而在实际应用中,k是未知的,不准确的k值会导致聚类质量下降。
技术实现思路
本专利技术实施例提供了一种数据分类方法和装置,用以提高数据分类结果准确性。本专利技术实施例提供一种数据分类方法,包括:获取预处理后的待分类样本数据集合;针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。本专利技术实施例提供一种数据分类装置,包括:获取单元,用于获取预处理后的待分类样本数据集合;聚类单元,用于针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法将所述样本数据集合聚类为相应数量的类簇;聚类结果评价单元,用于针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定单元,用于确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。本专利技术实施例提供的数据分类方法和装置中,不再固定聚类数目,对于一定范围内的聚类数目分别确定该聚类数目对应的聚类结果,并计算相应的聚类结果评价指标值,将聚类结果评价指标值最高的聚类结果作为最终聚类结果,由此,避免了由于聚类数目固定而可能错过最优聚类结果的问题,提高了聚类结果的准确性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例中,实施例一提供的数据聚类方法的实施流程示意图;图2为本专利技术实施例中,利用任一聚类数对样本数据集合进行聚类得到相应的聚类结果的实施流程示意图;图3为本专利技术实施例中,确定聚类中心集合的实施流程示意图;图4为本专利技术实施例中,实施例二提供的数据聚类方法的实施流程示意图;图5为本专利技术实施例中,数据聚类装置的结构示意图。具体实施方式为了提高数据分类结果的准确性,本专利技术实施例提供了一种数据分类方法和装置。以下结合说明书附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术,并且在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。现有的数据分类方法中,随机选取初始中心点,不能很好地代表数据的分布情况,在更新过程中需要通过反复计算来确定最优聚类结果,迭代次数增加;其次,上述方法中有一定的概率选取孤立点作为初始中心,使得聚类结果的准确率降低。因此,找到有代表性的初始中心点能够优化聚类质量,并减少迭代时间。另外,上述方法中,需要预先输入期望划分的类簇的数目k,而在实际应用中,k是未知的,不准确的k值会导致聚类质量下降。有鉴于此,本专利技术实施例提供了一种分类方法,如图1所示,其为本专利技术实施例提供的数据分类方法的实施流程示意图,可以包括以下步骤:S11、获取预处理后的待分类样本数据集合。本步骤中,从数据源获取大规模、多属性的用户信息,根据实际需求和各属性之间的关联关系进行维度约减,之后的数据预处理包括数据的抽取/清洗/转换得到待分类样本数据集合。S12、针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇。S13、针对每一聚类数,确定该聚类数对应的聚类结果评价指标值。S14、确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。具体实施时,步骤S12中可以按照图2所示的流程实施,包括以下步骤:S121、针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度。为了衡量多维空间中样本数据之间的密集程度,本专利技术实施例中引入了样本密度的概念。较佳地,具体实施时,针对所述样本数据集合中所包含的每一样本数据,确定所述样本数据集中、与该样本数据之间的距离不大于第二预设值的样本数据的数量为该样本数据对应的样本密度。具体地,以样本数据xj为中心,以r为有效密度半径(即上述的第二预设值)形成一个超球体区域,该区域内的样本数据的数量记为样本数据xj的样本密度Densr(xj),即:Densr(xj)={xr∈X|dist(xj,xr)≤r}(1)其中,有效密度半径r采用全局样本欧式距离的标准差形式体现,具体的,可以表示为:其中,dist(xi,xj)表示样本数据xi与样本数据xj之间的欧式距离,avgdist(xi,xj)表示样本数据集合中包含的所有样本数据之间的欧式距离平均值,n表示样本数据集合中包含的样本数据数量。S122、选择样本密度大于第一预设值的样本数据组成样本数据子集。对于样本数据集合X中样本密度较小的样本数据xj,认为是孤立点,不能选作聚类中心,为了消除孤立点对初始聚类中心点的影响,本专利技术实施例中,在选择聚类中心时,可以设定最低密度阈值,即选择样本密度大于第一预设值(即上述的最低密度阈值,记为minDs)的样本数据组成样本数据子集,进而从该样本数据子集中选择聚类中心。较佳的,可以按照以下公式确定本步骤中涉及的第一预设值:S123、针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合。具体实施时,可以根据实际需要设置聚类数k的取值范围,本专利技术实施例中对此不进行限定。例如,可以设置k的取值范围为其中,n为样本数据集合中包含的样本数据数量。S124、本文档来自技高网...

【技术保护点】
1.一种数据分类方法,其特征在于,包括:获取预处理后的待分类样本数据集合;针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取预处理后的待分类样本数据集合;针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。2.如权利要求1所述的方法,其特征在于,针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇,具体包括:针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度;选择样本密度大于第一预设值的样本数据组成样本数据子集;针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合;并以该聚类数作为期望聚类数,以所述聚类中心集合作为初始聚类中心集合,利用K-means算法对所述样本数据集合进行聚类得到聚类结果。3.如权利要求2所述的方法,其特征在于,针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度,具体包括:针对所述样本数据集合中所包含的每一样本数据,确定所述样本数据集中、与该样本数据之间的距离不大于第二预设值的样本数据的数量为该样本数据对应的样本密度。4.如权利要求3所述的方法,其特征在于,针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合,具体包括:针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中将样本密度最高的样本数据加入所述聚类中心集合中;并从所述样本数据子集中剩余的样本数据中选择满足以下条件的样本数据加入所述聚类中心集合中,直至所述聚类中心集合中包含的样本数据数量达到当前相应的聚类数:与当前聚类中心集合中包含的每一样本数据之间的距离均大于第三预设值,且与当前聚类中心集合中包含的每一样本数据之间的距离之和最大。5.如权利要求4所述的方法,其特征在于,如果样本数据子集中包含的样本密度最高的样本数据有多个,则按照以下方法获得所述聚类中心集合:针对每一样本密度最高的样本数据,分别确定该样本密度最高的样本数据对应的聚类中心集合;并确定该样本密度最高的样本数据对应的聚类中心集合中、其它样本数据与该样本密度最高的样本数据之间的距离之和;选择距离之和最大的、样本密度最高的样本数据对应的聚类中心集合为最终的聚类中心集合。6.如权利要求1~5任一权利要求所述的方法,其特征在于,针对每一聚类数,确定该聚类数对应的聚类评结果价指标值,具体包括:针对每一聚类数,按照以下公式确定该聚类数对应的聚类结果评价指标值:其中:k表示预设聚类数的取值范围中包含的任一聚类数;i表示根据聚类数k对所述样本数据集合进行聚类得到的任一类簇对应的类簇标识;CBWPk表示聚类数k对应的聚类结果评价指标值;distwithin表示任一类簇对应的类内距离,定义为该类簇中各样本数据与该类簇的聚类中心之间距离的平均值;distbetween表示任一类簇对应的类间距离,定义为该类簇与其它类簇之间距离的最小值,其中两个类...

【专利技术属性】
技术研发人员:李智伟李长空杜建凤赵伟焦丙乐
申请(专利权)人:中国移动通信集团北京有限公司中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1