The invention discloses a data classification method and a device to improve the accuracy of data classification results. The data classification method includes: obtaining the set of pre processed sample data, and using the presupposed data classification algorithm to cluster the sample data sets to obtain the corresponding number of clusters according to each cluster number contained in the range of the predetermined number of clusters, and to determine the aggregation for each cluster number. The cluster number corresponding to the clustering results is used to evaluate the index value, and the cluster number of the sample data sets is determined by clustering results with the highest index value of the clustering results.
【技术实现步骤摘要】
一种数据分类方法和装置
本专利技术涉及数据挖掘
,尤其涉及一种数据分类方法和装置。
技术介绍
现有的电信用户分类过程如图1所示,包括以下几个步骤:数据收集、属性选择、数据预处理、聚类分析、模型调整、营销策略,这几个步骤形成一个闭环,通过不断的优化数据来提高用户分类结果的准确性。上述分类方法中,聚类分析为核心模块,仅根据在数据中发现的对象及其之间的关系,将数据对象分组,使得组内的对象间有较高相似度,不同组中的对象有较高的差异度。当前主流的数据分析工具(如SPSS)和数据挖掘建模平台(如TipDM),大多采用K-means算法实现,算法描述如下:输入:样本数据集X={x1,x2,x3,…,xn},期望划分的类簇数目k。输出:满足终止条件的k个簇。算法实施的具体流程如下:开始(Begin):在数据集X中随机选取k个初始聚类中心,表示为其中,上标表示迭代次数,为了便于描述以下记为p。重复(Repeat)如下步骤:1.对任意xj∈X,若则将xj指派到所代表的类簇中;2.重新计算每个类簇的聚类中心,即其中,mi为聚类Ci中的样本点数。直到满足以下条件(Until):或最小。在K-means算法中,dist(xj,ci)表示样本点xj与聚类中心点ci之间的欧式距离,SSE为簇内误差平方和。K-means算法的实质就是通过重复迭代得到k个最优聚类中心,并将其他样本点指派到离它最近的聚类中心,使簇内误差平方和SSE最小的过程。现有的分类方法中,需要预先输入期望划分的类簇的数目k,而在实际应用中,k是未知的,不准确的k值会导致聚类质量下降。
技术实现思路
本专利技术实施例提 ...
【技术保护点】
1.一种数据分类方法,其特征在于,包括:获取预处理后的待分类样本数据集合;针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。
【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取预处理后的待分类样本数据集合;针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇;以及针对每一聚类数,确定该聚类数对应的聚类结果评价指标值;确定利用聚类结果评价指标值最高的聚类数对所述样本数据集合进行聚类得到的类簇为聚类结果。2.如权利要求1所述的方法,其特征在于,针对预设聚类数的取值范围中包含的每一聚类数,利用预设的数据分类算法对所述样本数据集合进行聚类得到相应数量的类簇,具体包括:针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度;选择样本密度大于第一预设值的样本数据组成样本数据子集;针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合;并以该聚类数作为期望聚类数,以所述聚类中心集合作为初始聚类中心集合,利用K-means算法对所述样本数据集合进行聚类得到聚类结果。3.如权利要求2所述的方法,其特征在于,针对所述样本数据集合中所包含的每一样本数据,确定该样本数据对应的样本密度,具体包括:针对所述样本数据集合中所包含的每一样本数据,确定所述样本数据集中、与该样本数据之间的距离不大于第二预设值的样本数据的数量为该样本数据对应的样本密度。4.如权利要求3所述的方法,其特征在于,针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中根据该聚类数选择相应数量的样本数据得到聚类中心集合,具体包括:针对预设聚类数的取值范围中包含的每一聚类数,从所述样本数据子集中将样本密度最高的样本数据加入所述聚类中心集合中;并从所述样本数据子集中剩余的样本数据中选择满足以下条件的样本数据加入所述聚类中心集合中,直至所述聚类中心集合中包含的样本数据数量达到当前相应的聚类数:与当前聚类中心集合中包含的每一样本数据之间的距离均大于第三预设值,且与当前聚类中心集合中包含的每一样本数据之间的距离之和最大。5.如权利要求4所述的方法,其特征在于,如果样本数据子集中包含的样本密度最高的样本数据有多个,则按照以下方法获得所述聚类中心集合:针对每一样本密度最高的样本数据,分别确定该样本密度最高的样本数据对应的聚类中心集合;并确定该样本密度最高的样本数据对应的聚类中心集合中、其它样本数据与该样本密度最高的样本数据之间的距离之和;选择距离之和最大的、样本密度最高的样本数据对应的聚类中心集合为最终的聚类中心集合。6.如权利要求1~5任一权利要求所述的方法,其特征在于,针对每一聚类数,确定该聚类数对应的聚类评结果价指标值,具体包括:针对每一聚类数,按照以下公式确定该聚类数对应的聚类结果评价指标值:其中:k表示预设聚类数的取值范围中包含的任一聚类数;i表示根据聚类数k对所述样本数据集合进行聚类得到的任一类簇对应的类簇标识;CBWPk表示聚类数k对应的聚类结果评价指标值;distwithin表示任一类簇对应的类内距离,定义为该类簇中各样本数据与该类簇的聚类中心之间距离的平均值;distbetween表示任一类簇对应的类间距离,定义为该类簇与其它类簇之间距离的最小值,其中两个类...
【专利技术属性】
技术研发人员:李智伟,李长空,杜建凤,赵伟,焦丙乐,
申请(专利权)人:中国移动通信集团北京有限公司,中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。