一种划分客户群集的计算机实现的方法和系统技术方案

技术编号：7898447 阅读：176 留言：0更新日期：2012-10-23 04:32

本发明专利技术涉及对数据库的数据分析，尤其涉及对商业数据库进行数据挖掘。公开一种用于划分客户群集的计算机实现的方法和系统。该方法包含：接收一个原始客户记录集合，其中，客户记录集合中的每个客户记录代表一个客户，每个客户记录包含至少一个数据属性，每个数据属性有一个属性值；对原始客户记录集合进行预处理，以生成预处理后的客户记录集合；对预处理后的客户记录集合执行一个聚类算法，将预处理后的客户记录集合划分成预定个数的群集。其中，所述预处理包含：确定原始客户记录集合中的每个客户记录所代表的客户的类型；在相应的客户记录中用一个类型属性表示该客户的类型；对数据属性和类型属性的值进行归一化；对数据属性的值和类型属性的值分别加权，获得数据属性的加权属性值和类型属性的加权属性值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及对数据库的数据分析，尤其涉及对商业数据库进行数据挖掘，针对不同的应用，对商家的客户进行聚类。
技术介绍
在商业实践中，商家希望能识别客户的特征，以便对客户进行有效的管理。商家为了有效地开展业务，需要挖掘和分析客户的特征，为此，常常需要采用聚类(clustering)技术来的分析其在数据库中存储的客户数据。聚类技术广泛应用于统计学、模式识别、机器学习、电信服务等
采用计算机技术和聚类技术，可以将一个数据库中的大量数据记录划分成K个(K为整数)群集(groupings)或聚类(cluster)。每个群集中的一个数据记录与该群集中的另一个数据记录的相似度，大于与其它群集中的数据记录的相似度。聚类技术采用的常用算法包括K均值聚类(K-means Clustering)算法,PAM算法等等。商家采用聚类技术，可以对数据库的客户记录进行聚类，即把客户记录(或客户)划分为不同的群集，进而总结各个群集中的客户的相似特征，由此能针对不同的客户群集，提供相适应的服务。在有些应用中，假设在运行聚类过程之前，聚类产生的群集的数目(通常记为整数K)是已知的。在有些现实应用中，在运行聚类过程之前，群集的数目是未知的，需要试探用不同的K来运行聚类过程，最后根据一定的聚类标准来确定K的值，以及采用该K运行聚类过程所获得的聚类结果。聚类算法的复杂度，与数据库中数据记录的个数有关，与每个数据记录包含的属性个数有关，与聚类产生的群集的数目K的大小有关，与群集的数目K事先是否已知有关。采用聚类技术对数据库的客户记录进行聚类的过程，通常需要运行许多小时，甚至几天。如何在具...

【技术保护点】
一种用于划分客户群集的计算机实现的方法，包含：接收一个原始客户记录集合，其中，客户记录集合中的每个客户记录代表一个客户，每个客户记录包含至少一个数据属性，每个数据属性有一个属性值；对原始客户记录集合进行预处理，以生成预处理后的客户记录集合；对预处理后的客户记录集合执行一个聚类算法，将预处理后的客户记录集合划分成预定个数的群集，其中，所述预处理包含：确定原始客户记录集合中的每个客户记录所代表的客户的类型；在相应的客户记录中用一个类型属性表示该客户的类型；对数据属性和类型属性的值进行归一化；对数据属性的值和类型属性的值分别加权，获得数据属性的加权属性值和类型属性的加权属性值。

【技术特征摘要】

【专利技术属性】
技术研发人员：张斌，谢明，尹文君，董进，杰奎琳G莫里斯，曹恒，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人