本发明专利技术涉及对数据库的数据分析,尤其涉及对商业数据库进行数据挖掘。公开一种用于划分客户群集的计算机实现的方法和系统。该方法包含:接收一个原始客户记录集合,其中,客户记录集合中的每个客户记录代表一个客户,每个客户记录包含至少一个数据属性,每个数据属性有一个属性值;对原始客户记录集合进行预处理,以生成预处理后的客户记录集合;对预处理后的客户记录集合执行一个聚类算法,将预处理后的客户记录集合划分成预定个数的群集。其中,所述预处理包含:确定原始客户记录集合中的每个客户记录所代表的客户的类型;在相应的客户记录中用一个类型属性表示该客户的类型;对数据属性和类型属性的值进行归一化;对数据属性的值和类型属性的值分别加权,获得数据属性的加权属性值和类型属性的加权属性值。
【技术实现步骤摘要】
本专利技术涉及对数据库的数据分析,尤其涉及对商业数据库进行数据挖掘,针对不同的应用,对商家的客户进行聚类。
技术介绍
在商业实践中,商家希望能识别客户的特征,以便对客户进行有效的管理。商家为了有效地开展业务,需要挖掘和分析客户的特征,为此,常常需要采用聚类(clustering)技术来的分析其在数据库中存储的客户数据。聚类技术广泛应用于统计学、模式识别、机器学习、电信服务等
采用计 算机技术和聚类技术,可以将一个数据库中的大量数据记录划分成K个(K为整数)群集(groupings)或聚类(cluster)。每个群集中的一个数据记录与该群集中的另一个数据记录的相似度,大于与其它群集中的数据记录的相似度。聚类技术采用的常用算法包括K均值聚类(K-means Clustering)算法,PAM算法等等。商家采用聚类技术,可以对数据库的客户记录进行聚类,即把客户记录(或客户)划分为不同的群集,进而总结各个群集中的客户的相似特征,由此能针对不同的客户群集,提供相适应的服务。在有些应用中,假设在运行聚类过程之前,聚类产生的群集的数目(通常记为整数K)是已知的。在有些现实应用中,在运行聚类过程之前,群集的数目是未知的,需要试探用不同的K来运行聚类过程,最后根据一定的聚类标准来确定K的值,以及采用该K运行聚类过程所获得的聚类结果。聚类算法的复杂度,与数据库中数据记录的个数有关,与每个数据记录包含的属性个数有关,与聚类产生的群集的数目K的大小有关,与群集的数目K事先是否已知有关。采用聚类技术对数据库的客户记录进行聚类的过程,通常需要运行许多小时,甚至几天。如何在具体应用中提高对数据库的客户记录进行聚类的效率,对于商家来说非常重要。
技术实现思路
本专利技术的一个目的是改进现有技术中划分客户群集的方法。一方面,本专利技术提供一种用于划分客户群集的计算机实现的方法和系统。该方法包含接收一个原始客户记录集合,其中,客户记录集合中的每个客户记录代表一个客户,每个客户记录包含至少一个数据属性,每个数据属性有一个属性值;对原始客户记录集合进行预处理,以生成预处理后的客户记录集合;对预处理后的客户记录集合执行一个聚类算法,将预处理后的客户记录集合划分成预定个数的群集。其中,所述预处理包含确定原始客户记录集合中的每个客户记录所代表的客户的类型;在相应的客户记录中用一个类型属性表示该客户的类型;对数据属性和类型属性的值进行归一化;对数据属性的值和类型属性的值分别加权,获得数据属性的加权属性值和类型属性的加权属性值。另一方面,本专利技术还提供一种用于划分客户群集的系统,包含接收装置,被配置为接收一个原始客户记录集合,其中,客户记录集合中的每个客户记录代表一个客户,每个客户记录包含至少一个数据属性,每个数据属性有一个属性值;预处理装置,被配置为对原始客户记录集合进行预处理,以生成预处理后的客户记录集合;聚类装置,被配置为对预处理后的客户记录集合执行一个聚类算法,将预处理后的客户记录集合划分成预定个数的群集。其中,所述预处理装置包含类型表示装置,被配置为确定原始客户记录集合中的每个客户记录所代表的客户的类型,在相应的客户记录中用一个类型属性表示该客户的类型;归一化装置,被配置为对数据属性和类型属性的值进行归一化;加权装置,被配置为对数据属性的值和类型属性的值分别加权,获得数据属性的加权属性值和类型属性的加权属性值。与现有技术相比,本专利技术的方法和系统降低了计算复杂度,并且能灵活调整聚类结果的群集组合的散度和纯度。附图说明
技术实现思路
部分和所附权利要求中阐述了被认为是本专利技术的特点的创造性特征。但是,通过参照附图阅读下面对示例性实施例的详细说明可更好地理解专利技术本身以及其使用 模式、另外的目标、特征以及优点,在附图中图I表示对一个客户集合进行聚类产生的群组组合的示意图;图2示意性表示一种现有技术的方法为客户划分群集的过程的流程图;图3A和3B示意性表示按照本专利技术方法的一个实施例为客户划分群集的过程的流程图;图4A-4I示意性表示按照本专利技术的实施例对原始客户记录集合进行的预处理;图5表示按照本专利技术一个实施例执行的K均值聚类算法的流程图;图6A-6E例示按照本专利技术一个实施例执行K均值聚类算法过程中的数据处理;图7示意性表示按照本专利技术实施例的用于为客户划分群集的系统的框图。具体实施例方式如
技术介绍
部分所述,在商业实践中,商家希望能识别客户的特征,以便对客户进行有效的管理。在商业实践中,有这样一种情形。例如,对于某项服务或产品,商家已经积累了一定数量的客户,但是商家仍然希望增加该项服务/产品的客户。为此,商家需要识别该服务/产品的潜在客户,以便有针对性地对潜在客户展开精准的营销活动。商家识别潜在客户的一种方式是,根据已经积累的客户,识别潜在客户。以银行为例,某银行已经积累了一定数量的信用卡客户。在银行的数据库中存储有客户(例如有工资账户的客户,)的月收入、年龄等数据。此外,在数据库中存储的信息,还能标识哪些客户是持有银行发行的信用卡的客户,即信用卡客户。该银行希望根据已有的信用卡客户,识别其它的潜在的信用卡客户,以便能准确、有效地展开营销活动。根据已有的信用卡客户识别潜在的信用卡客户的一种方式,是识别与已有的信用卡客户相似的客户,其中的关键,在于发现已有信用卡客户与待识别的客户共有的差异性特征。为此,银行可以通过聚类技术,将例如有工资账户的客户划分为不同的群集,在信用卡客户相对集中的群集中,识别潜在的信用卡客户。通过聚类技术产生的每个群集内的客户之间比较相似;就是说,在信用卡客户比较集中的群集内的非信用卡客户,与信用卡客户相对来说比较相似,因此成为未来的信用卡客户的可能性较大,因此可以将信用卡客户比较集中的群集内的非信用卡客户,识别为潜在的信用卡客户。这种根据已有的信用卡客户识别潜在的信用卡客户的方式,可以由图I进一步例/Jn o图I表示对一个客户集合进行聚类产生的群组组合的示意图。图I中的人形图案,表示某个银行的客户,其中,加方框的人形图案的代表持有该银行信用卡的客户(简称“信用卡客户”),无方框的人形图案代表不持有该银行信用卡的客户(简称“非信用卡客户”)。标记10表示银行的一个客户记录集合,其中,客户记录集合中的每个客户记录代表一个客户,每个客户记录包含至少一个数据属性(例如“年龄”、“收入”),每个数据属性有一个属性值(例如“年龄” =30,“收入” =7000)。如图所示的集合10包含的客户记录 代表40个客户,其中,有8个是信用卡客户,有32个不是信用卡客户。按照客户的属性(或客户记录的属性),对客户集合10进行聚类,产生四个客户群集101、102、103和104。客户集合10中的客户在这四个群集中的分布如表I所示。表I群集101 ~ 群集102群集103群集104 信用卡客户数6II0 非信用卡客户数 41495 客户总数1015105 纯度60%6. 7%10%0例如,群集101有10个客户,其中,有6个是信用卡客户,4个非信用卡客户。一般而言,对一个数据点集合进行聚类的产生的群集组合中,每个群集中的数据点,有一定的相似性。例如,对于图I所示的由客户集合经过聚类产生的群集来说,每个群集中的客户的属性(例如年龄、收入等),具有一定的相似性。评本文档来自技高网...
【技术保护点】
一种用于划分客户群集的计算机实现的方法,包含:接收一个原始客户记录集合,其中,客户记录集合中的每个客户记录代表一个客户,每个客户记录包含至少一个数据属性,每个数据属性有一个属性值;对原始客户记录集合进行预处理,以生成预处理后的客户记录集合;对预处理后的客户记录集合执行一个聚类算法,将预处理后的客户记录集合划分成预定个数的群集,其中,所述预处理包含:确定原始客户记录集合中的每个客户记录所代表的客户的类型;在相应的客户记录中用一个类型属性表示该客户的类型;对数据属性和类型属性的值进行归一化;对数据属性的值和类型属性的值分别加权,获得数据属性的加权属性值和类型属性的加权属性值。
【技术特征摘要】
【专利技术属性】
技术研发人员:张斌,谢明,尹文君,董进,杰奎琳G莫里斯,曹恒,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。