本发明专利技术公开基于客户属性及行为特征分析的客户细分方法,其包括三个步骤:(1)数据预处理,根据选择的评价属性,对所有属性与评价属性之间进行相关性分析,去除属性集中的弱相关项与冗余项从而达到数据简化的目的。(2)群体聚类,用K-means算法将每个属性的原始数据划分为三个级别,再由基于密度可达的DBSCAN算法进行客户聚类,将所有客户大体上分为高,中,低三个等级。(3)行为特征聚类,用双聚类分别对步骤(2)的三个等级的聚类结果做行为特征聚类,采用基于了基于apriori的双聚类。通过上述步骤的结合完成对客户的行为特征细分。本发明专利技术能提供更为全局性的属性为行为特性分析提供基础,提高分类的精确性和细致性。
【技术实现步骤摘要】
【专利摘要】本专利技术公开基于客户属性及行为特征分析的客户细分方法,其包括三个步骤:(1)数据预处理,根据选择的评价属性,对所有属性与评价属性之间进行相关性分析,去除属性集中的弱相关项与冗余项从而达到数据简化的目的。(2)群体聚类,用K-means算法将每个属性的原始数据划分为三个级别,再由基于密度可达的DBSCAN算法进行客户聚类,将所有客户大体上分为高,中,低三个等级。(3)行为特征聚类,用双聚类分别对步骤(2)的三个等级的聚类结果做行为特征聚类,采用基于了基于apriori的双聚类。通过上述步骤的结合完成对客户的行为特征细分。本专利技术能提供更为全局性的属性为行为特性分析提供基础,提高分类的精确性和细致性。【专利说明】
本专利技术涉及数据挖掘领域,具体涉及。
技术介绍
现有的客户行为细分方法归纳起来,主要有以下几种:基于RFM(Recency Frequency Monetary)模型行为细分的方法。在RFM模型是衡量客户价值和客户创利能力的重要工具和手段。R (recency)指上次购买至现在的时间间隔,F (frequency)为某一期间内的购买次数,M (monetary)是某一期间内购买的金额。RFM分析针对每个客户的每个指标打分,然后计算三个指标的乘积,再按这个结果排序,在此基础上将所有的客户按照20%、60%、20%分类,最后对不同类型的客户实施不同的策略。RFM分析的因素都是行为方面的,这次信息对于拥有数据库的公司来说比较容易获得,然而购买次数F和同期总购买额M两个变量之间会存在多重线性。另外该模型选择的属性太少,以致于不能很全面地对客户的行为特征进行细分。而且按照20%、60%、20%将客户分类的结果不一定能反映出客户的实际分类群体;只实现了客户群体这一维上的聚类,并不能体现出属性差距。客户价值矩阵的方法:该矩阵用包括客户代码、购买日期、日购买额等属性来进行客户行为细分。购买次数由不同购买日期的数目来确定,平均购买额等于在指定时间间隔内总购买额(日购买额的总和)与购买次数的比值。最终所有客户都分散在事先确定的二维矩阵的四个象限中,针对每一个客户群或跨越客户群产生不同的营销战略或战术。它的缺点是也只局限于特定的属性,不能根据不同数据特点的属性集来选择属性。而且它所选择的属性不够全面,不能很好地对客户行为进行描述。另外它只实现了客户群体这一维上的聚类,只是全局性地聚类,不能对局部特征相似的群体进行聚类。
技术实现思路
本专利技术针对目前客户行为细分存在的不足和缺陷,提供一种结合属性选择、群体聚类和双聚类的方法来达到客户行为细分的目的,本专利技术通过如下技术方案实现。该方法包括如下步骤:(I)数据预处理:首先,获取航空公司的会员数据矩阵,共有P个样本,每个样本有Q个属性,P、Q为大于I的正整数,其中每行代表一位客户亦为一条记录,每列代表客户的属性,其中每个元素代表公司对一个客户的行为评分;选择Q个属性中的一个作为分类属性,对剩下的Q-1个属性与分类属性之间进行相关性分析,去除Q个属性中的弱相关项与冗余项,得到属性集;(2)用K-means算法将上述得到的属性集中的每个元素的原始数据聚成L类,L为大于1的正整数,按数据的数值由小到大划分为L个级别,原先的数据值将由这些级别代替,得到新的属性集;然后采用基于密度可达的DBSCAN算法将新属性集中每个客户即是每条记录进行聚类;(3)行为特征聚类:用基于apriori的双聚类分别对步骤(2)的聚类结果做行为特征聚类,得到属性值相同、行为特征近似的客户属性矩阵;由客户属性矩阵可以得到某些属性数值相同,即行为表现相近,具有相似的行为习惯的客户群。进一步地,步骤(1)中,选择Q个属性中的一个作为分类属性,再利用皮尔逊卡方统计量度量分类属性与剩下的Q-1个属性的相关性,按照相关性排列Q-1属性,并将属性划分为三个等级:强相关、相关、弱相关,去除上述弱相关属性及强相关属性中的冗余重复属性,选择出与分类属性相关并相互独立的属性,具体包括如下步骤:(1.1)选择分类属性后,利用列联表计算出Q-1属性与分类属性的皮尔逊卡方统计量K,皮尔逊卡方统计量【权利要求】1.,其特征在于包括如下步骤: 步骤(I ),数据预处理:首先,获取航空公司的会员数据矩阵,共有P个样本,每个样本 有Q个属性,P、Q为大于I的正整数,其中每行代表一位客户亦为一条记录,每列代表客户的属性,其中每个元素代表公司对一个客户的行为评分;选择Q个属性中的一个作为分类属性,对剩下的Q-1个属性与分类属性之间进行相关性分析,去除Q个属性中的弱相关项与冗余项,得到属性集; 步骤(2),群体聚类:用K-means算法将上述得到的属性集中的每个元素的原始数据聚成L类,L为大于I的正整数,按数据的数值由小到大划分为L个级别,原先的数据值将由这L个级别代替,得到新的属性集;然后采用基于密度可达的DBSCAN算法将新属性集中每个客户即每条记录进行聚类,得到若干类的客户群; 步骤(3),行为特征聚类:用基于apriori的双聚类分别对步骤(2)的聚类结果做行为特征聚类,得到属性值相同、行为特征近似的客户属性矩阵;由客户属性矩阵得到属性数值相同,即相应行为表现相近,具有部分行为习惯相似的客户群。2.根据权利要求1所述的方法,其特征在于步骤(1)中,选择Q个属性中的一个作为分类属性,再利用皮尔逊卡方统计量度量分类属性与剩下的Q-1个属性的相关性,按照相关性排列Q-1属性,并将属性划分为三个等级:强相关、相关、弱相关,去除上述弱相关属性及强相关属性中的冗余重复属性,选择出与分类属性相关并相互独立的属性,具体包括如下步骤: (1.1)选择分类属性后,利用列联表计算出Q-1属性与分类属性的皮尔逊卡方统计量>' (f1.// — f1- // )—K,皮尔逊卡方统计量尤=ΣΣ^~~其中,^表示列联表中第i行的数值总和, /=1 M η.H1..Hj表示列联表中第j列的数值总和,nu表示表示列联表第i行第j列的数值,η表示列联表中所有数值的总和; (1.2)按照皮尔逊卡方统计量的大小,将所有属性聚成三类,即强相关子集(SSR)、相关子集(SR)、弱相关子集(SWR),并选择强相关子集中K值最小的属性为最弱强相关属性FW,选择弱相关属性中K值最大的属性为最强弱相关属性FS ; (1.3)对于强相关属性子集SSR,按照与分类属性的K的大小,下面所述的下标i,j代表区别不同Q个属性中的其中一个属性表示方法,由大到小依次选择一个属性作为参照属性Fp遍历选择该集中的其它任意Q-2个属性为Fi,并计算Fi与参照属性的皮尔逊卡方统计量Ku ^ij表示属性。与Fi之间的卡方值;如果Ku大于或等于属性FW与分类属性的K值,则表示。与匕中有一个属性为冗余重复属性,删除与分类属性相关性较小的属性Fi ;当Fj完成与该子集中所有属性比较后,将Fj放入新的属性集即强相关约简属性子集SRSR,去除冗余重复属性后的SRSR作为强相关子集的子集,代替强相关子集进行后续运算;(1.4)把强相关约简属性子集SRSR和相关属性子集SR合并,得到属性集。3.根据权利要求1或2所述的方法,其特征在于步骤(2)中所述采用基于密度可达的DBSCAN算法本文档来自技高网...
【技术保护点】
一种基于客户属性及行为特征分析的客户细分方法,其特征在于包括如下步骤:步骤(1),数据预处理:首先,获取航空公司的会员数据矩阵,共有P个样本,每个样本有Q个属性,P、Q为大于1的正整数,其中每行代表一位客户亦为一条记录,每列代表客户的属性,其中每个元素代表公司对一个客户的行为评分;选择Q个属性中的一个作为分类属性,对剩下的Q?1个属性与分类属性之间进行相关性分析,去除Q个属性中的弱相关项与冗余项,得到属性集;步骤(2),群体聚类:用K?means算法将上述得到的属性集中的每个元素的原始数据聚成L类,L为大于1的正整数,按数据的数值由小到大划分为L个级别,原先的数据值将由这L个级别代替,得到新的属性集;然后采用基于密度可达的DBSCAN算法将新属性集中每个客户即每条记录进行聚类,得到若干类的客户群;步骤(3),行为特征聚类:用基于apriori的双聚类分别对步骤(2)的聚类结果做行为特征聚类,得到属性值相同、行为特征近似的客户属性矩阵;由客户属性矩阵得到属性数值相同,即相应行为表现相近,具有部分行为习惯相似的客户群。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈建林,吴晓声,肖宇,薛云,蔡倩华,胡晓晖,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。