一种用户数据处理方法和系统技术方案

技术编号:36291546 阅读:50 留言:0更新日期:2023-01-13 10:04
本发明专利技术涉及大数据分析技术领域中的一种用户数据处理方法和系统,包括以下步骤:获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;基于初始洛伦兹曲线获取第一分层点,并获取第一分层数据;获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并构建累计人数占比关于累计分值占比的重置洛伦兹曲线;基于重置洛伦兹曲线获取第二分层点,并获取第二分层数据;循环构建重置洛伦兹曲线的步骤,并基于重置洛伦兹曲线获取第n分层点,根据第n分层点获取第n分层数据,具有用户分层更合理的优点,突破了人工干预导致用户分层不精确的瓶颈。精确的瓶颈。精确的瓶颈。

【技术实现步骤摘要】
一种用户数据处理方法和系统


[0001]本专利技术涉及大数据分析
,具体涉及一种用户数据处理方法和系统。

技术介绍

[0002]基于大数据的用户分层分类方法是无监督算法在工业领域的一种应用,目前被频繁应用于解决该类问题的方案有聚类和RFM方法,其中聚类算法基于样本间指标数据的距离或者样本分布的密集程度对目标数据进行聚类,RFM方法基于用户近度、频度、值度三个重要指标对数据的等频或等距划分,继而采用专家打分或聚类的方式进行用户分层。
[0003]然而,上述两种分层分类方式均为较为成熟的用户分层分类方式,二者均为依据指标的不同特点对样本进行划分,不足点在于聚类算法业务解释相对复杂,聚类算法本身不够具备解释性,无法表明清楚聚类时用户的分层分类依据,而RFM方法存在较多的人工干预,并非局部最优算法。

技术实现思路

[0004]本专利技术针对现有技术中的缺点,提供了一种用户数据处理方法和系统,具有用户分层更合理的优点,突破了人工干预导致用户分层不精确的瓶颈。
[0005]为了解决上述技术问题,本专利技术通过下述技术方案得以解决:
[0006]一种用户数据处理方法,包括以下步骤:
[0007]获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;
[0008]基于所述初始洛伦兹曲线获取第一分层点,并根据所述第一分层点获取第一分层数据;
[0009]获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于所述剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;
[0010]基于所述重置洛伦兹曲线获取第二分层点,并根据所述第二分层点获取第二分层数据;
[0011]循环构建重置洛伦兹曲线的步骤,并基于所述重置洛伦兹曲线获取第n分层点,并根据所述第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量

1。
[0012]可选的,获取初始用户分层指标数据,包括以下步骤:
[0013]获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将所述用户样本数据进行标准化分层,得到标准化层级;
[0014]计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和;
[0015]基于各个层级对应的所述累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据。
[0016]可选的,基于所述初始洛伦兹曲线获取第一分层点,包括以下步骤:
[0017]构建所述初始洛伦兹曲线的绝对平等线;
[0018]获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。
[0019]可选的,还包括以下步骤:
[0020]获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,所述分层点为第一分层点、第二分层点或第n分层点;
[0021]基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组所述分层点对应的关键分值指标值作为用户分层指标,并基于所述用户分层指标将所述用户样本数据进行优化分层。
[0022]可选的,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的资产管理规模。
[0023]可选的,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的活跃度、贡献度以及忠诚度的分值之和。
[0024]一种用户数据处理系统,包括曲线构建单元、第一获取单元、重置构建单元、第二获取单元以及循环构建单元;
[0025]所述曲线构建单元用于,获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;
[0026]所述第一获取单元用于,基于所述初始洛伦兹曲线获取第一分层点,并根据所述第一分层点获取第一分层数据;
[0027]所述重置构建单元用于,获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于所述剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;
[0028]所述第二获取单元用于,基于所述重置洛伦兹曲线获取第二分层点,并根据所述第二分层点获取第二分层数据;
[0029]所述循环构建单元用于,循环构建重置洛伦兹曲线的步骤,并基于所述重置洛伦兹曲线获取第n分层点,并根据所述第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量

1。
[0030]可选的,所述曲线构建单元包括标准化分层单元、计算单元以及数据生成单元;
[0031]所述标准化分层单元用于,获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将所述用户样本数据进行标准化分层,得到标准化层级;
[0032]所述计算单元用于,计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和;
[0033]所述数据生成单元用于,基于各个层级对应的所述累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据。
[0034]可选的,第一获取单元包括绝对平等线构建单元和第三获取单元;
[0035]所述绝对平等线构建单元用于,构建所述初始洛伦兹曲线的绝对平等线;
[0036]所述第三获取单元用于,获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。
[0037]可选的,还包括第四获取单元和优化分层单元;
[0038]所述第四获取单元用于,获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,所述分层点为第一分层点、第二分层点或第n分层点;
[0039]所述优化分层单元用于,基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组所述分层点对应的关键分值指标值作为用户分层指标,并基于所述用户分层指标将所述用户样本数据进行优化分层。
[0040]采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:
[0041]通过使用洛伦兹曲线对用户进行精细化、合理化分层,由于分层过程中采用的用户分层相关数据均采用该企业本身数据,因此相对于统一的用户分层划分标准,本实施例所描述的用户分层方法通过借用洛伦兹曲线进行数据分析,使得该用户分层的方法更为适用于存在营运情况不同的各家企业,同时本专利技术全程基于洛伦兹曲线进行数据分析,不存在人工干预问题,且分层依据更为清晰。
附图说明
[0042]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户数据处理方法,其特征在于,包括以下步骤:获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;基于所述初始洛伦兹曲线获取第一分层点,并根据所述第一分层点获取第一分层数据;获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于所述剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;基于所述重置洛伦兹曲线获取第二分层点,并根据所述第二分层点获取第二分层数据;循环构建重置洛伦兹曲线的步骤,并基于所述重置洛伦兹曲线获取第n分层点,根据所述第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量

1。2.根据权利要求1所述的一种用户数据处理方法,其特征在于,获取初始用户分层指标数据,包括以下步骤:获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将所述用户样本数据进行标准化分层,得到标准化层级;计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和;基于各个层级对应的所述累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据。3.根据权利要求2所述的一种用户数据处理方法,其特征在于,基于所述初始洛伦兹曲线获取第一分层点,包括以下步骤:构建所述初始洛伦兹曲线的绝对平等线;获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。4.根据权利要求2所述的一种用户数据处理方法,其特征在于,还包括以下步骤:获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,所述分层点为第一分层点、第二分层点或第n分层点;基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组所述分层点对应的关键分值指标值作为用户分层指标,并基于所述用户分层指标将所述用户样本数据进行优化分层。5.根据权利要求2所述的一种用户数据处理方法,其特征在于,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的资产管理规模。6.根据权利要求2所述的一种用户数据处理方法,其特征在于,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的活跃度、贡献度以及忠诚度的分值之和。7.一种用户数据处理系统,其特征在...

【专利技术属性】
技术研发人员:王联军沈福恩马平男王有兵
申请(专利权)人:杭州雅拓信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1