目标用户群体识别的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35858940 阅读:12 留言:0更新日期:2022-12-07 10:47
本发明专利技术涉及一种目标用户群体识别的方法,该方法包括步骤:S1、采集某产品的订购数据并将已订购该产品的用户标记为标签数据,从信令汇聚平台采集固定期限内的信令数据;S2、使用Spark框架将S1得到的信令数据集进行清洗、转换得到特征数据集;S3、数据预处理,整合标签数据集和特征数据集,得到包含特征和标签的数据集,并划分为训练集和测试集;S4、使用随机森林算法建模、训练、调优,得到特征重要性排名;S5、用户分群;S6、用户分群画像,结合步骤S4和步骤S5得到的各群组的重要特征的取值范围、已订购用户占比,对群组进行描述;S7、结合业务经验,确定出符合营销条件的用户群组及其特征变量阈值;S8、运算出符合营销条件的目标用户及其所属群组。所属群组。所属群组。

【技术实现步骤摘要】
目标用户群体识别的方法、装置、电子设备及存储介质


[0001]本专利技术涉及网络通信技术、大数据技术和机器学习算法建模领域,具体而言,涉及一种基于大数据技术和多种机器学习算法的目标用户群体识别的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着技术的发展,目前,通信运营商也不断完善和为用户提供新功能,例如天翼通信助理。天翼通信助理是基于中国电信的互联网及通讯网络能力,向用户提供漏话提醒、智能应答等服务的产品。现有的通信助理产品的营销方式是向用户下发短信,如果不进行用户识别,而是广撒网似的群发短信,这样既骚扰了没有该产品需求的用户,又浪费了营销成本。
[0003]因此,如何识别目标用户、进行个性化营销成为目前急需要解决的问题。

技术实现思路

[0004]本专利技术要解决的技术问题是未进行目标用户群体识别而广发营销短信时,从而产生客户投诉率高、营销成本高的问题。
[0005]为解决上述技术问题,根据本专利技术的一个方面,提供一种目标用户群体识别的方法,该方法基于大数据技术和机器学习算法进行运算并识别出符合营销条件的目标用户群体,方法包括如下步骤:S1、数据采集,使用Sqoop(SQL

to

Hadoop,用于协助RDBMS与Hadoop之间进行高效的大数据交流)从CRM(客户关系管理系统)系统采集某产品的订购数据,将当前已订购该产品的用户标记为标签数据,使用Kafka(一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据)从信令汇聚平台采集固定期限内的信令数据,标签数据形成标签数据集,信令数据形成信令数据集;S2、特征工程,使用Spark框架(一种大数据框架)将S1得到的信令数据集进行清洗、转换得到特征数据集;S3、数据预处理,整合步骤S1得到的标签数据集和步骤S2得到的特征数据集,得到包含特征和标签的数据集,将此数据集按7:3比例划分为训练集和测试集,其中,由于已订购用户数量远小于产生信令的用户数据量,导致数据集中样本分布不均衡,因此对训练集使用SMOTE Tomek综合采样算法,解决样本不均衡的问题;S4、评估特征重要性,基于步骤S3得到的训练集和测试集,使用随机森林算法建模、训练、调优,得到特征重要性排名;S5、用户分群,将步骤S3得到的训练集和测试集数据做归一化处理后,再使用K

means算法(K均值聚类算法)建模、训练、调优,将用户分成多个群组;S6、用户分群画像,结合步骤S4得到的重要程度较高的特征,观察步骤S5得到的各群组的重要特征的取值范围、已订购用户占比,对群组进行描述,为每个群组设计个性化营销话术;S7、参考步骤S6得到的已订购用户占比较高的几个群组的特征变量取值范围,结合业务经验,确定出符合营销条件的用户群组及其特征变量阈值;S8、基于步骤S7得到的特征变量阈值,运算出符合营销条件的目标用户及其所属群组。
[0006]根据本专利技术的实施例,目标用户群体识别的方法还可包括如下步骤:S9、将步骤S8
得到的目标用户信息应用于产品营销场景中。
[0007]根据本专利技术的实施例,目标用户群体识别的方法还可包括如下步骤:S10、在产品营销过程中,持续向营销人员收集用户反馈数据、向客服人员收集用户投诉数据,用于更新模型的标签数据集、调整S7中的阈值,形成闭环。
[0008]根据本专利技术的实施例,用户反馈数据和用户投诉数据还可用于优化步骤S3中的标签数据。
[0009]根据本专利技术的实施例,步骤S1中,可将已订购该产品的用户作为标签值为1的标签数据;使用Kafka从信令汇聚平台采集近30天的信令数据。
[0010]根据本专利技术的实施例,步骤S5中,归一化处理可基于训练集的均值和标准差对训练集和测试集进行Z

score归一化,使得数据符合标准正态分布,取值范围为0~1,便于K

means聚类算法基于距离进行用户分群。
[0011]根据本专利技术的实施例,步骤S5中,可使用K

means算法建模将用户分为多个群组,K的确定方法为依次代入1到20,计算SSE残差平方和,残差平方和为所有点到相应簇中心的距离均值;随着K值的增大,当SSE的减幅趋于平稳时,得到合理的K值。
[0012]根据本专利技术的第二个方面,提供一种目标用户群体识别的装置,包括:数据采集模块,用于通过Sqoop从CRM系统采集某产品的订购数据,将当前已订购该产品的用户标记为标签数据,使用Kafka从信令汇聚平台采集固定期限内的信令数据,标签数据形成标签数据集,信令数据形成信令数据集;特征工程模块,用于通过Spark框架将由数据采集模块得到的信令数据集进行清洗、转换得到特征数据集;数据预处理模块,用于整合数据采集模块得到的标签数据集和特征工程模块得到的特征数据集,得到包含特征和标签的数据集,将此数据集按7:3比例划分为训练集和测试集,其中,由于已订购用户数量远小于产生信令的用户数据量,导致数据集中样本分布不均衡,因此对训练集使用SMOTE Tomek综合采样算法,解决样本不均衡的问题;评估特征重要性模块,用于基于数据预处理模块得到的训练集和测试集,使用随机森林算法建模、训练、调优,得到特征重要性排名;用户分群模块,用于将数据预处理模块得到的训练集和测试集数据做归一化处理后,再使用K

means算法建模、训练、调优,将用户分成多个群组;用户分群画像模块,用于结合评估特征重要性模块得到的重要程度较高的特征,观察用户分群模块得到的各群组的重要特征的取值范围、已订购用户占比,对群组进行描述,为每个群组设计个性化营销话术;确定阈值模块,用于参考用户分群画像模块得到的已订购用户占比较高的几个群组的特征变量取值范围,结合业务经验,确定出符合营销条件的用户群组及其特征变量阈值;输出模块,用于基于确定阈值模块得到的特征变量阈值,运算和输出符合营销条件的目标用户及其所属群组。
[0013]根据本专利技术的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的目标用户群体识别程序,目标用户群体识别程序被处理器执行时实现上述的目标用户群体识别方法的步骤。
[0014]根据本专利技术的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有目标用户群体识别程序,目标用户群体识别程序被处理器执行时实现上述的目标用户群体识别方法的步骤。
[0015]与现有技术相比,本专利技术的实施例所提供的技术方案至少可实现如下有益效果:
[0016]1)本专利技术从基站产生的信令数据开始,使用Kafka、Sqoop采集数据,使用Spark清
洗数据,使用随机森林算法、K

means算法建模,将机器学习模型与经验模型结合,最终输出目标用户及其群组特征应用于营销场景。是一套适用于通信行业2C产品的通用的端到端的技术方案。
[0017]2)本专利技术对训练集使用SMOTE TomeK综合采样算法,由于已订购用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标用户群体识别的方法,所述方法基于大数据技术和机器学习算法进行运算并识别出符合营销条件的目标用户群体,所述方法包括如下步骤:S1、数据采集,使用Sqoop从CRM系统采集某产品的订购数据,将当前已订购该产品的用户标记为标签数据,使用Kafka从信令汇聚平台采集固定期限内的信令数据,所述标签数据形成标签数据集,所述信令数据形成信令数据集;S2、特征工程,使用Spark框架将S1得到的信令数据集进行清洗、转换得到特征数据集;S3、数据预处理,整合步骤S1得到的标签数据集和步骤S2得到的特征数据集,得到包含特征和标签的数据集,将此数据集按7:3比例划分为训练集和测试集,其中,由于已订购用户数量远小于产生信令的用户数据量,导致数据集中样本分布不均衡,因此对训练集使用SMOTE Tomek综合采样算法,解决样本不均衡的问题;S4、评估特征重要性,基于步骤S3得到的训练集和测试集,使用随机森林算法建模、训练、调优,得到特征重要性排名;S5、用户分群,将步骤S3得到的训练集和测试集数据做归一化处理后,再使用K

means算法建模、训练、调优,将用户分成多个群组;S6、用户分群画像,结合步骤S4得到的重要程度较高的特征,观察步骤S5得到的各群组的重要特征的取值范围、已订购用户占比,对群组进行描述,为每个群组设计个性化营销话术;S7、参考步骤S6得到的已订购用户占比较高的几个群组的特征变量取值范围,结合业务经验,确定出符合营销条件的用户群组及其特征变量阈值;S8、基于步骤S7得到的特征变量阈值,运算出符合营销条件的目标用户及其所属群组。2.如权利要求1所述的方法,还包括如下步骤:S9、将步骤S8得到的目标用户信息应用于产品营销场景中。3.如权利要求2所述的方法,还包括如下步骤:S10、在产品营销过程中,持续向营销人员收集用户反馈数据、向客服人员收集用户投诉数据,用于更新模型的标签数据集、调整S7中的阈值,形成闭环。4.如权利要求3所述的方法,其中,所述用户反馈数据和所述用户投诉数据还用于优化步骤S3中的标签数据。5.如权利要求1所述的方法,其中,步骤S1中,将已订购该产品的用户作为标签值为1的标签数据;使用Kafka从信令汇聚平台采集近30天的信令数据。6.如权利要求1所述的方法,其中,步骤S5中,所述归一化处理是基于训练集的均值和标准差对训练集和测试集进行Z

score归一化,使得数据符合标准正态分布,取值范围为0~1,便于K

...

【专利技术属性】
技术研发人员:赵双一顾清林少丽段巍巍谢航飞雷向阳王荣辉王华超
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1