目标用户群体识别的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35858940 阅读：12 留言：0更新日期：2022-12-07 10:47

本发明专利技术涉及一种目标用户群体识别的方法，该方法包括步骤：S1、采集某产品的订购数据并将已订购该产品的用户标记为标签数据，从信令汇聚平台采集固定期限内的信令数据；S2、使用Spark框架将S1得到的信令数据集进行清洗、转换得到特征数据集；S3、数据预处理，整合标签数据集和特征数据集，得到包含特征和标签的数据集，并划分为训练集和测试集；S4、使用随机森林算法建模、训练、调优，得到特征重要性排名；S5、用户分群；S6、用户分群画像，结合步骤S4和步骤S5得到的各群组的重要特征的取值范围、已订购用户占比，对群组进行描述；S7、结合业务经验，确定出符合营销条件的用户群组及其特征变量阈值；S8、运算出符合营销条件的目标用户及其所属群组。所属群组。所属群组。

全部详细技术资料下载

【技术实现步骤摘要】
目标用户群体识别的方法、装置、电子设备及存储介质

[0001]本专利技术涉及网络通信技术、大数据技术和机器学习算法建模领域，具体而言，涉及一种基于大数据技术和多种机器学习算法的目标用户群体识别的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着技术的发展，目前，通信运营商也不断完善和为用户提供新功能，例如天翼通信助理。天翼通信助理是基于中国电信的互联网及通讯网络能力，向用户提供漏话提醒、智能应答等服务的产品。现有的通信助理产品的营销方式是向用户下发短信，如果不进行用户识别，而是广撒网似的群发短信，这样既骚扰了没有该产品需求的用户，又浪费了营销成本。
[0003]因此，如何识别目标用户、进行个性化营销成为目前急需要解决的问题。

技术实现思路

[0004]本专利技术要解决的技术问题是未进行目标用户群体识别而广发营销短信时，从而产生客户投诉率高、营销成本高的问题。
[0005]为解决上述技术问题，根据本专利技术的一个方面，提供一种目标用户群体识别的方法，该方法基于大数据技术和机器学习算法进行运算并识别出符合营销条件的目标用户群体，方法包括如下步骤：S1、数据采集，使用Sqoop(SQL
‑
to
‑
Hadoop，用于协助RDBMS与Hadoop之间进行高效的大数据交流)从CRM(客户关系管理系统)系统采集某产品的订购数据，将当前已订购该产品的用户标记为标签数据，使用Kafka(一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作...

【技术保护点】

【技术特征摘要】
1.一种目标用户群体识别的方法，所述方法基于大数据技术和机器学习算法进行运算并识别出符合营销条件的目标用户群体，所述方法包括如下步骤：S1、数据采集，使用Sqoop从CRM系统采集某产品的订购数据，将当前已订购该产品的用户标记为标签数据，使用Kafka从信令汇聚平台采集固定期限内的信令数据，所述标签数据形成标签数据集，所述信令数据形成信令数据集；S2、特征工程，使用Spark框架将S1得到的信令数据集进行清洗、转换得到特征数据集；S3、数据预处理，整合步骤S1得到的标签数据集和步骤S2得到的特征数据集，得到包含特征和标签的数据集，将此数据集按7：3比例划分为训练集和测试集，其中，由于已订购用户数量远小于产生信令的用户数据量，导致数据集中样本分布不均衡，因此对训练集使用SMOTE Tomek综合采样算法，解决样本不均衡的问题；S4、评估特征重要性，基于步骤S3得到的训练集和测试集，使用随机森林算法建模、训练、调优，得到特征重要性排名；S5、用户分群，将步骤S3得到的训练集和测试集数据做归一化处理后，再使用K
‑
means算法建模、训练、调优，将用户分成多个群组；S6、用户分群画像，结合步骤S4得到的重要程度较高的特征，观察步骤S5得到的各群组的重要特征的取值范围、已订购用户占比，对群组进行描述，为每个群组设计个性化营销话术；S7、参考步骤S6得到的已订购用户占比较高的几个群组的特征变量取值范围，结合业务经验，确定出符合营销条件的用户群组及其特征变量阈值；S8、基于步骤S7得到的特征变量阈值，运算出符合营销条件的目标用户及其所属群组。2.如权利要求1所述的方法，还包括如下步骤：S9、将步骤S8得到的目标用户信息应用于产品营销场景中。3.如权利要求2所述的方法，还包括如下步骤：S10、在产品营销过程中，持续向营销人员收集用户反馈数据、向客服人员收集用户投诉数据，用于更新模型的标签数据集、调整S7中的阈值，形成闭环。4.如权利要求3所述的方法，其中，所述用户反馈数据和所述用户投诉数据还用于优化步骤S3中的标签数据。5.如权利要求1所述的方法，其中，步骤S1中，将已订购该产品的用户作为标签值为1的标签数据；使用Kafka从信令汇聚平台采集近30天的信令数据。6.如权利要求1所述的方法，其中，步骤S5中，所述归一化处理是基于训练集的均值和标准差对训练集和测试集进行Z
‑
score归一化，使得数据符合标准正态分布，取值范围为0～1，便于K
‑
...

【专利技术属性】
技术研发人员：赵双一，顾清，林少丽，段巍巍，谢航飞，雷向阳，王荣辉，王华超，
申请(专利权)人：号百信息服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人