基于多源数据的用户画像构建方法、设备、介质及产品技术

技术编号：43438952 阅读：17 留言：0更新日期：2024-11-27 12:45

本申请公开了一种基于多源数据的用户画像构建方法、设备、介质及产品，涉及大数据技术领域，基于多源数据的用户画像构建方法包括：采集目标群体的流量数据、通话数据、短信数据、位置数据以及终端设备数据；根据流量数据、通话数据、短信数据、位置数据以及终端设备数据，构建分别对应的多个特征向量，其中，特征向量至少包括流量信息、活跃信息、偏好信息、消费信息、位置信息以及时段信息中的一种；将目标群体中目标用户对应的各特征向量输入预设的用户画像模型，通过用户画像模型构建得到目标用户的用户画像。本申请的技术方案充分整合和挖掘了来自不同源头的数据进行构建用户画像，提高了用户画像的精准度和深度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大数据，尤其涉及基于多源数据的用户画像构建方法、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

1、在互联网营销场景中，用户画像是一种十分重要的，用于理解用户行为、需求和偏好的手段，能帮助企业更好地了解其目标用户群体，并据此制定针对性的营销策略、产品设计和服务改进计划，提高成交率和用户体验。

2、目前，用户画像的构建通常依赖于对网络流量的深入分析与传统机器学习算法（如决策树、随机森林）的应用。由于数据来源较为单一，所以在对用户行为理解和画像时受到的局限性较大，导致构建的用户画像精准度不足。而且网络流量只能体现一方面的用户行为特征，难以捕捉用户更精细的行为特征，得到的用户画像较为单薄，不足以支持个性化服务和精准营销的需求。

3、上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本申请的主要目的在于提供一种基于多源数据的用户画像构建方法、电子设备、计算机可读存储介质及计算机程序产品，旨在解决目前的用户画像构建方案中对用户行为特征刻画的精准度和深度不足的技术问题。

2、为实现上述目的，本申请提出一种基于多源数据的用户画像构建方法，所述的基于多源数据的用户画像构建方法包括：

3、采集目标群体的流量数据、通话数据、短信数据、位置数据以及终端设备数据；

4、根据所述流量数据、所述通话数据、所述短信数据、所述位置数据以及所述终端设备数据，构建分别对应的多个特征向量，其中，所述

5、将所述目标群体中目标用户对应的各特征向量输入预设的用户画像模型，通过所述用户画像模型构建得到所述目标用户的用户画像。

6、在一实施例中，所述采集目标群体的流量数据的步骤包括：

7、通过部署在网络节点的深度包检测设备持续获取网络数据包；

8、基于预设的时间窗口，通过预训练的数据分类模型对各所述网络数据包中的流量数据进行分类，获得数据分类结果；

9、根据所述目标群体对应的过滤规则和所述数据分类结果，对所述网络数据包中的流量数据进行过滤，获得所述目标群体的流量数据。

10、在一实施例中，在所述获得所述目标群体的流量数据的步骤之后，所述方法还包括：

11、根据所述流量数据在预设的时间窗口内的误捕获数量和误过滤数量，计算损失函数值；

12、以优化所述损失函数值为目标，调整所述过滤规则，得到优化后的过滤规则，并基于优化后的过滤规则对当前的过滤规则进行更新；

13、根据所述网络数据包的实时流量，调整所述时间窗口的长度，其中，当所述实时流量越高时，对应的时间窗口的长度越短。

14、在一实施例中，在所述获得所述目标群体的流量数据的步骤之后，所述方法还包括：

15、采集所述时间窗口内流量数据中的预设特征量，其中，所述预设特征量至少包括始末包的时间间隔、数据包数量、字节数量、数据包平均容量、数据传输速率中的一种；

16、将各所述预设特征量与预设的正常流量模型进行比较，得到特征偏差值；

17、当所述特征偏差值大于预设阈值时，判定所述时间窗口的流量数据为异常流量，并执行预设的预警手段。

18、在一实施例中，在所述采集目标群体的流量数据、通话数据、短信数据、位置数据以及终端设备数据的步骤之后，所述方法还包括：

19、将采集到的多源数据输入预设的数据接入模型，并通过预设的转换函数对所述多源数据进行标准化处理，得到标准化后的多源数据，其中，所述多源数据包括所述流量数据、所述通话数据、所述短信数据、所述位置数据以及所述终端设备数据；

20、对标准化后的多源数据进行预处理，得到预处理后的多源数据，其中，所述预处理至少包括去重、填补以及修正中的一种；

21、将具有相同身份标识或设备标识的预处理后的多源数据分类为属于同一分群用户，得到多个分群用户及各所述分群用户分别对应的多源数据；

22、或，从预处理后的多源数据中提取特征数据，根据各所述特征数据之间的相似程度确定多个分群用户及各所述分群用户分别对应的多源数据；

23、将各所述分群用户及对应的多源数据以映射表形式存储到数据库中，其中，在所述映射表中，每个分群用户与全局唯一标识符一一对应。

24、在一实施例中，所述从预处理后的多源数据中提取特征数据，根据各所述特征数据之间的相似程度确定多个分群用户及各所述分群用户分别对应的多源数据的步骤包括：

25、从所述流量数据中提取应用类型、协议类型和流量消耗，得到所述流量数据对应的特征数据；

26、从所述通话数据中提取呼叫时长、呼叫类型以及呼叫始末时间，得到所述通话数据对应的特征数据；

27、从所述短信数据中提取短信类型、发送时间和短信内容，得到所述短信数据对应的特征数据；

28、从所述位置数据中提取位置坐标、定位方式以及时间戳，得到所述位置数据对应的特征数据；

29、从所述终端设备数据中提取设备型号、操作系统、设备首次使用时间和最后活跃时间，得到所述终端设备数据对应的特征数据；

30、将各所述特征数据分别进行向量化处理，得到对应的特征向量；

31、基于预设的多个分组标签和各所述分组标签的相关特征向量，对各所述特征向量进行聚类分析，得到各所述多源数据分别对应的分组标签；

32、基于各所述分组标签之间的相似程度，将各所述多源数据进行归类，得到多个分群用户及各所述分群用户分别对应的多源数据。

33、在一实施例中，所述活跃信息至少包括社交活跃度和视频活跃度，所述偏好信息至少包括应用偏好信息、设备偏好信息以及社交偏好信息；

34、所述根据所述流量数据、所述通话数据、所述短信数据、所述位置数据以及所述终端设备数据，构建分别对应的多个特征向量的步骤包括：

35、根据所述流量数据，确定流量信息，其中，所述流量包括预设周期内的总流量和日均流量；

36、根据所述流量数据中的社交应用使用时长和社交应用访问次数，计算社交活跃度；

37、根据所述流量数据中的视频应用使用时长和视频应用访问次数，计算视频活跃度；

38、将所述流量数据中的应用使用数据、所述终端设备数据、所述流量数据中的社交应用使用数据分别输入对应的用户行为预测模型，得到应用偏好信息、设备偏好信息以及社交偏好信息，其中，所述用户行为预测模型包括应用偏好预测模型、设备偏好预测模型以及社交偏好预测模型；

39、分析所述流量数据、所述通话数据以及所述短信数据中的费用信息、应用购买信息以及服务购买信息，确定消费信息；

40、从所述位置数据中提取对应的活动区域范围，得到位置信息；

41、分析所述流量数据中的上网日志的起始时间点，确定本文档来自技高网...

【技术保护点】

1.一种基于多源数据的用户画像构建方法，其特征在于，所述基于多源数据的用户画像构建方法包括：

2.如权利要求1所述的基于多源数据的用户画像构建方法，其特征在于，所述采集目标群体的流量数据的步骤包括：

3.如权利要求2所述的基于多源数据的用户画像构建方法，其特征在于，在所述获得所述目标群体的流量数据的步骤之后，所述方法还包括：

4.如权利要求2所述的基于多源数据的用户画像构建方法，其特征在于，在所述获得所述目标群体的流量数据的步骤之后，所述方法还包括：

5.如权利要求1所述的基于多源数据的用户画像构建方法，其特征在于，在所述采集目标群体的流量数据、通话数据、短信数据、位置数据以及终端设备数据的步骤之后，所述方法还包括：

6.如权利要求5所述的基于多源数据的用户画像构建方法，其特征在于，所述从预处理后的多源数据中提取特征数据，根据各所述特征数据之间的相似程度确定多个分群用户及各所述分群用户分别对应的多源数据的步骤包括：

7.如权利要求1至6任一项所述的基于多源数据的用户画像构建方法，其特征在于，所述活跃信息至少包

8.一种电子设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如权利要求1至7中任一项所述的基于多源数据的用户画像构建方法的步骤。

9.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多源数据的用户画像构建方法的步骤。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多源数据的用户画像构建方法的步骤。

...

【技术特征摘要】

1.一种基于多源数据的用户画像构建方法，其特征在于，所述基于多源数据的用户画像构建方法包括：

2.如权利要求1所述的基于多源数据的用户画像构建方法，其特征在于，所述采集目标群体的流量数据的步骤包括：

3.如权利要求2所述的基于多源数据的用户画像构建方法，其特征在于，在所述获得所述目标群体的流量数据的步骤之后，所述方法还包括：

4.如权利要求2所述的基于多源数据的用户画像构建方法，其特征在于，在所述获得所述目标群体的流量数据的步骤之后，所述方法还包括：

6.如权利要求5所述的基于多源数据的用户画像构建方法，其特征在于，所述从预处理后的多源数据中提取特征数据，根据各所述特征数据之间的相似程度确定多个分群用户及各所述分...

【专利技术属性】
技术研发人员：孟浩，朱赟，蒋家驹，周泉，
申请(专利权)人：中国移动紫金江苏创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人