一种构建用户画像信息的方法、装置及电子设备制造方法及图纸

技术编号:37584207 阅读:10 留言:0更新日期:2023-05-15 07:57
本发明专利技术提供一种构建用户画像信息的方法、装置及电子设备,该方法包括:获取特定用户集合对应的用户数据集合,其中,用户数据集合中的每条数据唯一对应于特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;从多个特征中选取部分特征作为聚类特征;基于所选取的聚类特征进行聚类处理,将特定用户集合分为多个用户族群;从多个特征中选取画像发现特征;分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据得分确定每个用户族群对应的画像信息;输出每个用户族群对应的画像信息。个用户族群对应的画像信息。个用户族群对应的画像信息。

【技术实现步骤摘要】
一种构建用户画像信息的方法、装置及电子设备
[0001]本申请是申请日为2019年7月16日、申请号为201910641681.2、题为“一种构建用户画像信息的方法、装置及电子设备”的专利申请的分案申请。


[0002]本专利技术涉及互联网
,更具体地,涉及一种构建用户画像信息的方法、一种构建用户画像信息的装置、一种电子设备、及一种可读存储介质。

技术介绍

[0003]在互联网时代,每天都会产生大量的用户数据。这些用户数据包含了不同用户的特点。利用合适的方法对大量的用户数据进行分析,来构建出合适的用户画像信息,从而根据用户画像信息针对每个用户制定出个性化产品推荐策略。
[0004]目前构建用户画像信息的常用的方法是通过专家规则来构建用户画像信息。该方法的优点是可以通过人类主观想法随时调整规则。但是该方法也存在一些缺点,包括:设计合理的专家规则需要丰富的行业经验;而且由于人类的局限性,不能同时对多维度的大数据进行分析,可能会漏掉很多有用的信息,导致构建的用户画像信息准确度较低。

技术实现思路

[0005]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
[0006]根据本专利技术的第一方面,提供了一种构建用户画像信息的方法,包括:
[0007]获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;
[0008]从所述多个特征中选取部分特征作为聚类特征;
[0009]基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;
[0010]从所述多个特征中选取画像发现特征;
[0011]分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;
[0012]输出每个用户族群对应的画像信息。
[0013]可选的,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群包括:
[0014]为所述特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;
[0015]采用聚类算法,根据所述用户聚类样本集合对所述特定用户集合中的用户进行聚类处理,得到多个用户族群。
[0016]可选的,所述获取特定用户集合对应的用户数据集合包括:
[0017]获取关于所述特定用户集合的多个数据表;
[0018]以用户标识作为主键,将所述多个数据表拼接为一个宽表;其中,所述宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,所述宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。
[0019]可选的,从所述多个特征中选取部分特征作为聚类特征的方法为以下任意一种或多种:
[0020]从所述多个特征中选取空值率小于或等于设定值的特征,作为所述聚类特征;
[0021]从所述多个特征中选取满足业务需求的部分特征,作为所述聚类特征,其中,所述业务是应用所述画像信息进行决策的业务;
[0022]从所述多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将所述新的特征作为所述聚类特征;
[0023]从所述多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将所述代表特征作为所述聚类特征。
[0024]可选的,所述用户数据集合为以用户标识作为主键的宽表;
[0025]当从所述多个特征中选取空值率小于设定值的特征时,该方法还包括如下计算特征空值率的步骤:
[0026]根据所述宽表,获得用户的总数量,作为第一数量;
[0027]根据所述宽表,分别获得每个特征的特征值为空的用户的数量,作为每个特征对应的第二数量;
[0028]分别确定每个特征对应的第二数量和所述第一数量的比值,作为每个特征的空值率。
[0029]可选的,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群的步骤包括:
[0030]根据所述聚类特征的特征值,确定每两个用户之间的欧式距离;
[0031]根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群。
[0032]可选的,所述用户族群的数量为设定数量;
[0033]所述根据每两个用户之间的欧式距离对所述特定用户集合中的用户进行聚类,得到多个所述用户族群的步骤包括:
[0034]选取欧式距离最大的设定数量个用户,分别作为每个用户族群的初始中心;
[0035]将其他用户划分至与对应的初始中心之间的欧式距离最近的用户族群中;其中,所述其他用户为所述特定用户集合中除所述设定数量个用户以外的用户。
[0036]可选的,所述从所述多个特征中选取画像发现特征的步骤包括:
[0037]将所述多个特征均作为所述画像发现特征。
[0038]可选的,所述分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分的步骤包括:
[0039]对于每个画像发现特征,分别确定每个用户族群中的用户在该画像发现特征上的平均特征值,作为每个用户族群在该画像发现特征上的第一平均值;
[0040]对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的
平均值,作为该画像发现特征的第二平均值;
[0041]对于每个画像发现特征,计算各用户族群在该画像发现特征上的各第一平均值的标准差,作为该画像发现特征的标准差;
[0042]对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分。
[0043]可选的,所述对于每个用户族群,根据该用户族群在每个画像发现特征上的第一平均值、以及对应的画像发现特征的第二平均值和标准差,得到该用户族群在每个画像发现特征上的得分的步骤包括:
[0044]对于每个用户族群,分别确定该用户族群在每个画像发现特征上的第一平均值、与对应的画像发现特征的第二平均值之间的差值,作为该用户族群在每个画像发现特征上的差值;
[0045]对于每个用户族群,分别确定该用户族群在每个画像发现特征上的差值、及对应的画像发现特征的标准差之间的比值,作为该用户族群在对应画像发现特征上的得分。
[0046]可选的,所述根据所述得分确定每个用户族群对应的画像信息的步骤包括:
[0047]对于每个用户族群,确定对应的得分超过设定范围的画像发现特征,作为该用户族群的目标画像特征,并根据该用户族群的目标画像特征和对应的得分,得到该用户族群对应的画像信息。
[0048]可选的,所述方法还包括:
[0049]获取每个用户族群的聚类中心;
[0050]获取新用户的新数据,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建用户画像信息的方法,其特征在于,包括:获取特定用户集合对应的用户数据集合,其中,所述用户数据集合中的每条数据唯一对应于所述特定用户集合中的一个用户,且每条数据包括多个特征分别对应的特征值;从所述多个特征中选取部分特征作为聚类特征;基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群;从所述多个特征中选取画像发现特征;分别针对每个画像发现特征,计算各用户族群在该画像发现特征上的得分,并根据所述得分确定每个用户族群对应的画像信息;输出每个用户族群对应的画像信息。2.根据权利要求1所述的方法,其特征在于,所述基于所选取的聚类特征进行聚类处理,将所述特定用户集合分为多个用户族群包括:为所述特定用户集合中的每个用户构建由各聚类特征对应的特征值组成的样本,得到用户聚类样本集合;采用聚类算法,根据所述用户聚类样本集合对所述特定用户集合中的用户进行聚类处理,得到多个用户族群。3.根据权利要求1所述的方法,其特征在于,所述获取特定用户集合对应的用户数据集合包括:获取关于所述特定用户集合的多个数据表;以用户标识作为主键,将所述多个数据表拼接为一个宽表;其中,所述宽表的每一行对应一个用户,除用户标识以外的每一列对应一个特征;或者,所述宽表的每一列对应一个用户,除用户标识以外的每一行对应一个特征。4.根据权利要求1所述的方法,其特征在于,从所述多个特征中选取部分特征作为聚类特征的方法为以下任意一种或多种:从所述多个特征中选取空值率小于或等于设定值的特征,作为所述聚类特征;从所述多个特征中选取满足业务需求的部分特征,作为所述聚类特征,其中,所述业务是应用所述画像信息进行决策的业务;从所述多个特征中选取至少一组类型重复的特征,分别合并每组类型重复的特征得到新的特征,将所述新的特征作为所述聚类特征;从所述多个特征中选取至少一组类型重复的特征,分别从每组类型重复的特征中选取一个代表特征,将所述代表特征作为所述聚类特征。5.根据权利要求4所述的方法,其特征在于,所述用户数据集合为以用户标识作为主键的宽表;当从所述多个特征中选取空值率小于设定值的特征时,该方法还包括如下计算特征空...

【专利技术属性】
技术研发人员:刘正夫周振华陈浩李楚桐张孝丹
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1