一种用户画像构建方法、系统、设备及存储介质技术方案

技术编号:34406175 阅读:22 留言:0更新日期:2022-08-03 21:52
本发明专利技术公开了一种用户画像构建方法、系统、设备及存储介质,S1,获取用户数据;S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。可以将虚假用户有效删除,提高数据的真实性,构建出精准实时的用户画像模型。构建出精准实时的用户画像模型。构建出精准实时的用户画像模型。

【技术实现步骤摘要】
一种用户画像构建方法、系统、设备及存储介质


[0001]本专利技术属于推荐算法领域,涉及一种用户画像构建方法、系统、设备及存储介质。

技术介绍

[0002]“交互设计之父”Alan Cooper提出了用户画像的概念,Alan Cooper认为用户画像是真实用户的虚拟表示,是建立在一系列真实属性数据之上的目标用户模型。用户画像是根据大量用户的真实信息构建用户标签体系,将用户的基础数据、行为数据和兴趣进行特征化处理进而形成虚拟的用户模型,会将一个真实的用户全面、动态的表示出来。用户画像在推荐系统中起着至关重要的作用,一个优秀的用户画像会大大提升推荐系统的推荐效率。用户画像可分为以下四种流派:
[0003](1)用户画像行为流派
[0004]用户画像行为流派根据用户的真实行为数据构建用户画像模型。用户行为数据是指用户在操作某网站时留下来的行为痕迹,比如用户在某电商网站中浏览、点击、加购物车和购买等行为表现。用户画像行为流派通过用户的与系统交互作用时所表现出来的行为数据构建用户画像模型,主要对用户行为数据进行研究。
[0005]国外的研究主要有:Adomavicius等人通过对用户阅读时间和点击率等行为进行构建了用户画像模型,该模型可以有效的分析到用户的行为特征。Svendsen等人认为性格和接受技术程度有很大关系,以性格和接受技术程度作为行为特征构建用户画像模型,该模型可以明显的发现技术接受程度与人的性格之间的关系,发现性格比较内向的人接受技术程度不高,而越外向的人接受技术的程度越高,该模型也可以有效的分析到用户的行为特征。
[0006]国内代表性的研究主要有:何胜等人利用图书馆用户日志数据,从用户的点击、浏览、搜索等行为分析用户的兴趣爱好,可以发现用户的显性兴趣和隐性需求。郑鑫等人利用从网页爬虫CSDN的用户数据,使用用户的交互行为数据构建用户画像模型,并开发了可视化平台,将用户画像模型嵌入可视化平台当中,通过该平台可以为企业招聘提供帮助。
[0007](2)用户画像社交媒体流派
[0008]网络是一个虚拟性的世界,人们通过网络在社交媒体中进行交流、评论、点赞、转发等行为,社交媒体改变了人与人之间交流的方式,也改变了获取信息的方式,人们在社交媒体上可以构建虚拟的社会关系。社交媒体产生的数据很庞大,在社交媒体数据中挖掘有用的信息非常有价值,所以社交媒体用户画像模型研究也是十分火热。
[0009]徐海玲等人使用爬虫软件爬取了豆瓣电影数据,通过分析电影数据、用户基础数据和用户评论数据构建了用户画像组合模型,将豆瓣电影的内部数据和除豆瓣电影的其他电影平台数据进行跨平台数据匹配与聚合,从而提供个性化推荐。赵曙光等人为了保证用户的多样化,随机对五百名用户进行采访,对用户的动机和行为进行分析,对社交互动活跃度、兴趣享乐信息关注取向、行业资讯关注取向、新闻资讯关注取向和自我表达积极性这五个特征进行提取,提高了社交媒体营销效果。
[0010](3)用户画像兴趣流派
[0011]用户画像兴趣流派是根据用户的兴趣爱好、需求、偏好和心理状态等数据构建用户画像模型。国外代表性的研究成果主要有:Li等人使用主题聚类对用户进行标签化,将人以类聚标注这一类人的兴趣实现用户画像的构建。国内代表性的研究成果主要有:吴树芳等人利用微博用户的数据,借鉴生命周期理论对用户兴趣构建函数,使用用户基础数据和兴趣转移的动态标签相结合构建出基于动态的兴趣用户画像模型。唐晓波等人也是利用微博数据,对用户历史微博进行聚类,结合用户的行为特征和交互特征构建用户画像模型。王庆等人利用图书馆馆藏资源数据,收集了用户的浏览日志,通过分析用户的浏览日志构建了单用户和多用户兴趣用户画像模型;
[0012](4)基于本体的用户画像流派
[0013]基于本体的用户画像模型利用本体中定义的结构化概念及其之间关系来刻画用户。国外代表性的研究有:Razmerita等人利用基于本体的用户画像架构对知识管理领域的用户进行研究,并提出来了基于知识管理的移动用户画像模型;Hawalah等人为了提升用户体验,参考本体的概念,将用户兴趣和不同的浏览行为映射到参考本体,将用户的兴趣爱好保存在系统配置文件中,并实时的对用户的行为进行反馈。国内代表性的研究有:陆素梅等人对数字图书馆的数字知识进行领域本体分析与概念聚合,将数字图书馆中稀疏的数据进行规整化,构建基于本体数字图书馆的用户画像模型。
[0014]综上可知,用户画像目前存在以下几点问题:第一,目前用户画像构建依赖人工设计特征标签,难以快速的对用户进行分类和聚类,耗时费力。第二,用户画像主要根据用户和项目的显性数据进行标签化设计,所用机器学习和深度学习技术比较少,难以获取用户和项目的深层含义,而机器学习和深度学习可以获取深层次隐形数据,可以得到用户和项目更好的表征;第三,由于虚拟网络世界和现实世界不同,有些用户会在虚拟网络中创建出一个与现实生活中的自己完全不同的虚拟形象,因此研究者需要严格辨别用户数据的真实性。这对于企业来说是很大的资源浪费。

技术实现思路

[0015]本专利技术的目的在于克服上述现有技术的缺点,提供一种用户画像构建方法、系统、设备及存储介质,可以将虚假用户有效删除,提高数据的真实性,构建出精准实时的用户画像模型。
[0016]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0017]一种用户画像构建方法,包括以下过程:
[0018]S1,获取用户数据;
[0019]S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;
[0020]S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;
[0021]S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;
[0022]S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。
[0023]优选的,S1中,用户数据包括用户基本数据、用户行为数据和物品属性数据。
[0024]进一步,用户基本数据为用户的基本信息;用户行为数据为用户的订单信息;物品
属性数据为该订单所属物品的信息。
[0025]优选的,S1结束进入S2之前,对用户数据进行清洗和过滤。
[0026]优选的,S1结束进入S2之前,对用户数据进行关键词的特征提取。
[0027]优选的,S3中聚类分析的具体过程为:
[0028](1)在嵌入词向量中随机取k个用户,作为k个初始聚类中心用户u=u1,u2,u3,...uk,;
[0029](2)对于嵌入词向量中的除了聚类中心用户u的每一个用户xi,分别计算xi到k个初始聚类用户u的欧氏距离,将距离小于阈值的xi分给相应的聚类中心u中;
[0030](3)对每一个聚类中心重新计算中心用户u,根据新的聚类中心用户使用步骤(2)重新聚类;
[0031](4)重复步骤(2)和步骤(3),直到新的聚类中心用户和旧的聚类中心用户相同就结束循本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户画像构建方法,其特征在于,包括以下过程:S1,获取用户数据;S2,采用词嵌入模型对用户数据进行处理,得到嵌入词向量;S3,使用Kmeans聚类算法对嵌入词向量进行聚类分析,得到聚类结果;S4,使用KNN模型对嵌入词向量中的匿名用户分类,并打上对应的标签,得到所有用户的标签;S5,根据嵌入词向量、聚类结果和用户的标签,构建出用户画像模型。2.根据权利要求1所述的用户画像构建方法,其特征在于,S1中,用户数据包括用户基本数据、用户行为数据和物品属性数据。3.根据权利要求2所述的用户画像构建方法,其特征在于,用户基本数据为用户的基本信息;用户行为数据为用户的订单信息;物品属性数据为该订单所属物品的信息。4.根据权利要求1所述的用户画像构建方法,其特征在于,S1结束进入S2之前,对用户数据进行清洗和过滤。5.根据权利要求1所述的用户画像构建方法,其特征在于,S1结束进入S2之前,对用户数据进行关键词的特征提取。6.根据权利要求1所述的用户画像构建方法,其特征在于,S3中聚类分析的具体过程为:(1)在嵌入词向量中随机取k个用户,作为k个初始聚类中心用户u=u1,u2,u3,...uk,;(2)对于嵌入词向量中的除了聚类中心用户u的每一个用户xi,分别计算xi到k个初始聚类用户u的欧氏距离,将距离小于阈值的xi分给相应的聚类中心u中;(3)对每一个聚类中心重新计算中心用户u,根据新的聚类中心用户使用步骤(2)重新聚类;(4)重复步骤(2)和步骤(3),直到新的聚类中心用户和旧的聚类中心用户相...

【专利技术属性】
技术研发人员:刘江伟叶娜张翔
申请(专利权)人:西安建筑科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1