The embodiment of the invention discloses a data processing method, a device and a data processing device. Among them, the method comprises: a data processing system to obtain the cumulative weight of the user on each label according to the weight of each label information user behavior data in each historical scene and the history data in the calculation of the ratio between the total weight; the user on each label with the user in all labels on the total the weight, as the cumulative weight distribution on each label of the user; according to the user on the cumulative weight distribution on each label and the scene corresponding to all users on each label total weight distribution, to determine the weight of the user interest on each label; with each label and each label of the user in this scenario the user weight generating interest distribution vector. The embodiment of the invention can highlight the personalized interest of the user and improve the efficiency of the content recommendation.
【技术实现步骤摘要】
一种数据处理方法、装置及设备
本专利技术涉及计算机
,具体涉及一种数据处理方法、装置及设备。
技术介绍
随着网络中内容的爆炸式增长,如何基于用户的兴趣向用户推荐感兴趣的内容是一个亟待解决的问题。为了解决该问题,可以根据用户的反馈、点击阅读等用户行为,结合内容本身的标签属性,统计用户行为在各个标签上的分布,作为内容推荐的依据。然而在实践中发现,热门内容的大量展示和点击往往导致用户行为集中在一些热门标签上,无法突出用户的个性化兴趣,从而导致内容推荐的效率较低。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置及设备,能够突出用户的个性化兴趣,提高内容推荐的效率。本专利技术实施例第一方面提供一种数据处理方法,包括:根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。可选的,针对场景集合中的每个场景,利用所述用户在所述场景下所述每个标签上的兴趣权重、所述用户在所述场景下在所有标签上的总累计权重以及所述用户在所述场景集合中所有场景下的总累计权重,确定所述用户在所述场景下在所述每个标签上的兴趣权重比例;针对每个标签,计算所述用户在所述所有场景下在所述 ...
【技术保护点】
一种数据处理方法,其特征在于,包括:根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对场景集合中的每个场景,利用所述用户在所述场景下所述每个标签上的兴趣权重、所述用户在所述场景下在所有标签上的总累计权重以及所述用户在所述场景集合中所有场景下的总累计权重,确定所述用户在所述场景下在所述每个标签上的兴趣权重比例;针对每个标签,计算所述用户在所述所有场景下在所述标签上的所述兴趣权重比例之和,作为所述用户在所述所有场景下在所述标签上的总兴趣权重;利用所述每个标签以及所述用户在所述每个标签对应的所述总兴趣权重,生成所述用户在所述所有场景下的最终的兴趣分布向量。3.根据权利要求2所述的方法,其特征在于,所述根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重之前,所述方法还包括:根据用户在场景下历史行为数据中每条信息的特征,将所述每条信息量化为标签向量,所述标签向量包括所述每条信息具有的标签以及所述每个标签的权重。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据用户在场景下的历史行为数据以及所述历史行为数据中每条行为信息的各标签的权重获取所述用户在每个标签上的累计权重,包括:针对用户在场景下的历史行为数据中的每条信息,计算所述每条信息的每个标签的权重与所述每条信息对应的历史行为产生时刻距离当前时刻的衰减因子之间的乘积,作为所述每条信息的整体权重;计算所述用户的历史行为对应的所有信息的整体权重之和,作为所述用户在所述每个标签上的累计权重。5.根据权利要求4所述的方法,其特征在于,所述针对用户在场景下的历史行为数据中的每条信息,计算所述每条信息的每个标签的权重与所述每条信息对应的历史行为产生...
【专利技术属性】
技术研发人员:王玉伟,
申请(专利权)人:北京金山安全软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。