一种数据处理方法、装置及设备制造方法及图纸

技术编号:15329778 阅读:58 留言:0更新日期:2017-05-16 13:22
本发明专利技术实施例公开了一种数据处理方法、装置及设备。其中,该方法包括:数据处理系统根据用户在场景下的历史行为数据以及该历史行为数据中每条信息的各标签的权重获取该用户在每个标签上的累计权重;计算该用户在每个标签上的累计权重与该用户在所有标签上的总累计权重之间的比值,作为该用户在每个标签的累计权重分布;根据该用户在该每个标签上的累计权重分布以及该场景下所有用户在每个标签上对应的总累计权重分布,确定该用户在每个标签上的兴趣权重;利用每个标签以及每个标签上该用户的兴趣权重生成该场景下该用户的兴趣分布向量。实施本发明专利技术实施例,能够突出用户的个性化兴趣,提高内容推荐的效率。

Data processing method, device and equipment

The embodiment of the invention discloses a data processing method, a device and a data processing device. Among them, the method comprises: a data processing system to obtain the cumulative weight of the user on each label according to the weight of each label information user behavior data in each historical scene and the history data in the calculation of the ratio between the total weight; the user on each label with the user in all labels on the total the weight, as the cumulative weight distribution on each label of the user; according to the user on the cumulative weight distribution on each label and the scene corresponding to all users on each label total weight distribution, to determine the weight of the user interest on each label; with each label and each label of the user in this scenario the user weight generating interest distribution vector. The embodiment of the invention can highlight the personalized interest of the user and improve the efficiency of the content recommendation.

【技术实现步骤摘要】
一种数据处理方法、装置及设备
本专利技术涉及计算机
,具体涉及一种数据处理方法、装置及设备。
技术介绍
随着网络中内容的爆炸式增长,如何基于用户的兴趣向用户推荐感兴趣的内容是一个亟待解决的问题。为了解决该问题,可以根据用户的反馈、点击阅读等用户行为,结合内容本身的标签属性,统计用户行为在各个标签上的分布,作为内容推荐的依据。然而在实践中发现,热门内容的大量展示和点击往往导致用户行为集中在一些热门标签上,无法突出用户的个性化兴趣,从而导致内容推荐的效率较低。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置及设备,能够突出用户的个性化兴趣,提高内容推荐的效率。本专利技术实施例第一方面提供一种数据处理方法,包括:根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。可选的,针对场景集合中的每个场景,利用所述用户在所述场景下所述每个标签上的兴趣权重、所述用户在所述场景下在所有标签上的总累计权重以及所述用户在所述场景集合中所有场景下的总累计权重,确定所述用户在所述场景下在所述每个标签上的兴趣权重比例;针对每个标签,计算所述用户在所述所有场景下在所述标签上的所述兴趣权重比例之和,作为所述用户在所述所有场景下在所述标签上的总兴趣权重;利用所述每个标签以及所述用户在所述每个标签对应的所述总兴趣权重,生成所述用户在所述所有场景下的最终的兴趣分布向量。可选的,根据用户在场景下历史行为数据中每条信息的特征,将所述每条信息量化为标签向量,所述标签向量包括所述每条信息具有的标签以及所述每个标签的权重。可选的,所述根据用户在场景下的历史行为数据以及所述历史行为数据中每条行为信息的各标签的权重获取所述用户在每个标签上的累计权重,包括:针对用户在场景下的历史行为数据中的每条信息,计算所述每条信息的每个标签的权重与所述每条信息对应的历史行为产生时刻距离当前时刻的衰减因子之间的乘积,作为所述每条信息的整体权重;计算所述用户的历史行为对应的所有信息的整体权重之和,作为所述用户在所述每个标签上的累计权重。可选的,以预设周期获取用户在各场景下的历史行为数据。相应的,本专利技术实施例第二方面还提供一种数据处理装置,,包括:第一获取模块,用于根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算模块,用于计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;确定模块,用于根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;生成模块,用于利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。可选的,所述确定模块还用于:针对场景集合中的每个场景,利用所述用户在所述场景下所述每个标签上的兴趣权重、所述用户在所述场景下在所有标签上的总累计权重以及所述用户在所述场景集合中所有场景下的总累计权重,确定所述用户在所述场景下在所述每个标签上的兴趣权重比例;所述计算模块,还用于针对每个标签,计算所述用户在所述所有场景下在所述标签上的所述兴趣权重比例之和,作为所述用户在所述所有场景下在所述标签上的总兴趣权重;所述生成模块,还用于利用所述每个标签以及所述用户在所述每个标签对应的所述总兴趣权重,生成所述用户在所述所有场景下的最终的兴趣分布向量。可选的,量化模块,用于根据用户在场景下历史行为数据中每条信息的特征,将所述每条信息量化为标签向量,所述标签向量包括所述每条信息具有的标签以及所述每个标签的权重。可选的,所述第一获取模块,具体用于:针对用户在场景下的历史行为数据中的每条信息,计算所述每条信息的每个标签的权重与所述每条信息对应的历史行为产生时刻距离当前时刻的衰减因子之间的乘积,作为所述每条信息的整体权重;计算所述用户的历史行为对应的所有信息的整体权重之和,作为所述用户在所述每个标签上的累计权重。可选的,第二获取模块,用于以预设周期获取用户在各场景下的历史行为数据。本专利技术实施例第三方面还提供了一种数据处理设备,包括:处理器、存储器、通信接口和通信总线;所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信;所述存储器存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行一种数据处理方法;其中,所述方法包括:根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。本专利技术实施例中,数据处理系统根据用户在场景下的历史行为数据以及该历史行为数据中每条信息的各标签的权重获取该用户在每个标签上的累计权重,可以确定该用户在每个标签上的兴趣权重,从而可以生成在该场景下该用户的兴趣分布向量,以突出用户的个性化兴趣,提高内容推荐的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种数据处理方法的流程示意图;图2是本专利技术实施例提供的一种数据处理方法的流程示意图;图3是本专利技术实施例提供的一种数据处理方法的流程示意图;图4是本专利技术实施例提供的一种数据处理装置的结构示意图;图5是本专利技术实施例提供的一种数据处理装置的结构示意图;图6是本专利技术实施例提供的一种数据处理设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在当前信息全球化的趋势下,一个全球化的产品要同时面对不同的用户群体,因此,需要一套统一的建模机制或者服务来对用户的历史行为数据进行处理获取用户的兴趣模型。然而,在实践中发现,不同场景下,例如,来自不同国家、地区、语种的用户,属于不同的用户群体,由于其文化背景、经济水平等社会因素本文档来自技高网...
一种数据处理方法、装置及设备

【技术保护点】
一种数据处理方法,其特征在于,包括:根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重;计算所述用户在所述每个标签上的累计权重与所述用户在所有标签上的总累计权重之间的比值,作为所述用户在所述每个标签的累计权重分布;根据所述用户在所述每个标签上的累计权重分布以及所述场景下所有用户在所述每个标签上对应的总累计权重分布,确定所述用户在所述每个标签上的兴趣权重;利用所述每个标签以及所述每个标签上所述用户的兴趣权重生成所述场景下所述用户的兴趣分布向量。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对场景集合中的每个场景,利用所述用户在所述场景下所述每个标签上的兴趣权重、所述用户在所述场景下在所有标签上的总累计权重以及所述用户在所述场景集合中所有场景下的总累计权重,确定所述用户在所述场景下在所述每个标签上的兴趣权重比例;针对每个标签,计算所述用户在所述所有场景下在所述标签上的所述兴趣权重比例之和,作为所述用户在所述所有场景下在所述标签上的总兴趣权重;利用所述每个标签以及所述用户在所述每个标签对应的所述总兴趣权重,生成所述用户在所述所有场景下的最终的兴趣分布向量。3.根据权利要求2所述的方法,其特征在于,所述根据用户在场景下的历史行为数据以及所述历史行为数据中每条信息的各标签的权重获取所述用户在每个标签上的累计权重之前,所述方法还包括:根据用户在场景下历史行为数据中每条信息的特征,将所述每条信息量化为标签向量,所述标签向量包括所述每条信息具有的标签以及所述每个标签的权重。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据用户在场景下的历史行为数据以及所述历史行为数据中每条行为信息的各标签的权重获取所述用户在每个标签上的累计权重,包括:针对用户在场景下的历史行为数据中的每条信息,计算所述每条信息的每个标签的权重与所述每条信息对应的历史行为产生时刻距离当前时刻的衰减因子之间的乘积,作为所述每条信息的整体权重;计算所述用户的历史行为对应的所有信息的整体权重之和,作为所述用户在所述每个标签上的累计权重。5.根据权利要求4所述的方法,其特征在于,所述针对用户在场景下的历史行为数据中的每条信息,计算所述每条信息的每个标签的权重与所述每条信息对应的历史行为产生...

【专利技术属性】
技术研发人员:王玉伟
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1