基于深度强化学习的信息流推荐方法、装置、设备及介质制造方法及图纸

技术编号:23445889 阅读:27 留言:0更新日期:2020-02-28 20:03
本申请实施例公开了一种基于深度强化学习的信息流推荐方法、装置、设备及介质,涉及信息处理技术领域。该方法包括:采集目标用户的历史点击序列;调用预设的actor神经网络和critic神经网络;生成用户推荐列表,向目标用户展示用户推荐列表,以获取反馈结果数据和反馈后产生的新的历史点击序列;计算时间差分误差;更新critic神经网络和actor神经网络中的参数;生成新的用户推荐列表,并展示新的用户推荐列表,直至无法获取到目标用户针对新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。所述方法增强了推荐系统与用户的交互性,对用户的反馈进行了实时利用,能不断地优化推荐引擎,提升推荐的质量,提升用户体验,以有效地吸引用户留存。

Information flow recommendation methods, devices, devices and media based on deep reinforcement learning

【技术实现步骤摘要】
基于深度强化学习的信息流推荐方法、装置、设备及介质
本申请实施例涉及信息处理
,特别是一种基于深度强化学习的信息流推荐方法、装置、设备及介质。
技术介绍
随着人工智能的发展,越来越多的产品应用利用人工智能以提高用户与产品之间的交互体验,如根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的产品。而随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,商品推荐系统建立在海量数据挖掘和智能决策的基础之上,帮助电子商务网站为其顾客购物提供有效的决策支持和信息服务。商品推荐系统利用一些推荐算法从用户的行为和偏好中发现规律,并由此进行推荐。目前,现有的推荐算法模型一般都忽略了与用户的交互过程,只关注用户的行为,而且没有充分的利用用户的实时反馈,并根据用户的反馈对模型作出进一步的改进。使现有的推荐系统缺乏与用户的交互性,容易导致用户对推荐的信息不感兴趣,在信息流场景下用户的访问体验提升不高。
技术实现思路
本申请实施例所要解决的技术问题是,提供一种基于深度强化学习的信息流推荐方法、装置、设备及存储介质,增强推荐系统与用户的交互性,并能不断优化推荐结果,提升信息推荐的质量。为了解决上述技术问题,本申请实施例所述的一种基于深度强化学习的信息流推荐方法,采用了如下所述的技术方案:一种基于深度强化学习的信息流推荐方法,包括:基于目标用户的信息流采集所述目标用户的历史点击序列;调用预设的actor神经网络和critic神经网络;将所述历史点击序列输入所述actor神经网络生成用户推荐列表,并向目标用户展示所述用户推荐列表,以获取所述目标用户针对所述用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列;将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差;基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数;将新的历史点击序列输入更新后的actor神经网络生成新的用户推荐列表,并向目标用户展示所述新的用户推荐列表,直至无法获取到所述目标用户针对所述新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。本申请实施例所述的基于深度强化学习的信息流推荐方法,利用actor-critic神经网络架构,增强了推荐系统与用户的交互,对用户的反馈进行了实时利用,能不断地优化推荐引擎,使用户的反馈直接作用于下一次推荐结果,提升推荐的质量,让用户体验得以提升,从而增加每次用户的访问时长和用户来访频率,有效地吸引用户留存。进一步的,所述的基于深度强化学习的信息流推荐方法,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤包括:通过所述actor神经网络提取所述历史点击序列中的隐藏特征;将所述隐藏特征输入所述actor神经网络结合所述历史点击序列生成所述用户推荐列表。进一步的,所述的基于深度强化学习的信息流推荐方法,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤还包括:提取所述历史点击序列中的若干个历史点击项目,将所述若干个历史点击项目设为所述用户推荐列表的候选集;通过所述actor神经网络获取用户推荐列表中每个位置的权重向量;分别计算每个所述权重向量与所述候选集中每个历史点击项目的点积,记为排序分值;基于所述排序分值对所述候选集中的历史点击项目进行排序,以生成所述用户推荐列表。进一步的,所述的基于深度强化学习的信息流推荐方法,所述将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差的步骤包括:基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R,并通过critic神经网络计算出目标用户反馈前对所述历史点击序列的评估值V(S),和目标用户反馈后对所述新的历史点击序列的评估值V(S');调用预设的误差公式td_error=R+V(S')–V(S),基于所述误差公式计算所述时间差分误差td_error。进一步的,所述的基于深度强化学习的信息流推荐方法,所述基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R的步骤之前,所述方法还包括步骤:对目标用户的反馈状态进行回报等级划分;基于划分的回报等级为所述用户推荐列表中每个项目的反馈状态配置对应的奖惩回报值。进一步的,所述的基于深度强化学习的信息流推荐方法,所述基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R的步骤包括:监控目标用户对所述用户推荐列表的反馈状态,以根据所述反馈状态匹配到对应的奖惩回报值。进一步的,所述的基于深度强化学习的信息流推荐方法,所述基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数的步骤包括:对所述时间差分误差求导得到第一梯度,通过调整所述critic神经网络中的参数调整所述第一梯度,以对所述第一梯度进行梯度下降,从而更新所述critic神经网络中的参数;以所述时间差分误差对所述用户推荐列表求导得到第二梯度,通过调整所述actor神经网络中的参数调整所述第二梯度,以对所述第二梯度进行梯度下降,从而更新所述actor神经网络中的参数。为了解决上述技术问题,本申请实施例还提供一种基于深度强化学习的信息流推荐装置,采用了如下所述的技术方案:一种基于深度强化学习的信息流推荐装置,包括:序列采集模块,用于基于目标用户的信息流采集所述目标用户的历史点击序列;模型调用模块,用于调用预设的actor神经网络和critic神经网络;反馈获取模块,用于将所述历史点击序列输入所述actor神经网络生成用户推荐列表,并向目标用户展示所述用户推荐列表,以获取所述目标用户针对所述用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列;误差计算模块,用于将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差;模型更新模块,用于基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数;循环生成模块,用于将新的历史点击序列输入更新后的actor神经网络生成新的用户推荐列表,并向目标用户展示所述新的用户推荐列表,直至无法获取到所述目标用户针对所述新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。本申请实施例所述的基于深度强化学习的信息流推荐装置,利用actor-critic神经网络架构,增强了推荐系统与用户的交互,对用户的反馈进行了本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的信息流推荐方法,其特征在于,包括:/n基于目标用户的信息流采集所述目标用户的历史点击序列;/n调用预设的actor神经网络和critic神经网络;/n将所述历史点击序列输入所述actor神经网络生成用户推荐列表,并向目标用户展示所述用户推荐列表,以获取所述目标用户针对所述用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列;/n将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差;/n基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数;/n将新的历史点击序列输入更新后的actor神经网络生成新的用户推荐列表,并向目标用户展示所述新的用户推荐列表,直至无法获取到所述目标用户针对所述新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。/n

【技术特征摘要】
1.一种基于深度强化学习的信息流推荐方法,其特征在于,包括:
基于目标用户的信息流采集所述目标用户的历史点击序列;
调用预设的actor神经网络和critic神经网络;
将所述历史点击序列输入所述actor神经网络生成用户推荐列表,并向目标用户展示所述用户推荐列表,以获取所述目标用户针对所述用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列;
将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差;
基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数;
将新的历史点击序列输入更新后的actor神经网络生成新的用户推荐列表,并向目标用户展示所述新的用户推荐列表,直至无法获取到所述目标用户针对所述新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。


2.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤包括:
通过所述actor神经网络提取所述历史点击序列中的隐藏特征;
将所述隐藏特征输入所述actor神经网络结合所述历史点击序列生成所述用户推荐列表。


3.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤还包括:
提取所述历史点击序列中的若干个历史点击项目,将所述若干个历史点击项目设为所述用户推荐列表的候选集;
通过所述actor神经网络获取用户推荐列表中每个位置的权重向量;
分别计算每个所述权重向量与所述候选集中每个历史点击项目的点积,记为排序分值;
基于所述排序分值对所述候选集中的历史点击项目进行排序,以生成所述用户推荐列表。


4.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差的步骤包括:
基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R,并通过critic神经网络计算出目标用户反馈前对所述历史点击序列的评估值V(S),和目标用户反馈后对所述新的历史点击序列的评估值V(S');
调用预设的误差公式td_error=R+V(S')–V(S),基于所述误差公式计算所述时间差分误差td_error。


5.根据权利要求4所述的基于深度强化学习的信息流推荐方法,其特征在于,所述基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R的步骤之前,所...

【专利技术属性】
技术研发人员:罗振煜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1