【技术实现步骤摘要】
基于深度强化学习的信息流推荐方法、装置、设备及介质
本申请实施例涉及信息处理
,特别是一种基于深度强化学习的信息流推荐方法、装置、设备及介质。
技术介绍
随着人工智能的发展,越来越多的产品应用利用人工智能以提高用户与产品之间的交互体验,如根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的产品。而随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,商品推荐系统建立在海量数据挖掘和智能决策的基础之上,帮助电子商务网站为其顾客购物提供有效的决策支持和信息服务。商品推荐系统利用一些推荐算法从用户的行为和偏好中发现规律,并由此进行推荐。目前,现有的推荐算法模型一般都忽略了与用户的交互过程,只关注用户的行为,而且没有充分的利用用户的实时反馈,并根据用户的反馈对模型作出进一步的改进。使现有的推荐系统缺乏与用户的交互性,容易导致用户对推荐的信息不感兴趣,在信息流场景下用户的访问体验提升不高。
技术实现思路
本申请实施例所要解决的技术问题是,提供一种基于深度强化学习的信息流推荐方法、装置、设备及存储介质,增强推荐系统与用户的交互性,并能不断优化推荐结果,提升信息推荐的质量。为了解决上述技术问题,本申请实施例所述的一种基于深度强化学习的信息流推荐方法,采用了如下所述的技术方案:一种基于深度强化学习的信息流推荐方法,包括:基于目标用户的信息流采 ...
【技术保护点】
1.一种基于深度强化学习的信息流推荐方法,其特征在于,包括:/n基于目标用户的信息流采集所述目标用户的历史点击序列;/n调用预设的actor神经网络和critic神经网络;/n将所述历史点击序列输入所述actor神经网络生成用户推荐列表,并向目标用户展示所述用户推荐列表,以获取所述目标用户针对所述用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列;/n将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差;/n基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数;/n将新的历史点击序列输入更新后的actor神经网络生成新的用户推荐列表,并向目标用户展示所述新的用户推荐列表,直至无法获取到所述目标用户针对所述新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。/n
【技术特征摘要】
1.一种基于深度强化学习的信息流推荐方法,其特征在于,包括:
基于目标用户的信息流采集所述目标用户的历史点击序列;
调用预设的actor神经网络和critic神经网络;
将所述历史点击序列输入所述actor神经网络生成用户推荐列表,并向目标用户展示所述用户推荐列表,以获取所述目标用户针对所述用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列;
将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差;
基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数;
将新的历史点击序列输入更新后的actor神经网络生成新的用户推荐列表,并向目标用户展示所述新的用户推荐列表,直至无法获取到所述目标用户针对所述新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。
2.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤包括:
通过所述actor神经网络提取所述历史点击序列中的隐藏特征;
将所述隐藏特征输入所述actor神经网络结合所述历史点击序列生成所述用户推荐列表。
3.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤还包括:
提取所述历史点击序列中的若干个历史点击项目,将所述若干个历史点击项目设为所述用户推荐列表的候选集;
通过所述actor神经网络获取用户推荐列表中每个位置的权重向量;
分别计算每个所述权重向量与所述候选集中每个历史点击项目的点积,记为排序分值;
基于所述排序分值对所述候选集中的历史点击项目进行排序,以生成所述用户推荐列表。
4.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差的步骤包括:
基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R,并通过critic神经网络计算出目标用户反馈前对所述历史点击序列的评估值V(S),和目标用户反馈后对所述新的历史点击序列的评估值V(S');
调用预设的误差公式td_error=R+V(S')–V(S),基于所述误差公式计算所述时间差分误差td_error。
5.根据权利要求4所述的基于深度强化学习的信息流推荐方法,其特征在于,所述基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R的步骤之前,所...
【专利技术属性】
技术研发人员:罗振煜,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。