System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的动态反馈推荐方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于强化学习的动态反馈推荐方法及装置制造方法及图纸

技术编号:43382764 阅读:6 留言:0更新日期:2024-11-19 17:59
本发明专利技术公开了一种基于强化学习的动态反馈推荐方法及装置,方法包括:利用因果推理技术预训练用户行为模拟器,生成用户和物品完全交互的反事实用户‑物品二部图;加权聚合真实用户‑物品二部图和反事实用户‑物品二部图,使用Top‑K采样生成交互均衡的用户‑物品二部图;利用图卷积聚合物品的邻域用户信息,获得图结构增强的动作表征;利用门控循环单元和自注意力机制处理用户与推荐系统的交互序列,获得每个时间步的用户状态表征;根据动作表征和用户状态表征预测Q值,基于用户奖励反馈优化推荐模型的动作决策,最终实现对互联网信息的动态反馈推荐。装置包括:处理器和存储器。本发明专利技术利用因果推理和图卷积技术引入交互均衡的用户‑物品二部图信息,借助图结构关联丰富和增强智能体动作表征和用户状态表征。

【技术实现步骤摘要】

本专利技术涉及交互式推荐领域,尤其涉及一种基于强化学习的动态反馈推荐方法及装置


技术介绍

1、随着互联网的快速发展,信息数据呈现爆炸式增长,互联网用户在面对海量信息时难以找到对自己真正有用的信息,导致出现“信息过载”现象。推荐系统通过分析用户偏好,向用户提供个性化、有针对性的内容选择来解决信息过载问题。传统推荐系统将推荐视为单步预测任务,并假设用户偏好静态不变,从用户历史行为数据中挖掘用户偏好[1]。这使得它们无法捕捉到用户兴趣随时间的动态变化。相比之下,交互式推荐系统考虑了更接近现实情况的多步交互过程,通过依次向用户推荐物品并接收用户反馈来完善推荐策略,优化用户对推荐系统的长期满意度。因此,交互式推荐系统最近成为研究热点[2],并被应用于tiktok,pandora,youtube等各种个性化服务中。

2、一部分交互式推荐系统采用多臂强盗框架实现[3]。然而,由于没有建模用户偏好的动态变化,它们的效用受到限制。鉴于深度强化学习具有应对动态交互场景的强大能力,它在最近的交互式推荐中得到了广泛的应用。强化学习驱动的推荐系统将推荐过程建模为马尔可夫决策过程[4],推荐系统作为智能体依次向用户(即环境)推荐物品(即一个动作),并接收用户满意度反馈(即奖励),目标是最大化整个推荐过程中长期累积的用户满意度。基于强化学习的推荐方法可以分为两类:无模型强化学习方法和基于模型的方法。无模型强化学习方法通常包括:基于dqn(深度q网络)、基于策略和基于ddpg(深度确定性策略梯度)的方法。基于dqn的方法[5]采用深度q网络获取单个物品的q值,并向用户推荐q值最高的物品。基于策略的方法[6]通过梯度优化直接学习参数化的推荐策略,而不需要估计q值。基于ddpg的方法[7]使用actor-critic框架[8]并输出特定的动作,可用于连续的动作预测。基于模型的强化学习方法则利用收集的离线策略数据模拟环境动态,优化推荐策略学习。例如:goalrec[9]训练了一个具有时间密集监视信号的世界模型,用于模拟复杂的环境。nrss[10]设计了一个包含用户偏好奖励和过渡奖励的奖励模型。kcrl[11]提出了一个因果用户模型,该模型引入了有益的群体偏好,以改善稀疏场景下的用户兴趣估计。

3、虽然现有的基于深度强化学习的交互式推荐方法通过建模用户动态偏好取得了不错的推荐效果,但它们在表征用户状态和推荐系统行为时尚未充分利用用户-物品二部图的结构信息。用户-物品二部图中包含了丰富的用户和物品交互连接,能够帮助智能体从目标用户的邻域节点中挖掘用户协同偏好。然而,大多数现有基于强化学习的推荐方法孤立地表示单个用户的状态或者推荐行为,没有有效探索和利用用户-物品二部图中包含的行为相似性等用户间潜在关联。尽管少数研究[12]通过为交互序列中的每个物品构建子图引入用户-物品连接信息,但直接从观察到的真实用户-物品二部图中采样子图会由于数据不平衡而产生负面影响。由于长尾效应,真实用户-物品二部图中的交互是不均匀的。高度活跃的用户或流行的物品具有丰富的交互,而大多数用户或者物品具有稀缺的交互。研究表明,交互丰富或稀疏都会导致较差的推荐结果[13]。因为丰富的交互可能包含诸如误点击之类的噪声,而稀疏的交互无法提供足够的偏好线索。

4、因此,鉴于上述分析,迫切需要构建一个交互均衡的用户-物品二部图,该图相比于真实用户-物品二部图,去除了冗余的噪声边,同时增补了缺失的正向交互边。在此基础上,进一步提取有益的图结构信息丰富和增强推荐系统行为表征和用户状态表征,促进推荐策略的有效学习。


技术实现思路

1、本专利技术提供了一种基于强化学习的动态反馈推荐方法,本专利技术通过强化学习技术将用户与推荐系统的交互过程建模为马尔科夫决策过程,利用用户动态反馈优化推荐策略;利用因果推理技术预测用户和物品完全交互的反事实用户-物品二部图,并结合真实用户-物品二部图生成交互均衡的用户-物品二部图,防止冗余噪声干扰的同时补充潜在用户偏好信息;利用利用图卷积技术聚合物品的邻域用户信息,借助图结构关联丰富和增强智能体动作表征和用户状态表征,详见下文描述:

2、一种基于强化学习的动态反馈推荐方法,所述方法包括:

3、利用因果推理技术预训练用户行为模拟器,生成用户和物品完全交互的反事实用户-物品二部图;

4、加权聚合真实用户-物品二部图和反事实用户-物品二部图,使用top-k采样生成交互均衡的用户-物品二部图;

5、利用图卷积聚合物品的邻域用户信息,获得图结构增强的动作表征;

6、利用门控循环单元和自注意力机制处理用户与推荐系统的交互序列,获得每个时间步的用户状态表征;

7、根据动作表征和用户状态表征预测q值,基于用户奖励反馈优化推荐模型的动作决策,最终实现对互联网信息的动态反馈推荐。

8、其中,所述反事实用户-物品二部图为:利用因果推理技术中的反事实思想预测得到的用户-物品二部图。

9、进一步地,所述真实用户-物品二部图具体为:根据已收集的用户和物品历史交互数据构造得到的用户-物品二部图。

10、其中,所述利用图卷积聚合物品的邻域用户信息,获得图结构增强的动作表征的步骤具体为:

11、为交互均衡的用户-物品二部图中的每一个物品构建一个子图,子图由物品节点及其在交互均衡的用户-物品二部图中的一跳邻域用户节点构成;对构建的子图使用图卷积技术,聚合物品的邻域用户信息,获得图结构增强的动作表征。

12、进一步地,所述用因果推理技术中的反事实思想预测得到的用户-物品二部图具体为:

13、使用结构因果模型描述用户-项目二部图的生成过程构建因果图,使用行为模拟器对结构方程fg进行建模,该模拟器经过预训练以拟合观察到的事实用户-物品交互;使用图卷积网络构建行为模拟器,通过bpr损失对行为模拟器进行训练优化:

14、

15、其中,o表示预训练用户行为模拟器的训练样本集合,i+表示用户u的正样本交互物品,i-表示没有与用户u交互的负样本交互物品,hu和hi是经过用户行为模拟器编码的用户和物品嵌入表征,σ(·)表示sigmoid函数,·t表示转置函数;通过截断所有进入节点t的边并将t设置为全曝光策略下包含所有物品的推荐列表t*以实现对t的因果干预;对于干预后的推荐列表t*,使用预训练行为模拟器预测用户u对所有物品的反事实偏好得分,集成每个用户的预测分数得到反事实用户-物品二部图。

16、其中,所述加权聚合真实用户-物品二部图和反事实用户-物品二部图,使用top-k采样生成交互均衡的用户-物品二部图为:

17、聚合反事实用户-物品二部图r*和真实用户-物品二部图r为图

18、

19、其中,β表示权重超参数,对集成图中每个用户或物品的交互边进行top-k采样,对于每个用户u,使用相同的超参数kb控制top-k采样的二部图邻域节点数量:

20、

21、其中,表本文档来自技高网...

【技术保护点】

1.一种基于强化学习的动态反馈推荐方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述反事实用户-物品二部图为:利用因果推理技术中的反事实思想预测得到的用户-物品二部图。

3.根据权利要求1所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述真实用户-物品二部图具体为:根据已收集的用户和物品历史交互数据构造得到的用户-物品二部图。

4.根据权利要求1所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述利用图卷积聚合物品的邻域用户信息,获得图结构增强的动作表征的步骤具体为:

5.根据权利要求2所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述用因果推理技术中的反事实思想预测得到的用户-物品二部图具体为:

6.根据权利要求2所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述加权聚合真实用户-物品二部图和反事实用户-物品二部图,使用Top-K采样生成交互均衡的用户-物品二部图为:

7.根据权利要求2所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述图结构增强的动作表征为:

8.一种基于强化学习的动态反馈推荐装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-7中的任一项所述的方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-7中的任一项所述的方法。

...

【技术特征摘要】

1.一种基于强化学习的动态反馈推荐方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述反事实用户-物品二部图为:利用因果推理技术中的反事实思想预测得到的用户-物品二部图。

3.根据权利要求1所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述真实用户-物品二部图具体为:根据已收集的用户和物品历史交互数据构造得到的用户-物品二部图。

4.根据权利要求1所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述利用图卷积聚合物品的邻域用户信息,获得图结构增强的动作表征的步骤具体为:

5.根据权利要求2所述的一种基于强化学习的动态反馈推荐方法,其特征在于,所述用因果推理技术中的反事实思想预测得到的用户-物品二部图...

【专利技术属性】
技术研发人员:聂为之文昕刘安安苏育挺刘婧张磊郑凯李宣平
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1