System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于推荐系统,涉及一种基于用户满意度的推荐系统优化方法。
技术介绍
1、推荐系统旨在根据用户的历史行为信息为用户筛选出满足其兴趣需求的内容。随着科学技术的进步,推荐系统在冷启动问题、多样性保障以及提升长期用户参与度等方面取得了显著进展,但在理解用户行为与需求方面仍存在明显不足。例如,当用户点击了一些某个话题相关的新闻后,系统往往会继续推荐更多类似的新闻。从正反馈的角度来看这种推荐策略是合理的,但实际上用户可能因为已经获取到了足够的信息而对该话题失去了兴趣。这种现象表明,仅依赖于用户与推荐系统的显示交互(如点击、浏览等),推荐策略可能会与用户真实的兴趣偏好产生严重偏差。
2、当用户消费推荐系统所推荐的内容时,内心会对该内容产生一种主观感受,本专利技术将其定义为用户满意度。关于用户满意度,本专利技术有以下两点观察:1.用户满意度直接影响其兴趣分布和后续行为。例如,当用户点击了一篇新闻但发现内容与之前的阅读内容重复时,满意度可能会较低,从而不愿意再点击类似的内容;2.用户在与推荐系统交互时通常倾向于最大化自身满意度。这符合日常直觉,因为用户更青睐于能够带来更多情绪价值或愉悦感的内容。因此,推荐系统不仅应该关注用户的显式反馈,还需要能够最大程度满足用户的满意度。但是,由于满意度是用户的主观感受,对于推荐系统而言通常是未知的,因此需要新的技术手段来帮助推荐系统在与用户的交互过程中与用户满意度对齐。
3、近年来,自然语言处理领域提出对齐算法,用来引导大规模语言模型(llms)生成更符合人类价值观的内容,而在
4、现有的推荐算法包括:传统的推荐算法,包括基于内容的推荐算法和协同过滤推荐算法;序列化推荐算法;基于强化学习的推荐算法。其中,传统的推荐算法将用户-物品交互行为看作孤立事件,只能挖掘用户的静态偏好,无法捕捉用户兴趣的动态变化。为了解决该问题,序列化推荐算法通过考虑用户的历史行为序列,预测下一步可能感兴趣的物品,显著提高了推荐的个性化和动态适应性。而基于强化学习的推荐算法则通过将推荐过程建模为马尔可夫决策过程,通过生成奖励信号来优化推荐策略以提升用户的长期满意度。然而,现有的算法仍然无法有效解决以下两个难题:
5、(1)现有算法可以根据用户历史数据来模仿用户行为,但却无法理解用户行为背后隐含的真实动机。当用户兴趣发生变化时,现有模型的预测性能往往会大幅度下降。
6、(2)现有算法使用的奖励信号一般由基于规则的复杂模型生成,这些奖励信号往往和用户的真实偏好有所误差,可能误导推荐系统优化方向,导致生成质量较差的推荐结果。
技术实现思路
1、针对当前推荐系统算法与用户满意度相背离的问题,本专利技术提出一种基于用户满意度的推荐系统优化方法。
2、本专利技术中,首先利用用户与系统的交互数据,学习用户行为背后的动机和兴趣,并将其建模为用户满意度模型;然后利用该模型指导主干推荐系统模型的训练,实现推荐系统与用户满意度的对齐。在这个过程中最关键的问题是:如何定量化用户在消费推荐内容时获得的满意度,也就是如何训练用户满意度模型。由于满意度隐藏在用户行为背后,直接学习用户满意度模型面临较大挑战。为此,本专利技术首先将用户的决策过程建模为马尔可夫决策过程(markov decision process,mdp),并假设用户在与推荐系统交互的过程中始终试图最大化满意度。基于这一假设,用户的交互数据集可视为专家行为数据。随后,本专利技术提出了一种基于逆强化学习的方法,通过专家行为数据来挖掘其背后隐藏的用户满意度模型。最后,本专利技术设计了一项辅助任务,引导推荐系统在推荐的过程中最大化用户满意度,该任务可以与任何序列推荐模型相结合,实现推荐系统与用户满意度的对齐。
3、在此基础上,本专利技术方法大致分为两个阶段:
4、(1)用户满意度模型训练阶段:本专利技术通过逆强化学习技术训练用户满意度模型。传统强化学习的目标是基于已知的环境转移函数和奖励函数,训练智能体策略以最大化其累积奖励;而逆强化学习的目标则是通过给定的专家策略轨迹推导出一个奖励函数,使智能体在该奖励函数下产生专家策略轨迹的概率最大化。在本专利技术中,将用户视为智能体,推荐系统视为环境,用户与推荐系统的历史交互数据视为专家策略轨迹。同时,假设用户在与推荐系统交互时始终遵循最优策略,即用户总是选择最大化自身奖励的行为。基于这一假设,本专利技术将用户满意度模型形式化为逆强化学习中的奖励模型,通过分析用户的交互历史数据还原隐含的用户满意度。该过程有效解决了直接量化用户主观满意度的难题,为后续推荐系统的优化提供了可靠的指导信号。
5、(2)推荐系统训练优化阶段:本专利技术中主要考虑序列推荐系统模型。该类推荐系统模型将用户交互历史序列作为输入,预测下一个最能吸引用户兴趣的物品。由于不能够直接量化用户的满意度,推荐系统不能在训练过程中最大化用户满意度,因此推荐系统通常会和用户的真实兴趣产生偏差。为了解决该问题,本专利技术设计了一个辅助任务,利用第一阶段训练的用户满意度模型对推荐系统进行优化,使得推荐系统能够和用户兴趣对齐。具体来说,本专利技术设计了新的训练目标,保证在训练阶段不仅能够满足推荐系统原本的目标,同时能够最大化用户满意度。
6、为了达成上述目的,本专利技术采用的技术方案如下:
7、一种基于用户满意度的推荐系统优化方法,具体步骤如下:
8、步骤1、设定问题模型,进行数学建模:
9、1.1)马尔可夫决策过程建模(markov decision process,mdp):在强化学习或逆强化学习中,通常使用马尔科夫决策过程中对问题进行建模,该过程由一个五元组表示<s,a,p,r,π>。其中s表示状态空间,a表示动作空间,p表示环境转移方程,r表示奖励函数,π表示策略函数。本专利技术从用户视角进行马尔可夫过程建模,即将用户视为智能体,推荐系统视为环境。具体建模方式如下:
10、状态空间s:st∈s代表用户在t时刻的状态。本专利技术将用户状态定义为:st=(ht-1,it),其中ht-1=(σ1,σ2,…,σt-1)为t-1时刻的交互历史,每次交互σ=<u,i,a>,u为用户特征,i为用户交互的物品,a为用户动作。
11、动作空间a:用户动作a∈a代表了用户对交互物品的反馈。在不同的场景中,用户的反馈也多种多样,如点击、购买、喜欢、转发等。在本专利技术中,为了简化问题规模,将用户反馈划分为两类:a={ap,an},其中ap代表用户积极反馈,a本文档来自技高网...
【技术保护点】
1.一种基于用户满意度的推荐系统优化方法,其特征在于,具体步骤如下:
【技术特征摘要】
1.一种基于用户满意度的推荐系统优...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。