一种基于强化学习的跨行为信息推荐方法技术

技术编号：41527075 阅读：8 留言：0更新日期：2024-06-03 23:01

本申请提供了一种基于强化学习的跨行为信息推荐方法，通过获取用户和商品集，根据用户和商品的交互关系构成商品交互序列，根据递归转换函数得到第t‑1时刻的隐藏状态，基于隐藏状态和商品交互序列，利用动态选择模型得到第t时刻的最优状态，基于选择的最优状态，利用递归转换函数得到第t时刻的隐藏状态，利用第t时刻的隐藏状态获得用户嵌入向量和商品嵌入向量，获取候选商品集，计算用户与候选商品集中的候选商品交互的预测概率，将候选商品集中的候选商品的预测概率降序排序，对预测概率前Q的商品推荐给用户，在包含不确定性因素的交互序列中捕捉正确的依赖关系，提高了推荐的精准度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及推荐系统中的序列推荐领域，特别涉及一种基于强化学习的跨行为信息推荐方法。

技术介绍

1、推荐系统根据显式信息或隐式特征向用户提供物品的预测和推荐。作为推荐系统的一个重要分支，序列推荐被提出来预测用户在给出他的顺序交互数据时最可能感兴趣的内容。受机器翻译序列处理方法的启发，序列推荐成为当前的研究热点，人们对序列推荐任务进行了大量的研究。序列推荐在视频短片、音乐短片、电影短片等多种场景下都被证明是有效的，因为用户的下一个行为不仅取决于最近的偏好，还取决于用户的行为。

2、循环神经网络因其建模序列信息的天然特性，被应用到会话推荐系统中，利用门控机制控制隐藏状态对下游状态的影响，序列中的交互数据被循环神经网络以自然的方式进行拟合。由于循环神经网络(recurrent neural network,rnn)无法捕捉局部特征，一些研究将卷积神经网络(convolutional neural network，cnn)应用到推荐中，以捕捉用户的局部喜好。基于cnn的模型利用卷积过滤器抽取局部特征，但其池化操作可能会导致有用信息的丢失，同时cnn无法捕捉时序特征。rcnn的提出融合了卷积神经网络的优势与循环神经网络的优势，同时捕捉用户的局部特征与长期特征。随着图神经网络的发展，验证了其在处理图数据上的优越性，一些研究将图神经网络应用到序列推荐中。sr-gnn将图神经网络应用到会话推荐中，以获得更加丰富的商品特征，提高推荐的精准度。图神经网络模型将顺序交互数据构建为图，导致序列信息被忽视，无法捕捉用户的喜好漂移。

技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的一个目的在于提出一种基于强化学习的跨行为信息推荐方法，本申请能够在包含不确定性因素的交互序列中捕捉正确的依赖关系，从而更好的建模用户喜好，提高了推荐的精准度。

2、本申请的一个方面提供了一种基于强化学习的跨行为信息推荐方法，包括：

3、步骤s100：获取用户和商品集，根据用户和商品的交互关系构成商品交互序列；

4、n个所述用户构成用户集其中u表示一个用户，u包含于用户集的数量为

5、所述商品集包括所有商品和商品嵌入向量v，所述商品集x由商品x构成，商品集的数量为|x|；

6、所述根据用户和商品的交互关系，构成商品交互序列是指：每个用户u对商品集x中的商品x进行交互，将用户和商品的交互顺序按照时间序列{1,2,...,t-1,t}进行排序，得到商品交互序列{x1,x2,...,xn}，n表示商品交互序列中的商品个数，xi表示用户交互过的第i个商品的商品交互行为，所述商品交互序列包含t个时间的商品交互行为；

7、步骤s200：根据递归转换函数得到第t-1时刻的隐藏状态，基于隐藏状态和商品交互序列，利用动态选择模型得到第t时刻的最优状态；

8、所述基于隐藏状态和商品交互序列，利用动态选择模型得到第t时刻的最优状态的具体方法为：

9、步骤s210：根据隐藏状态和商品交互序列得到智能体的环境表示；

10、所述根据隐藏状态和商品交互序列得到智能体的环境表示的具体方法为：定义隐藏状态的初始值h1，即为第1时刻的隐藏状态，根据商品交互序列得到第2时刻的商品交互行为x2，将第1时刻的隐藏状态和第2时刻的商品交互序列进行融合得到第2时刻的隐藏状态h2，依次计算得到第t时刻的隐藏状态ht，所述ht通过递归转换函数获得；

11、将第t-1时刻的隐藏状态和用户的商品交互序列进行连接操作，得到第t时刻的智能体的环境表示；

12、所述环境表示的计算公式为：

13、其中，st表示智能体的环境表示，ht-1表示第t-1时刻的隐藏状态，xt表示第t时刻的商品交互行为，表示连接操作；

14、步骤s220：将与第t时刻的st最近的k个环境表示构造为状态集sk，利用mlp函数将环境表示映射为概率分布，将概率最大的环境表示作为第t时刻的选择行为at；

15、所述利用mlp函数将环境表示映射为概率分布，将概率最大的环境表示作为第t时刻的选择行为at的具体过程为：

16、步骤s221：利用mlp函数将状态集中每一个环境表示映射到一个k维向量；

17、所述将状态集中每一个环境表示映射到一个k维向量的表达式为：mlp(st-k)；

18、其中，t-k指最近获得的k个环境表示中每个环境表示对应的时刻，其中1≤k≤k；

19、步骤s222：通过softmax函数将k维向量映射为概率分布p；

20、所述通过softmax函数将k维向量映射为概率分布p的表达式为：p＝softmax(mlp(st-k))；

21、步骤s223：选择概率分布p中概率最大的环境表示st-k作为选择行为at；

22、概率分布中的第k个环境表示的概率最大，其对应的时刻为第t-k时刻，则选择第t-k时刻的环境表示st-k的概率pk的计算公式为：

23、其中，是一个包含k个元素的概率分布，表示在第t时刻选择st-k的概率；

24、步骤s230：根据商品交互序列和隐藏状态，计算获得奖励信号；

25、所述奖励信号的计算公式为：

26、其中，表示真实的商品交互行为，ht表示预测得到的隐藏状态，表示在真实的下隐藏状态ht的概率；

27、步骤s240：利用环境表示、选择行为和奖励信号训练动态选择模型，利用动态选择模型选择最优状态；

28、所述动态选择模型的训练方法为：将商品交互序列、环境表示、选择行为、奖励信号、隐藏状态分为训练集数据和验证集数据，以准确预测商品交互序列中的真实的商品交互行为作为预测目标，以最大化期望奖励信号作为第一损失函数，训练动态选择模型；

29、所述第一损失函数j1(θa)的计算公式为：其中，at表示选择行为，a1表示初始时刻的选择行为，t表示时间，时间范围从1到t，π为策略函数，表示智能体选择行为的方式，π(a1:t)表示时间t下选择行为at的概率，为熵项，用于避免过早崩溃；

30、步骤s300：基于选择的最优状态，利用递归转换函数得到第t时刻的隐藏状态；

31、所述基于选择的最优状态，利用递归转换函数得到第t时刻的隐藏状态的具体方法为：

32、步骤s310：获取最优状态对应的第t-k时刻的隐藏状态，计算第t-1时刻的候选隐藏状态；

33、所述候选隐藏状态是前一时刻的隐藏状态和跨行为的隐藏状态的综合表示，所述第t-1时刻的候选隐藏状态的计算公式为：

34、其中，表示融合第t-k时刻和第t-1时刻的商品交互行为信息的候选隐藏状态，λ为引入参数，用于平衡第t-k时刻和第t-1时刻的隐藏状态；

35、步骤s320：利用第t-1时刻的候选隐藏状态和第t时刻的商品交互序列xt计算更新门zt和重置本文档来自技高网...

【技术保护点】

1.一种基于强化学习的跨行为信息推荐方法，其特征在于，包括：

2.如权利要求1所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述根据用户和商品的交互关系，构成商品交互序列是指：每个用户u对商品集X中的商品x进行交互，将用户和商品的交互顺序按照时间序列{1,2,...,t-1,t}进行排序，得到商品交互序列{x1,x2,...,xn}，n表示商品交互序列中的商品个数，xi表示用户交互过的第i个商品的商品交互行为，所述商品交互序列包含t个时间的商品交互行为。

3.如权利要求2所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述基于隐藏状态和商品交互序列，利用动态选择模型得到第t时刻的最优状态的具体方法为：

4.如权利要求3所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述根据隐藏状态和商品交互序列得到智能体的环境表示的具体方法为：定义隐藏状态的初始值h1，即为第1时刻的隐藏状态，根据商品交互序列得到第2时刻的商品交互行为x2，将第1时刻的隐藏状态和第2时刻的商品交互序列进行融合得到第2时刻的隐藏状态h2，依次计算得到第t

5.如权利要求4所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述利用MLP函数将环境表示映射为概率分布，将概率最大的环境表示作为第t时刻的选择行为at的具体过程为：

6.如权利要求5所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述奖励信号的计算公式为：其中，表示真实的商品交互行为，ht表示预测得到的隐藏状态，表示在真实的下隐藏状态ht的概率。

7.如权利要求6所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述动态选择模型的训练方法为：

8.如权利要求7所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述基于选择的最优状态，利用递归转换函数得到第t时刻的隐藏状态的具体方法为：

9.如权利要求8所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述计算用户与候选商品集中的候选商品交互的预测概率的计算公式为：其中δ为softmax函数，将用户对候选商品的喜好程度映射到[0,1]区间，作为交互的预测概率，u～表示用户u的用户嵌入向量，v表示商品嵌入向量。

10.一种基于强化学习的跨行为信息推荐系统，其特征在于，包括：

11.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1-9任一所述的一种基于强化学习的跨行为信息推荐方法中的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-9任一项所述的一种基于强化学习的跨行为信息推荐方法中的步骤。

...

【技术特征摘要】

1.一种基于强化学习的跨行为信息推荐方法，其特征在于，包括：

2.如权利要求1所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述根据用户和商品的交互关系，构成商品交互序列是指：每个用户u对商品集x中的商品x进行交互，将用户和商品的交互顺序按照时间序列{1,2,...,t-1,t}进行排序，得到商品交互序列{x1,x2,...,xn}，n表示商品交互序列中的商品个数，xi表示用户交互过的第i个商品的商品交互行为，所述商品交互序列包含t个时间的商品交互行为。

5.如权利要求4所述的一种基于强化学习的跨行为信息推荐方法，其特征在于，所述利用mlp函数将环境表示映射为概率分布，将概率最大的环境表示作为第t时刻的选择行为at的具体过程为：

6....

【专利技术属性】
技术研发人员：吴越红，周威，刘昌通，施国庆，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人