基于图神经网络和强化学习的交互电影推荐系统及方法技术方案

技术编号:33120293 阅读:15 留言:0更新日期:2022-04-17 00:17
本发明专利技术公开了一种基于图神经网络和强化学习的交互电影推荐系统及方法,目的是实现在一段时间内用户体验的最优化。同时通过用户的历史交互数据构建电影相似度无向图,获得更精确的电影表达,提高电影推荐准确度。技术方案为:本发明专利技术的设计分为4个模块构图模块、电影向量生成模块、用户向量生成模块以及推荐模块。本发明专利技术的步骤包括构建电影相似度无向图、构建图神经网络以获得电影向量表示矩阵、构建注意力模块提取并融合用户观影历史中所含信息以获得用户向量表示、构建多层感知机模型拟合推荐策略、按状态动作值排序并生成推荐电影。本发明专利技术提供一种电影相似度无向图的构建,并通过图神经网络的引入有效提高电影推荐准确度。图神经网络的引入有效提高电影推荐准确度。图神经网络的引入有效提高电影推荐准确度。

【技术实现步骤摘要】
基于图神经网络和强化学习的交互电影推荐系统及方法


[0001]本专利技术属于交互推荐
,具体涉及一种基于图神经网络和强化学习的交互电影推荐系统及方法。

技术介绍

[0002]随着大数据时代的来临,用户和平台都面临信息过载的问题。因此平台希望通过个性化推荐系统为用户筛选有效信息,提升用户使用体验的同时促进平台收益。个性化推荐系统已经被广泛应用于电商平台、视频网站、社交媒体等信息工业的各个领域中。
[0003]传统的个性化推荐系统可以分为基于用户的个性化推荐,基于内容的个性化推荐以及基于协同过滤的个性化推荐。传统个性化推荐系统无法对用户的动态兴趣进行建模,在冷启动场景下没有足够的数据用以准确预测。因此研究开始关注交互推荐系统(Interactive Recommender Systems,IRS),在交互过程中对模型进行优化,在用户兴趣的动态建模和用户冷启动推荐具有优势。
[0004]目前交互推荐系统的研究主要集中在两个技术方向,分别为上下文老虎机(Contextual Bandit)和强化学习。
[0005]上下文老虎机方法已被广泛应用于新闻推荐、协同过滤、在线广告推送以及电商推荐等领域。但是上下文老虎机方法存在一定的局限性:(1)该方法模型只对线性模型有良好的拟合预测效果;(2)由于赌博机方法试图约束实际所得反馈和理想所得反馈之间的上限,是对最差情况的约束,方法过于悲观。强化学习方法是在马尔科夫决策过程中对方法的优化,而推荐过程是一个典型的马尔科夫决策过程。因此强化学习方法适用于推荐系统。目前基于强化学习的推荐方法在实际应用中还存在以下几个问题:(1)推荐准确度不高;(2)动作空间过大;(3)离线仿真环境搭建困难;(4)强化学习框架在线应用和优化流程设计复杂。

技术实现思路

[0006]专利技术目的:本专利技术针对基于强化学习的推荐方法推荐准确度不高的问题,设计一种新型电影相似度无向图,并结合图神经网络,实现了一种基于图神经网络和强化学习的交互电影推荐系统及方法。
[0007]上述的目的通过以下技术方案实现:
[0008]本专利技术解决技术问题所采用的技术方案是:一种基于图神经网络和强化学习的交互推荐系统,该系统包括构图模块、电影向量生成模块、用户向量生成模块和推荐模块;
[0009]构图模块:用于根据数据库中用户与电影交互历史数据,构建电影相似度无向图,并获取电影相似度无向图的邻接矩阵A;
[0010]电影向量生成模块:用于将电影相似度无向图的邻接矩阵A和随机初始化的电影向量表示矩阵E作为输入,经过所构建的图神经网络模型,获得更新后的电影向量表示矩阵E


[0011]用户向量生成模块:将更新后的电影向量表示矩阵以及用户在仿真交互环境中的当前历史观影记录作为输入,经过所构建的自注意力网络模型的计算,输出用户特征向量表示;
[0012]推荐模块:将当前用户特征向量作为输入,经过多层感知机网络模型拟合策略,输出最终对该用户当前状态下的电影推荐。
[0013]进一步的,所述电影向量生成模块包括:向量初始化模块和图神经网络模块;
[0014]向量初始化模块:用于对电影向量进行随机初始化。令电影向量维度为d,则所初始化的电影向量矩阵为N为电影的总数量;
[0015]图神经网络模块:用于根据电影相似度无向图,挖掘离线数据中的协同信息,对初始化电影向量矩阵进行信息融合,并生成更新后的电影向量矩阵E


[0016]进一步的,所述用户向量生成模块包括特征提取模块和特征合成模块;
[0017]特征提取模块:用于将用户当前状态的历史观看电影转化成图神经网络更新后的电影向量表示,并按照用户历史打分进行分类,在每一类中分别使用搭建的自注意力网络运算输出各类的特征向量;
[0018]特征合成模块:将每一类生成的特征向量作为输入,输出用户特征向量。
[0019]进一步的,所述推荐模块分为策略拟合模块和推荐生成模块;
[0020]策略拟合模块用于输入用户特征向量表达,拟合推荐策略,并输出每一部待推荐电影的状态动作值;
[0021]推荐生成模块根据计算所得的状态动作值进行排序,并为目标用户生成一部电影推荐。
[0022]用上述基于图神经网络和强化学习的交互电影推荐系统进行电影推荐的方法,该方法包括如下步骤:
[0023]步骤S1:用于根据数据库中用户与电影交互历史数据,构建电影相似度无向图;
[0024]步骤S2:用于将电影相似度无向图的邻接矩阵A和随机初始化的电影向量表示矩阵E作为输入,经过所构建的图神经网络模型,获得更新后的电影向量表示矩阵E


[0025]步骤S3:将更新后的电影向量表示矩阵以及用户在仿真交互环境中的当前历史观影记录作为输入,经过所构建的自注意力网络模型的计算,输出用户特征向量表示;
[0026]步骤S4:将当前用户特征向量作为输入,经过多层感知机网络模型拟合策略,输出每一部待推荐电影的状态动作值;
[0027]步骤S5:将待推荐电影按其状态动作值由大到小进行排序,生成最终的电影推荐。
[0028]进一步的,所述S1中的电影相似度无向图由邻接矩阵A表示。
[0029]进一步的,所述电影相似度无向图由数据集中训练集的离线交互数据构成。
[0030]进一步的,数据集按用户分为训练集和测试集。其中85%的用户及其交互数据为训练集,15%的用户及其交互数据为测试集。
[0031]进一步的,当2部电影同时出现在n个用户的观影记录中,且n≥10,则这两部电影之间存在一条边。
[0032]进一步的,当图中节点m1,m2之间存在一条边,邻接矩阵中位置(m1,m2)的值为1。
[0033]进一步的,所述S2中的图神经网络模型的构建步骤具体为:
[0034]步骤S2.1每一层图神经网络层都由GAT图神经网络结构构成,每一层图神经网络
层分为5个head并行运算:
[0035]E
1i
=GAT(A,E),1≤i≤5
[0036]步骤S2.2将5个head输出的向量拼接得到第一层图神经网络的输出:
[0037]E1=concat(E1,...,E5)
[0038]步骤S2.3将第一层图神经网络的输出作为第二层图神经网络的输入。
[0039]步骤S2.4经过与第一层相同的运算之后,将第二层图神经网络的输出作为更新后的电影向量表示矩阵E


[0040]进一步的,所述S3中的用户特征向量计算具体步骤为:
[0041]步骤S3.1按照索引,用更新后的电影向量表示矩阵E

中的向量表示用户历史观影记录;
[0042]步骤S3.2按照用户打分,对观影记录中的电影进行分类,每一类的电影所组成的向量矩阵为
[0043]步骤S3.3将每一类电影向量矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络和强化学习的交互电影推荐系统,其特征在于,包括构图模块(1)、电影向量生成模块(2)、用户向量生成模块(3)、推荐模块(4);构图模块(1):用于根据数据库中用户与电影交互历史数据,构建电影相似度无向图,并获取电影相似度无向图的邻接矩阵A;电影向量生成模块(2):用于将电影相似度无向图的邻接矩阵A和随机初始化的电影向量表示矩阵E作为输入,经过所构建的图神经网络模型,获得更新后的电影向量表示矩阵E

;用户向量生成模块(3):将更新后的电影向量表示矩阵以及用户在仿真交互环境中的当前历史观影记录作为输入,经过所构建的自注意力网络模型的计算,输出用户特征向量表示;推荐模块(4):将当前用户特征向量作为输入,经过多层感知机网络模型拟合策略,输出最终对该用户当前状态下的电影推荐。2.根据权利要求1所述的一种基于图神经网络和强化学习的交互电影推荐系统,其特征在于,所述电影向量生成模块(2)包括:向量初始化模块(21)和图神经网络模块(22);向量初始化模块(21):用于对电影向量进行随机初始化,令电影向量维度为d,则所初始化的电影向量矩阵为N为电影的总数量;图神经网络模块(22):用于根据电影相似度无向图,挖掘离线数据中的协同信息,对初始化电影向量矩阵进行信息融合,并生成更新后的电影向量矩阵E

。3.根据权利要求1所述的一种基于图神经网络和强化学习的交互电影推荐系统,其特征在于,所述用户向量生成模块(3)包括特征提取模块(31)和特征合成模块(32);特征提取模块(31):用于将用户当前状态的历史观看电影转化成图神经网络更新后的电影向量表示,并按照用户历史打分进行分类,在每一类中分别使用搭建的自注意力网络运算输出各类的特征向量;特征合成模块(32):将每一类生成的特征向量作为输入,输出用户特征向量。4.根据权利要求1所述的一种基于图神经网络和强化学习的交互电影推荐系统,其特征在于,所述推荐模块(4)分为策略拟合模块(41)和推荐生成模块(42);策略拟合模块(41)用于输入用户特征向量表达,拟合推荐策略,并输出每一部待推荐电影的状态动作值;推荐生成模块(42)根据计算所得的状态动作值进行排序,并为目标用户生成一部电影推荐。5.一种用权利要求1

4之一所述基于图神经网络和强化学习的交互电影推荐系统进行电影推荐的方法,其特征在于,该方法包括如下步骤:步骤S1:根据数据库中用户与电影交互历史数据,构建电影相似度无向图;步骤S2:将电影相似度无向图的邻接矩阵A和随机初始化的电影向量表示矩阵E作为输入,经过所构建的图神经网络模型,获得更新后的电影向量表示矩阵E

;步骤S3:将更新后的电影向量表示矩阵以及用户在仿真交互环境中的当前历史观影记录作为输入,经过所构建的自注意力网络模型的计算,输出用户特征向量表示;步骤S4:将当前用...

【专利技术属性】
技术研发人员:董璐谢程燕王远大孙佳
申请(专利权)人:南京云智控产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1