System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于离散表征强化学习的商品推荐系统,属于商品信息推荐,利用机器学习技术来获得商品的离散表征,并利用这组离散表征来训练强化学习中的策略模型,最终实现根据用户历史喜好对商品的个性化推荐。
技术介绍
1、随着时代的进步,人们可以接触到的数据量也与日俱增,这导致了信息过载的问题:很难在海量数据中找到需要的数据。为了解决信息过载问题,人们提出了推荐系统,推荐系统可以在目标用户没有明确的目的时,通过用户的历史行为或者用户的兴趣偏好来产生用户可能感兴趣的项目列表。
2、目前,有许多不同类型的商品推荐算法,它们在不同的应用场景下得到广泛应用。首先是协同过滤(collaborative filtering)的一类方法:基于用户的协同过滤方法根据用户之间的相似性,将一个用户喜欢的商品推荐给该用户;基于物品的协同过滤根据商品之间的相似性,将一个用户喜欢的商品的相似物品推荐给用户;矩阵分解通过分解用户-物品评分矩阵,学习用户和物品的潜在特征,从而进行推荐。协同过滤方法简单且易于实现,但需要大量的用户-商品交互数据。
3、此外,还有一些基于深度学习的推荐算法:神经网络推荐模型,例如多层感知器(mlp)的模型,通过学习用户和商品的嵌入向量来进行推荐;循环神经网络(rnn)、长短时记忆网络(lstm)以及transformer能够捕捉用户和商品之间的时序关系,适用于序列数据(例如用户的历史点击序列)。但rnn存在长程依赖问题,对于过长的序列会忘记前面的信息,transformer的计算量是序列长度的平方,因此对于长序
技术实现思路
1、专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于离散表征强化学习的商品推荐系统,基于合适的表示学习策略,使用用户交互的历史数据集合来通过强化学习算法训练出一个推荐策略,最终更加精准地给用户提供商品推荐服务。
2、本专利技术使用的s4 layer是一种基于状态空间模型的方法,准确率高于transformer,而且计算速度快、占用空间小,适合用于推荐系统中对状态转移函数的建模。
3、技术方案:一种基于离散表征强化学习的商品推荐系统,在大量商品集合中为用户推荐k个最佳商品,包括:
4、提取模块,用于实现基于离散表征学习对商品进行特征提取的过程;采用一组基底向量以及最近邻的方式求得商品的离散表征;
5、训练模块,用于实现使用reinforce算法和s4 layer对商品推荐系统的训练过程;采用基于策略的强化学习方法,通过reinforce算法中的蒙特卡洛方法估计策略梯度,从而对策略进行更新;
6、推荐模块:用于实现使用商品推荐系统为用户推荐k个最佳商品信息的推荐过程;使用用户的状态向量得到在商品集合上的概率分布,概率越大代表用户可能越感兴趣,从而达到为用户推荐k个最佳商品的目的。
7、一种基于离散表征强化学习的商品推荐方法,包括:基于离散表征学习对商品进行特征提取过程,使用reinforce算法和s4 layer对推荐系统的训练过程,以及使用此推荐系统为用户推荐k个最佳商品的推荐过程;
8、基于离散表征学习对商品进行特征提取的过程具体为:
9、步骤100,从线上电商数据库中获取商品图像;
10、步骤101,获取的商品图像通过卷积神经网络得到初级的表征,这一步是为了后面的离散自编码器做准备,经过卷积神经网络之后,得到了m个d维的表征向量;
11、步骤102,初始化n个基底向量(e_1、e_2等),可以简单地认为每个基底向量代表着一种模式,一个类别,因此基底向量的选择会影响后续离散表征的质量,基底向量在后续的训练过程中不会随着时间而改变;
12、步骤103,对表征向量i,找到与其距离最近的基底向量,相当于做了一步寻找最近邻的操作;
13、步骤104,如果对于所有m个表征向量都找到了距离最近的基底向量,则跳转到步骤105,否则返回步骤103;
14、步骤105,将m个向量对应的最近基底向量序号组成一个m维向量,即为商品的离散表征。
15、使用reinforce算法和s4 layer对推荐系统的训练过程具体为:
16、步骤200,获取离散表征特征提取过程返回的m维离散商品向量v_i;
17、步骤201,将用户的历史信息编码为m维的状态向量s_i,编码过程为:将用户初始状态(全零向量)以及每一历史时刻执行的动作(选择的商品集合)循环输入s4 layer,最终得到s_i;状态维度需要和商品特征向量的维度保持一致,以便后续做内积操作;
18、步骤202,用v_i和s_i的内积刻画用户对商品的感兴趣程度,经过softmax操作得到策略函数,得到的是一个长度等于商品空间大小的一维向量,内积值越大表示用户更可能对这个商品感兴趣;
19、步骤203,使用s4 layer来建模状态转移函数,s4 layer是一种基于状态空间模型(ssm)对序列进行建模的模型;为状态转移函数输入用户当前时刻的状态向量以及所选择的商品,输出下一时刻的用户状态向量,这个状态转移函数也可以称为此问题的动力模型;s4 layer 作为状态转移函数p(s,a),接受用户状态向量s以及选择的商品(动作a),输出下一时刻的用户状态向量;
20、步骤204,计算得到网络的策略梯度后,使用reinforce算法对策略的网络参数进行更新,reinforce算法是一种基础的基于策略的强化学习方法,依赖于蒙特卡洛估计的return来更新策略的参数;
21、步骤205,执行步骤204 t次后,停止更新,得到策略网络。
22、使用策略网络为用户推荐k个最佳商品的推荐过程具体为:
23、步骤300,对于用户,根据其历史信息以步骤201的流程得到状态向量s,历史信息即过去时刻用户选择的商品集合(可以视为动作),用户状态初始化为全零向量,将初始状态和历史动作循环输入s4 layer,最终可以获得当前时刻的用户状态向量;
24、步骤301,将s输入到推荐系统的训练过程得到的策略网络中;
25、步骤302,根据推荐系统输出的softmax概率值,取最大的k个概率值;
26、步骤303,确定这k个概率分别对应的是哪些商品,并将这些商品推荐给用户。
27、一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于离散表征强化学习的商品推荐方法。
28、一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于离散表征强化学习的商品推荐方法的计算机程序。
29、有益效果:与现有技术相比,本专利技术所提供的基于离散表征强化学习的商品推荐系统,利用了商品的离散表征,和连续表征相比,计算量较少而且对类别的表示更加明晰。本文档来自技高网...
【技术保护点】
1.一种基于离散表征强化学习的商品推荐系统,其特征在于,包括:
2.根据权利要求1所述的基于离散表征强化学习的商品推荐系统,其特征在于,提取模块的实现过程中,将商品图像输入卷积神经网络,得到m个向量作为初级表征;初始化N个基底向量,对m个表征向量中的每一个向量,找出与其距离最近的基底向量,基底向量序号为j;直到对m个表征向量都找到各自的基底向量序号j,将所有的j组成一个m维的向量,即为商品的离散表征。
3. 根据权利要求1所述的基于离散表征强化学习的商品推荐系统,其特征在于,训练模块的实现过程中,将商品编码为m维的向量v_i,将用户的历史信息编码为m维的状态向量s_i,使用v_i和s_i的内积刻画用户对商品的感兴趣程度,通过softmax操作得到策略函数;使用S4 Layer来建模状态转移函数,输入当前时刻用户状态向量以及选择的商品,输出下一时刻的用户状态向量;计算得到策略梯度后,使用REINFORCE算法对网络参数进行更新,得到最终的策略网络。
4.根据权利要求1所述的基于离散表征强化学习的商品推荐系统,其特征在于,推荐模块的实现过程中,对于
5. 一种基于离散表征强化学习的商品推荐方法,其特征在于,包括:基于离散表征学习对商品进行特征提取过程,使用REINFORCE算法和S4 Layer对推荐系统的训练过程,以及使用此推荐系统为用户推荐K个最佳商品的推荐过程;
6.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求5所述的基于离散表征强化学习的商品推荐方法。
7.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求5所述的基于离散表征强化学习的商品推荐方法的计算机程序。
...【技术特征摘要】
1.一种基于离散表征强化学习的商品推荐系统,其特征在于,包括:
2.根据权利要求1所述的基于离散表征强化学习的商品推荐系统,其特征在于,提取模块的实现过程中,将商品图像输入卷积神经网络,得到m个向量作为初级表征;初始化n个基底向量,对m个表征向量中的每一个向量,找出与其距离最近的基底向量,基底向量序号为j;直到对m个表征向量都找到各自的基底向量序号j,将所有的j组成一个m维的向量,即为商品的离散表征。
3. 根据权利要求1所述的基于离散表征强化学习的商品推荐系统,其特征在于,训练模块的实现过程中,将商品编码为m维的向量v_i,将用户的历史信息编码为m维的状态向量s_i,使用v_i和s_i的内积刻画用户对商品的感兴趣程度,通过softmax操作得到策略函数;使用s4 layer来建模状态转移函数,输入当前时刻用户状态向量以及选择的商品,输出下一时刻的用户状态向量;计算得到策略梯度后,使用reinforce算法对网络参数进行更新,得到最终的策略网络...
【专利技术属性】
技术研发人员:詹德川,叶翰嘉,韩路,黄楷宸,周志华,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。