一种推荐模型的训练方法和装置制造方法及图纸

技术编号:29673903 阅读:11 留言:0更新日期:2021-08-13 21:55
本发明专利技术公开了一种推荐模型的训练方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据获取的用户行为数据生成训练数据集;将训练数据集输入至待训练模型中以得到第一预测结果;根据第一预测结果生成中间预测数据,并将中间预测数据输入至待训练模型中以得到第二预测结果;根据第一预测结果和第二预测结果计算反馈函数,并根据反馈函数更新待训练模型以进行模型训练。该实施方式基于强化学习的思想,将模型的预测结果引入模型训练中,使得预测结果的误差大大的减小,可以帮助模型加快收敛,减少模型迭代的次数,加快训练效率,解决了仅有短期会话数据时无法很好地进行推荐的技术问题。

【技术实现步骤摘要】
一种推荐模型的训练方法和装置
本专利技术涉及计算机
,尤其涉及一种推荐模型的训练方法和装置。
技术介绍
在当今生活的各个领域中推荐系统都占有着很重要的位置,会直接影响用户的体验,进而影响到用户粘度。现在大部分的推荐方法都是利用用户本身的数据和用户一段时间内的历史行为数据所体现的用户兴趣爱好来进行建模,并通过模型进行推荐的。但是在一些现实应用场景中,有时用户会在非登录的情况下进行操作,在这种情景下推荐系统是无法获取用户的历史兴趣爱好等数据的,只能获得一个未知用户的短期行为序列或者说是用户的短期兴趣。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:针对上面提到的情况,在无法得到用户长期历史行为的情况下,如何训练推荐模型以实现很好的推荐效果,这是亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种推荐模型的训练方法和装置,能够基于强化学习的思想,将模型的预测结果引入模型训练中,使得预测结果的误差大大的减小,可以帮助模型加快收敛,减少模型迭代的次数,加快训练效率,解决了仅有短期会话数据时无法很好地进行推荐的技术问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种推荐模型的训练方法。一种推荐模型的训练方法,包括:根据获取的用户行为数据生成训练数据集;将所述训练数据集输入至待训练模型中以得到第一预测结果;根据所述第一预测结果生成中间预测数据,并将所述中间预测数据输入至所述待训练模型中以得到第二预测结果;根据所述第一预测结果和所述第二预测结果计算反馈函数,并根据所述反馈函数更新所述待训练模型以进行模型训练。可选地,根据获取的用户行为数据生成训练数据集包括:对获取的用户行为数据进行数据重构,以得到每个用户对应的数据链;从所述数据链中依次截取指定长度的片段,并对截取的片段进行编码以生成训练数据集。可选地,对获取的用户行为数据进行数据重构,以得到每个用户对应的数据链包括:根据用户行为数据获取每个用户的访问项目、每个访问项目的项目得分及打分时间;对每个用户的行为数据,将每个访问项目及所述访问项目的项目得分组成序列对,并根据访问项目的打分时间对生成的序列对进行排序;将每个用户对应的排序后的序列对生成数据链。可选地,根据所述第一预测结果生成中间预测数据包括:获取所述第一预测结果对应的训练数据包括的访问项目序列;将所述访问项目序列中的第一个访问项目删除,并分别将所述第一预测结果中的每个访问项目拼接到删除后的访问项目序列中,以得到中间预测数据,所述中间预测数据的条数与所述第一预测结果中的访问项目个数相同。可选地,根据所述反馈函数更新所述待训练模型包括:根据所述反馈函数生成损失函数,并根据生成的损失函数更新所述待训练模型。可选地,所述反馈函数通过以下公式计算得到:其中,表示反馈函数,表示第一预测结果,表示第二预测结果,p(y_preci)表示中间预测数据中的第i个数据被选中的概率,i=1,2,……,k;且对应的损失函数通过以下公式计算得到:其中,Loss1表示损失函数,NS为样本个数,为样本i实际的标签向量,为样本i经过模型预测得到的结果。可选地,所述反馈函数通过以下公式计算得到:其中,表示反馈函数,表示第一预测结果,表示第二预测结果,p(y_preci)表示中间预测数据中的第i个数据被选中的概率,i=1,2,……,k;且对应的损失函数通过以下任一公式计算得到:其中,Loss2、Loss3表示损失函数,NS为样本个数,为样本i实际的标签向量,为样本i经过模型预测得到的结果。根据本专利技术实施例的另一方面,提供了一种推荐模型的训练装置。一种推荐模型的训练装置,包括:数据准备模块,用于根据获取的用户行为数据生成训练数据集;第一预测模块,用于将所述训练数据集输入至待训练模型中以得到第一预测结果;第二预测模块,用于根据所述第一预测结果生成中间预测数据,并将所述中间预测数据输入至所述待训练模型中以得到第二预测结果;反馈更新模块,用于根据所述第一预测结果和所述第二预测结果计算反馈函数,根据所述反馈函数更新所述待训练模型以进行模型训练。可选地,所述数据准备模块还用于:对获取的用户行为数据进行数据重构,以得到每个用户对应的数据链;从所述数据链中依次截取指定长度的片段,并对截取的片段进行编码以生成训练数据集。可选地,所述数据准备模块还用于:根据用户行为数据获取每个用户的访问项目、每个访问项目的项目得分及打分时间;对每个用户的行为数据,将每个访问项目及所述访问项目的项目得分组成序列对,并根据访问项目的打分时间对生成的序列对进行排序;将每个用户对应的排序后的序列对生成数据链。可选地,所述第二预测模块还用于:获取所述第一预测结果对应的训练数据包括的访问项目序列;将所述访问项目序列中的第一个访问项目删除,并分别将所述第一预测结果中的每个访问项目拼接到删除后的访问项目序列中,以得到中间预测数据,所述中间预测数据的条数与所述第一预测结果中的访问项目个数相同。可选地,所述反馈更新模块还用于:根据所述反馈函数生成损失函数,并根据生成的损失函数更新所述待训练模型。可选地,所述反馈函数通过以下公式计算得到:其中,表示反馈函数,表示第一预测结果,表示第二预测结果,p(y_preci)表示中间预测数据中的第i个数据被选中的概率,i=1,2,……,k;且对应的损失函数通过以下公式计算得到:其中,Loss1表示损失函数,NS为样本个数,为样本i实际的标签向量,为样本i经过模型预测得到的结果。可选地,所述反馈函数通过以下公式计算得到:其中,表示反馈函数,表示第一预测结果,表示第二预测结果,p(y_preci)表示中间预测数据中的第i个数据被选中的概率,i=1,2,……,k;且对应的损失函数通过以下任一公式计算得到:其中,Loss2、Loss3表示损失函数,NS为样本个数,为样本i实际的标签向量,为样本i经过模型预测得到的结果。根据本专利技术实施例的又一方面,提供了一种推荐模型的训练电子设备。一种推荐模型的训练电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例所提供的推荐模型的训练方法。根据本专利技术实施例的再一方面,提供了一种计算机可读介质。一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例所提供的推荐模型的训练方法。上述专利技术中的一个实施例具有如下优点或有益效果:通过根据获取的用户行为数据生成训练数据集;将训练数据集输入至待训练模型中以得到第一预测结果;根据第一预测结果生成中间预测数据,并将中间预测数据输入至待训练模型中以得到第二预测结果;根据第一预测结果和第二预测结果计算反馈函数,并根据反馈函数更新待训练模型以进行模型训练,实现了基于强本文档来自技高网...

【技术保护点】
1.一种推荐模型的训练方法,其特征在于,包括:/n根据获取的用户行为数据生成训练数据集;/n将所述训练数据集输入至待训练模型中以得到第一预测结果;/n根据所述第一预测结果生成中间预测数据,并将所述中间预测数据输入至所述待训练模型中以得到第二预测结果;/n根据所述第一预测结果和所述第二预测结果计算反馈函数,并根据所述反馈函数更新所述待训练模型以进行模型训练。/n

【技术特征摘要】
1.一种推荐模型的训练方法,其特征在于,包括:
根据获取的用户行为数据生成训练数据集;
将所述训练数据集输入至待训练模型中以得到第一预测结果;
根据所述第一预测结果生成中间预测数据,并将所述中间预测数据输入至所述待训练模型中以得到第二预测结果;
根据所述第一预测结果和所述第二预测结果计算反馈函数,并根据所述反馈函数更新所述待训练模型以进行模型训练。


2.根据权利要求1所述的方法,其特征在于,根据获取的用户行为数据生成训练数据集包括:
对获取的用户行为数据进行数据重构,以得到每个用户对应的数据链;
从所述数据链中依次截取指定长度的片段,并对截取的片段进行编码以生成训练数据集。


3.根据权利要求2所述的方法,其特征在于,对获取的用户行为数据进行数据重构,以得到每个用户对应的数据链包括:
根据用户行为数据获取每个用户的访问项目、每个访问项目的项目得分及打分时间;
对每个用户的行为数据,将每个访问项目及所述访问项目的项目得分组成序列对,并根据访问项目的打分时间对生成的序列对进行排序;
将每个用户对应的排序后的序列对生成数据链。


4.根据权利要求2所述的方法,其特征在于,根据所述第一预测结果生成中间预测数据包括:
获取所述第一预测结果对应的训练数据包括的访问项目序列;
将所述访问项目序列中的第一个访问项目删除,并分别将所述第一预测结果中的每个访问项目拼接到删除后的访问项目序列中,以得到中间预测数据,所述中间预测数据的条数与所述第一预测结果中的访问项目个数相同。


5.根据权利要求1所述的方法,其特征在于,根据所述反馈函数更新所述待训练模型包括:
根据所述反馈函数生成损失函数,并根据生成的损失函数更新所述待训练模型。


6.根据权利要求5所述的方法,其特征在于,所述反馈函数通过以下公式计算得到:

...

【专利技术属性】
技术研发人员:宋佳慧
申请(专利权)人:北京京东振世信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1