信息推荐模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:33352017 阅读:9 留言:0更新日期:2022-05-08 09:59
本申请涉及一种信息推荐模型训练方法、装置、计算机设备和存储介质。方法包括:从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对;状态转移对为与动作记录对应的状态变化信息;通过多个价值推理模型,分别对状态转移对进行价值预测,得到各价值推理模型各自输出的预测价值;通过动作推理模型对状态转移对进行动作预测,得到在与状态转移对相对应的预测动作;基于预测价值、预测动作以及状态转移对所对应动作,对各价值推理模型和动作推理模型进行模型调整,直至达到训练停止条件,基于停止训练所得到的动作推理模型确定信息推荐模型;将待推荐信息流数据输入信息推荐模型进行信息推荐。采用本方法能够提升模型的训练效率。训练效率。训练效率。

【技术实现步骤摘要】
信息推荐模型训练方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种信息推荐模型训练方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着科学技术的不断发展,当前的在线服务平台可以为目标对象提供更多的便利,以满足目标对象多方面的需求。比如,当在线服务平台为在线购物平台时,即可向目标对象展示多种可购买商品等。然而随着互联网服务内容的喷发,在线服务平台所能展示的信息数量也越来越多,使得目标对象难以从繁多的信息内容中确定自身感兴趣的内容,因此,需要借助于信息推荐模型向目标对象进行信息推荐。
[0003]目前,一般是基于强化学习来对信息推荐模型进行训练,通过从随机初始化的策略开始优化,不断重复收集目标对象数据

提升性能这一学习范式,直至信息推荐模型的性能达到目标值。但这种学习方式需要大量的在线交互数据,且由于需要不断重复收集目标对象数据,还导致模型训练的效率低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升模型训练效率的信息推荐模型训练方法、装置、计算机设备和存储介质。
[0005]一种信息推荐模型训练方法,所述方法包括:
[0006]从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对;所述状态转移对为与所述动作记录对应的状态变化信息
[0007]通过多个价值推理模型,分别对所述状态转移对进行价值预测,得到各所述价值推理模型各自输出的预测价值;
[0008]通过动作推理模型对所述状态转移对进行动作预测,得到在与所述状态转移对相对应的预测动作;
[0009]基于所述预测价值、所述预测动作以及所述状态转移对所对应动作,对各所述价值推理模型和所述动作推理模型进行模型调整,直至达到训练停止条件,基于停止训练所得到的动作推理模型确定信息推荐模型;
[0010]将待推荐信息流数据输入所述信息推荐模型进行信息推荐。
[0011]一种信息推荐模型训练装置,所述装置包括:
[0012]获取模块,用于从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对;所述状态转移对为与所述动作记录对应的状态变化信息;
[0013]推理模块,用于通过多个价值推理模型,分别对所述状态转移对进行价值预测,得到各所述价值推理模型各自输出的预测价值;通过动作推理模型对所述状态转移对进行动作预测,得到在与所述状态转移对相对应的预测动作;
[0014]调整模块,用于基于所述预测价值、所述预测动作以及所述状态转移对所对应动
作,对各所述价值推理模型和所述动作推理模型进行模型调整,直至达到训练停止条件,基于停止训练所得到的动作推理模型确定信息推荐模型;将待推荐信息流数据输入所述信息推荐模型进行信息推荐。
[0015]在一个实施例中,所述状态转移对包括前序状态转移对和后继状态转移对;所述获取模块还包括数据确定模块,用于确定目标时间,以及与所述目标时间相邻的下一时间;从离线数据集中获取与所述目标时间相对应的前序状态转移对,以及从离线数据集中获取与所述目标时间相邻的下一时间相对应的后继状态转移对。
[0016]在一个实施例中,所述获取模块还包括数据确定模块,用于确定与所述目标时间相对应的多个历史时间和多个后继时间;从离线数据集中确定每个所述历史时间各自对应的离线数据,并根据每个所述历史时间各自对应的离线数据,得到与所述目标时间相对应的目标状态;从离线数据集中确定在所述目标状态下所采用的目标动作;从离线数据集中确定每个所述后继时间各自对应的离线数据,并根据每个所述后继时间段各自对应的离线数据,得到与所述目标时间相对应的后继状态;综合所述目标动作、所述目标状态和所述后继状态,得到与所述目标时间相对应的状态转移对。
[0017]在一个实施例中,所述推理模块还包括动作推理模块,用于获取动作推理模型和预设动作集;通过所述动作推理模型,确定在与所述状态转移对相对应的状态下,采用预设动作集中的每个动作的概率值;根据采用所述预设动作集中的每个动作的概率值,得到在与所述状态转移对相对应的状态下采用的预测动作。
[0018]在一个实施例中,所述状态转移对包括前序状态转移对和后继状态转移对;所述预测价值包括与所述前序状态转移对对应的前序预测价值和与所述后继状态转移对相对应的后继预测价值;所述调整模块用于通过所述前序预测价值和所述后继预测价值,调整各所述价值推理模型的模型参数,通过所述前序预测价值、所述预测动作以及所述前序状态转移对所对应的动作,调整所述动作推理模型的模型参数;基于调整后的价值推理模型继续进行价值预测和模型参数的调整,基于调整后的动作推理模型继续进行动作预测和模型参数的调整,直至达到训练停止条件时停止,基于停止训练所得到的动作推理模型确定信息推荐模型。
[0019]在一个实施例中,所述推理模块还包括价值推理模块,用于获取价值推理模型集;所述价值推理模型集中包括多个价值推理模型;通过所述价值推理模型集中的每个价值推理模型,对状态转移对集合中的前序状态转移对进行价值推理,得到各价值推理模型各自输出的前序预测价值;通过所述价值推理模型集中的每个价值推理模型,对状态转移对集合中的后继状态转移对进行价值推理,得到各价值推理模型各自输出的后继预测价值。
[0020]在一个实施例中,所述推理模块还包括参数调整模块,用于根据每个所述价值推理模型各自输出的后继预测价值,确定目标价值;通过所述前序预测价值分别与所述目标价值间的差异,调整各所述价值推理模型的模型参数。
[0021]在一个实施例中,所述参数调整模块还用于确定每个所述价值推理模型各自输出的后继预测价值之间的离散程度,并根据所述离散程度确定模型度量值;对每个所述价值推理模型各自输出的后继预测价值进行均值运算,得到后继价值均值,并根据所述模型度量值和所述后继价值均值,确定目标价值。
[0022]在一个实施例中,所述参数调整模块还用于对每个所述价值推理模型各自输出的
后继预测价值进行求方差运算,得到后继方差;获取预设的训练惩罚系数,根据所述训练惩罚系数和所述后继方差,得到相对应的模型度量值。
[0023]在一个实施例中,所述参数调整模块还用于确定多个价值推理模型中的每个价值推理模型各自对应的学习速率;对于多个价值推理模型中的每个价值推理模型,均根据当前价值推理模型输出的前序预测价值与所述目标价值之间的差异,得到与所述当前价值推理模型相对应的第一损失函数;对于多个价值推理模型中的每个价值推理模型,均通过当前价值模型所对应的第一损失函数和学习速率,对所述当前价值模型的模型参数进行调整。
[0024]在一个实施例中,所述预测动作为与所述前序状态转移对相对应的预测动作;所述推理模块还包括参数调整模块,用于将所述前序状态转移对中的动作,作为标准动作,并根据所述标准动作与所述预测动作之间的差异,得到动作差异;根据所述动作差异和所述前序预测价值,得到第二损失函数;通过所述第二损失函数,对所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息推荐模型训练方法,其特征在于,所述方法包括:从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对;所述状态转移对为与所述动作记录对应的状态变化信息;通过多个价值推理模型,分别对所述状态转移对进行价值预测,得到各所述价值推理模型各自输出的预测价值;通过动作推理模型对所述状态转移对进行动作预测,得到在与所述状态转移对相对应的预测动作;基于所述预测价值、所述预测动作以及所述状态转移对所对应动作,对各所述价值推理模型和所述动作推理模型进行模型调整,直至达到训练停止条件,基于停止训练所得到的动作推理模型确定信息推荐模型;将待推荐信息流数据输入所述信息推荐模型进行信息推荐。2.根据权利要求1所述的方法,其特征在于,所述状态转移对包括前序状态转移对和后继状态转移对;所述从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对,包括:确定目标时间,以及确定与所述目标时间相邻的下一时间;从离线数据集中获取与所述目标时间相对应的前序状态转移对,以及从离线数据集中获取与所述目标时间相邻的下一时间相对应的后继状态转移对。3.根据权利要求1所述的方法,其特征在于,所述从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对,包括:确定与目标时间相对应的多个历史时间和多个后继时间;从离线数据集中确定每个所述历史时间各自对应的离线数据,并根据每个所述历史时间各自对应的离线数据,得到与所述目标时间相对应的目标状态;从离线数据集中确定在所述目标状态下所采用的目标动作;从离线数据集中确定每个所述后继时间各自对应的离线数据,并根据每个所述后继时间段各自对应的离线数据,得到与所述目标时间相对应的后继状态;综合所述目标动作、所述目标状态和所述后继状态,得到与所述目标时间相对应的状态转移对。4.根据权利要求1所述的方法,其特征在于,所述通过动作推理模型对所述状态转移对进行动作预测,得到在与所述状态转移对相对应的预测动作,包括:获取动作推理模型和预设动作集;通过所述动作推理模型,确定在与所述状态转移对相对应的状态下,采用预设动作集中的每个动作的概率值;根据采用所述预设动作集中的每个动作的概率值,得到在与所述状态转移对相对应的状态下采用的预测动作。5.根据权利要求1所述的方法,其特征在于,所述状态转移对包括前序状态转移对和后继状态转移对;所述预测价值包括与所述前序状态转移对相对应的前序预测价值和与所述后继状态转移对相对应的后继预测价值;所述基于所述预测价值、所述预测动作以及所述状态转移对所对应动作,对各所述价值推理模型和所述动作推理模型进行模型调整,直至达到训练停止条件,基于停止训练所
得到的动作推理模型确定信息推荐模型,包括:通过所述前序预测价值和所述后继预测价值,调整各所述价值推理模型的模型参数,通过所述前序预测价值、所述预测动作以及所述前序状态转移对所对应的动作,调整所述动作推理模型的模型参数;基于调整后的价值推理模型继续进行价值预测和模型参数的调整,基于调整后的动作推理模型继续进行动作预测和模型参数的调整,直至达到训练停止条件时停止,基于停止训练所得到的动作推理模型确定信息推荐模型。6.根据权利要求5所述的方法,其特征在于,所述通过所述前序预测价值和所述后继预测价值,调整各所述价值推理模型的模型参数,包括:根据每个所述价值推理模型各自输出的后继预测价值,确定目标价值;通过所述前序预测价值分别与所述目标价值间的差异,调整各所述价值推理模型的模型参数。7.根据权利要求6所述的方法,其特征在于,所述根据每个所述价值推理模型各自输出的后继预测价值,确定目标价值,包括:确定每个所述价值推理模型各自输出的后继预测价值之间的离散程度,并根据所述离散程度确定模型度量值;对每个所述价值推理模型各自输出的后继...

【专利技术属性】
技术研发人员:高程前许可赵沛霖
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1