【技术实现步骤摘要】
信息推荐模型训练方法、装置、计算机设备和存储介质
[0001]本申请涉及计算机
,特别是涉及一种信息推荐模型训练方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着科学技术的不断发展,当前的在线服务平台可以为目标对象提供更多的便利,以满足目标对象多方面的需求。比如,当在线服务平台为在线购物平台时,即可向目标对象展示多种可购买商品等。然而随着互联网服务内容的喷发,在线服务平台所能展示的信息数量也越来越多,使得目标对象难以从繁多的信息内容中确定自身感兴趣的内容,因此,需要借助于信息推荐模型向目标对象进行信息推荐。
[0003]目前,一般是基于强化学习来对信息推荐模型进行训练,通过从随机初始化的策略开始优化,不断重复收集目标对象数据
‑
提升性能这一学习范式,直至信息推荐模型的性能达到目标值。但这种学习方式需要大量的在线交互数据,且由于需要不断重复收集目标对象数据,还导致模型训练的效率低。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够提升模型训练效率的信息推荐模型训练方法、装置、计算机设备和存储介质。
[0005]一种信息推荐模型训练方法,所述方法包括:
[0006]从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对;所述状态转移对为与所述动作记录对应的状态变化信息
[0007]通过多个价值推理模型,分别对所述状态转移对进行价值预测,得到各所述价值推理模型各自输出的预测价值;
[0008]通过动作推 ...
【技术保护点】
【技术特征摘要】
1.一种信息推荐模型训练方法,其特征在于,所述方法包括:从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对;所述状态转移对为与所述动作记录对应的状态变化信息;通过多个价值推理模型,分别对所述状态转移对进行价值预测,得到各所述价值推理模型各自输出的预测价值;通过动作推理模型对所述状态转移对进行动作预测,得到在与所述状态转移对相对应的预测动作;基于所述预测价值、所述预测动作以及所述状态转移对所对应动作,对各所述价值推理模型和所述动作推理模型进行模型调整,直至达到训练停止条件,基于停止训练所得到的动作推理模型确定信息推荐模型;将待推荐信息流数据输入所述信息推荐模型进行信息推荐。2.根据权利要求1所述的方法,其特征在于,所述状态转移对包括前序状态转移对和后继状态转移对;所述从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对,包括:确定目标时间,以及确定与所述目标时间相邻的下一时间;从离线数据集中获取与所述目标时间相对应的前序状态转移对,以及从离线数据集中获取与所述目标时间相邻的下一时间相对应的后继状态转移对。3.根据权利要求1所述的方法,其特征在于,所述从离线数据集中获取与针对信息流数据的动作记录所对应的状态转移对,包括:确定与目标时间相对应的多个历史时间和多个后继时间;从离线数据集中确定每个所述历史时间各自对应的离线数据,并根据每个所述历史时间各自对应的离线数据,得到与所述目标时间相对应的目标状态;从离线数据集中确定在所述目标状态下所采用的目标动作;从离线数据集中确定每个所述后继时间各自对应的离线数据,并根据每个所述后继时间段各自对应的离线数据,得到与所述目标时间相对应的后继状态;综合所述目标动作、所述目标状态和所述后继状态,得到与所述目标时间相对应的状态转移对。4.根据权利要求1所述的方法,其特征在于,所述通过动作推理模型对所述状态转移对进行动作预测,得到在与所述状态转移对相对应的预测动作,包括:获取动作推理模型和预设动作集;通过所述动作推理模型,确定在与所述状态转移对相对应的状态下,采用预设动作集中的每个动作的概率值;根据采用所述预设动作集中的每个动作的概率值,得到在与所述状态转移对相对应的状态下采用的预测动作。5.根据权利要求1所述的方法,其特征在于,所述状态转移对包括前序状态转移对和后继状态转移对;所述预测价值包括与所述前序状态转移对相对应的前序预测价值和与所述后继状态转移对相对应的后继预测价值;所述基于所述预测价值、所述预测动作以及所述状态转移对所对应动作,对各所述价值推理模型和所述动作推理模型进行模型调整,直至达到训练停止条件,基于停止训练所
得到的动作推理模型确定信息推荐模型,包括:通过所述前序预测价值和所述后继预测价值,调整各所述价值推理模型的模型参数,通过所述前序预测价值、所述预测动作以及所述前序状态转移对所对应的动作,调整所述动作推理模型的模型参数;基于调整后的价值推理模型继续进行价值预测和模型参数的调整,基于调整后的动作推理模型继续进行动作预测和模型参数的调整,直至达到训练停止条件时停止,基于停止训练所得到的动作推理模型确定信息推荐模型。6.根据权利要求5所述的方法,其特征在于,所述通过所述前序预测价值和所述后继预测价值,调整各所述价值推理模型的模型参数,包括:根据每个所述价值推理模型各自输出的后继预测价值,确定目标价值;通过所述前序预测价值分别与所述目标价值间的差异,调整各所述价值推理模型的模型参数。7.根据权利要求6所述的方法,其特征在于,所述根据每个所述价值推理模型各自输出的后继预测价值,确定目标价值,包括:确定每个所述价值推理模型各自输出的后继预测价值之间的离散程度,并根据所述离散程度确定模型度量值;对每个所述价值推理模型各自输出的后继...
【专利技术属性】
技术研发人员:高程前,许可,赵沛霖,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。