【技术实现步骤摘要】
一种行为预测模型训练方法、装置、设备及存储介质
[0001]本专利技术涉及互联网
,特别是涉及一种行为预测模型训练方法、装置、设备及存储介质。
技术介绍
[0002]视频平台通常会分析用户浏览视频的历史行为,并以此为依据对用户的行为进行预测,根据预测结果,向用户推荐其可能感兴趣的视频,从而提高用户的在线时长。举例而言,如果预测用户对某一视频的点击概率越高,则表示用户对该视频感兴趣的概率较高,那么,如果向用户推荐该视频,则用户的在线时长也会比较高。
[0003]现有技术中,视频平台向用户推荐视频的方法通常为:首先,获取固定时长内采集的用户行为数据,然后,利用获取到的用户行为数据,对预设模型进行训练,得到行为预测模型,进而,利用行为预测模型预测目标用户点击概率较大的视频,并向目标用户推荐这些视频。
[0004]但是,在上述方法中,每次都需要固定时长的用户行为数据,重新训练行为预测模型,重新调整模型参数,使得行为预测模型的收敛速度缓慢,而且,只能根据固定时长内的用户行为数据判断用户的偏好,用于训练的数据中包含的信息量较少,分析的结果也不够准确。
技术实现思路
[0005]本专利技术实施例的目的在于提供一种行为预测模型训练方法、装置、设备及存储介质,以加快行为预测模型的收敛速度,并提高行为预测模型分析结果的精准度。具体技术方案如下:
[0006]在本专利技术实施的第一方面,首先提供了一种行为预测模型训练方法,所述方法包括:
[0007]获取当前周期的训练数据,所述训练数据 ...
【技术保护点】
【技术特征摘要】
1.一种行为预测模型训练方法,其特征在于,所述方法包括:获取当前周期的训练数据,所述训练数据中包括样本用户的样本用户特征、样本视频的样本视频特征及所述样本用户在所述当前周期内对所述样本视频的真实行为特征;将所述样本用户特征及所述样本视频特征输入至行为预测模型,计算所述样本用户对所述样本视频的预测行为特征,所述行为预测模型为对所述当前周期之前的至少一个周期的历史训练数据进行训练得到的;根据所述预测行为特征与所述真实行为特征之间的损失值,调整所述行为预测模型的模型参数,以使所述预测行为特征与所述真实行为特征之间的损失值满足预设条件,得到新的行为预测模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述预测行为特征与所述真实行为特征之间的损失值,调整所述行为预测模型的模型参数,得到新的行为预测模型,包括:建立所述预测行为特征与所述真实行为特征之间的损失函数,根据所述损失函数,计算出预测梯度信息;获取预先存储的所述行为预测模型的历史梯度信息,根据所述历史梯度信息及所述预测梯度信息,计算当前梯度信息;利用所述当前梯度信息,对所述行为预测模型进行反向传播,调整所述行为预测模型的模型参数,以使所述预测行为特征与所述真实行为特征之间的损失值满足预设条件,得到新的行为预测模型,并将所述当前梯度信息存储为所述新的行为预测模型的历史梯度信息。3.根据权利要求2所述的方法,其特征在于,所述将所述样本用户特征及所述样本视频特征输入至行为预测模型,计算所述样本用户对所述样本视频的预测行为特征,包括:将所述训练数据分为多组,其中,每组包括第一预设数量个训练数据;从所述多组训练数据中选择一组,作为目标训练数据;将所述目标训练数据中的样本用户特征及样本视频特征输入至行为预测模型,计算所述目标训练数据中样本用户对样本视频的目标预测行为特征;所述建立所述预测行为特征与所述真实行为特征之间的损失函数,根据所述损失函数,计算出预测梯度信息,包括:建立所述目标预测行为特征与所述目标训练数据中真实行为特征之间的损失函数,根据所述目标损失函数,计算出预测梯度信息;在所述将所述当前梯度信息存储为所述新的行为预测模型的历史梯度信息之后,所述方法还包括:从所述多组训练数据中选择新的一组,作为新的目标训练数据,返回所述将所述目标训练数据中的样本用户特征及样本视频特征输入至行为预测模型,计算所述目标训练数据中样本用户对样本视频的目标预测行为特征的步骤。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取到目标用户的目标用户特征及候选视频的候选视频特征之后,将所述目标用户特征及所述候选视频特征输入至最新的行为预测模型中,计算所述目标用户对所述候选视频的目标行为特征;根据所述目标行为特征,从所述候选视频中选择目标视频,向所述目标用户推荐所述
目标视频。5.根据权利要求4所述的方法,其特征在于,所述目标行为特征包括所述目标用户对每个候选视频的点击概率,所述根据所述目标行为...
【专利技术属性】
技术研发人员:尚斌,付睿,沈翔宇,
申请(专利权)人:上海众源网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。