模型协同优化的方法、装置、介质和电子设备制造方法及图纸

技术编号:26791372 阅读:21 留言:0更新日期:2020-12-22 17:06
公开了一种模型协同优化的方法、装置、介质以及电子设备。其中的方法包括:在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下,检测用户针对提供信息操作所提供的信息的反馈行为;根据反馈行为确定提供信息操作的回馈状态信息;经由状态预测模型的预测处理,获得用户在提供信息操作前后的状态变化;根据回馈状态信息和状态变化,形成状态预测模型的第一损失和点击通过率模型的第二损失;在状态预测模型中反向传播第一损失,在提供信息操作的点击通过率模型中反向传播第二损失,以分别调整状态预测模型和执行了提供信息操作的点击通过率模型的模型参数。本公开提供的技术方案有利于使各模型协同优化。

【技术实现步骤摘要】
模型协同优化的方法、装置、介质和电子设备
本公开涉及计算机技术,尤其是涉及一种模型协同优化的方法、模型协同优化的装置、存储介质以及电子设备。
技术介绍
信息推荐以及信息搜索等技术,均涉及向用户提供相应的信息。在向用户提供信息的过程中,通常会利用CTR(ClickThroughRate,点击通过率)模型,对多个待提供信息分别进行用户点击信息的概率预测,并根据预测出的多个概率对多个待提供信息进行排序,以便于确定向用户提供的信息。如何优化CTR模型,以获得较好的信息提供效果,是一个值得关注的技术问题。
技术实现思路
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种模型协同优化的方法、模型协同优化的装置、存储介质以及电子设备。根据本公开实施例的一个方面,提供了一种模型协同优化的方法,包括:在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下,检测所述用户针对所述提供信息操作所提供的信息的反馈行为;根据所述反馈行为,确定所述提供信息操作的回馈状态信息;经由状态预测模型的预测处理,获得所述用户在所述提供信息操作前后的状态变化;将所述回馈状态信息和所述状态变化,分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中,形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失;在所述状态预测模型中反向传播所述第一损失,在所述提供信息操作的点击通过率模型中反向传播所述第二损失,以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。在本公开一实施方式中,所述多种类型的点击通过率模型包括:至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型;所述为用户提供信息操作包括:信息推荐操作、或者信息搜索操作。在本公开又一实施方式中,所述根据所述反馈行为,确定所述提供信息操作的回馈状态信息,包括:根据所述反馈行为,判断所述提供信息是否被用户关注;为被用户关注的提供信息设置第一回馈状态信息,为未被用户关注的提供信息设置第二回馈状态信息。在本公开再一实施方式中,所述根据所述反馈行为,确定所述提供信息操作的回馈状态信息,包括:预测所述反馈行为引起预定事件在所述提供信息操作后的发生概率的变化;将所述发生概率的变化作为所述提供信息操作的回馈状态信息。在本公开再一实施方式中,所述根据所述反馈行为,确定所述提供信息操作的回馈状态信息,包括:对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值,进行加权平均计算;将所述加权平均计算的结果作为所述提供信息操作的回馈状态信息。在本公开再一实施方式中,所述经由状态预测模型的预测处理,获得所述用户在所述提供信息操作前后的状态变化,包括:将所述用户的上下文信息提供给所述状态预测模型,经由所述状态预测模型基于所述用户的上下文信息进行预测处理,获得所述用户在所述提供信息操作前的第一状态信息;将所述用户的上下文信息、所述回馈状态信息以及所述用户在所述提供信息操作后的用户特征,提供给所述状态预测模型,经由所述状态预测模型基于所述用户的上下文信息、所述回馈状态信息以及所述用户特征进行预测处理,获得所述用户在所述提供信息操作后的第二状态信息;根据所述第一状态信息和所述第二状态信息的差异,确定所述用户在所述提供信息操作前后的状态变化。在本公开再一实施方式中,所述方法还包括:基于行为量统计,获取所述用户在所述提供信息操作前执行的多种类型的行为的行为量特征;获取所述用户在所述提供信息操作前的用户偏好;对所述多种类型的行为的行为量特征和所述用户偏好进行维度压缩处理,形成所述用户的上下文信息。在本公开再一实施方式中,所述方法还包括:将所述用户在所述提供信息操作前执行的多种类型的行为的行为量特征、所述用户在所述提供信息操作前的用户偏好以及多个候选信息的特征,分别提供给所述多种类型的点击通过率模型中的一点击通过率模型,以经由所述点击通过率模型预测所述多个候选信息的点击概率;根据所述多个候选信息的点击概率,从所述多个候选信息中选取为所述用户提供的信息;所述将所述用户的上下文信息、所述回馈状态信息以及所述用户在所述提供信息操作后的用户特征,提供给所述状态预测模型,包括:将所述用户的上下文信息、所述回馈状态信息、所述用户在所述提供信息操作后的用户特征以及所述选取出的信息的点击概率,提供给所述状态预测模型。根据本公开实施例的另一个方面,提供了一种模型协同优化的装置,该装置包括:检测反馈行为模块,用于在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下,检测所述用户针对所述提供信息操作所提供的信息的反馈行为;确定回馈状态模块,用于根据所述反馈行为,确定所述提供信息操作的回馈状态信息;预测状态变化模块,用于经由状态预测模型的预测处理,获得所述用户在所述提供信息操作前后的状态变化;损失模块,用于将所述回馈状态信息和所述状态变化,分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中,形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失;调整模型参数模块,用于在所述状态预测模型中反向传播所述第一损失,在所述提供信息操作的点击通过率模型中反向传播所述第二损失,以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。在本公开一实施方式中,所述多种类型的点击通过率模型包括:至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型;所述为用户提供信息操作包括:信息推荐操作、或者信息搜索操作。在本公开又一实施方式中,所述确定回馈状态模块包括:第一子模块,用于根据所述反馈行为,判断所述提供信息是否被用户关注;第二子模块,用于为被用户关注的提供信息设置第一回馈状态信息,为未被用户关注的提供信息设置第二回馈状态信息。在本公开再一实施方式中,所述确定回馈状态模块包括:第三子模块,用于预测所述反馈行为引起预定事件在所述提供信息操作后的发生概率的变化;第四子模块,用于将所述发生概率的变化作为所述提供信息操作的回馈状态信息。在本公开再一实施方式中,所述确定回馈状态模块包括:第五子模块,用于对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值,进行加权平均计算;第六子模块,用于将所述加权平均计算的结果作为所述提供信息操作的回馈状态信息。在本公开再一实施方式中,所述预测状态变化模块包括:第七子模块,用于将所述用户的上下文信息提供给所述状态预测模型,经由所述状态预测模型基于所述用户的上下文信息进行预测处理,获得所述用户在所述提供信息操作前的第一状态信息;第八子模块,用于将所述用户的上下文信息、所述回馈状态信息以及所述用户在所述提供信息操作后的用户特征,提供给所述状态预测模型,经由所述状态预测模型基于所述用户的上下文信息、所述回馈状态信息以及所述用户特征进行预测处理,获得所述用户在所述提供信息操作后的第二状态信息;第九子模块,用于根据所述第一状态信息和所述第二状态信息的差本文档来自技高网...

【技术保护点】
1.一种模型协同优化的方法,包括:/n在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下,检测所述用户针对所述提供信息操作所提供的信息的反馈行为;/n根据所述反馈行为,确定所述提供信息操作的回馈状态信息;/n经由状态预测模型的预测处理,获得所述用户在所述提供信息操作前后的状态变化;/n将所述回馈状态信息和所述状态变化,分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中,形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失;/n在所述状态预测模型中反向传播所述第一损失,在所述提供信息操作的点击通过率模型中反向传播所述第二损失,以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。/n

【技术特征摘要】
1.一种模型协同优化的方法,包括:
在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下,检测所述用户针对所述提供信息操作所提供的信息的反馈行为;
根据所述反馈行为,确定所述提供信息操作的回馈状态信息;
经由状态预测模型的预测处理,获得所述用户在所述提供信息操作前后的状态变化;
将所述回馈状态信息和所述状态变化,分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中,形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失;
在所述状态预测模型中反向传播所述第一损失,在所述提供信息操作的点击通过率模型中反向传播所述第二损失,以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。


2.根据权利要求1所述的方法,其中,所述多种类型的点击通过率模型包括:至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型;
所述为用户提供信息操作包括:信息推荐操作、或者信息搜索操作。


3.根据权利要求1或2所述的方法,其中,所述根据所述反馈行为,确定所述提供信息操作的回馈状态信息,包括:
根据所述反馈行为,判断所述提供信息是否被用户关注;
为被用户关注的提供信息设置第一回馈状态信息,为未被用户关注的提供信息设置第二回馈状态信息。


4.根据权利要求1至3中任一项所述的方法,其中,所述根据所述反馈行为,确定所述提供信息操作的回馈状态信息,包括:
预测所述反馈行为引起预定事件在所述提供信息操作后的发生概率的变化;
将所述发生概率的变化作为所述提供信息操作的回馈状态信息。


5.根据权利要求1至4中任一项所述的方法,其中,所述根据所述反馈行为,确定所述提供信息操作的回馈状态信息,包括:
对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值,进行加权平均计算;
将所述加权平均计算的结果作为所述提供信息操作的回馈状态信息。


6.根据权利要求1至5中任一项所述的方法,其中,所述经由状态预测模型的预测处理,获得所述用户在所述提供信息操作前后的状态变化,包括:
将所述用户的上下文信息提供给所述状态预测模型...

【专利技术属性】
技术研发人员:李嘉晨郭凯胡磊付东东
申请(专利权)人:贝壳技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1