模型协同优化的方法、装置、介质和电子设备制造方法及图纸

技术编号：26791372 阅读：21 留言：0更新日期：2020-12-22 17:06

公开了一种模型协同优化的方法、装置、介质以及电子设备。其中的方法包括：在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测用户针对提供信息操作所提供的信息的反馈行为；根据反馈行为确定提供信息操作的回馈状态信息；经由状态预测模型的预测处理，获得用户在提供信息操作前后的状态变化；根据回馈状态信息和状态变化，形成状态预测模型的第一损失和点击通过率模型的第二损失；在状态预测模型中反向传播第一损失，在提供信息操作的点击通过率模型中反向传播第二损失，以分别调整状态预测模型和执行了提供信息操作的点击通过率模型的模型参数。本公开提供的技术方案有利于使各模型协同优化。

全部详细技术资料下载

【技术实现步骤摘要】
模型协同优化的方法、装置、介质和电子设备
本公开涉及计算机技术，尤其是涉及一种模型协同优化的方法、模型协同优化的装置、存储介质以及电子设备。
技术介绍
信息推荐以及信息搜索等技术，均涉及向用户提供相应的信息。在向用户提供信息的过程中，通常会利用CTR(ClickThroughRate，点击通过率)模型，对多个待提供信息分别进行用户点击信息的概率预测，并根据预测出的多个概率对多个待提供信息进行排序，以便于确定向用户提供的信息。如何优化CTR模型，以获得较好的信息提供效果，是一个值得关注的技术问题。
技术实现思路
为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种模型协同优化的方法、模型协同优化的装置、存储介质以及电子设备。根据本公开实施例的一个方面，提供了一种模型协同优化的方法，包括：在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为；根据所述反馈行为，确定所述提供信息操作的回馈状态信息；经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化；将所述回馈状态信息和所述状态变化，分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失；在所述状态预测模型中反向传播所述第一损失，在所述提供信息操作的点击通过率模型中反向传播所述第二损失，以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模...

【技术保护点】
1.一种模型协同优化的方法，包括：/n在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为；/n根据所述反馈行为，确定所述提供信息操作的回馈状态信息；/n经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化；/n将所述回馈状态信息和所述状态变化，分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失；/n在所述状态预测模型中反向传播所述第一损失，在所述提供信息操作的点击通过率模型中反向传播所述第二损失，以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。/n

【技术特征摘要】
1.一种模型协同优化的方法，包括：
在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为；
根据所述反馈行为，确定所述提供信息操作的回馈状态信息；
经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化；
将所述回馈状态信息和所述状态变化，分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失；
在所述状态预测模型中反向传播所述第一损失，在所述提供信息操作的点击通过率模型中反向传播所述第二损失，以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。

2.根据权利要求1所述的方法，其中，所述多种类型的点击通过率模型包括：至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型；
所述为用户提供信息操作包括：信息推荐操作、或者信息搜索操作。

3.根据权利要求1或2所述的方法，其中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：
根据所述反馈行为，判断所述提供信息是否被用户关注；
为被用户关注的提供信息设置第一回馈状态信息，为未被用户关注的提供信息设置第二回馈状态信息。

4.根据权利要求1至3中任一项所述的方法，其中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：
预测所述反馈行为引起预定事件在所述提供信息操作后的发生概率的变化；
将所述发生概率的变化作为所述提供信息操作的回馈状态信息。

5.根据权利要求1至4中任一项所述的方法，其中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：
对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算；
将所述加权平均计算的结果作为所述提供信息操作的回馈状态信息。

6.根据权利要求1至5中任一项所述的方法，其中，所述经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化，包括：
将所述用户的上下文信息提供给所述状态预测模型...

【专利技术属性】
技术研发人员：李嘉晨，郭凯，胡磊，付东东，
申请(专利权)人：贝壳技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人