信息推送模型训练和信息推送方法、装置、设备和介质制造方法及图纸

技术编号:33391963 阅读:17 留言:0更新日期:2022-05-11 23:09
本发明专利技术实施例公开了一种信息推送模型训练和信息推送方法、装置、设备和介质,其中,方法包括:将用户购物行为样本数据输入至多任务学习网络,并将跨品类物品购物行为样本数据输入至跨品类专家网络和跨品类专家网络的门控网络;基于跨品类专家网络的输出结果及其门控网络的输出结果生成多任务学习网络中的各任务塔网络的输入信息,并将输入信息输入到各任务塔网络中;将各任务塔网络的输出结果与多任务学习网络中的自适应专家网络的输出结果进行融合,并根据融合结果对多任务学习网络、跨品类专家网络及其门控网络的参数进行更新,以训练得到目标信息推送模型。该方案实现了为用户推送更多不同品类的物品信息,提升用户所浏览的物品信息的丰富度。览的物品信息的丰富度。览的物品信息的丰富度。

【技术实现步骤摘要】
信息推送模型训练和信息推送方法、装置、设备和介质


[0001]本专利技术实施例涉及人工智能
,尤其涉及信息推送模型训练和信息推送方法、装置、设备和介质。

技术介绍

[0002]在网络购物平台中,通常会在平台展示界面中进行物品信息的推送,以供用户在购物过程中进行信息参考。而在推送的物品信息中,多是根据用户点击及购买物品的记录生成的物品信息推送结果。不同用户有不同的购物偏好,针对每个用户推送的物品信息的品类类别也是有一定局限性的。购物平台为了实现物品销售及用户量的增长会考虑为用户推送更多不同品类的物品信息,帮助用户获取到更多的参考信息,从而找到新的需求。目前,为用户推送更多的跨品类的物品信息,主要依赖于运营人员的业务经验,根据运营人员制定的跨品类物品营销策略确定推送的物品信息。
[0003]但是,在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:一方面,运营人员的业务经验指导跨品类物品信息推送有一定的局限性,涉及到的物品品类较少;另一方面,随着业务方向的变化,运营人员需要不断调整策略,人力成本高,信息推送策略调整的自动化程度有待提升。

技术实现思路

[0004]本专利技术实施例提供了一种信息推送模型训练和信息推送方法,以实现为用户推送更多不同品类的物品信息,提升用户所浏览的物品信息的丰富度。
[0005]第一方面,本专利技术实施例提供了一种信息推送模型训练方法,该方法包括:
[0006]获取用户购物行为样本数据,将所述用户购物行为样本数据输入至多任务学习网络,并将所述用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和所述跨品类专家网络的门控网络,其中,所述跨品类专家网络用于提取跨品类物品的特征信息,所述跨品类专家网络的门控网络用于确定所述跨品类专家网络输出结果的权重参数;
[0007]基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息,并将所述输入信息输入到所述各任务塔网络中;
[0008]将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合,并根据融合结果确定第一损失函数数值,基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络的门控网络的参数进行更新,以训练得到目标信息推送模型。
[0009]第二方面,本专利技术实施例还提供了一种信息推送方法,该方法包括:
[0010]获取目标用户在目标信息展示平台与物品信息交互的行为数据样本,其中,所行为数据样本包括所述目标用户与跨品类的物品信息进行交互的行为数据样本,所述跨品类
物品为所述目标用户在预设历史时间段内未点击或未购买过的物品;
[0011]将所述行为数据样本,输入至由任一实施例所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中;
[0012]基于所述目标信息推送模型的输出结果确定待推送物品信息,并将所述待推送物品信息推送展示给所述目标用户。
[0013]第三方面,本专利技术实施例还提供了一种信息推送模型训练,该装置包括:
[0014]样本输入模块,用于获取用户购物行为样本数据,将所述用户购物行为样本数据输入至多任务学习网络,并将所述用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和所述跨品类专家网络的门控网络,其中,所述跨品类专家网络用于提取跨品类物品的特征信息,所述跨品类专家网络的门控网络用于确定所述跨品类专家网络输出结果的权重参数;
[0015]样本运算模块,用于基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息,并将所述输入信息输入到所述各任务塔网络中;
[0016]模型训练模块,用于将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合,并根据融合结果确定第一损失函数数值,基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络的门控网络的参数进行更新,以训练得到目标信息推送模型。
[0017]第四方面,本专利技术实施例还提供了一种信息推送,该装置包括:
[0018]数据获取模块,用于获取目标用户在目标信息展示平台与物品信息交互的行为数据样本,其中,所行为数据样本包括所述目标用户与跨品类的物品信息进行交互的行为数据样本,所述跨品类物品为所述目标用户在预设历史时间段内未点击或未购买过的物品;
[0019]数据分析模块,用于将所述行为数据样本,输入至由任一实施例所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中;
[0020]信息推送模块,用于基于所述目标信息推送模型的输出结果确定待推送物品信息,并将所述待推送物品信息推送展示给所述目标用户。
[0021]第五方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0022]一个或多个处理器;
[0023]存储器,用于存储一个或多个程序;
[0024]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所提供的信息推送模型训练方法或信息推送方法。
[0025]第六方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所提供的信息推送模型训练方法或信息推送方法。
[0026]上述专利技术中的实施例具有如下优点或有益效果:
[0027]本专利技术实施例,通过获取用户购物行为样本数据,将用户购物行为样本数据输入至多任务学习网络,并将用户购物行为样本数据中的跨品类物品购物行为样本数据输入至
跨品类专家网络和跨品类专家网络的门控网络,即在用于信息推送的多任务学习网络中增加跨品类专家网络和和跨品类专家网络的门控网络;然后,基于跨品类专家网络的输出结果和跨品类专家网络的门控网络的输出结果生成多任务学习网络中的各任务塔网络的输入信息,并将输入信息输入到各任务塔网络中,即使多任务学习网络中任务学习中可以学习到跨品类专家网络提取跨品类物品的特征信息;最终,将各任务塔网络的输出结果与多任务学习网络中的自适应专家网络的输出结果进行融合,并根据融合结果确定第一损失函数数值,基于第一损失函数数值对多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的参数进行更新,以训练得到目标信息推送模型,该目标信息推送模型的输出结果对应的推送信息,可包含更多跨品类物品信息,满足用户跨品类信息的需求。本实施例技术方案解决了现有技术中基于运营人员的业务经验及业务策略指导跨品类物品信息推送有一定的局限性,涉及到的物品品类较少及自动化程度低的问题,实现了根据用户的购物行为样本数据进行数据分析,建立目标信息推送模型,能够为用户推送更多不同品类的物品信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息推送模型训练方法,其特征在于,所述方法包括:获取用户购物行为样本数据,将所述用户购物行为样本数据输入至多任务学习网络,并将所述用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和所述跨品类专家网络的门控网络,其中,所述跨品类专家网络用于提取跨品类物品的特征信息,所述跨品类专家网络的门控网络用于确定所述跨品类专家网络输出结果的权重参数;基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息,并将所述输入信息输入到所述各任务塔网络中;将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合,并根据融合结果确定第一损失函数数值,基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络的门控网络的参数进行更新,以训练得到目标信息推送模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息,包括:基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果确定所述各任务塔网络的第一输入信息;将所述多任务学习网络中各任务的门控网络的输出结果,与各任务对应的专家网络的输出结果按照预设运算规则计算,得到所述各任务塔网络的第二输入信息;将所述第一输入信息和所述第二输入信息相叠加,得到所述多任务学习网络中的各任务塔网络的输入信息。3.根据权利要求2所述的方法,其特征在于,将输出结果只作为一个任务塔网络的部分输入信息的专家网络称为私有专家网络,将输出结果同时作为多个任务塔网络的部分输入信息的专家网络称为公共专家网络,所述基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述门控网络的参数进行更新,包括:根据所述第一损失函数对所述门控网络和所述多任务学习网络中的自适应专家网络和各任务的门控网络的参数进行更新;针对所述多任务学习网络和所述跨品类专家网络中的私有专家网络,根据接收所述私有专家信息输入的任务塔网络的损失函数数值进行参数更新;针对所述多任务学习网络和所述跨品类专家网络中的公共专家网络,在相邻两次对所述公共专家网络的参数进行更新过程中,根据不同任务塔网络的损失函数数值进行参数更新。4.根据权利要求2所述的方法,其特征在于,所述多任务学习网络中的各任务的门控网络设置有一层路由筛选网络,用于对各任务对应的专家网络的输出结果进行筛选,所述计算所述多任务学习网络中各任务的门控网络的输出结果与各任务对应的专家网络的输出结果按照预设运算规则计算得到所述各任务塔网络的第二输入信息,包括:将所述各任务门的控网络的输出结果与所述路由筛选网络设定的门控筛选数值进行比较,并将所述各任务门的控网络的输出结果中小于所述门控筛选数值的数值置0,以更新
所述各任务门的控网络的输出结果;将更新后的各所述任务门控网络的输出结果分别与各任务对应的专家网络的输出结果按照预设运算规则计算得到的各任务塔网络的部分输入信息。5.根据权利要求1所述的方法,其特征在于,在将所述用户购物行为样本数据输入至多任务学习网络之前,所述方法还包括:将各所述用户购物行为样本数据的表示向量与样本数据对应物品所属品类的品类向量相乘。6.根据权利要求1所述的方法,其特征在于,所述获取用户购物行为样本数据,包括:根据预设样本召回算法对用户购物行为数据进行召回,得到初始召回数据样本;为所述初始召回数据样本中的跨品类物品购物行为样本进行样本权重值更新,得到更新后的召回数据样本;将更新后的召回数据样本输入到用于对样本进行初步筛选的预设神经网络中,进行样本筛选得到所述用户购物行为样本数据,其中,所述更新后的召回数据样本中,跨品类物品购物行为样本的样本标签权重数值大于非跨品类物品购物行为样本的样本标签权重数值。7.根据权利要求5所述的...

【专利技术属性】
技术研发人员:王颖帅苗诗雨
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1