一种模型训练方法及装置制造方法及图纸

技术编号:36165757 阅读:12 留言:0更新日期:2022-12-31 20:15
本发明专利技术提供一种模型训练方法及装置,可以从数据记录日志中,提取出第一数量的匹配行为记录数据;其中,各匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据,样本类别标识包括正样本标识和负样本标识;按照同一匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标,利用各匹配行为记录数据对数据匹配模型进行训练;其中,正样本匹配度为标注有正样本标识的反馈数据与待匹配数据的匹配度,负样本匹配度为标注有负样本标识的反馈数据与待匹配数据的匹配度。本发明专利技术可以优化对数据匹配模型的训练效果,使得数据匹配模型可以匹配到以及向用户展示更能满足用户实际需求或更感兴趣的数据。示更能满足用户实际需求或更感兴趣的数据。示更能满足用户实际需求或更感兴趣的数据。

【技术实现步骤摘要】
一种模型训练方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种模型训练方法及装置。

技术介绍

[0002]随着科学技术的发展,人工智能技术不断提高。
[0003]当前,数据搜索模型和数据推荐模型均可以作为数据匹配模型,基于用户搜索内容和/或用户信息等数据,从目标数据存储空间中查找相匹配的目标数据并反馈给用户,之后用户可以在实际应用场景中对目标数据进行相应的某种操作行为。比如,在数据搜索场景中,目标数据可以包括多条搜索结果数据,此时用户可以在目标数据中点击某条搜索结果数据以查看相关内容;再比如,在数据推荐场景中,目标数据可以包括多个推荐商品数据,用户可以在目标数据中购买感兴趣商品。
[0004]具体的,现有技术可以通过使用训练数据集训练数据匹配模型,之后利用数据匹配模型为用户提供数据匹配服务。
[0005]但是,现有模型训练方式的训练效果不佳,可能导致其训练出的数据匹配模型的数据匹配度较低。

技术实现思路

[0006]本专利技术提供一种模型训练方法及装置,用以解决现有技术中模型训练方式的训练效果不佳,可能导致其训练出的数据匹配模型的数据匹配度较低的缺陷,实现对数据匹配模型的训练效果的优化,使得数据匹配模型可以匹配到以及向用户展示更能满足用户实际需求或更感兴趣的数据。
[0007]本专利技术提供一种模型训练方法,包括:从数据记录日志中,提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据;其中,各所述匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据,所述样本类别标识包括正样本标识和负样本标识;按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标,利用各所述匹配行为记录数据对所述数据匹配模型进行训练;其中,所述正样本匹配度为标注有所述正样本标识的所述反馈数据与所述待匹配数据的匹配度,所述负样本匹配度为标注有所述负样本标识的所述反馈数据与所述待匹配数据的匹配度。
[0008]可选的,所述数据匹配模型为数据搜索模型或数据推荐模型。
[0009]可选的,所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标,利用各所述匹配行为记录数据对所述数据匹配模型进行训练,包括:分别确定各所述匹配行为记录数据的对比损失;基于各所述匹配行为记录数据的对比损失,确定综合对比损失;基于所述综合对比损失,更新所述数据匹配模型的模型参数。
[0010]可选的,所述分别确定各所述匹配行为记录数据的对比损失,包括:
基于交叉熵计算方式,计算出各所述匹配行为记录数据的对比损失。
[0011]可选的,所述基于各所述匹配行为记录数据的对比损失,确定综合对比损失,包括:将各所述匹配行为记录数据的对比损失输入到综合对比损失确定模型中,获得所述综合对比损失确定模型输出的所述综合对比损失。
[0012]可选的,当所述数据匹配模型为排序模型时,确定所述待匹配数据与所述反馈数据的匹配度,包括:将所述待匹配数据和所述反馈数据输入到第一特征提取网络,获得所述第一特征提取网络输出的目标向量距离;将所述目标向量距离确定为所述待匹配数据与所述反馈数据的匹配度;其中,所述目标向量距离是由所述第一特征提取网络通过以下步骤生成:分别从已输入的所述待匹配数据和所述反馈数据中提取出第一特征向量和第二特征向量,计算出所述第一特征向量和所述第二特征向量的向量距离,将计算出的向量距离确定为所述目标向量距离。
[0013]可选的,当所述数据匹配模型为召回模型时,确定所述待匹配数据与所述反馈数据的匹配度,包括:利用第二特征提取网络,从所述待匹配数据中提取出第三特征向量;利用第三特征提取网络,从所述反馈数据提取出第四特征向量;将所述第三特征向量与所述第四特征向量的向量距离确定为所述待匹配数据与所述反馈数据的匹配度。
[0014]可选的,所述第一数量的所述匹配行为记录数据中包括标注有正样本标识的所述反馈数据和/或标注有负样本标识的所述反馈数据。
[0015]可选的,在所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标,利用各所述匹配行为记录数据对所述数据匹配模型进行训练之前,所述模型训练方法还包括:在所述第一数量的所述匹配行为记录数据中,将非目标匹配行为记录数据中的至少一个所述反馈数据,设置为所述目标匹配行为记录数据中标注有负样本标识的所述反馈数据。
[0016]本专利技术还提供一种模型训练装置,包括:提取单元和训练单元;其中:所述提取单元,用于从数据记录日志中,提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据;其中,各所述匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据,所述样本类别标识包括正样本标识和负样本标识;所述训练单元,用于按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标,利用各所述匹配行为记录数据对所述数据匹配模型进行训练;其中,所述正样本匹配度为标注有所述正样本标识的所述反馈数据与所述待匹配数据的匹配度,所述负样本匹配度为标注有所述负样本标识的所述反馈数据与所述待匹配数据的匹配度。
[0017]可选的,所述数据匹配模型为数据搜索模型或数据推荐模型。
[0018]可选的,所述训练单元,包括:第一确定单元、第二确定单元和更新单元;
所述第一确定单元,用于分别确定各所述匹配行为记录数据的对比损失;所述第二确定单元,用于基于各所述匹配行为记录数据的对比损失,确定综合对比损失;所述更新单元,用于基于所述综合对比损失,更新所述数据匹配模型的模型参数。
[0019]可选的,所述第一确定单元用于基于交叉熵计算方式,计算出各所述匹配行为记录数据的对比损失。
[0020]可选的,所述第二确定单元,包括:输入单元和获得单元;其中:所述输入单元,用于将各所述匹配行为记录数据的对比损失输入到综合对比损失确定模型中;所述获得单元,用于获得所述综合对比损失确定模型输出的所述综合对比损失。
[0021]可选的,当所述数据匹配模型为排序模型时,确定所述待匹配数据与所述反馈数据的匹配度,设置为:将所述待匹配数据和所述反馈数据输入到第一特征提取网络,获得所述第一特征提取网络输出的目标向量距离;将所述目标向量距离确定为所述待匹配数据与所述反馈数据的匹配度;其中,所述目标向量距离是由所述第一特征提取网络通过以下步骤生成:分别从已输入的所述待匹配数据和所述反馈数据中提取出第一特征向量和第二特征向量,计算出所述第一特征向量和所述第二特征向量的向量距离,将计算出的向量距离确定为所述目标向量距离。
[0022]可选的,当所述数据匹配模型为召回模型时,确定所述待匹配数据与所述反馈数据的匹配度,设置为:利用第二特征提取网络,从所述待匹配数据中提取出第三特征向量;利用第三特征提取网络,从所述反馈数据提取出第四特征向量;将所述第三特征向量与所述第四特征向量的向量距离确定为所述待匹配数据与所述反馈数据的匹配度。
[0023]可选的,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:从数据记录日志中,提取出第一数量的待用于对数据匹配模型进行训练的匹配行为记录数据;其中,各所述匹配行为记录数据均包括相对应的待匹配数据和标注有样本类别标识的至少一条反馈数据,所述样本类别标识包括正样本标识和负样本标识;按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标,利用各所述匹配行为记录数据对所述数据匹配模型进行训练;其中,所述正样本匹配度为标注有所述正样本标识的所述反馈数据与所述待匹配数据的匹配度,所述负样本匹配度为标注有所述负样本标识的所述反馈数据与所述待匹配数据的匹配度。2.根据权利要求1所述的模型训练方法,其特征在于,所述数据匹配模型为数据搜索模型或数据推荐模型。3.根据权利要求1所述的模型训练方法,其特征在于,所述按照同一所述匹配行为记录数据中正样本匹配度高于负样本匹配度的训练目标,利用各所述匹配行为记录数据对所述数据匹配模型进行训练,包括:分别确定各所述匹配行为记录数据的对比损失;基于各所述匹配行为记录数据的对比损失,确定综合对比损失;基于所述综合对比损失,更新所述数据匹配模型的模型参数。4.根据权利要求3所述的模型训练方法,其特征在于,所述分别确定各所述匹配行为记录数据的对比损失,包括:基于交叉熵计算方式,计算出各所述匹配行为记录数据的对比损失。5.根据权利要求3所述的模型训练方法,其特征在于,所述基于各所述匹配行为记录数据的对比损失,确定综合对比损失,包括:将各所述匹配行为记录数据的对比损失输入到综合对比损失确定模型中,获得所述综合对比损失确定模型输出的所述综合对比损失;其中,所述综合对比损失确定模型用于在获得各所述匹配行为记录数据的对比损失后,计算出各所述匹配行为记录数据的对比损失的和值,将所述和值除以反馈数据总数量所获得的值确定为所述综合对比损失,所述反馈数据总数量为所有所述匹配行为记录数据中反馈数据的总数量。6.根据权利要求4所述的模型训练方法,其特征在于,当所述数据匹配模型为排序模型时,确定所述待匹配数据与所述反馈数据的匹配度,包括:将所述待匹配数据和所述反馈数据输入到第一特征提取网络,获得所述第一特征...

【专利技术属性】
技术研发人员:陈杰
申请(专利权)人:北京红棉小冰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1