模型训练方法、文本召回方法、设备、介质及程序产品技术

技术编号:39741523 阅读:7 留言:0更新日期:2023-12-17 23:42
本申请提供了一种模型训练方法、文本召回方法、设备、介质及程序产品,本申请可以涉及人工智能技术,该模型训练方法包括:获取多个第一正样本;其中,每个第一正样本包括:原始搜索词和基于原始搜索词召回的第一原始召回文本;获取每个原始搜索词的关联召回文本;基于每个原始搜索词和对应的关联召回文本,生成第二正样本;并基于多个第一正样本和多个第二正样本,生成多个负样本;基于多个第一正样本、多个第二正样本和多个负样本,训练目标召回模型。从而可以突破召回模型的局限性,使得召回模型对应的搜索引擎可以尽可能满足用户搜索需求。对应的搜索引擎可以尽可能满足用户搜索需求。对应的搜索引擎可以尽可能满足用户搜索需求。

【技术实现步骤摘要】
模型训练方法、文本召回方法、设备、介质及程序产品


[0001]本申请实施例涉及人工智能(Artificial Intelligence,AI)
,尤其涉及一种模型训练方法、文本召回方法、设备、介质及程序产品。

技术介绍

[0002]在文本搜索领域,首先,用于实现搜索功能的服务器从搜索引擎所在的客户端获取搜索词,再将搜索词输入召回模型,得到搜索词与多个文本之间的相似度;其次,该服务器可以将相似度最高的前N个文本输入排序模型,得到前N个文本的排序结果,N为正整数;最后,服务器可以将前N个文本的排序结果发送给客户端,以使客户端展示该排序结果。
[0003]相关技术中,训练设备可以基于搜索引擎的点击日志针对同一搜索词,统计文本点击频次分布,并确定点击频次大于预设阈值的文本。训练设备还可以结合这类文本的相关性文本、质量等特征对这类文本进行筛选,得到更可靠的文本。基于此,训练设备可以将这些更可靠的文本和对应的搜索词组成正样本,并基于这些正样本构造负样本,通过这些正样本和负样本训练召回模型。
[0004]然而,由于上述正样本本身来源于搜索引擎,基于此,通过上述正样本以及负样本训练召回模型具有一定的局限性,导致搜索引擎可能无法满足用户搜索需求。

技术实现思路

[0005]本申请提供一种模型训练方法、文本召回方法、设备、介质及程序产品,从而可以突破召回模型的局限性,使得召回模型对应的搜索引擎可以尽可能满足用户搜索需求。
[0006]第一方面,本申请实施例提供一种模型训练方法,该方法包括:获取多个第一正样本;其中,每个第一正样本包括:原始搜索词和基于原始搜索词召回的第一原始召回文本;获取每个原始搜索词的关联召回文本;关联召回文本与第一原始召回文本不同;基于每个原始搜索词和对应的关联召回文本,生成第二正样本;并基于多个第一正样本和多个第二正样本,生成多个负样本;基于多个第一正样本、多个第二正样本和多个负样本,训练目标召回模型。
[0007]第二方面,本申请实施例提供一种文本召回方法,该方法包括:获取目标搜索词;将目标搜索词输入至如上述第一方面或其各实现方式中的方法训练得到的目标召回模型,得到目标搜索词与多个文本之间的相似度;基于目标搜索词与多个文本之间的相似度,确定目标搜索词对应的召回文本。
[0008]第三方面,本申请实施例提供一种模型训练装置,包括:获取模块、生成模块和训练模块,其中,获取模块用于:获取多个第一正样本;其中,每个第一正样本包括:原始搜索词和基于原始搜索词召回的第一原始召回文本;生成模块用于基于每个原始搜索词和对应的关联召回文本,生成第二正样本;关联召回文本与第一原始召回文本不同;并基于多个第一正样本和多个第二正样本,生成多个负样本;训练模块用于基于多个第一正样本、多个第二正样本和多个负样本,训练目标召回模型。
[0009]第四方面,本申请实施例提供一种文本召回装置,包括:获取模块、输入模块和确定模块,其中,获取模块用于获取目标搜索词;输入模块用于将目标搜索词输入至如上述第一方面或其各实现方式中的方法训练得到的目标召回模型,得到目标搜索词与多个文本之间的相似度;确定模块用于基于目标搜索词与多个文本之间的相似度,确定目标搜索词对应的召回文本。
[0010]第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面、第二方面或其各实现方式中的方法。
[0011]第六方面,本申请实施例提供一种计算机可读存储介质,用于存储计算机程序,计算机程序使得计算机执行如第一方面、第二方面或其各实现方式中的方法。
[0012]第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面、第二方面或其各实现方式中的方法。
[0013]第八方面,本申请实施例提供一种计算机程序,计算机程序使得计算机如执行如第一方面、第二方面或其各实现方式中的方法。
[0014]通过本申请实施例提供的技术方案,由于目标召回模型学习到了基于原始搜索词来召回关联召回文本的情况,基于此,如果后续给召回模型输入一个搜索词,通过该召回模型便可以召回到该搜索词的关联召回文本,从而可以突破该召回模型的局限性,使得该召回模型对应的搜索引擎可以尽可能满足用户搜索需求。
附图说明
[0015]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本申请实施例提供的一种多层BERT结构的示意图;
[0017]图2为本申请实施例提供的一种双塔模型的示意图;
[0018]图3为本申请实施例涉及的一种系统架构示意图;
[0019]图4A至图4D为即时通信应用的搜索模块的界面示意图;
[0020]图5为本申请实施例提供的一种模型训练方法的流程图;
[0021]图6为本申请实施例提供的负样本生成示意图;
[0022]图7为本申请实施例提供的一种文本召回方法的流程图;
[0023]图8为本申请实施例提供的一种模型训练装置800的示意图;
[0024]图9为本申请实施例提供的一种文本召回装置900的示意图;
[0025]图10是本申请实施例提供的电子设备的示意性框图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其
他实施例,都属于本专利技术保护的范围。
[0027]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028]本申请可以涉及AI
,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取多个第一正样本;其中,每个所述第一正样本包括:原始搜索词和基于所述原始搜索词召回的第一原始召回文本;获取每个所述原始搜索词的关联召回文本;所述关联召回文本与所述第一原始召回文本不同;基于每个所述原始搜索词和对应的关联召回文本,生成第二正样本;并基于所述多个第一正样本和多个第二正样本,生成多个负样本;基于所述多个第一正样本、所述多个第二正样本和所述多个负样本,训练目标召回模型。2.根据权利要求1所述的方法,其特征在于,所述获取每个所述原始搜索词的关联召回文本,包括:针对每个所述原始搜索词,确定所述原始搜索词的关联搜索词;获取基于所述关联搜索词召回的第二原始召回文本;将所述第二原始召回文本确定为所述原始搜索词的关联召回文本。3.根据权利要求2所述的方法,其特征在于,所述确定所述原始搜索词的关联搜索词,包括:将与所述原始搜索词属于同一用户会话且搜索意图相同的搜索词,确定为所述原始搜索词的关联搜索词。4.根据权利要求3所述的方法,其特征在于,所述基于所述多个第一正样本和多个第二正样本,生成多个负样本之前,还包括:确定所述多个第一正样本各自的原始搜索词在单位时间内的查询量以及所述多个第二正样本各自对应的关联搜索词在单位时间内的查询量;对所述多个第一正样本各自的原始搜索词在单位时间内的查询量以及所述多个第二正样本各自对应的关联搜索词在单位时间内的查询量进行归一化处理,得到所述多个第一正样本各自的原始搜索词的采样率以及所述多个第二正样本各自对应的关联搜索词的采样率;所述基于所述多个第一正样本和多个第二正样本,生成多个负样本,包括:基于所述多个第一正样本各自的原始搜索词的采样率对所述多个第一正样本进行采样,得到至少一个第一采样样本;并基于所述多个第二正样本各自对应的关联搜索词的采样率对所述多个第二正样本进行采样,得到至少一个第二采样样本;基于所述至少一个第一采样样本和所述至少一个第二采样样本,生成所述多个负样本。5.根据权利要求4所述的方法,其特征在于,所述基于所述至少一个第一采样样本和所述至少一个第二采样样本,生成所述多个负样本,包括:将所述至少一个第一采样样本和所述至少一个第二采样样本划分为多个第一样本集合;针对每个所述第一样本集合中的每个采样样本,将所述采样样本的搜索词与所述第一样本集合中其他采样样本的召回文本进行组合,以生成负样本。6.根据权利要求2所述的方法,其特征在于,所述确定所述原始搜索词的关联搜索词,
包括:将所述原始搜索词的同义词、纠错词或者改写词,确定为所述原始搜索词的关联搜索词。7.根据权利要求1所述的方法,其特征在于,所述获取每个所述原始搜索词的关联召回文本,包括:针对每个所述原始搜索词,将所述原始搜索词输入至除所述目标召回模型以外的其他召回模型,以获取所述原始搜索词的关联召回文本。8.根据权利要求6或7所述的方法,其特征在于,所述基于所述多个第一正样本和多个第二正样本,生成多个负样本,包括:对所述多个第一正样本和所述多个第二正样本进行随机采样,得到多个第三采样样本;基于所述多个第三采样样本,生成所述多个负样本。9.根...

【专利技术属性】
技术研发人员:姚丽丽
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1