模型训练方法、文本召回方法、设备、介质及程序产品技术

技术编号：39741523 阅读：7 留言：0更新日期：2023-12-17 23:42

本申请提供了一种模型训练方法、文本召回方法、设备、介质及程序产品，本申请可以涉及人工智能技术，该模型训练方法包括：获取多个第一正样本；其中，每个第一正样本包括：原始搜索词和基于原始搜索词召回的第一原始召回文本；获取每个原始搜索词的关联召回文本；基于每个原始搜索词和对应的关联召回文本，生成第二正样本；并基于多个第一正样本和多个第二正样本，生成多个负样本；基于多个第一正样本、多个第二正样本和多个负样本，训练目标召回模型。从而可以突破召回模型的局限性，使得召回模型对应的搜索引擎可以尽可能满足用户搜索需求。对应的搜索引擎可以尽可能满足用户搜索需求。对应的搜索引擎可以尽可能满足用户搜索需求。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、文本召回方法、设备、介质及程序产品

[0001]本申请实施例涉及人工智能(Artificial Intelligence，AI)
，尤其涉及一种模型训练方法、文本召回方法、设备、介质及程序产品。

技术介绍

[0002]在文本搜索领域，首先，用于实现搜索功能的服务器从搜索引擎所在的客户端获取搜索词，再将搜索词输入召回模型，得到搜索词与多个文本之间的相似度；其次，该服务器可以将相似度最高的前N个文本输入排序模型，得到前N个文本的排序结果，N为正整数；最后，服务器可以将前N个文本的排序结果发送给客户端，以使客户端展示该排序结果。
[0003]相关技术中，训练设备可以基于搜索引擎的点击日志针对同一搜索词，统计文本点击频次分布，并确定点击频次大于预设阈值的文本。训练设备还可以结合这类文本的相关性文本、质量等特征对这类文本进行筛选，得到更可靠的文本。基于此，训练设备可以将这些更可靠的文本和对应的搜索词组成正样本，并基于这些正样本构造负样本，通过这些正样本和负样本训练召回模型。
[0004]然而，由于上述正样本本身来源于搜索引擎，基于此，通过上述正样本以及负样本训练召回模型具有一定的局限性，导致搜索引擎可能无法满足用户搜索需求。

技术实现思路

[0005]本申请提供一种模型训练方法、文本召回方法、设备、介质及程序产品，从而可以突破召回模型的局限性，使得召回模型对应的搜索引擎可以尽可能满足用户搜索需求。
[0006]第一方面，本申请实施例提供一种模型训练方法，该方法包括：获...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取多个第一正样本；其中，每个所述第一正样本包括：原始搜索词和基于所述原始搜索词召回的第一原始召回文本；获取每个所述原始搜索词的关联召回文本；所述关联召回文本与所述第一原始召回文本不同；基于每个所述原始搜索词和对应的关联召回文本，生成第二正样本；并基于所述多个第一正样本和多个第二正样本，生成多个负样本；基于所述多个第一正样本、所述多个第二正样本和所述多个负样本，训练目标召回模型。2.根据权利要求1所述的方法，其特征在于，所述获取每个所述原始搜索词的关联召回文本，包括：针对每个所述原始搜索词，确定所述原始搜索词的关联搜索词；获取基于所述关联搜索词召回的第二原始召回文本；将所述第二原始召回文本确定为所述原始搜索词的关联召回文本。3.根据权利要求2所述的方法，其特征在于，所述确定所述原始搜索词的关联搜索词，包括：将与所述原始搜索词属于同一用户会话且搜索意图相同的搜索词，确定为所述原始搜索词的关联搜索词。4.根据权利要求3所述的方法，其特征在于，所述基于所述多个第一正样本和多个第二正样本，生成多个负样本之前，还包括：确定所述多个第一正样本各自的原始搜索词在单位时间内的查询量以及所述多个第二正样本各自对应的关联搜索词在单位时间内的查询量；对所述多个第一正样本各自的原始搜索词在单位时间内的查询量以及所述多个第二正样本各自对应的关联搜索词在单位时间内的查询量进行归一化处理，得到所述多个第一正样本各自的原始搜索词的采样率以及所述多个第二正样本各自对应的关联搜索词的采样率；所述基于所述多个第一正样本和多个第二正样本，生成多个负样本，包括：基于所述多个第一正样本各自的原始搜索词的采样率对所述多个第一正样本进行采样，得到至少一个第一采样样本；并基于所述多个第二正样本各自对应的关联搜索词的采样率对所述多个第二正样本进行采样，得到至少一个第二采样样本；基于所述至少一个第一采样样本和所述至少一个第二采样样本，生成所述多个负样本。5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个第一采样样本和所述至少一个第二采样样本，生成所述多个负样本，包括：将所述至少一个第一采样样本和所述至少一个第二采样样本划分为多个第一样本集合；针对每个所述第一样本集合中的每个采样样本，将所述采样样本的搜索词与所述第一样本集合中其他采样样本的召回文本进行组合，以生成负样本。6.根据权利要求2所述的方法，其特征在于，所述确定所述原始搜索词的关联搜索词，
包括：将所述原始搜索词的同义词、纠错词或者改写词，确定为所述原始搜索词的关联搜索词。7.根据权利要求1所述的方法，其特征在于，所述获取每个所述原始搜索词的关联召回文本，包括：针对每个所述原始搜索词，将所述原始搜索词输入至除所述目标召回模型以外的其他召回模型，以获取所述原始搜索词的关联召回文本。8.根据权利要求6或7所述的方法，其特征在于，所述基于所述多个第一正样本和多个第二正样本，生成多个负样本，包括：对所述多个第一正样本和所述多个第二正样本进行随机采样，得到多个第三采样样本；基于所述多个第三采样样本，生成所述多个负样本。9.根...

【专利技术属性】
技术研发人员：姚丽丽，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人