目标搜索文本确定方法、装置、设备及存储介质制造方法及图纸

技术编号:39247740 阅读:17 留言:0更新日期:2023-10-30 11:59
本申请属于人工智能技术领域,具体涉及一种目标搜索文本确定方法、装置、设备及存储介质。所述方法包括:获取原始查询文本和候选搜索文本集合;确定每条候选搜索文本的召回能力预测数据,以及对每条候选搜索文本与原始查询文本进行相似度评估处理,得到每条候选搜索文本的相似度评估数据;基于每条候选搜索文本的召回能力预测数据以及每条候选搜索文本的相似度评估数据,在候选搜索文本集合中确定出用于下发至搜索引擎进行搜索的目标搜索文本。根据召回能力预测数据和相似度评估数据来筛选出能够得到相关性强的搜索结果,且与原始查询文本相似性高的目标搜索文本,从而提升搜索效果,减少搜索过程对搜索平台的系统资源的消耗,降低搜索成本。降低搜索成本。降低搜索成本。

【技术实现步骤摘要】
目标搜索文本确定方法、装置、设备及存储介质


[0001]本申请属于人工智能
,具体涉及一种目标搜索文本确定方法、装置、设备及存储介质。

技术介绍

[0002]随着网络技术的发展,数字资源迅猛增长,大数据时代的到来,如何让用户快速找到所需的信息资源,是信息检索领域关注的焦点。为了使搜索引擎能够搜索到用户所需要的信息,在搜索时通常会对用户输入的查询文本(Query)进行扩展,以得到搜索文本,然后在基于搜索文本在搜索引擎中进行搜索。
[0003]目前,在对查询文本进行扩展得到搜索文本后,通常是直接将搜索文本下发至搜索引擎进行搜索。而在对查询文本进行扩展时,一般能够得到多个搜索文本,如果将这些搜索文本全部下发到搜索引擎进行搜索,则会增加搜索平台的搜索平台在搜索过程中的系统资源的消耗,增加搜索成本。而且,有些搜索文本与用户输入的查询文本相似度较低,并不能召回用户所需要的信息,降低用户的搜索体验。

技术实现思路

[0004]为了解决上述技术问题,本申请提供一种目标搜索文本确定方法、装置、设备及存储介质。通过确定每条候选搜索文本的召回能力预测数据和相似度评估数据,从而根据召回能力预测数据和相似度评估数据来筛选出能够得到相关性强的搜索结果,且与原始查询文本相似性高的目标搜索文本,从而提升搜索效果,并减少搜索过程对搜索平台的系统资源的消耗,降低搜索成本。
[0005]一方面,本申请提出了一种目标搜索文本确定方法,所述方法包括:
[0006]获取原始查询文本和候选搜索文本集合;候选搜索文本集合中包括至少一条基于原始查询文本生成的候选搜索文本;
[0007]确定每条候选搜索文本的召回能力预测数据,以及对每条候选搜索文本与原始查询文本进行相似度评估处理,得到每条候选搜索文本的相似度评估数据;召回能力预测数据用于表征每条候选搜索文本的预测搜索结果与原始查询文本的相关性;预测搜索结果为预测每条候选搜索文本在下发至搜索引擎进行搜索得到的结果;
[0008]基于每条候选搜索文本的召回能力预测数据以及每条候选搜索文本的相似度评估数据,在候选搜索文本集合中确定出用于下发至搜索引擎进行搜索的目标搜索文本。
[0009]另一方面,本申请实施例提供了一种目标搜索文本确定装置,所述装置包括:
[0010]文本获取模块,用于获取原始查询文本和候选搜索文本集合;候选搜索文本集合中包括至少一条基于原始查询文本生成的候选搜索文本;
[0011]数据确定模块,用于确定每条候选搜索文本的召回能力预测数据,以及对每条候选搜索文本与原始查询文本进行相似度评估处理,得到每条候选搜索文本的相似度评估数据;召回能力预测数据用于表征每条候选搜索文本的预测搜索结果与原始查询文本的相关
性;预测搜索结果为预测每条候选搜索文本在下发至搜索引擎进行搜索得到的结果;
[0012]目标搜索文本确定模块,用于基于每条候选搜索文本的召回能力预测数据以及每条候选搜索文本的相似度评估数据,在候选搜索文本集合中确定出用于下发至搜索引擎进行搜索的目标搜索文本。
[0013]另一方面,本申请提出了一种目标搜索文本确定的电子设备,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的目标搜索文本确定方法。
[0014]另一方面,本申请提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的目标搜索文本确定方法。
[0015]另一方面,本申请提出了一种计算机程序产品,所述计算机程被处理器执行时实现如上述所述的目标搜索文本确定方法。
[0016]本申请实施例提出的目标搜索文本确定方法、装置、电子设备及存储介质,通过确定每条候选搜索文本的召回能力预测数据以及每条候选搜索文本的相似度评估数据,从而基于每条候选搜索文本的召回能力预测数据和相似度评估数据,在候选搜索文本集合中确定出用于下发至搜索引擎进行搜索的目标搜索文本。利用召回能力预测数据和相似度评估数据对候选搜索文本进行筛选所得到的目标搜索文本,与原始查询文本具有较高的相似性,且能够召回与原始查询文本具有强相关性的搜索结果,从而提高搜索引擎的搜索效率和搜索精准度。而且通过对候选搜索文本进行筛选能够过滤无效或无意义的候选搜索文本,从而减少下发到搜索引擎的搜索文本数量,进而减少搜索过程搜索平台的系统资源消耗,降低搜索成本。
附图说明
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0018]图1是根据一示例性实施例示出的一种目标搜索文本确定方法的实施环境示意图。
[0019]图2是根据一示例性实施例示出的一种目标搜索文本确定方法的流程示意图。
[0020]图3是根据一示例性实施例示出的一种对原始查询文本进行扩展处理方法的流程示意图。
[0021]图4是根据一示例性实施例示出的一种确定候选搜索文本的召回能力预测数据和相似度评估数据方法的流程示意图。
[0022]图5是根据一示例性实施例示出的一种目标召回预估模型的结构示意图。
[0023]图6是根据一示例性实施例示出的一种样本相似度评估数据的确定流程示意图;
[0024]图7是根据一示例性实施例示出的一种对比学习原理示意图;
[0025]图8是根据一示例性实施例示出的一种搜索链路的结构示意图。
[0026]图9是根据一示例性实施例示出的一种目标搜索文本确定装置框图。
[0027]图10是根据一示例性实施例提供的一种目标搜索文本确定方法的服务器的硬件结构框图。
具体实施方式
[0028]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0029]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括图像语义理解技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0030]具体地,本申请实施例所述的目标搜索文本确定方法,涉及人工智能领域中的自然语言处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标搜索文本确定方法,其特征在于,所述方法包括:获取原始查询文本和候选搜索文本集合;所述候选搜索文本集合中包括至少一条基于所述原始查询文本生成的候选搜索文本;确定每条所述候选搜索文本的召回能力预测数据,以及对每条所述候选搜索文本与所述原始查询文本进行相似度评估处理,得到每条所述候选搜索文本的相似度评估数据;所述召回能力预测数据用于表征每条所述候选搜索文本的预测搜索结果与所述原始查询文本的相关性;所述预测搜索结果为预测每条所述候选搜索文本在下发至搜索引擎进行搜索得到的结果;基于每条所述候选搜索文本的召回能力预测数据以及每条所述候选搜索文本的相似度评估数据,在所述候选搜索文本集合中确定出用于下发至搜索引擎进行搜索的目标搜索文本。2.根据权利要求1所述的方法,其特征在于,所述获取原始查询文本和候选搜索文本集合,包括:获取原始查询文本;对所述原始查询文本进行分词处理,得到分词结果;所述分词结果中包括至少一个分词;对所述分词结果中的每个所述分词进行非必留处理,得到至少一条所述候选搜索文本;根据至少一条所述候选搜索文本生成所述候选搜索文本集合。3.根据权利要求1所述的方法,其特征在于,所述确定每条所述候选搜索文本的召回能力预测数据,以及对每条所述候选搜索文本与所述原始查询文本进行相似度评估处理,得到每条所述候选搜索文本的相似度评估数据,包括:将每条所述候选搜索文本分别与所述原始查询文本进行组合,得到每条所述候选搜索文本对应的组合结果;将每条所述候选搜索文本对应的组合结果分别输入至目标召回预估模型,以对每条所述候选搜索文本对应的预测搜索结果与所述原始查询文本进行相关性预测处理,得到每条所述候选搜索文本的召回能力预测数据,以及对每条所述候选搜索文本与所述原始查询文本进行相似度评估处理,得到每条所述候选搜索文本的相似度评估数据。4.根据权利要求3所述的方法,其特征在于,所述目标召回预估模型包括语义特征提取层、相关性预测子模型和相似度评估子模型;所述将每条所述候选搜索文本对应的组合结果分别输入至目标召回预估模型,以对每条所述候选搜索文本对应的预测搜索结果与所述原始查询文本进行相关性预测处理,得到每条所述候选搜索文本的召回能力预测数据,以及对每条所述候选搜索文本与所述原始查询文本进行相似度评估处理,得到每条所述候选搜索文本的相似度评估数据,包括:将每条所述候选搜索文本对应的组合结果分别输入至所述语义特征提取层进行语义特征提取,得到每条所述候选搜索文本对应的语义特征提取结果;将每条所述候选搜索文本对应的语义特征提取结果输入至所述相关性预测子模型,以对每条所述候选搜索文本对应的预测搜索结果与所述原始查询文本进行相关性预测处理,得到所述相关性预测子模型输出的每条所述候选搜索文本的召回能力预测数据;以及将每
条所述候选搜索文本对应的语义特征提取结果输入至所述相似度评估子模型,以对每条所述候选搜索文本与所述原始查询文本进行相似度评估处理,得到所述相似度评估子模型输出的每条所述候选搜索文本的相似度评估数据。5.根据权利要求3所述的方法,其特征在于,所述目标召回预估模型的训练方法包括:获取样本查询文本和基于所述样本查询文本生成的样本搜索文本;将所述样本查询文本和所述样本搜索文本组合,得到样本组合结果;确定所述样本组合结果对应的样本召回能力预测数据,以及确定所述样本组合结果对应的样本相似度评估数据;基于所述样本组合结果、所述样本召回能力预测数据和所述样本相似度评估数据构建训练样本数据;基于所述训练样本数据对初始召回预估模型进行训练,得到所述目标召回预估模型。6.根据权利要求5所述的方法,其特征在于,所述确定所述样本组合结果对应的样本召回能力预测数据,包括:获取所述样本搜索文本对应的样本搜索结果;所述样本搜索结果包括至少一条样本召回文档;确定至少一条所述样本召回文档的相关性档位分布;所述相关性档位用于表征所述样本召回文档与所述样本查询文本的相关性程度;基于预设评分策略和所述相关性档位分布,确定所述样本组合结果对应的样本召回能力预测数据。7.根据权利要求5所述的方法,其特征在于,所述确定所述样本组合结果对应的样本相似度评估数据,包括:将所述样本查询文本和所述样本搜索文本分别输入至预设文本向量抽取模型进行向量抽取处理,得到所述样本查询文本对应的文本向量和所述样本搜索文本对应的文本向量;基于所述样本查询文本对应的文本向量和所述样本搜索文本对应的文本向量,确定...

【专利技术属性】
技术研发人员:朱秀红黄泽谦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1