System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于文本检索的方法、装置、设备和存储介质制造方法及图纸_技高网

用于文本检索的方法、装置、设备和存储介质制造方法及图纸

技术编号:43544857 阅读:3 留言:0更新日期:2024-12-03 12:25
根据本公开的实施例,提供了一种用于文本检索的方法、装置、设备和存储介质。该方法包括:利用经训练的文本检索模型中的第一编码器,确定待检索的第一查询语句对应的第一查询向量,第一编码器基于非交互式框架;利用文本检索模型中的第二编码器,基于语料库中的至少一个文档确定至少一个第二文本向量,第二编码器基于交互式框架;利用文本检索模型,基于第一查询向量和至少一个第二文本向量,确定语料库中的每个文档与第一查询语句之间的相似度;以及基于语料库中的每个文档与第一查询语句之间的相似度,从语料库确定针对第一查询语句的查询结果。由此,通过结合交互式和非交互式框架的优点,提高文本检索准确性的同时保持计算效率。

【技术实现步骤摘要】

本公开的示例实施例总体涉及信息化,特别地涉及用于文本检索的方法、装置、设备和计算机可读存储介质。


技术介绍

1、随着文本检索技术的持续发展,越来越多的应用场景例如信息检索、智能问答和推荐系统等领域对文本匹配和检索能力提出了更高的要求。

2、相关技术中,向量空间模型等传统的文本检索方法,虽然在处理简单匹配问题上表现良好,但难以捕捉文本之间的深层语义关系和复杂结构特征。而一些基于大语言模型对查询和文档对进行完整的模型推理的方法,计算成本高,响应速度慢,这导致了在真实场景中,检索结果的精度和效率难以同时满足用户需求。

3、因此,需要一种能够提升文本检索的准确率和效率的方法,以应对上述文本检索中的局限性。


技术实现思路

1、在本公开的第一方面,提供了一种用于文本检索的方法。该方法包括:利用经训练的文本检索模型中的第一编码器,确定待检索的第一查询语句对应的第一查询向量,第一编码器基于非交互式框架;利用文本检索模型中的第二编码器,基于语料库中的至少一个文档确定至少一个第二文本向量,第二编码器基于交互式框架;利用文本检索模型,基于第一查询向量和至少一个第二文本向量,确定语料库中的每个文档与第一查询语句之间的相似度;以及基于语料库中的每个文档与第一查询语句之间的相似度,从语料库确定针对第一查询语句的查询结果,查询结果指示语料库中与第一查询语句匹配的至少一个文档。

2、在本公开的第二方面,提供了一种用于文本检索的装置。该装置包括:查询向量确定模块,被配置为利用经训练的文本检索模型中的第一编码器,确定待检索的第一查询语句对应的第一查询向量,所述第一编码器基于非交互式框架;文本向量确定模块,被配置为利用所述文本检索模型中的第二编码器,基于语料库中的至少一个文档确定至少一个第二文本向量,所述第二编码器基于交互式框架;相似度确定模块,被配置为利用所述文本检索模型,基于所述第一查询向量和所述至少一个第二文本向量,确定所述语料库中的每个文档与所述第一查询语句之间的相似度;以及查询结果确定模块,被配置为基于所述语料库中的每个文档与所述第一查询语句之间的相似度,从所述语料库确定针对所述第一查询语句的查询结果,所述查询结果指示所述语料库中与所述第一查询语句匹配的至少一个文档。

3、在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。

5、在本公开的第五方面,提供了一种计算机程序产品,该计算机程序产品被有形地存储在计算机存储介质中并且包括计算机可执行指令,计算机可执行指令在由设备执行时使设备执行根据本公开的第一方面的方法。

6、应当理解,该内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于文本检索的方法,包括:

2.根据权利要求1所述的方法,其中所述非交互式框架被配置为分别确定输入的查询语句的编码表示和/或输入的文档的编码表示,所述交互式框架被配置为基于查询语句与文档之间的交互关系确定输入的查询语句与文档的联合的编码表示。

3.根据权利要求1所述的方法,其中利用所述文本检索模型中的第二编码器,基于语料库中的至少一个文档确定至少一个第二文本向量包括:

4.根据权利要求1所述的方法,其中利用所述文本检索模型,基于所述第一查询向量和至少一个第二文本向量,确定所述语料库中的每个文档和所述第一查询语句的相似度包括:

5.根据权利要求1所述的方法,其中基于所述语料库中的每个文档和所述第一查询语句之间的相似度,从所述语料库中确定针对所述第一查询语句的查询结果包括:

6.根据权利要求1所述的方法,其中所述文本检索模型通过如下操作来训练:

7.根据权利要求6所述的方法,其中所述文本检索模型的所述训练还包括:

8.一种用于文本检索的装置,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求1至7中任一项所述的方法。

11.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机存储介质中并且包括计算机可执行指令,计算机可执行指令在由设备执行时使设备执行根据权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种用于文本检索的方法,包括:

2.根据权利要求1所述的方法,其中所述非交互式框架被配置为分别确定输入的查询语句的编码表示和/或输入的文档的编码表示,所述交互式框架被配置为基于查询语句与文档之间的交互关系确定输入的查询语句与文档的联合的编码表示。

3.根据权利要求1所述的方法,其中利用所述文本检索模型中的第二编码器,基于语料库中的至少一个文档确定至少一个第二文本向量包括:

4.根据权利要求1所述的方法,其中利用所述文本检索模型,基于所述第一查询向量和至少一个第二文本向量,确定所述语料库中的每个文档和所述第一查询语句的相似度包括:

5.根据权利要求1所述的方法,其中基于所述语料库中的每个文档和所述第一...

【专利技术属性】
技术研发人员:王芳
申请(专利权)人:北京京东拓先科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1