System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种查询改写方法以及查询改写装置制造方法及图纸_技高网

一种查询改写方法以及查询改写装置制造方法及图纸

技术编号:44574988 阅读:1 留言:0更新日期:2025-03-11 14:36
本申请实施例公开一种查询改写方法以及装置,能够根据领域信息在指定领域中查找关键词的近义词,这样可以减少语义漂移现象,从而减少查询结果中其他领域的内容。该方法包括:查询改写装置从来自用户的查询语句获取关键词之后,确定关键词的领域信息,然后从领域信息关联的词间关系本体中获取关键词的近义词,将查询语句改写为包括近义词的目标查询语句。

【技术实现步骤摘要】

本申请涉及云计算领域,尤其涉及一种查询改写方法以及查询改写装置


技术介绍

1、词嵌入(word embedding)技术也称为词向量技术,它是一种在自然语言处理领域中将词转换为向量的技术。

2、目前有一种词嵌入方法大致如下:获取查询语句以及查询语句对应的文档,将文档作为查询语句的上下文,将查询语句和上下文都转为词向量之后,根据向量相似度选取待改词以及待改词的近义词,将查询语句中的待改词替换为近义词之后,利用改写后的查询语句进行查询。

3、但是,上述方法容易选取非指定领域的近义词,这样改写查询语句后,会查询到不符合用户期望的结果。


技术实现思路

1、本申请提供一种查询改写方法,该方法根据领域信息在指定领域中查找关键词的近义词,这样可以减少用其他领域的近义词改写查询语句的情况,能够在查询结果中减少与其他领域相关的内容,从而提高召回准确率。

2、第一方面提供一种查询改写方法,该方法包括:查询改写装置从来自用户的查询语句获取关键词之后,确定关键词的领域信息,然后从领域信息关联的词间关系本体中获取关键词的近义词,将查询语句改写为包括近义词的目标查询语句。领域信息包括领域或领域中的场景。

3、依此实施,能够根据领域信息在指定领域中查找关键词的近义词,这样可以减少用其他领域的近义词改写查询语句的情况,能够在查询结果中减少与其他领域相关的内容,从而提高召回准确率。

4、在一些可能的实现方式中,查询改写装置从领域信息关联的词间关系本体中获取关键词的近义词包括:查询改写装置获取领域信息关联的目标向量空间之后,确定在目标向量空间中关键词的词向量到其他词向量的词向量距离,按照从小到大的次序将计算得到的全部向量距离排列,确定关键词的n个近义词为前n个词向量距离对应的词。其中,原始向量空间包括领域信息关联的词间关系本体中全部词的初始词向量。

5、由于目标向量空间的向量中非近义词对的词向量距离大于原始向量空间中非近义词对的词向量距离且目标向量空间的向量中近义词对的词向量距离小于原始向量空间中近义词对的词向量距离,因此与根据原始向量空间的向量距离获取近义词相比,根据目标向量空间的向量距离能够更好地区分近义词和非近义词,能够降低将非近义词作为近义词的概率,提高获取近义词的准确性,从而提高查询改写的准确性。

6、在一些可能的实现方式中,本申请的查询改写方法还包括:查询改写装置根据n个目标查询语句从知识库中获取n个文档后,根据n个文档与关键词的相似度值中的最大相似度值确定第一目标文档,将第一目标文档输入大语言模型,通过大语言模型输出第一查询结果。目标查询语句与关键词的近义词一一对应。n个文档与关键词的相似度值可以反映文档与用户期望结果的相关度,最大相似度值对应的文档可以认为是最符合用户期望的文档,将其输入大语言模型之后,大语言模型可以根据该文档生成最符合用户期望的答案。

7、在一些可能的实现方式中,本申请的查询改写方法还包括:查询改写装置根据查询语句从知识库中获取第二目标文档,当第一目标文档与关键词的相似度值大于第二目标文档与关键词的相似度值时,触发查询改写装置将第一目标文档输入大语言模型的步骤。这样能够比较改写后的查询语句对应的查询结果(即第一目标文档)和改写前的查询语句对应的查询结果,根据比较结果可以判断改写是否改善了查询准确性。

8、在一些可能的实现方式中,查询改写装置从领域信息关联的词间关系本体中获取关键词的近义词包括:查询改写装置获取领域信息关联的目标向量空间,确定在目标向量空间中关键词的词向量到其他词向量的词向量距离,从确定的词向量距离中确定最小词向量距离,再确定关键词的近义词为最小词向量距离对应的词。其中,原始向量空间包括领域信息关联的词间关系本体中全部词的初始词向量。

9、由于目标向量空间的向量中非近义词对的词向量距离大于原始向量空间中非近义词对的词向量距离且目标向量空间的向量中近义词对的词向量距离小于原始向量空间中近义词对的词向量距离,因此与根据原始向量空间的向量距离获取近义词相比,根据目标向量空间的向量距离能够更好地区分近义词和非近义词,能够降低将非近义词作为近义词的概率,提高获取近义词的准确性,从而提高查询改写的准确性。

10、在一些可能的实现方式中,本申请的查询改写方法还包括:查询改写装置根据目标查询语句从知识库中获取第一组文档,确定第一组文档中全部文档与关键词的相似度值中的最大相似度值,再将最大相似度值对应的文档输入大语言模型,通过大语言模型输出第二查询结果。这样能够获取文档与关键词的相似度值可以反映文档与用户期望结果的相关度,最大相似度值对应的文档可以认为是最符合用户期望的文档,将其输入大语言模型之后,大语言模型可以根据该文档生成最符合用户期望的答案。

11、在一些可能的实现方式中,本申请的查询改写方法还包括:查询改写装置根据目标查询语句从知识库中获取第二组文档;对于第二组文档中每个文档,查询改写装置获取文档与关键词的相似度值以及文档的困惑度值,根据文档与关键词的相似度值以及文档的困惑度值确定文档的分数,将最高分对应的文档输入大语言模型,通过大语言模型输出第三查询结果。由于分数与文档与关键词的相似度值正相关且和分数与文档的困惑度值负相关,因此能够选取符合用户期望的文档,还能够保障文档的准确性和泛化能力。

12、在另一些可能的实现方式中,目标向量空间是使用目标嵌入模型对原始向量空间处理所得,目标嵌入模型用于增加非近义词对的词向量距离以及减少近义词对的词向量距离。

13、在另一些可能的实现方式中,目标嵌入模型还用于降低目标向量空间中词对的词向量距离与原始向量空间中词对的词向量距离之间的距离差。

14、在一些可能的实现方式中,查询改写装置从领域信息关联的词间关系本体中获取关键词的近义词之前,本申请的查询改写方法还包括:查询改写装置获取领域信息关联的词间关系本体,根据领域信息关联的词间关系本体中全部词的词向量对初始嵌入模型进行训练,将词间关系本体中全部词的词向量输入训练得到的目标嵌入模型,通过目标嵌入模型输出领域信息关联的目标向量空间。

15、在一些可能的实现方式中,本申请的查询改写方法还包括:查询改写装置将目标查询语句的近义词替换为用户输入的目标近义词之后,将领域信息关联的词间关系本体更新为包括关键词和目标近义词的词间关系本体。这样能够根据用户改写的近义词更新领域信息关联的词间关系本体,基于更新后的词间关系本体能够对目标嵌入模型进行重训练,从而更新目标向量空间,提高区分非近义词和近义词的能力。

16、在第一方面或第一方面的可能实现方式中,领域信息为领域,领域信息关联的词间关系本体包括通用同义词集合、通用反义词集合、领域近义词集合和领域非近义词集合。

17、在第一方面或第一方面的可能实现方式中,领域信息为领域中的场景,领域信息关联的词间关系本体包括通用同义词集合、通用反义词集合、场景近义词集合和场景非近义词集合。本文档来自技高网...

【技术保护点】

1.一种查询改写方法,其特征在于,所述方法应用于查询改写装置,所述查询改写装置用于改写查询语句,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述查询改写装置从所述领域信息关联的词间关系本体中获取所述关键词的近义词包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述查询改写装置从所述领域信息关联的词间关系本体中获取所述关键词的近义词包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求5所述的方法,其特征在于,所述方法还包括:

8.根据权利要求2至7中任一项所述的方法,其特征在于,所述目标向量空间是使用目标嵌入模型对所述原始向量空间处理所得,所述目标嵌入模型用于增加非近义词对的词向量距离以及减少近义词对的词向量距离。

9.根据权利要求8所述的方法,其特征在于,所述目标嵌入模型还用于降低所述目标向量空间中词对的词向量距离与原始向量空间中所述词对的词向量距离之间的距离差。

10.根据权利要求8所述的方法,其特征在于,所述查询改写装置从所述领域信息关联的词间关系本体中获取所述关键词的近义词之前,所述方法还包括:

11.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:

12.根据权利要求1至7中任一项所述的方法,其特征在于,所述领域信息为领域,所述领域信息关联的词间关系本体包括通用同义词集合、通用反义词集合、领域近义词集合和领域非近义词集合。

13.根据权利要求1至7中任一项所述的方法,其特征在于,所述领域信息为领域中的场景,所述领域信息关联的词间关系本体包括通用同义词集合、通用反义词集合、场景近义词集合和场景非近义词集合。

14.一种查询改写装置,其特征在于,包括:

15.根据权利要求14所述的装置,其特征在于,所述查询改写模块具体用于获取所述领域信息关联的目标向量空间,所述目标向量空间的向量中非近义词对的词向量距离大于原始向量空间中所述非近义词对的词向量距离且所述目标向量空间的向量中近义词对的词向量距离小于原始向量空间中所述近义词对的词向量距离,所述原始向量空间包括所述领域信息关联的词间关系本体中全部词的初始词向量;确定在所述目标向量空间中所述关键词的词向量到其他词向量的词向量距离;按照从小到大的次序将确定的词向量距离排列;确定所述关键词的n个近义词为前n个词向量距离对应的词,所述n为大于1的整数。

16.根据权利要求15所述的装置,其特征在于,所述装置还包括:

17.根据权利要求16所述的装置,其特征在于,所述第一召回模块还用于根据所述查询语句从所述知识库中获取第二目标文档;当所述第一目标文档与所述关键词的相似度值大于所述第二目标文档与所述关键词的相似度值时,触发所述第一模型处理模块将所述第一目标文档输入大语言模型。

18.根据权利要求14所述的装置,其特征在于,所述查询改写模块具体用于获取所述领域信息关联的目标向量空间,所述目标向量空间的向量中非近义词对的词向量距离大于原始向量空间中所述非近义词对的词向量距离且所述目标向量空间的向量中近义词对的词向量距离小于原始向量空间中所述近义词对的词向量距离,所述原始向量空间包括所述领域信息关联的词间关系本体中全部词的初始词向量;确定在所述目标向量空间中所述关键词的词向量到其他词向量的词向量距离;确定所述关键词的近义词为最小词向量距离对应的词。

19.根据权利要求18所述的装置,其特征在于,所述装置还包括:

20.根据权利要求18所述的装置,其特征在于,所述装置还包括:

21.根据权利要求15至20中任一项所述的装置,其特征在于,所述目标向量空间是使用目标嵌入模型对所述原始向量空间处理所得,所述目标嵌入模型的损失函数用于增加非近义词对的词向量距离以及减少近义词对的词向量距离。

22.根据权利要求21所述的装置,其特征在于,所述目标嵌入模型还用于降低所述目标向量空间中词对的词向量距离与原始向量空间中所述词对的词向量距离之间的距离差。

23.根据权利要求21所述的装置,其特征在于,所述装置还包括:

24.根据权利要求14至20中任一项所述的装置,其特征在于,

25.根据权利要求14至20中任一项所述的装置,其特征在于,所述领域信息为领域,所述领域信息关联的词间关系本体包括通用同义词集合、通用反义词集合、领域近义词集合和领域非近...

【技术特征摘要】

1.一种查询改写方法,其特征在于,所述方法应用于查询改写装置,所述查询改写装置用于改写查询语句,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述查询改写装置从所述领域信息关联的词间关系本体中获取所述关键词的近义词包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述查询改写装置从所述领域信息关联的词间关系本体中获取所述关键词的近义词包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求5所述的方法,其特征在于,所述方法还包括:

8.根据权利要求2至7中任一项所述的方法,其特征在于,所述目标向量空间是使用目标嵌入模型对所述原始向量空间处理所得,所述目标嵌入模型用于增加非近义词对的词向量距离以及减少近义词对的词向量距离。

9.根据权利要求8所述的方法,其特征在于,所述目标嵌入模型还用于降低所述目标向量空间中词对的词向量距离与原始向量空间中所述词对的词向量距离之间的距离差。

10.根据权利要求8所述的方法,其特征在于,所述查询改写装置从所述领域信息关联的词间关系本体中获取所述关键词的近义词之前,所述方法还包括:

11.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:

12.根据权利要求1至7中任一项所述的方法,其特征在于,所述领域信息为领域,所述领域信息关联的词间关系本体包括通用同义词集合、通用反义词集合、领域近义词集合和领域非近义词集合。

13.根据权利要求1至7中任一项所述的方法,其特征在于,所述领域信息为领域中的场景,所述领域信息关联的词间关系本体包括通用同义词集合、通用反义词集合、场景近义词集合和场景非近义词集合。

14.一种查询改写装置,其特征在于,包括:

15.根据权利要求14所述的装置,其特征在于,所述查询改写模块具体用于获取所述领域信息关联的目标向量空间,所述目标向量空间的向量中非近义词对的词向量距离大于原始向量空间中所述非近义词对的词向量距离且所述目标向量空间的向量中近义词对的词向量距离小于原始向量空间中所述近义词对的词向量距离,所述原始向量空间包括所述领域信息关联的词间关系本体中全部词的初始词向量;确定在所述目...

【专利技术属性】
技术研发人员:叶睿哲
申请(专利权)人:深圳华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1