System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种应用于大模型知识问答的知识检索方法及装置制造方法及图纸_技高网

一种应用于大模型知识问答的知识检索方法及装置制造方法及图纸

技术编号:44077778 阅读:15 留言:0更新日期:2025-01-17 16:12
一种应用于大模型知识问答的知识检索方法及装置,方法包括:对知识数据进行整理、清洗并转换成知识文本;将知识文本分割为独立知识点,标注对应的标题、摘要、关键字等,确定知识点之间的关系;构建知识全文检索库和知识图谱;识别检索问题中的知识点,检索出对应候选知识点,计算候选知识点与检索问题中的知识点的相似度,基于相似度筛选得到知识点集合;将具有相关性的知识点按最小邻接图分组,未具有相关性的知识点单独一组,将分组以及单独的知识点按最大生成树方式排序组合;为提问大模型准备合适的prompt模板,将排序组合后的知识点嵌套进入模板,生成提示上下文;将提示上下文输入提问大模型,利用其推理、归纳总结能力,整理出最终检索结果。

【技术实现步骤摘要】

本专利技术涉及知识检索领域,具体涉及一种应用于大模型知识问答的知识检索方法及装置


技术介绍

1、知识检索在rag(检索增强生成)过程中具有非常关键的作用与意义,主要体现在提供准确的信息源、增强上下文理解、提升回答的多样性、增加透明度和可解释性等方面,通过其检索出的知识为生成模型提供了准确、相关的上下文信息,从而在多个层面上提升了整个系统的性能和输出质量。当前用于问答的知识检索过程中存在多义词和歧义性、动态知识的更新困难、检索速度与效率较低、信息片段的融合与选择困难等问题,严重影响到被检索出知识的质量,进而导致问答生成的结果出现幻觉,降低了知识问答的准确性,影响用户体验。


技术实现思路

1、鉴于现有技术中存在的技术缺陷和技术弊端,本专利技术实施例提供克服上述问题或者至少部分地解决上述问题的一种应用于大模型知识问答的知识检索方法及装置,具体方案如下:

2、作为本专利技术的第一方面,提供一种应用于大模型知识问答的知识检索方法,所述方法包括:

3、步骤1,对知识数据进行整理与清洗,并将清洗后的知识数据转换成知识文本;

4、步骤2,在语义层面对知识文本进行句子、段落、主题的分割,将知识文本分割为独立知识点,每个知识点标注对应的标题、摘要、关键字、正文和引申说明,并利用深度模型中的注意力机制确定知识点之间的相互依赖关系;

5、步骤3,基于知识点以及知识点之间的相互依赖关系,构建用于知识点检索的知识全文检索库和用于关联知识检索的知识图谱;

6、步骤4,识别检索问题中的知识点,从全文检索库和知识图谱中检索出与检索问题中的知识点相关的知识点作为候选知识点,计算每个候选知识点与检索问题中的知识点的相似度,基于相似度筛选得到知识点集合;

7、步骤5,针对步骤4的所述知识点集合,将具有相关性的知识点按最小邻接图分组,未具有相关性的知识点单独一组,将分组以及单独的知识点按最大生成树方式排序组合;

8、步骤6,为提问大模型准备合适的prompt模板,将按最大生成树方式排序组合的知识点嵌套进入模板,生成提示上下文;

9、步骤7,将提示上下文输入提问大模型,利用其推理、归纳总结能力,整理出最终检索结果。

10、进一步地,步骤1中,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。

11、进一步地,步骤2还包括:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的id。

12、进一步地,步骤4具体包括:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性加权,得到每个候选知识点与检索问题中的知识点的最终相似度,基于最终相似度筛选出相似度高于阈值的知识点,得到满足预设要求的知识点集合。

13、其中,将检索问题中的知识点或意图与所有候选知识点的主题、标题、摘要、正文、引申说明等特征分别进行相似度计算,从而针对主题、摘要、关键字、正文、引申说明等特征分别得出对应的相似度,在针对任意候选知识点中特征向量v(x,y),采用pca主成分分析计算出特征多维度的方差解释度作为权重,并将权重与对应特性相似度进行加权,得到对应特性最终的相似度。

14、进一步地,步骤6中,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。

15、作为本专利技术的第二方面,提供一种应用于大模型知识问答的知识检索装置,所述装置包括:

16、知识点整理转换模块,用于对知识数据进行整理与清洗,并将清洗后的知识数据转换成知识文本;

17、分割模块,用于在语义层面对知识文本进行句子、段落、主题的分割,将知识文本分割为独立知识点,每个知识点标注对应的标题、摘要、关键字、正文和引申说明,并利用深度模型中的注意力机制确定知识点之间的相互依赖关系;

18、知识库创建模块,用于基于知识点以及知识点之间的相互依赖关系,构建用于知识点检索的知识全文检索库和用于关联知识检索的知识图谱;

19、知识点筛选模块,用于识别检索问题中的知识点,从全文检索库和知识图谱中检索出与检索问题中的知识点相关的知识点作为候选知识点,计算每个候选知识点与检索问题中的知识点的相似度,基于相似度筛选得到知识点集合;

20、排序模块,用于针对所述知识点集合,将具有相关性的知识点按最小邻接图分组,未具有相关性的知识点单独一组,将分组以及单独的知识点按最大生成树方式排序组合;

21、上下文生成模块,用于为提问大模型准备合适的prompt模板,将按最大生成树方式排序组合的知识点嵌套进入模板,生成提示上下文;

22、模型输出模块,用于将提示上下文输入提问大模型,利用其推理、归纳总结能力,整理出最终检索结果。

23、进一步地,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。

24、进一步地,所述分割模块还用于:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的id。

25、进一步地,所述知识点筛选模块具体用于:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性加权,得到每个候选知识点与检索问题中的知识点的最终相似度,基于最终相似度筛选出相似度高于阈值的知识点,得到满足预设要求的知识点集合。

26、其中,将检索问题中的知识点或意图与所有候选知识点的主题、标题、摘要、正文、引申说明等特征分别进行相似度计算,从而针对主题、摘要、关键字、正文、引申说明等特征分别得出对应的相似度,在针对任意候选知识点中特征向量v(x,y),采用pca主成分分析计算出特征多维度的方差解释度作为权重,并将权重与对应特性相似度进行加权,得到对应特性最终的相似度。

27、进一步地,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。

本文档来自技高网...

【技术保护点】

1.一种应用于大模型知识问答的知识检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤1中,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。

3.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤2还包括:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的ID。

4.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤4具体包括:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性加权,得到每个候选知识点与检索问题中的知识点的最终相似度,基于最终相似度筛选出相似度高于阈值的知识点,得到满足预设要求的知识点集合。

5.根据权利要求4所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤6中,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。

6.一种应用于大模型知识问答的知识检索装置,其特征在于,所述装置包括:

7.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。

8.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,所述分割模块还用于:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的ID。

9.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,所述知识点筛选模块具体用于:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性加权,得到每个候选知识点与检索问题中的知识点的最终相似度,基于最终相似度筛选出相似度高于阈值的知识点,得到满足预设要求的知识点集合。

10.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。

...

【技术特征摘要】

1.一种应用于大模型知识问答的知识检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤1中,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。

3.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤2还包括:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的id。

4.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤4具体包括:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性加权,得到每个候选知识点与检索问题中的知识点的最终相似度,基于最终相似度筛选出相似度高于阈值的知识点,得到满足预设要求的知识点集合。

5.根据权利要求4所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤6中,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。

...

【专利技术属性】
技术研发人员:杨波杨光
申请(专利权)人:武汉众智数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1