System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识检索领域,具体涉及一种应用于大模型知识问答的知识检索方法及装置。
技术介绍
1、知识检索在rag(检索增强生成)过程中具有非常关键的作用与意义,主要体现在提供准确的信息源、增强上下文理解、提升回答的多样性、增加透明度和可解释性等方面,通过其检索出的知识为生成模型提供了准确、相关的上下文信息,从而在多个层面上提升了整个系统的性能和输出质量。当前用于问答的知识检索过程中存在多义词和歧义性、动态知识的更新困难、检索速度与效率较低、信息片段的融合与选择困难等问题,严重影响到被检索出知识的质量,进而导致问答生成的结果出现幻觉,降低了知识问答的准确性,影响用户体验。
技术实现思路
1、鉴于现有技术中存在的技术缺陷和技术弊端,本专利技术实施例提供克服上述问题或者至少部分地解决上述问题的一种应用于大模型知识问答的知识检索方法及装置,具体方案如下:
2、作为本专利技术的第一方面,提供一种应用于大模型知识问答的知识检索方法,所述方法包括:
3、步骤1,对知识数据进行整理与清洗,并将清洗后的知识数据转换成知识文本;
4、步骤2,在语义层面对知识文本进行句子、段落、主题的分割,将知识文本分割为独立知识点,每个知识点标注对应的标题、摘要、关键字、正文和引申说明,并利用深度模型中的注意力机制确定知识点之间的相互依赖关系;
5、步骤3,基于知识点以及知识点之间的相互依赖关系,构建用于知识点检索的知识全文检索库和用于关联知识检索的知识图谱;
...【技术保护点】
1.一种应用于大模型知识问答的知识检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤1中,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。
3.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤2还包括:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的ID。
4.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤4具体包括:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性
5.根据权利要求4所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤6中,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。
6.一种应用于大模型知识问答的知识检索装置,其特征在于,所述装置包括:
7.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。
8.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,所述分割模块还用于:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的ID。
9.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,所述知识点筛选模块具体用于:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性加权,得到每个候选知识点与检索问题中的知识点的最终相似度,基于最终相似度筛选出相似度高于阈值的知识点,得到满足预设要求的知识点集合。
10.根据权利要求6所述的应用于大模型知识问答的知识检索装置,其特征在于,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。
...【技术特征摘要】
1.一种应用于大模型知识问答的知识检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤1中,知识数据包括关系数据库数据和文档类数据,其中,关系数据库数据包括xlsx格式的数据,文档类数据包括word和pdf格式的数据。
3.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤2还包括:采用表示模型对知识点的标题、摘要、关键字、正文和引申说明分别进行向量化,得到标题、摘要、关键字、正文和引申说明五个方面的索引向量集合,每个索引向量包含向量与知识点实体的id。
4.根据权利要求1所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤4具体包括:识别检索问题中的知识点,基于检索问题中的知识点,在知识全文检索库中进行检索,检索出符合预设条件的知识点;基于符合预设条件的知识点,在知识图谱中进行检索,检索出与符合预设条件的知识点具有预设关联度的相关知识点,将所述符合预设条件的知识点和所述相关的知识点作为候选知识点,将检索问题中的知识点与所有候选知识点进行相似度计算和相关性加权,得到每个候选知识点与检索问题中的知识点的最终相似度,基于最终相似度筛选出相似度高于阈值的知识点,得到满足预设要求的知识点集合。
5.根据权利要求4所述的应用于大模型知识问答的知识检索方法,其特征在于,步骤6中,在知识点嵌套进入模板时,由于组合知识点具有较高相关性,在生成提示时相邻嵌入,不同组知识点相关性较低,则分开嵌入。
...【专利技术属性】
技术研发人员:杨波,杨光,
申请(专利权)人:武汉众智数字技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。