System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种基于知识图谱的rag问答方法、系统及介质。
技术介绍
1、随着人工智能技术的快速发展,智能问答系统在各个领域的应用日益广泛。其中,基于检索增强生成(retrieve-and-generate,rag)的问答系统因其结合了信息检索和自然语言生成的优势,成为了当前研究的热点。传统的rag系统通常包括检索和生成两个主要步骤:首先从知识库中检索与用户查询相关的文档或片段,然后利用大型语言模型基于检索到的信息生成回答。然而,现有的rag系统在处理需要全局知识和复杂推理的问题时仍面临着一些挑战:
2、1.信息片段关联性不足:传统rag系统多采用向量检索方式,仅基于局部相似度进行匹配。这种方法可能导致检索到的文档片段(chunk)之间缺乏必要的关联性,难以为复杂问题提供全面的背景信息。
3、2.查询意图识别不准确:在处理复杂查询时,传统rag方法可能无法准确捕捉用户的真实意图,导致检索结果与用户需求不匹配。
4、3.缺乏全局知识理解:现有系统往往难以有效整合和利用知识库中的全局信息,这限制了它们在处理需要跨领域知识或多步推理的问题时的表现。
5、4.信息深度挖掘不足:大多数rag系统仅基于表面的文本相似度进行检索,无法深入挖掘实体间的潜在关系和隐含信息。
6、5.知识更新和维护困难:传统方法在知识库更新和维护方面存在挑战,难以及时反映最新的知识状态。
7、6.回答一致性问题:在处理相关但略有不同的查询时,现有系统可能会产生不一致或矛
8、因此,亟需一种新的技术手段,能够充分利用知识图谱的结构化信息和全局视角,提高rag系统在处理复杂问题时的准确性、全面性和一致性。
技术实现思路
1、本专利技术实施例提供了一种基于知识图谱的rag问答方法、系统及介质,用于解决如下技术问题:亟需一种新的技术手段,能够充分利用知识图谱的结构化信息和全局视角,提高rag系统在处理复杂问题时的准确性、全面性和一致性。
2、本专利技术实施例采用下述技术方案:
3、一方面,本专利技术实施例提供了一种基于知识图谱的rag问答方法,方法包括:对预先存储的知识库文件进行预处理;
4、对预处理后的知识库文件进行实体信息抽取,得到实体节点以及实体节点描述向量;
5、对抽取的所有实体节点进行社区检测及聚类,得到社区报告;
6、根据所述实体节点、实体节点描述向量以及所述社区报告,构建知识图谱索引结构;
7、根据用户查询向量与所述实体节点描述向量的相似度,确定关联的实体节点;
8、基于所述关联的实体节点,在所述知识图谱索引结构中进行相关信息挖掘,并将挖掘到的相关信息输入到大语言模型中,生成答案。
9、在一种可行的实施方式中,对预先存储的知识库文件进行预处理,具体包括:
10、基于预设分块规则,对预先存储的知识库文件进行文本分块处理,得到若干个文本块;其中,所述预设分块规则至少包括:每个分块中包含一定的上下文信息。
11、在一种可行的实施方式中,对预处理后的知识库文件进行实体信息抽取,得到实体节点以及实体节点描述向量,具体包括:
12、通过大模型,在所述知识库文件的每个文本块中抽取实体节点以及实体节点描述信息;其中,所述实体节点描述信息至少包含以下一项或多项:实体属性的表征描述、与实体相关的实体关系以及关联实体的权重;
13、将所述实体节点描述信息进行向量化处理,得到所述实体节点描述向量。
14、在一种可行的实施方式中,对抽取的所有实体节点进行社区检测及聚类,得到社区报告,具体包括:
15、通过社区检测算法对抽取的所有实体节点进行聚类,将具有相同代表含义的实体节点归类为一个社区,得到若干个社区;
16、获取每个社区的社区信息,并根据所述社区信息生成对应的社区报告;其中,所述社区信息至少包含以下任一项或多项:社区描述、社区重要性、社区关联实体以及社区内部关系。
17、在一种可行的实施方式中,根据所述实体节点、实体节点描述向量以及所述社区报告,构建知识图谱索引结构,具体包括:
18、基于所述社区报告中的社区信息,确定各个实体节点之间的关联关系;
19、根据所述关联关系,构建三元组;并基于所述三元组,构建知识图谱索引结构,为后续查询提供参考依据。
20、在一种可行的实施方式中,在根据用户查询向量与所述实体节点描述向量的相似度,确定关联的实体节点之前,所述方法还包括:
21、对用户输入的查询问题进行向量化,得到所述用户查询向量;
22、计算所述用户查询向量与存储的所有实体节点描述向量之间的余弦距离,得到所述用户查询向量与所述实体节点描述向量的相似度。
23、在一种可行的实施方式中,根据用户查询向量与所述实体节点描述向量的相似度,确定关联的实体节点,具体包括:
24、筛选出相似度大于预设阈值的实体节点描述向量,并获取对应的实体节点,得到所述用户查询向量关联的实体节点。
25、在一种可行的实施方式中,基于所述关联的实体节点,在所述知识图谱索引结构中进行相关信息挖掘,并将挖掘到的相关信息输入到大语言模型中,生成答案,具体包括:
26、基于所述关联的实体节点,在构建的所述知识图谱索引结构中进行多路径查询,挖掘相关信息;其中,挖掘的相关信息至少包括:所有关联的实体节点的关联实体、关联实体关系、所属社区以及社区报告;
27、通过pagerank算法对挖掘到的相关信息进行重要程度排序及筛选,以对所述相关信息进行排序过滤;
28、将排序过滤后的相关信息以及历史对话记录输入到大型语言模型中,生成准确答案。
29、另一方面,本专利技术实施例还提供了一种基于知识图谱的rag问答系统,所述系统包括:
30、知识图谱索引构建模块,用于对预先存储的知识库文件进行预处理;对预处理后的知识库文件进行实体信息抽取,得到实体节点以及实体节点描述向量;对抽取的所有实体节点进行社区检测及聚类,得到社区报告;根据所述实体节点、实体节点描述向量以及所述社区报告,构建知识图谱索引结构;
31、知识图谱查询处理模块,用于根据用户查询向量与所述实体节点描述向量的相似度,确定关联的实体节点;基于所述关联的实体节点,在所述知识图谱索引结构中进行相关信息挖掘,并将挖掘到的相关信息输入到大语言模型中,生成答案。
32、最后,本专利技术实施例还提供了一种存储介质,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行所述的一种基于知识图谱的rag问答方法。
33、与现有技术相比,本专利技术实施例提供的一种基于知识图谱的rag问答方法、系统及介质,具有如下有益效本文档来自技高网...
【技术保护点】
1.一种基于知识图谱的RAG问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于知识图谱的RAG问答方法,其特征在于,对预先存储的知识库文件进行预处理,具体包括:
3.根据权利要求1所述的一种基于知识图谱的RAG问答方法,其特征在于,对预处理后的知识库文件进行实体信息抽取,得到实体节点以及实体节点描述向量,具体包括:
4.根据权利要求1所述的一种基于知识图谱的RAG问答方法,其特征在于,对抽取的所有实体节点进行社区检测及聚类,得到社区报告,具体包括:
5.根据权利要求1所述的一种基于知识图谱的RAG问答方法,其特征在于,根据所述实体节点、实体节点描述向量以及所述社区报告,构建知识图谱索引结构,具体包括:
6.根据权利要求1所述的一种基于知识图谱的RAG问答方法,其特征在于,在根据用户查询向量与所述实体节点描述向量的相似度,确定关联的实体节点之前,所述方法还包括:
7.根据权利要求6所述的一种基于知识图谱的RAG问答方法,其特征在于,根据用户查询向量与所述实体节点描述向量的相似度,确定关联的实
8.根据权利要求1所述的一种基于知识图谱的RAG问答方法,其特征在于,基于所述关联的实体节点,在所述知识图谱索引结构中进行相关信息挖掘,并将挖掘到的相关信息输入到大语言模型中,生成答案,具体包括:
9.一种基于知识图谱的RAG问答系统,其特征在于,所述系统包括:
10.一种存储介质,其特征在于,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行根据权利要求1-8任一项所述的一种基于知识图谱的RAG问答方法。
...【技术特征摘要】
1.一种基于知识图谱的rag问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于知识图谱的rag问答方法,其特征在于,对预先存储的知识库文件进行预处理,具体包括:
3.根据权利要求1所述的一种基于知识图谱的rag问答方法,其特征在于,对预处理后的知识库文件进行实体信息抽取,得到实体节点以及实体节点描述向量,具体包括:
4.根据权利要求1所述的一种基于知识图谱的rag问答方法,其特征在于,对抽取的所有实体节点进行社区检测及聚类,得到社区报告,具体包括:
5.根据权利要求1所述的一种基于知识图谱的rag问答方法,其特征在于,根据所述实体节点、实体节点描述向量以及所述社区报告,构建知识图谱索引结构,具体包括:
6.根据权利要求1所述的一种基于知识图谱的rag问答方法,其特征在于,在根据用户查询向量与所...
【专利技术属性】
技术研发人员:展恩昊,李雪,段强,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。