System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于GraphRAG的大模型问答方法、系统、设备、介质及产品技术方案_技高网

基于GraphRAG的大模型问答方法、系统、设备、介质及产品技术方案

技术编号:44528984 阅读:3 留言:0更新日期:2025-03-07 13:19
本发明专利技术提供基于GraphRAG的大模型问答方法、系统、设备、介质及产品,该方法包括步骤:确定可用数据源,并对数据进行预处理;对预处理后的数据进行知识抽取、知识融合、知识计算,以构建知识图谱;通过GraphRAG的大语言模型从用户查询中提取关键实体;根据提取的关键实体检索知识图谱中的相关子图,形成上下文信息;将上下文信息送入GraphRAG的大语言模型进行生成式回答。本发明专利技术能够覆盖更多相关的知识点和信息源,提供更全面的答案;对于需要多步骤推理或多文档信息整合的复杂查询,准确性较高;在处理大规模数据集时,算力资源需求较低;能够实现跨领域整合和推理;答案多样性得到提升,答案赋权性得到显著增强。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别涉及基于graphrag的大模型问答方法、系统、设备、介质及产品。


技术介绍

1、在信息爆炸的时代,人们越来越依赖于智能问答系统来快速获取准确的信息。智能问答系统不仅改变了人们获取信息的方式,也极大地提高了信息处理的效率。而在这个系统中,大模型无疑扮演着核心的角色。大模型以其强大的数据处理能力和深度学习能力,为智能问答系统提供了强大的支撑,使得知识库的快速构建与查询成为可能。但现有的问答系统存在明显缺陷:

2、在回答复杂问题时,现有的问答系统无法覆盖更多相关的知识点和信息源,无法提供更全面的答案;

3、对于需要多步骤推理或多文档信息整合的复杂查询,现有的问答系统准确性较低;

4、在处理大规模数据集时,现有的问答系统算力资源需求较高;

5、在处理跨领域、跨数据集的复杂语义问题推理时,现有的问答系统无法实现跨领域整合和推理;

6、现有的问答系统的答案较单一,且无法将答案按高相关性和高质量提供,使得高相关性和高质量的答案不容易被用户发现和使用。


技术实现思路

1、为了实现本专利技术的上述目的和其他优点,本专利技术的第一目的是提供一种基于graphrag的大模型问答方法,包括以下步骤:

2、确定可用数据源,并对数据进行预处理;

3、对预处理后的数据进行知识抽取、知识融合、知识计算,以构建知识图谱;

4、通过graphrag的大语言模型从用户查询中提取关键实体;p>

5、根据提取的关键实体检索所述知识图谱中的相关子图,形成上下文信息;

6、将所述上下文信息送入所述graphrag的大语言模型进行生成式回答。

7、进一步地,所述确定可用数据源步骤包括:

8、根据构建知识图谱的目的,确定可用数据源。

9、进一步地,所述可用数据源包括结构化数据库、半结构化数据、非结构化文本。

10、进一步地,所述对数据进行预处理步骤包括:

11、对数据进行清洗、转换和格式化处理,以满足知识图谱构建的需求。

12、进一步地,所述对预处理后的数据进行知识抽取步骤包括:

13、利用命名实体识别技术与关系抽取技术从文本数据中抽取实体、关系、属性信息。

14、进一步地,所述利用命名实体识别技术与关系抽取技术从文本数据中抽取实体步骤包括:

15、利用自然语言处理技术,从文本数据中识别出具有特定意义的实体;

16、将识别出的实体与已存在的知识库进行匹配,实现实体标准化。

17、进一步地,利用命名实体识别技术与关系抽取技术从文本数据中抽取关系步骤包括:

18、根据预定义的规则或模板从文本数据中抽取实体间的关系;

19、使用机器学习模型从文本数据中自动学习并抽取实体间的关系;

20、利用现有的知识库中的关系信息来补充或验证抽取的关系。

21、进一步地,对预处理后的数据进行知识融合步骤包括:

22、将不同来源、不同结构、不同格式的知识进行融合,形成统一的知识图谱;

23、对预处理后的数据进行知识计算步骤包括:

24、在所述知识图谱上进行推理、机器学习、网络分析,以丰富图谱的语义信息。

25、进一步地,所述通过graphrag的大语言模型从用户查询中提取关键实体步骤包括:

26、识别用户查询的意图;

27、从用户查询中抽取出涉及的实体和可能的关系。

28、进一步地,所述根据提取的关键实体检索所述知识图谱中的相关子图步骤包括:

29、将抽取出的实体和关系映射为cypher查询语句;

30、根据查询的复杂度和性能要求,优化cypher语句;

31、在图数据库中执行构建的cypher语句。

32、进一步地,所述将所述上下文信息送入所述graphrag的大语言模型进行生成式回答步骤还包括:

33、将查询结果转换为用户易于理解的形式返回给用户。

34、本专利技术的第二目的是提供一种基于graphrag的大模型问答系统,应用上述的方法,包括数据预处理模块、知识图谱构建模块、实体提取模块、子图检索模块、答案生成模块;其中,

35、所述数据预处理模块,用于确定可用数据源,并对数据进行预处理;

36、所述知识图谱构建模块,用于对预处理后的数据进行知识抽取、知识融合、知识计算,以构建知识图谱;

37、所述实体提取模块,用于通过graphrag的大语言模型从用户查询中提取关键实体;

38、所述子图检索模块,用于根据提取的关键实体检索所述知识图谱中的相关子图,形成上下文信息;

39、所述答案生成模块,用于将所述上下文信息送入所述graphrag的大语言模型进行生成式回答。

40、本专利技术的第三目的是提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

41、本专利技术的第四目的是提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

42、本专利技术的第五目的是提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

43、与现有技术相比,本专利技术的有益效果是:

44、本专利技术提供基于graphrag的大模型问答方法、系统、设备、介质及产品,该方法包括以下步骤:确定可用数据源,并对数据进行预处理;对预处理后的数据进行知识抽取、知识融合、知识计算,以构建知识图谱;通过graphrag的大语言模型从用户查询中提取关键实体;根据提取的关键实体检索所述知识图谱中的相关子图,形成上下文信息;将所述上下文信息送入所述graphrag的大语言模型进行生成式回答。本专利技术在回答复杂问题时,能够覆盖更多相关的知识点和信息源,提供更全面的答案;对于需要多步骤推理或多文档信息整合的复杂查询,相较现有方案在准确性上得到明显提高;在处理大规模数据集时,相较现有方案显著降低了算力资源需求;在处理跨领域、跨数据集的复杂语义问题推理时,能够实现跨领域整合和推理;相较现有方案,在答案多样性上得到显著提升,对每个答案进行打分并排序,使得高相关性和高质量的答案更容易被用户发现和使用,赋权性得到显著增强。

45、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具体实施方式由以下实施例及其附图详细给出。

本文档来自技高网...

【技术保护点】

1.一种基于GraphRAG的大模型问答方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于GraphRAG的大模型问答方法,其特征在于,所述确定可用数据源步骤包括:

3.如权利要求2所述的一种基于GraphRAG的大模型问答方法,其特征在于:所述可用数据源包括结构化数据库、半结构化数据、非结构化文本。

4.如权利要求1所述的一种基于GraphRAG的大模型问答方法,其特征在于,所述对数据进行预处理步骤包括:

5.如权利要求1所述的一种基于GraphRAG的大模型问答方法,其特征在于:所述对预处理后的数据进行知识抽取步骤包括:

6.如权利要求5所述的一种基于GraphRAG的大模型问答方法,其特征在于,所述利用命名实体识别技术与关系抽取技术从文本数据中抽取实体步骤包括:

7.如权利要求5所述的一种基于GraphRAG的大模型问答方法,其特征在于,利用命名实体识别技术与关系抽取技术从文本数据中抽取关系步骤包括:

8.如权利要求1所述的一种基于GraphRAG的大模型问答方法,其特征在于,对预处理后的数据进行知识融合步骤包括:

9.如权利要求1所述的一种基于GraphRAG的大模型问答方法,其特征在于,所述通过GraphRAG的大语言模型从用户查询中提取关键实体步骤包括:

10.如权利要求9所述的一种基于GraphRAG的大模型问答方法,其特征在于,所述根据提取的关键实体检索所述知识图谱中的相关子图步骤包括:

11.如权利要求10所述的一种基于GraphRAG的大模型问答方法,其特征在于,所述将所述上下文信息送入所述GraphRAG的大语言模型进行生成式回答步骤还包括:

12.一种基于GraphRAG的大模型问答系统,应用如权利要求1~11任一项所述的方法,其特征在于:包括数据预处理模块、知识图谱构建模块、实体提取模块、子图检索模块、答案生成模块;其中,

13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~11任一项所述方法的步骤。

14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~11任一项所述方法的步骤。

15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1~11任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于graphrag的大模型问答方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于graphrag的大模型问答方法,其特征在于,所述确定可用数据源步骤包括:

3.如权利要求2所述的一种基于graphrag的大模型问答方法,其特征在于:所述可用数据源包括结构化数据库、半结构化数据、非结构化文本。

4.如权利要求1所述的一种基于graphrag的大模型问答方法,其特征在于,所述对数据进行预处理步骤包括:

5.如权利要求1所述的一种基于graphrag的大模型问答方法,其特征在于:所述对预处理后的数据进行知识抽取步骤包括:

6.如权利要求5所述的一种基于graphrag的大模型问答方法,其特征在于,所述利用命名实体识别技术与关系抽取技术从文本数据中抽取实体步骤包括:

7.如权利要求5所述的一种基于graphrag的大模型问答方法,其特征在于,利用命名实体识别技术与关系抽取技术从文本数据中抽取关系步骤包括:

8.如权利要求1所述的一种基于graphrag的大模型问答方法,其特征在于,对预处理后的数据进行知识融合步骤包括:

9.如权利要求1所述的一种基于graphrag的大模型问答方法...

【专利技术属性】
技术研发人员:姚康张贺童董婷付威威郑天佑丁上上董月芳郑田莉程泉博任志杰
申请(专利权)人:中国科学院苏州生物医学工程技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1