System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱的检索增强生成系统与方法技术方案_技高网

基于知识图谱的检索增强生成系统与方法技术方案

技术编号:42760545 阅读:0 留言:0更新日期:2024-09-18 13:47
本发明专利技术公开了一种基于知识图谱的检索增强生成系统与方法,解决了检索候选集过大且易受分散段落影响及无法兼顾准确率与泛化能力的问题。系统包括:数据导入模块、检索数据库、检索模块、问答模块,在数据导入与检索模块间增设知识图谱数据库,检索模块为多层混合检索器,检索数据库为对应的三层架构。方法包括:构建系统;构建图结构信息检索索引;接收问题;混合层次检索得到增强信息;结合增强信息生成答案。本发明专利技术在知识图谱图结构语义信息为目录结构的多层检索索引上,结合图结构与语义信息混合层次检索,削减了候选集规模,减少了分散段落误导,兼顾准确率与泛化能力。应用于文本生成技术领域,如智能问答、代码生成等。

【技术实现步骤摘要】

本专利技术属于人工智能,主要涉及信息检索与文本生成,具体是一种基于知识图谱的检索增强生成系统与方法。应用于智能问答、情感分析、代码生成等场景。


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术或先有技术。

2、随着以深度学习为代表的人工智能技术高速发展,信息检索与文本生成技术在现代社会发挥着关键作用。这两个领域的不断融合推动了计算机对人类语言的更深层次理解、解释和生成。检索增强生成与深度学习技术的引入使得文本生成模型能够更好地捕捉语义关系和上下文信息,从而在各个领域更加深度地参与人类社会生产生活。较为典型的例子有智能助手、聊天机器人、情感分析、机器翻译等。现代社会,信息检索与文本生成对于提高工作效率、拓展人机交互方式、及促进全球信息流动具有重要意义。

3、大语言生成模型是目前文本生成领域的最新成果,它基于深度学习技术,拥有大量的参数与复杂的结构。这些模型通过在超大规模的文本数据集上进行训练来学习语言中的高级语义信息,在执行各种语言理解和文本生成任务时取得了极佳的效果。但是由于参数量极其巨大,大语言生成模型的更新昂贵且耗时,使得这些模型的知识库难以及时更新。最终导致这些模型尽管拥有强大的语义理解能力,但是在遇到训练语料不充足或训练语料已过时的输入场景下容易出现幻觉等问题。

4、检索增强生成是一种将检索和生成两种方法结合起来的自然语言处理范式,其中包含了检索模型与生成模型两个核心模块以及一个外部知识库,检索模型负责根据输入的信息检索出可能有帮助的外部辅助信息,生成模型负责根据输入信息与外部知识库提供的增强信息进行文本理解与生成。针对大语言生成模型的检索增强生成旨在利用检索模型,通过提示方法将问题与增强信息一并输入给生成模型来补充知识库,增强生成模型的性能,确保生成的文本基于相关且准确的额外知识,该技术目前已证实能够有效改善由于训练语料不足或过期导致的幻觉等问题。

5、检索增强生成的检索模型中存在两个技术要点,一是索引架构,二是检索方法。

6、常规的索引架构为,将通常为长文本的外部知识根据一定的长度阈值或按语句结构进行拆分,把长文本集合转化为文本块集合后,以文本块为单位进行语义向量的嵌入或分词解析,并基于嵌入或分词解析结果构建对应的平铺式检索索引,检索时,直接以整个文本块集合作为候选集,一次性检索相关性最高的相关信息。

7、检索方法通常分为稀疏检索与密集检索两种,其中稀疏检索一般基于词袋模型,使用大部分元素为零的稀疏向量进行语义表示。其特点为推理速度较快,模型简单且具备鲁棒性与适应性,但是由于该模型仅考虑了与词频相关的语义信息,忽略了上下文联系,词句顺序等语义信息,使其在复杂情况下性能不佳;密集检索一般基于深度学习文本嵌入技术,通过密集向量进行语义表示。由于嵌入模型基于注意力机制学习了更多的上下文语义信息,密集检索往往有着更优秀的性能,但它还是存在两个关键弱点:文本嵌入模型通常受到上下文长度的限制,大多数情况下无法应用于整个文档,只能按照阈值上限进行分割后再嵌入,会造成上下文语义丢失;密集检索器的性能依赖文本嵌入模型的语义空间,在域外数据上表现不佳,泛化能力较弱。

8、目前,检索增强生成系统的传统方案存在以下局限性:于拆分后的文本段上直接构建的平铺式索引需要遍历所有文本段进行检索,导致候选集数量庞大,对系统吞吐量存在负面影响;缺乏目录结构划定检索范围,相关性计算易受到分散段落中的误导信息影响,这些段落包含看似相关的本地上下文,但不是正确的答案;单一检索器无法兼顾检索准确率与域外信息泛化能力。


技术实现思路

1、针对现有技术中存在的不足和问题,本专利技术提供一种具有图结构语义信息为检索目录结构的多层检索索引的混合检索的基于知识图谱的检索增强生成系统与方法,以克服现有技术因分散段落误导而降低准确度、文段拆分后检索候选集规模过于庞大以及难以兼顾检索准确率与泛化能力的技术问题。

2、本专利技术是一种基于知识图谱的检索增强生成系统,按照信息流方向依次接有:数据导入模块、检索数据库、检索模块、问答模块;问答模块接受用户问题,并将检索结果与用户问题交给问答模块中的生成模型以生成答案返回给用户,其特征在于,在数据导入模块与检索模块之间,与检索数据库并行接有知识图谱数据库,该模块接收导入信息流构建形成与检索主题相同的知识图谱,其中包含有与检索模块相适应的图形目录结构;检索数据库为与检索模块相适应的三层检索索引架构,输入为导入信息流;知识图谱数据库输出图结构语义信息给检索模块,检索数据库输出三层检索索引信息给检索模块,在检索模块中二者在逻辑上相互结合形成一个以知识图谱的图结构语义信息为目录结构的多层检索索引;

3、所述检索模块为多层混合检索器,是基于知识图谱的层次混合检索架构检索模型;在以知识图谱图结构语义信息为目录结构的多层检索索引上进行检索,该多层混合检索器的结构依次为,索引实体检索层、普通实体检索层、属性文档检索层以及根据输出长度阈值进行取舍的信息取舍层,最终得到增强信息交给问答模块。

4、本专利技术还是一种基于知识图谱的检索增强生成方法,在上述的基于知识图谱的检索增强生成系统上运行,其特征在于,增设了知识图谱数据库,检索模块为基于知识图谱的多层混合检索架构检索模型,包括有以下步骤:

5、s1构建基于知识图谱的检索增强生成系统:按照信息流方向依次接有:数据导入模块、检索数据库、检索模块、问答模块;问答模块接受用户问题,并将检索结果与用户问题交给问答模块中的生成模型以生成答案返回给用户,在数据导入模块与检索模块之间,与检索数据库并行接有知识图谱数据库,该模块接收导入信息流构建形成与检索主题相同的知识图谱,其中包含有与检索模块相适应的图形目录结构;所述检索数据库为与检索模块相适应的三层检索索引架构,输入为导入信息流;知识图谱数据库输出图结构语义信息给检索模块,检索数据库输出三层检索索引信息给检索模块,在检索模块中二者在逻辑上相互结合形成一个以知识图谱的图结构语义信息为目录结构的多层检索索引;

6、所述检索模块为多层混合检索器,是基于知识图谱的层次混合检索架构检索模型;在以知识图谱图结构语义信息为目录结构的多层检索索引上进行检索,该多层混合检索器的结构依次为,索引实体检索层、普通实体检索层、属性文档检索层以及根据输出长度阈值进行取舍的信息取舍层,最终得到增强信息交给问答模块;

7、s2构建包含图结构信息的检索索引:将现有的结构化信息与图结构相对应进行本体分析并导入知识图谱数据库以构建知识图谱,形成由索引实体,普通实体,属性文档三层架构组成的图形目录结构,再将知识图谱数据库中的图结构信息分层导入检索数据库以构建对应的三层包含图结构信息的检索索引;

8、s3问答模块接收问题:问答模块通过用户交互功能接收用户待解答问题即用户问题,并将用户问题交给检索模块;

9、s4执行混合层次检索得到增强信息:根据步骤s3得到的用户问题,生成用户问题的稀疏词袋本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的检索增强生成系统,按照信息流方向依次接有:数据导入模块、检索数据库、检索模块、问答模块;问答模块接受用户问题,并将检索结果与用户问题交给问答模块中的生成模型以生成答案返回给用户,其特征在于,在数据导入模块与检索模块之间,与检索数据库并行接有知识图谱数据库,该模块接收导入信息流构建形成与检索主题相同的知识图谱,其中包含有与检索模块相适应的图形目录结构;检索数据库为与检索模块相适应的三层检索索引架构,输入为导入信息流;知识图谱数据库输出图结构语义信息给检索模块,检索数据库输出三层检索索引信息给检索模块,在检索模块中二者在逻辑上相互结合形成一个以知识图谱的图结构语义信息为目录结构的多层检索索引;

2.根据权利要求1所述的一种基于知识图谱的检索增强生成系统,其特征在于,所述知识图谱数据库为检索模块提供由索引实体,普通实体,属性文档三层架构形成的图形目录结构以进行层次检索;

3.根据权利要求1所述的一种基于知识图谱的检索增强生成系统,其特征在于,所述检索模块为多层混合检索器,多层混合检索架构依次接有四层:索引实体检索层、普通实体检索层、属性文档检索层、信息取舍层;

4.根据权利要求1所述的一种基于知识图谱的检索增强生成系统,其特征在于,所述检索数据库对应于多层混合检索器的检索层次分为三层,包括:

5.一种基于知识图谱的检索增强生成方法,在权利要求1到4所述的任一基于知识图谱的检索增强生成系统上运行,其特征在于,增设了知识图谱数据库,检索模块为基于知识图谱的多层混合检索架构检索模型,包括有以下步骤:

6.根据权利要求5所述的检索增强生成方法,其特征在于,所述步骤S4中,混合层次检索方法包括以下步骤:

7.根据权利要求6所述的检索增强生成方法,其特征在于,所述步骤S43,S44中的混合检索为分别使用面向密集语义向量的密集检索方法与面向稀疏词袋向量的稀疏检索方法进行检索并将两个结果简单去重后聚合得到检索结果的混合检索方法,具体包括:

...

【技术特征摘要】

1.一种基于知识图谱的检索增强生成系统,按照信息流方向依次接有:数据导入模块、检索数据库、检索模块、问答模块;问答模块接受用户问题,并将检索结果与用户问题交给问答模块中的生成模型以生成答案返回给用户,其特征在于,在数据导入模块与检索模块之间,与检索数据库并行接有知识图谱数据库,该模块接收导入信息流构建形成与检索主题相同的知识图谱,其中包含有与检索模块相适应的图形目录结构;检索数据库为与检索模块相适应的三层检索索引架构,输入为导入信息流;知识图谱数据库输出图结构语义信息给检索模块,检索数据库输出三层检索索引信息给检索模块,在检索模块中二者在逻辑上相互结合形成一个以知识图谱的图结构语义信息为目录结构的多层检索索引;

2.根据权利要求1所述的一种基于知识图谱的检索增强生成系统,其特征在于,所述知识图谱数据库为检索模块提供由索引实体,普通实体,属性文档三层架构形成的图形目录结构以进行层次检索;

3.根据权利要求1所述的一种基于知识图谱的检索增...

【专利技术属性】
技术研发人员:杜军朝刘惠郑向云飞商二童张立勇
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1