System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机,具体涉及一种基于检索增强的大语言模型生成方法。
技术介绍
1、大语言模型(large language model,llm)如chatgpt和gpt-4在自然语言处理领域取得了显著进展,能够生成高质量的文本、回答问题并执行各种语言任务。然而,这些模型仍然面临着一个关键的技术问题,即“幻觉问题”(hallucination problem)。幻觉问题指的是llm在生成文本时可能会产生与事实不符或完全虚构的信息。这种现象会导致生成内容具有误导性,影响用户信任和系统的实际应用价值。其主要原因包括训练数据中的噪声或错误信息、对复杂上下文理解的不足、推理能力的限制以及模型复杂性导致的难以完全控制和解释生成文本。幻觉问题不仅影响llm的可靠性和实用性,还对其在医疗、法律、教育等关键领域的应用构成挑战。因此,解决幻觉问题成为提升大语言模型性能和拓展其应用范围的关键任务。
2、检索增强生成(retrival augument generation,rag)方法在解决大语言模型幻觉问题方面取得了一定成效。然而,这些方法主要依赖于向量相似性进行信息检索,存在明显的局限性。一方面,在大规模数据集或复杂文档中,现有rag方法常常难以有效连接不同的信息点。信息点之间的关系复杂且多样,而向量相似性难以充分捕捉和整合这些关系,导致模型在生成内容时缺乏连贯性和准确性。另一方面,rag方法在处理包含多个中心节点的大文档时表现不佳。中心节点是文档的核心内容,但现有方法难以准确识别和理解这些节点,导致生成内容难以反映文档的主旨和关键
3、当前知识图谱检索增强生成方法需要依赖外部api(如gpt-4-turbo)来达到较好的效果,这带来了显著的高成本问题。首先,使用外部api通常需要支付高昂的费用,特别是在大规模或频繁调用时,这会显著增加系统的运营成本。对于企业和研究机构来说,长期依赖外部api进行文本生成和处理,可能会导致预算超支,限制了该方法的广泛应用和推广。其次,依赖外部api还会导致资源浪费。外部api的调用不仅需要消耗大量的计算资源,还可能受到外部服务提供商的限制,导致系统响应时间延长,影响用户体验。为了解决这些问题,需要开发不依赖外部api的graphrag方法。通过优化算法和模型结构,使系统在本地环境下也能实现高效的文本生成和处理,从而降低成本、节约资源,提高系统的可持续性和实际应用价值。
4、现有技术中,一些具有代表性的方法及其缺点介绍如下:
5、1、erine(enhanced representation through knowledge integration ofentities):erine通过在语言模型中引入知识图谱信息,增强模型对实体及其关系的理解。在预训练和微调过程中,模型不仅学习文本数据,还从知识图谱中获取丰富的背景知识。在问答任务中,erine可以利用知识图谱中的实体信息提供更准确的答案。例如,用户询问“玫瑰花的主要特征是什么?”,模型可以从知识图谱中检索出玫瑰花的具体特征(如花色、花瓣数、栽培环境等),从而生成准确且详细的回答。
6、尽管erine能够利用知识图谱增强生成模型的知识背景,但在信息点连接和中心节点理解方面仍存在不足,知识图谱中的关系信息可能不够详细或存在歧义,导致生成内容在复杂关系理解上存在偏差。
7、2、comet(commonsense transformers):comet是一个基于知识图谱的语言生成模型,旨在生成常识性知识。通过结合语言模型和常识知识图谱,comet能够生成包含常识性信息的文本。在生成带有常识性的句子时,comet可以利用知识图谱中的常识信息。例如,生成“人们在雨天会打伞”,模型可以从常识知识图谱中检索出“雨”和“伞”之间的关联,生成符合常识的句子。
8、comet依赖于常识知识图谱来生成内容,但常识知识图谱的覆盖范围有限,对于一些领域特定或复杂的任务,常识知识图谱可能无法提供足够的信息支持,导致生成内容缺乏准确性和相关性。comet在生成过程中需要进行大量的常识推理,这增加了计算复杂度。尤其是在处理复杂问题时,多层次的推理过程会显著增加计算负担,影响系统的效率和性能。
9、3、k-bert(knowledge-infusedbert):k-bert在bert模型的基础上,注入知识图谱信息,通过在输入文本中添加知识图谱的实体信息和关系,使得模型在理解和生成过程中能够参考外部知识。在阅读理解任务中,k-bert可以利用知识图谱中的背景信息提升答案的准确性。例如,文本提到“泰姬陵”,模型可以通过知识图谱了解泰姬陵的详细背景(如建造时间、地点、历史意义等),从而生成更加准确的答案。
10、在k-bert方法中,知识图谱信息的引入可能导致模型的推理过程不稳定。特别是在多跳推理任务中,知识图谱中的错误信息会被逐步放大,影响最终生成内容的准确性和连贯性。由于需要在生成过程中频繁访问和处理知识图谱数据,k-bert方法的响应速度较慢。尤其是在处理复杂文档和多中心节点任务时,系统的实时性和用户体验受到限制。
11、4、graphrag方法:graphrag方法由微软提出,旨在克服传统rag方法的局限性。graphrag通过引入图结构,增强信息点连接和中心节点理解能力。graphrag方法具有如下特征:①图结构表示:利用知识图谱或其他图结构表示文本中的实体和关系,使得信息点之间的连接更加清晰;②图引导生成:在生成过程中,利用图结构指导生成模型,使其能够更好地理解和整合复杂关系。在处理包含多个实体和复杂关系的问答任务时,graphrag通过图结构理解不同实体之间的关系,从而生成准确的回答。在生成长文档的摘要时,graphrag通过图结构识别文档的中心节点和主要关系,从而生成更连贯和全面的摘要。
12、现有的graphrag方法和其他类似的技术通常依赖外部api(如gpt-4-turbo)来实现高效的文本生成。这种依赖带来了显著的成本问题,尤其是在大规模应用时,频繁调用外部api会导致高昂的费用,从而限制了这些技术的广泛应用和推广。
技术实现思路
1、针对现有技术存在的问题,本专利技术提供一种基于检索增强的大语言模型生成方法。本专利技术旨在解决三个问题,一是解决大语言模型在生成内容时的幻觉问题,以尽可能地减少虚假或不准确的信息生成;二是解决现有rag方法在信息点连接和中心节点理解上的不足,提高大预言模型处理复杂文档的效果;三是解决现有知识图谱检索增强生成方法依赖外部api导致的高成本问题。
2、本专利技术为解决技术问题所采用的技术方案如下:
3、本专利技术提供的一种基于检索增强的大语言模型生成方法,包本文档来自技高网...
【技术保护点】
1.一种基于检索增强的大语言模型生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤S1中,所述文件检索引擎组件在检索时采用小文本块检索策略。
3.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤S1中,所述文本嵌入技术调用嵌入模型text-embedding-ada-002。
4.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤S2中,所述知识图谱构建器组件使用mistral本地LLM进行深度语义分析,识别相关文档中的关键信息,通过mistral本地LLM的命名实体识别功能提取相关文档中的实体,分析相关文档中的语义关系,提取实体间的属性和关系,构建知识图谱的节点和边;使用nomic-embed-text嵌入模型将实体、属性和关系映射到高维向量空间;将提取的节点和边存储在Neo4j图数据库中。
5.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,所述依存句法解析用于识别出句子的核心动词及其相关的句
6.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,所述语义角色标注用于识别出句子的谓词和论元,并为这些论元分配语义角色;假设yt表示第t个词语的语义角色标签,SRL模型通过以下公式表示:
7.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤S2中,采用基于模板的方法将子知识图谱信息转换为文本形式,即使用预定义的句子模板,将结构化数据填充到这些模板中,从而生成自然语言文本。
8.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤S2中,所述压缩转换的具体实现步骤如下:
9.根据权利要求8所述的一种基于检索增强的大语言模型生成方法,其特征在于,所述生成序列与目标序列的匹配损失Lmatch通过交叉熵损失来计算;所述信息完整性损失Linfo通过信息熵或信息增益来衡量;所述上下文连贯性损失Lcontext通过使用双向语言模型的潜在层特征来度量生成序列与上下文之间的相似性。
10.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤S3中,先将压缩后的文本和问题连接成一个输入序列,GPT-4大语言模型通过其深层次的语言理解能力对这个输入序列进行处理,并根据上下文生成一个最可能的答案序列。
...【技术特征摘要】
1.一种基于检索增强的大语言模型生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤s1中,所述文件检索引擎组件在检索时采用小文本块检索策略。
3.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤s1中,所述文本嵌入技术调用嵌入模型text-embedding-ada-002。
4.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,步骤s2中,所述知识图谱构建器组件使用mistral本地llm进行深度语义分析,识别相关文档中的关键信息,通过mistral本地llm的命名实体识别功能提取相关文档中的实体,分析相关文档中的语义关系,提取实体间的属性和关系,构建知识图谱的节点和边;使用nomic-embed-text嵌入模型将实体、属性和关系映射到高维向量空间;将提取的节点和边存储在neo4j图数据库中。
5.根据权利要求1所述的一种基于检索增强的大语言模型生成方法,其特征在于,所述依存句法解析用于识别出句子的核心动词及其相关的句法成分;所述依存句法解析的目标是生成一个依存树,每个词语wi与其中心词hi和依存关系ri,解析任务表示为:
6.根据权...
【专利技术属性】
技术研发人员:李灵慧,李小勇,黄俊敏,吕陈毅闻,王赵宇,袁开国,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。