System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种大模型的知识库构建方法及系统技术方案_技高网

一种大模型的知识库构建方法及系统技术方案

技术编号:44298896 阅读:1 留言:0更新日期:2025-02-18 20:17
本发明专利技术公开了一种大模型的知识库构建方法及系统,涉及信息技术领域,包括:预处理多源异构文件,提取并标准化内容;将文本切片并向量化,保留上下文信息;将向量化数据存入向量库,执行索引和优化。本发明专利技术提供的大模型的知识库构建方法在知识库的构建上采用了一套功能齐全的文档抽取方法,有效的解决了垂直领域文档的特异性定制化要求,提升了系统的行业属性和行业性能;在提取出来的文本进入知识库的过程中充分考虑到了行业特点和行业属性,有定制化的高性能的向量化过程;设计高可用和高性能的向量库架构,使得满足功能需求的同时,也满足了增删改查的性能需求。

【技术实现步骤摘要】

本专利技术涉及信息,具体为一种大模型的知识库构建方法及系统


技术介绍

1、2023年,大语言模型爆发元年,不管是closeai出品的gpt系列模型,还是llama系列开源模型、google的gemini等模型等,其表现能力都让人叹为观止,大语言模型在自然语言领域的表现都远超以往任何模型。但是大语言模型也存在很多不足:在处理一些专业领域的知识时,会表现出知识缺失,这时候大语言模型可能无法提供准确答案。在解决此类问题时,数据科学家们通常使用的方法是对模型进行微调来适应特定领域的知识,将知识参数化,尽管这种方法取得了卓越的效果,但是其缺点在于成本高昂,需要专业技术知识。

2、针对大语言模型的另一种解决方案:参数化知识(微调)存在极大局限性,难以保留训练语料库中的所有知识,每一次知识的更新都要消耗大量的计算资源去训练模型。模型参数无法动态更新,参数化知识会随时过时。但是相比较于参数化知识(即通过模型微调来适应专业知识),非参数化知识,即存储在外部的知识源。更加方便、易于扩展。这种方法使得开发人员无需为每一个特定任务重新训练整个庞大的模型。他们可以简单地给模型加上一个知识库,通过这种方式增加模型的信息输入,从而提高回答的精确性。为了融合两种方式的优缺点,模型可以采取半参数化的方法,将非参数化的语料库数据库与参数化模型相结合,这种方法被称为检索增强生成。

3、为了进行检索增强,需要有一个庞大的数据知识库作为基础,如何构建知识库,并对其进行检索是目前面临的主要问题。


技术实现思路</p>

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术解决的技术问题是:现有的大模型知识库构建方法存在对多源异构数据处理不够高效,切片与向量化精度不足,向量库检索效率低下的问题,以及如何提升知识库构建的效率和检索精度的优化问题。

3、为解决上述技术问题,本专利技术提供如下技术方案:一种大模型的知识库构建方法,包括:

4、预处理多源异构文件,提取并标准化内容;

5、将文本切片并向量化,保留上下文信息;

6、将向量化数据存入向量库,执行索引和优化。

7、作为本专利技术所述的大模型的知识库构建方法的一种优选方案,其中:所述多源异构文件包括结构化数据文件、半结构化数据文件和非结构化数据文件;

8、所述提取并标准化内容包括对结构化数据文件直接提取文本内容;

9、对半结构化数据文件提取文字内容,将格式信息转换为统一的标记格式;

10、对非结构化数据文件使用光学字符识别技术提取文本,对文档中的特殊格式内容进行解析和处理。

11、作为本专利技术所述的大模型的知识库构建方法的一种优选方案,其中:所述文档中的特殊格式内容包括检测表格区域,使用目标检测模型识别有边框和无边框的表格;

12、针对有边框表格,识别单元格边框并进行ocr处理;

13、针对无边框表格,直接使用ocr识别,通过锚框坐标确定文本的行列关系;

14、对于跨页或跨切片的表格数据,提取表头信息,并在切片中保留表头;

15、优化宽幅表格,通过非结构化描述强化远距离列之间的关系。

16、作为本专利技术所述的大模型的知识库构建方法的一种优选方案,其中:所述将文本切片并向量化包括根据基座大模型的输入最大token数来初步确定设定的切片长度,对不同类型特殊文本制定对应的分片策略。

17、作为本专利技术所述的大模型的知识库构建方法的一种优选方案,其中:所述切片长度表示为,

18、l=encding(lh+lprompt+∑lcontent+lseq)

19、其中,lh是大模型的基本信息,lprompt是本次问题制定的特殊prompt和填充进去的本次问题组合之后的句子长度,∑lconnant是rag中作为大模型提示段落的文字总长度,∑lseq是大模型支持的多轮对话的上下文句子总长度,encding表示encding模型。

20、作为本专利技术所述的大模型的知识库构建方法的一种优选方案,其中:所述分片策略包括针对markdown类型的文档,在切片时优先将同一层级标题下的内容放入同一切片中;

21、若无法完整容纳,将句子或段落保留在同一切片内;

22、切片的重合部分长度根据文本的语义结构动态调整,若重合部分不足以覆盖前一切片的句子,则在切片内容中插入原文标题信息。

23、作为本专利技术所述的大模型的知识库构建方法的一种优选方案,其中:所述将向量化数据存入向量库,执行索引和优化包括基于工业领域的数据特点,选择向量数据库,其最小存储单元为collection,依据文本向量化模型或切片大小划分不同collection,通过payload字段进行数据区分;

24、选择payload字段区分行业和主题,字段包括行业、段落id、内容来源id,并为字段建立索引;

25、使用冷热分离技术将高频访问的数据段落存入热库,而低频访问的数据存入冷库,在搜索时,优先在热库中查询,若无法满足需求再转向冷库;

26、在搜索过程中,先进行初始向量化参数的相似度搜索,重排搜索结果后,根据文档id去不同的collection中检索相关段落,搜索完成后,通过整合各部分内容生成最终的回答输出,所有数据存储在同一个collection下,并通过metadata字段区分不同的行业和领域知识。

27、本专利技术的另外一个目的是提供一种大模型的知识库构建系统,其能通过构建大模型的知识库构建系统,解决了现有知识库构建方法中的多源异构数据处理不一致,向量化后检索不精准,检索速度慢问题。

28、为解决上述技术问题,本专利技术提供如下技术方案:一种大模型的知识库构建系统,包括:文本预处理模块、文本切片模块以及知识库构建模块;

29、所述文本预处理模块用于预处理多源异构文件,提取并标准化内容;

30、所述文本切片模块用于将文本切片并向量化,保留上下文信息;

31、所述知识库构建模块用于将向量化数据存入向量库,执行索引和优化。

32、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述大模型的知识库构建方法的步骤。

33、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述大模型的知识库构建方法的步骤。

34、本专利技术的有益效果:本专利技术提供的大模型的知识库构建方法在知识库的构建上采用了一套功能齐全的文档抽取方法,有效的解决了垂直领域文档的特异性定制化要求,提升了系统的行业属性和行业性能;

35、在提取出来的文本进入知识库的过程中充分考虑到了行业特点和行业属性,有定制化的高性能的向量化过程;

36、设计高可用和高性能的向量库架构,使得满足功能需求的同时,也满足了增删改查的性能需求。

本文档来自技高网...

【技术保护点】

1.一种大模型的知识库构建方法,其特征在于,包括:

2.如权利要求1所述的大模型的知识库构建方法,其特征在于:所述多源异构文件包括结构化数据文件、半结构化数据文件和非结构化数据文件;

3.如权利要求2所述的大模型的知识库构建方法,其特征在于:所述文档中的特殊格式内容包括检测表格区域,使用目标检测模型识别有边框和无边框的表格;

4.如权利要求3所述的大模型的知识库构建方法,其特征在于:所述将文本切片并向量化包括根据基座大模型的输入最大token数来初步确定设定的切片长度,对不同类型特殊文本制定对应的分片策略。

5.如权利要求4所述的大模型的知识库构建方法,其特征在于:所述切片长度表示为,

6.如权利要求5所述的大模型的知识库构建方法,其特征在于:所述分片策略包括针对Markdown类型的文档,在切片时优先将同一层级标题下的内容放入同一切片中;

7.如权利要求6所述的大模型的知识库构建方法,其特征在于:所述将向量化数据存入向量库,执行索引和优化包括基于工业领域的数据特点,选择向量数据库,其最小存储单元为collection,依据文本向量化模型或切片大小划分不同collection,通过payload字段进行数据区分;

8.一种采用如权利要求1~7任一所述的大模型的知识库构建方法的系统,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的大模型的知识库构建方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的大模型的知识库构建方法的步骤。

...

【技术特征摘要】

1.一种大模型的知识库构建方法,其特征在于,包括:

2.如权利要求1所述的大模型的知识库构建方法,其特征在于:所述多源异构文件包括结构化数据文件、半结构化数据文件和非结构化数据文件;

3.如权利要求2所述的大模型的知识库构建方法,其特征在于:所述文档中的特殊格式内容包括检测表格区域,使用目标检测模型识别有边框和无边框的表格;

4.如权利要求3所述的大模型的知识库构建方法,其特征在于:所述将文本切片并向量化包括根据基座大模型的输入最大token数来初步确定设定的切片长度,对不同类型特殊文本制定对应的分片策略。

5.如权利要求4所述的大模型的知识库构建方法,其特征在于:所述切片长度表示为,

6.如权利要求5所述的大模型的知识库构建方法,其特征在于:所述分片策略包括针对markdown类型的文档,在切片时优先将同一...

【专利技术属性】
技术研发人员:胡杰英陈学鹏李勇飞钱奎省毛旭初卞志刚汪江
申请(专利权)人:朗坤智慧科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1