System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息,具体为一种大模型的知识库构建方法及系统。
技术介绍
1、2023年,大语言模型爆发元年,不管是closeai出品的gpt系列模型,还是llama系列开源模型、google的gemini等模型等,其表现能力都让人叹为观止,大语言模型在自然语言领域的表现都远超以往任何模型。但是大语言模型也存在很多不足:在处理一些专业领域的知识时,会表现出知识缺失,这时候大语言模型可能无法提供准确答案。在解决此类问题时,数据科学家们通常使用的方法是对模型进行微调来适应特定领域的知识,将知识参数化,尽管这种方法取得了卓越的效果,但是其缺点在于成本高昂,需要专业技术知识。
2、针对大语言模型的另一种解决方案:参数化知识(微调)存在极大局限性,难以保留训练语料库中的所有知识,每一次知识的更新都要消耗大量的计算资源去训练模型。模型参数无法动态更新,参数化知识会随时过时。但是相比较于参数化知识(即通过模型微调来适应专业知识),非参数化知识,即存储在外部的知识源。更加方便、易于扩展。这种方法使得开发人员无需为每一个特定任务重新训练整个庞大的模型。他们可以简单地给模型加上一个知识库,通过这种方式增加模型的信息输入,从而提高回答的精确性。为了融合两种方式的优缺点,模型可以采取半参数化的方法,将非参数化的语料库数据库与参数化模型相结合,这种方法被称为检索增强生成。
3、为了进行检索增强,需要有一个庞大的数据知识库作为基础,如何构建知识库,并对其进行检索是目前面临的主要问题。
技术实现思路<
...【技术保护点】
1.一种大模型的知识库构建方法,其特征在于,包括:
2.如权利要求1所述的大模型的知识库构建方法,其特征在于:所述多源异构文件包括结构化数据文件、半结构化数据文件和非结构化数据文件;
3.如权利要求2所述的大模型的知识库构建方法,其特征在于:所述文档中的特殊格式内容包括检测表格区域,使用目标检测模型识别有边框和无边框的表格;
4.如权利要求3所述的大模型的知识库构建方法,其特征在于:所述将文本切片并向量化包括根据基座大模型的输入最大token数来初步确定设定的切片长度,对不同类型特殊文本制定对应的分片策略。
5.如权利要求4所述的大模型的知识库构建方法,其特征在于:所述切片长度表示为,
6.如权利要求5所述的大模型的知识库构建方法,其特征在于:所述分片策略包括针对Markdown类型的文档,在切片时优先将同一层级标题下的内容放入同一切片中;
7.如权利要求6所述的大模型的知识库构建方法,其特征在于:所述将向量化数据存入向量库,执行索引和优化包括基于工业领域的数据特点,选择向量数据库,其最小存储单元为colle
8.一种采用如权利要求1~7任一所述的大模型的知识库构建方法的系统,其特征在于,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的大模型的知识库构建方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的大模型的知识库构建方法的步骤。
...【技术特征摘要】
1.一种大模型的知识库构建方法,其特征在于,包括:
2.如权利要求1所述的大模型的知识库构建方法,其特征在于:所述多源异构文件包括结构化数据文件、半结构化数据文件和非结构化数据文件;
3.如权利要求2所述的大模型的知识库构建方法,其特征在于:所述文档中的特殊格式内容包括检测表格区域,使用目标检测模型识别有边框和无边框的表格;
4.如权利要求3所述的大模型的知识库构建方法,其特征在于:所述将文本切片并向量化包括根据基座大模型的输入最大token数来初步确定设定的切片长度,对不同类型特殊文本制定对应的分片策略。
5.如权利要求4所述的大模型的知识库构建方法,其特征在于:所述切片长度表示为,
6.如权利要求5所述的大模型的知识库构建方法,其特征在于:所述分片策略包括针对markdown类型的文档,在切片时优先将同一...
【专利技术属性】
技术研发人员:胡杰英,陈学鹏,李勇飞,钱奎省,毛旭初,卞志刚,汪江,
申请(专利权)人:朗坤智慧科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。