System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 知识库的构建方法、数据查询方法、电子设备和存储介质技术_技高网

知识库的构建方法、数据查询方法、电子设备和存储介质技术

技术编号:40317823 阅读:10 留言:0更新日期:2024-02-07 21:00
本发明专利技术实施例提供一种知识库的构建方法、数据查询方法、电子设备和存储介质,属于计算机技术领域。该知识库的构建方法包括:建立具有知识条目的本地数据集;利用所述本地数据集对大型语言模型进行预训练,得到知识检索模型;以及通过所述知识检索模型对所述本地数据集进行映射处理,并基于处理后的本地数据集和所述知识检索模型构建得到适于对所述知识条目检索的知识库。本发明专利技术实施例将大型语言模型与本地数据集相结合,充分发挥大型语言模型的优势来构建知识库,使得所构建的知识库能够支持更为全面且准确的知识检索和推理。

【技术实现步骤摘要】

本专利技术涉及计算机,具体地涉及一种知识库的构建方法、数据查询方法、电子设备和存储介质


技术介绍

1、传统的知识库构建通常是基于知识图谱进行构建。例如,以构建针对故障诊断的知识库为例,主要是根据信息的多源知识,构建知识图谱。知识图谱中包括对应信息的实体及实体间的关系,进而通过查询知识图谱来对知识进行查询。除此之外,现有采用知识图谱的方式,还可以对其中的数据文档进行语义编码,通过语义相似度来获取近似的查询结果。但是基于知识图谱构建知识库,其构建过程需要大量的人工和结构化知识,而基于语义匹配的方法很难保证语义匹配返回的结果的准确性,并且较难优化。


技术实现思路

1、本专利技术实施例的目的是提供一种知识库的构建方法、数据查询方法、电子设备和存储介质,以用于至少部分得解决上述存在的技术问题。

2、为了实现上述目的,第一方面本专利技术实施例提供一种知识库的构建方法,所述构建方法包括:建立具有知识条目的本地数据集;利用所述本地数据集对大型语言模型进行预训练,得到知识检索模型;以及通过所述知识检索模型对所述本地数据集进行映射处理,并基于处理后的本地数据集和所述知识检索模型构建得到适于对所述知识条目检索的知识库。

3、优选的,所述建立具有知识条目的本地数据集包括:获取用于建立本地数据集的相关数据,其中所述相关数据包括结构化数据和非结构化数据;对所述相关数据进行预处理,得到多个知识条目,并将所述多个知识条目集合而建立得到所述本地数据集。

4、优选的,所述对所述相关数据进行预处理的方法,得到多个知识条目的步骤包括:当所述相关数据为结构化数据时,基于对于相关数据标注的服务请求,将所述结构化数据转化为prompt形式的数据,以得到与所述服务请求相关联的数据组合;以及从每个数据组合中提取多个相互关联的相关数据,并将所提取的相关数据条目组合以得到至少一个知识条目。

5、优选的,所述对所述相关数据进行预处理,得到多个知识条目的步骤包括:当所述相关数据为结构化数据时,基于所述结构化数据所表征的语义,确定至少一个目标查询问题;基于所述目标查询问题,确定与所述目标查询问题相匹配的目标查询结果,并将所述目标查询问题与所述目标查询结果组成相应的知识问答对,以将所述知识问答对作为所述知识条目。

6、优选的,所述对所述相关数据进行预处理,得到多个知识条目的步骤包括:当所述相关数据为非结构化数据时,将所述非结构化数据进行文字转换,得到相应的文字数据,并将所述文字数据基于标识符进行拆分,得到针对所述文字数据的多个分段数据,以将所述分段数据作为所述知识条目。

7、优选的,所述通过所述知识检索模型对所述本地数据集进行映射处理,包括:通过所述知识检索模型对所述本地数据集中的知识条目进行向量化处理;对向量化处理后的知识条目进行编码以及构建索引和存储结构。

8、第二方面,本专利技术实施例提供一种数据查询方法,该数据查询方法基于上述第一方面任一项所述的构建方法构建得到的知识库进行数据查询,且所述数据查询方法包括:获取表征用户的查询请求的查询语句,确定所述查询语句所对应的查询向量;基于所述查询向量,查询得到与所述查询请求所匹配的查询结果。

9、优选的,所述基于所述查询语句的查询向量,查询得到与所述查询请求所匹配的查询结果,包括:获取所述查询向量与所存储的每个知识条目的向量值的点积结果;将满足预设要求的点积结果所对应的知识条目作为与所述查询请求匹配的查询结果。

10、第三方面,本专利技术实施例提供一种电子设备,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述第一方面所述的知识库的构建方法或者上述第二方面所述的数据查询方法。

11、第四方面,本专利技术实施例提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述第一方面所述的知识库的构建方法或者上述第二方面所述的数据查询方法。

12、通过上述技术方案,本专利技术实施例将大型语言模型与本地数据集相结合,充分发挥大型语言模型的优势来构建知识库,使得所构建的知识库能够提供更为全面且准确的知识检索和推理。

13、本专利技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

本文档来自技高网...

【技术保护点】

1.一种知识库的构建方法,其特征在于,所述构建方法包括:

2.根据权利要求1所述的构建方法,其特征在于,所述建立具有知识条目的本地数据集包括:

3.根据权利要求2所述的构建方法,其特征在于,所述对所述相关数据进行预处理的方法,得到多个知识条目的步骤包括:

4.根据权利要求2所述的构建方法,其特征在于,所述对所述相关数据进行预处理,得到多个知识条目的步骤包括:

5.根据权利要求2所述的构建方法,其特征在于,所述对所述相关数据进行预处理,得到多个知识条目的步骤包括:

6.根据权利要求1所述的构建方法,其特征在于,所述通过所述知识检索模型对所述本地数据集进行映射处理,包括:

7.一种数据查询方法,其特征在于,该数据查询方法基于上述权利要求1-6任一项所述的构建方法构建得到的知识库进行数据查询,且所述数据查询方法包括:

8.根据权利要求7所述的查询方法,其特征在于,所述基于所述查询语句的查询向量,查询得到与所述查询请求所匹配的查询结果,包括:

9.一种电子设备,其特征在于,所述电子设备包括:</p>

10.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述权利要求1-6任一项所述的知识库的构建方法或者上述权利要求7或8所述的数据查询方法。

...

【技术特征摘要】

1.一种知识库的构建方法,其特征在于,所述构建方法包括:

2.根据权利要求1所述的构建方法,其特征在于,所述建立具有知识条目的本地数据集包括:

3.根据权利要求2所述的构建方法,其特征在于,所述对所述相关数据进行预处理的方法,得到多个知识条目的步骤包括:

4.根据权利要求2所述的构建方法,其特征在于,所述对所述相关数据进行预处理,得到多个知识条目的步骤包括:

5.根据权利要求2所述的构建方法,其特征在于,所述对所述相关数据进行预处理,得到多个知识条目的步骤包括:

6.根据权利要求1所述的构建方法,其特征在于,所述通过所述知...

【专利技术属性】
技术研发人员:曾光周阳周志忠童兴何飞鸿
申请(专利权)人:中科云谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1