一种基于LLM大语言模型的知识图谱构建方法技术

技术编号：41742768 阅读：12 留言：0更新日期：2024-06-19 13:03

本发明专利技术涉及信息处理技术领域，具体涉及一种基于LLM大语言模型的知识图谱构建方法，本发明专利技术通过LLM大语言模型将人类可理解的文本转化为的文本语料库转，完成对数据的采集操作，知识图谱则是以人和机器都能理解的方式组织有关概念及其之间联系的信息的数据库，通过LLM大语言模型和知识图谱结合在一起时，它们会增强彼此的能力，LLM大语言模型可以使用知识图谱中的结构化信息为他们的解释添加上下文，而知识图谱则受益于LLM大语言模型对语言的细致入微的理解，通过协同作用可以使人工智能响应不仅更准确，而且与上下文更相关，使用效果好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种知识图谱构建方法，具体为一种基于llm大语言模型的知识图谱构建方法。

技术介绍

1、知识图谱，也称为语义网络，表示现实世界实体的网络，即对象、事件、情境或概念，并说明它们之间的关系。这些信息通常存储在图数据库中，并以图形结构可视化，因此称为知识“图谱”。

2、一旦建立了知识图谱(kg)，我们可以用它进行许多用途。我们可以运行图算法并计算任何节点的中心性，了解一个概念(节点)对这篇作品有多重要。我们可以计算族群，将概念分组在一起以更好地分析文本。我们可以了解看似不相关的概念之间的关系。最重要的是，我们可以实现图检索增强生成(grag)，并使用图作为检索器以更深入地与我们的文档交流。

3、kg的构建是一个复杂的任务，要求从包括结构化、半结构化和非结构化数据在内的广泛来源收集和整合信息。传统方法通常依赖于为处理每种数据类型而特别设计的模块，并在内容多样且结构异质时面临困难。然而，llm大语言模型是在广泛的信息来源上训练的强大的nlp模型，使它们非常适合知识提取任务。

4、基于以上的原因，本专利技术提出一种基于llm大语言模型的知识图谱构建方法用于将文本语料库转化为知识图谱。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于llm大语言模型的知识图谱构建方法。

2、为了解决上述技术问题，本专利技术提供了如下的技术方案：

3、一种基于llm大语言模型的知识图谱构建方法，包括以下步骤：

4、

5、s2：文本分块，形成的文本语料库进行分块操作，并为每个文本分块分配一个块id编号；

6、s3：语义关系提取，对每个文本块使用llm大语言模型提取概念及其语义关系，并对提取出的概念和语义进行权重分配；

7、s4：上下文接近关系，在同一文本块中出现的概念通过它们的上下文接近，并为这种关系分配权重；

8、s5：分组和连接，对相似的块进行分组，求和它们的权重，并将关系连接起来；

9、s6：知识图谱的可视化，将经过关系连接后的数据集进行可视化的展示，构建出相应的知识图谱。

10、作为本专利技术的一种优选技术方案，所述步骤2中对于文本分块的操作基于langchain文本分割器实现，在使用langchain进行文本分割时，并设置以下参数：

11、chunk_size：设置每个文本块的最大长度，这个参数是根据文本块中字符的数量来计算的，但也可以传递一个自定义的标记计数函数来计算块中单词或其他标记的数量；

12、chunk_overlap：设置块之间的最大重叠；

13、length_function：确定如何计算块的长度。默认情况下，它简单地计算字符的数量，但也可以传递一个自定义函数来计算其他类型的长度。

14、作为本专利技术的一种优选技术方案，所述步骤3中同一对概念之间可能存在多个关系，每个关系都是一对概念之间的连接线。

15、作为本专利技术的一种优选技术方案，所述步骤3中为了语义关系提取，采用的是zephyr模型。

16、作为本专利技术的一种优选技术方案，所述步骤4中上下文相关性的关系计算，包括以下的步骤：

17、s11：合并数据集，将node_1和node_2合并成一个单独的列；

18、s12：使用chunk_id作为键对此数据集进行自连接，具有相同chunk_id的节点将配对形成一行；

19、s13：对自循环进行删除，删除数据集中所有node_1和node_2相同的行；

20、s14：获得两个数据集，一个用于概念之间的语义关系，另一个用于文本中提到的概念之间的上下文接近关系，并将它们合并以形成我们的网络图数据集。

21、作为本专利技术的一种优选技术方案，所述计数列表示node_1和node_2一起出现的块数，chunk_id列是所有这些块的列表。

22、作为本专利技术的一种优选技术方案，所述步骤6中对于知识图谱的可视化采用的是pyvis，具有可视化网络的python库，pyvis有一个内置的networkx库，将networkx图转换为pyvis对象，将计算的每条连线的权重作为连线的厚度，节点族群用作颜色，以及每个节点的密集度以用作它们的大小。

23、本专利技术实施例提供了一种基于llm大语言模型的知识图谱构建方法，具备以下有益效果：

24、本专利技术通过llm大语言模型将人类可理解的文本转化为的文本语料库转，完成对数据的采集操作，知识图谱则是以人和机器都能理解的方式组织有关概念及其之间联系的信息的数据库，通过llm大语言模型和知识图谱结合在一起时，它们会增强彼此的能力，llm大语言模型可以使用知识图谱中的结构化信息为他们的解释添加上下文，而知识图谱则受益于llm大语言模型对语言的细致入微的理解，通过协同作用可以使人工智能响应不仅更准确，而且与上下文更相关，使用效果好。

本文档来自技高网...

【技术保护点】

1.一种基于LLM大语言模型的知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于LLM大语言模型的知识图谱构建方法，其特征在于，所述步骤2中对于文本分块的操作基于LangChain文本分割器实现，在使用LangChain进行文本分割时，并设置以下参数：

3.根据权利要求1所述的一种基于LLM大语言模型的知识图谱构建方法，其特征在于，所述步骤3中同一对概念之间可能存在多个关系，每个关系都是一对概念之间的连接线。

4.根据权利要求1所述的一种基于LLM大语言模型的知识图谱构建方法，其特征在于，所述步骤3中为了语义关系提取，采用的是Zephyr模型。

5.根据权利要求1所述的一种基于LLM大语言模型的知识图谱构建方法，其特征在于，所述步骤4中上下文相关性的关系计算，包括以下的步骤：

6.根据权利要求5所述的一种基于LLM大语言模型的知识图谱构建方法，其特征在于，所述计数列表示node_1和node_2一起出现的块数，chunk_id列是所有这些块的列表。

7.根据权利要求1所述的一种基于

...

【技术特征摘要】

1.一种基于llm大语言模型的知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于llm大语言模型的知识图谱构建方法，其特征在于，所述步骤2中对于文本分块的操作基于langchain文本分割器实现，在使用langchain进行文本分割时，并设置以下参数：

3.根据权利要求1所述的一种基于llm大语言模型的知识图谱构建方法，其特征在于，所述步骤3中同一对概念之间可能存在多个关系，每个关系都是一对概念之间的连接线。

4.根据权利要求1所述的一种基于llm大语言模型的知识图谱构建方法，其特征在于，所述步骤3中为了语义关系提取，采用的是zephyr模型。

5.根据权利要求1所述的...

【专利技术属性】
技术研发人员：张妍妍，
申请(专利权)人：索安赛数据成都有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人