一种基于大语言模型的知识图谱构建方法及系统技术方案

技术编号:39655897 阅读:20 留言:0更新日期:2023-12-09 11:24
本发明专利技术提供一种基于大语言模型的知识图谱构建方法及系统,属于文本处理技术领域

【技术实现步骤摘要】
一种基于大语言模型的知识图谱构建方法及系统


[0001]本专利技术涉及文本处理
,特别是指一种基于大语言模型的知识图谱构建方法及系统


技术介绍

[0002]知识图谱(
Knowledge Graph
)是利用可视化的图谱形象地展示学科的核心结构

发展历史

前沿领域以及整体知识的架构,把复杂的知识领域通过数据挖掘

信息处理

知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的

有价值的参考

在图书情报界,知识图谱称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘

分析

构建

绘制和显示知识及它们之间的相互联系

[0003]知识图谱的基本组成单位是“实体

关系

实体”三元组,以及实体及其相关属性

值对,实体间通过关系相互联结,构成网状的知识结构

一般流程是:
[0004]从知识文本数据中进行实体和实体关系抽取,根据抽取的实体关系,建立实体之间的知识网络图谱

[0005]但是传统知识图谱的构建流程,主要还是对于单一文本或者仅仅两三种文本进行处理,仅仅适合小规模的数据集抽取,而对于具备两种以上类型的文本数据集,其对数据集的处理就非常吃力,无法快速适应并处理大规模文本类型的知识图谱构建,对于这类大规模且包含多种文本类型的数据集,传统单一实体抽取的方法,构建知识图谱就比较慢,只能一种类型的集成处理,生成知识图谱的周期比较长

因此,不适合当前大数据发展的需求

[0006]况且在面对大数据文本数据集的情况下,传统的知识图谱构建方法,不具备大数据图谱的数据储存容量,容易造成内存不足而卡机的问题


技术实现思路

[0007]本专利技术实施例提供了一种基于大语言模型的知识图谱构建方法及系统,能够适应海量知识文本数据的语言处理和保存功能,并处理大规模文本类型的知识图谱构建

所述技术方案如下:
[0008]一方面,提供了一种基于大语言模型的知识图谱构建方法,该方法应用于电子设备,该方法包括:
[0009]采集构建知识图谱的知识文本数据并进行预处理;
[0010]对预处理后的所述知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集
T
;其中,
T={
知识文本
type1
,知识文本
type2
,知识文本
type3......}

[0011]将所述知识文本数据集
T
提交至第一
HDFS
,进行分布式文件储存;其中,
HDFS
表示
Hadoop
分布式文件系统;
[0012]按照所述知识文本
type
的长度,有序从所述第一
HDFS
提取相应的知识文本
type
,并采用预设的大语言模型
CoT
,对提取的所述知识文本
type
进行知识实体识别,获得各个知
识实体的关联信息;
[0013]将各个知识实体的所述关联信息提交至第二
HDFS
,进行分布式文件储存;
[0014]将各个知识实体的所述关联信息提交至知识图谱构建模块,知识图谱构建模块根据所述第二
HDFS
中存储的各个知识实体的所述关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱

[0015]进一步地,所述对预处理后的所述知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集
T
包括:
[0016]构建支持向量机,并将所述支持向量机部署于后台服务器;
[0017]将预处理后的所述知识文本数据发送至所述后台服务器,作为文本聚类的样本,由所述后台服务器转发至所述支持向量机进行文本聚类处理;
[0018]所述支持向量机利用支持向量聚类算法,对所述样本进行文本结构识别和聚类处理,得到若干不同文本类型的知识文本
type
并输出;
[0019]所述后台服务器对输出的若干不同文本类型的所述知识文本
type
,进行聚集处理,得到所述知识文本数据集
T。
[0020]进一步地,所述将所述知识文本数据集
T
提交至第一
HDFS
,进行分布式文件储存包括:
[0021]对所述知识文本数据集
T
中的各项所述知识文本
type
,进行文本类型长度计算,将计算得到的长度值标记在各项所述知识文本
type
上;
[0022]将所述长度值按照从大到小的顺序,对所述知识文本数据集
T
中的各项所述知识文本
type
进行有序排列,重排所述知识文本数据集
T

[0023]遍历第一
HDFS
的各个存储节点,查看可用的所述存储节点,将重排后所述知识文本数据集
T
中的各项所述知识文本
type
,按照重排顺序依次储存于所述第一
HDFS
的所述存储节点;
[0024]将各项知识文本数据块的储存地址,发送至后台服务器

[0025]进一步地,所述按照所述知识文本
type
的长度,有序从所述第一
HDFS
提取相应的知识文本
type
包括:
[0026]按照所述知识文本
type
的长度值,依次从重排后的所述知识文本数据集
T
中有序调取各项所述知识文本
type
,并发送至所述大语言模型
CoT。
[0027]进一步地,所述大语言模型
CoT
的构建步骤包括:
[0028]获取训练大语言模型
CoT
的训练数据,其中,所述训练数据中包含不同文本类型
/
结构的文本数据;
[0029]选择
GPT
自然语言处理模型,对所述训练数据中的知识实体

知识实体的关联关系和知识实体的属性进行学习训练;
[0030]当训练达到预设的优化迭代训练条件时,停止训练,生成所述大语言模型
CoT

[0031]利用获取的测试集对所述大语言模型
CoT
进行测试,判断所述大语言模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大语言模型的知识图谱构建方法,其特征在于,包括:采集构建知识图谱的知识文本数据并进行预处理;对预处理后的所述知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集
T
;其中,
T={
知识文本
type1
,知识文本
type2
,知识文本
type3......}
;将所述知识文本数据集
T
提交至第一
HDFS
,进行分布式文件储存;其中,
HDFS
表示
Hadoop
分布式文件系统;按照知识文本
type
的长度,有序从所述第一
HDFS
提取相应的知识文本
type
,并采用预设的大语言模型
CoT
,对提取的所述知识文本
type
进行知识实体识别,获得各个知识实体的关联信息;将各个知识实体的所述关联信息提交至第二
HDFS
,进行分布式文件储存;将各个知识实体的所述关联信息提交至知识图谱构建模块,知识图谱构建模块根据所述第二
HDFS
中存储的各个知识实体的所述关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱
。2.
根据权利要求1所述的基于大语言模型的知识图谱构建方法,其特征在于,所述对预处理后的所述知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集
T
包括:构建支持向量机,并将所述支持向量机部署于后台服务器;将预处理后的所述知识文本数据发送至所述后台服务器,作为文本聚类的样本,由所述后台服务器转发至所述支持向量机进行文本聚类处理;所述支持向量机利用支持向量聚类算法,对所述样本进行文本结构识别和聚类处理,得到若干不同文本类型的知识文本
type
并输出;所述后台服务器对输出的若干不同文本类型的所述知识文本
type
,进行聚集处理,得到所述知识文本数据集
T。3.
根据权利要求1所述的基于大语言模型的知识图谱构建方法,其特征在于,所述将所述知识文本数据集
T
提交至第一
HDFS
,进行分布式文件储存包括:对所述知识文本数据集
T
中的各项所述知识文本
type
,进行文本类型长度计算,将计算得到的长度值标记在各项所述知识文本
type
上;将所述长度值按照从大到小的顺序,对所述知识文本数据集
T
中的各项所述知识文本
type
进行有序排列,重排所述知识文本数据集
T
;遍历第一
HDFS
的各个存储节点,查看可用的所述存储节点,将重排后所述知识文本数据集
T
中的各项所述知识文本
type
,按照重排顺序依次储存于所述第一
HDFS
的所述存储节点;将各项知识文本数据块的储存地址,发送至后台服务器
。4.
根据权利要求3所述的基于大语言模型的知识图谱构建方法,其特征在于,所述按照所述知识文本
type
的长度,有序从所述第一
HDFS
提取相应的知识文本
type
包括:按照所述知识文本
type
的长度值,依次从重排后的所述知识文本数据集
T
中有序调取各项所述知识文本
type
,并发送至所述大语言模型
CoT。5.
根据权利要求1所述的基于大语言模型的知识图谱构建方法,其特征在于,所述大语言模型
CoT
的构建步骤包括:
获取训练大语言模型
CoT
的训练数据,其中,所述训练数据中包含不同文本类型
/
结构的文本数据;选择
GPT
自然语言处理模型,对所述训练数据中的知识实体

【专利技术属性】
技术研发人员:赵策王亚屠静苏岳万晶晶李伟伟孙岩颉彬周勤民张玥潘亮亮刘岩
申请(专利权)人:卓世科技海南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1