【技术实现步骤摘要】
一种基于大语言模型的知识图谱构建方法及系统
[0001]本专利技术涉及文本处理
,特别是指一种基于大语言模型的知识图谱构建方法及系统
。
技术介绍
[0002]知识图谱(
Knowledge Graph
)是利用可视化的图谱形象地展示学科的核心结构
、
发展历史
、
前沿领域以及整体知识的架构,把复杂的知识领域通过数据挖掘
、
信息处理
、
知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的
、
有价值的参考
。
在图书情报界,知识图谱称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘
、
分析
、
构建
、
绘制和显示知识及它们之间的相互联系
。
[0003]知识图谱的基本组成单位是“实体
—
关系
—
实体”三元组,以及实体及其相关属性
—
值对,实体间通过关系相互联结,构成网状的知识结构
。
一般流程是:
[0004]从知识文本数据中进行实体和实体关系抽取,根据抽取的实体关系,建立实体之间的知识网络图谱
。
[0005]但是传统知识图谱的构建流程,主要还是对于单一文本或者仅仅两三种文本进行处理,仅仅适合小规模的数据集抽取,而对于具备两种 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于大语言模型的知识图谱构建方法,其特征在于,包括:采集构建知识图谱的知识文本数据并进行预处理;对预处理后的所述知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集
T
;其中,
T={
知识文本
type1
,知识文本
type2
,知识文本
type3......}
;将所述知识文本数据集
T
提交至第一
HDFS
,进行分布式文件储存;其中,
HDFS
表示
Hadoop
分布式文件系统;按照知识文本
type
的长度,有序从所述第一
HDFS
提取相应的知识文本
type
,并采用预设的大语言模型
CoT
,对提取的所述知识文本
type
进行知识实体识别,获得各个知识实体的关联信息;将各个知识实体的所述关联信息提交至第二
HDFS
,进行分布式文件储存;将各个知识实体的所述关联信息提交至知识图谱构建模块,知识图谱构建模块根据所述第二
HDFS
中存储的各个知识实体的所述关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱
。2.
根据权利要求1所述的基于大语言模型的知识图谱构建方法,其特征在于,所述对预处理后的所述知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集
T
包括:构建支持向量机,并将所述支持向量机部署于后台服务器;将预处理后的所述知识文本数据发送至所述后台服务器,作为文本聚类的样本,由所述后台服务器转发至所述支持向量机进行文本聚类处理;所述支持向量机利用支持向量聚类算法,对所述样本进行文本结构识别和聚类处理,得到若干不同文本类型的知识文本
type
并输出;所述后台服务器对输出的若干不同文本类型的所述知识文本
type
,进行聚集处理,得到所述知识文本数据集
T。3.
根据权利要求1所述的基于大语言模型的知识图谱构建方法,其特征在于,所述将所述知识文本数据集
T
提交至第一
HDFS
,进行分布式文件储存包括:对所述知识文本数据集
T
中的各项所述知识文本
type
,进行文本类型长度计算,将计算得到的长度值标记在各项所述知识文本
type
上;将所述长度值按照从大到小的顺序,对所述知识文本数据集
T
中的各项所述知识文本
type
进行有序排列,重排所述知识文本数据集
T
;遍历第一
HDFS
的各个存储节点,查看可用的所述存储节点,将重排后所述知识文本数据集
T
中的各项所述知识文本
type
,按照重排顺序依次储存于所述第一
HDFS
的所述存储节点;将各项知识文本数据块的储存地址,发送至后台服务器
。4.
根据权利要求3所述的基于大语言模型的知识图谱构建方法,其特征在于,所述按照所述知识文本
type
的长度,有序从所述第一
HDFS
提取相应的知识文本
type
包括:按照所述知识文本
type
的长度值,依次从重排后的所述知识文本数据集
T
中有序调取各项所述知识文本
type
,并发送至所述大语言模型
CoT。5.
根据权利要求1所述的基于大语言模型的知识图谱构建方法,其特征在于,所述大语言模型
CoT
的构建步骤包括:
获取训练大语言模型
CoT
的训练数据,其中,所述训练数据中包含不同文本类型
/
结构的文本数据;选择
GPT
自然语言处理模型,对所述训练数据中的知识实体
技术研发人员:赵策,王亚,屠静,苏岳,万晶晶,李伟伟,孙岩,颉彬,周勤民,张玥,潘亮亮,刘岩,
申请(专利权)人:卓世科技海南有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。