System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的知识图谱构建方法及系统技术方案_技高网

一种基于大语言模型的知识图谱构建方法及系统技术方案

技术编号:43790821 阅读:2 留言:0更新日期:2024-12-24 16:23
本发明专利技术提供一种基于大语言模型的知识图谱构建方法及系统,涉及数据挖掘技术领域,包括数据采集模块、数据识别模块和图谱构建模块;数据采集模块用于从公开数据集中获取文本数据;数据识别模块用于对获取到的文本数据进行实体识别和关系抽取,得到文本实体和实体关系;图谱构建模块用于对文本实体和实体关系进行连接并对文本实体关系网络进行结构优化,得到优化知识图谱;本发明专利技术通过训练大语言模型对文本实体进行提取和关系抽取,为构建知识图谱提供了精准的文本实体和实体关系,以解决现有的知识图谱在构建过程中覆盖面低,无法对多种场景进行构建的问题。

【技术实现步骤摘要】

本专利技术涉及数据挖掘,尤其涉及一种基于大语言模型的知识图谱构建方法及系统


技术介绍

1、知识图谱作为人工智能领域的重要基石,旨在结构化地表示人类知识,并通过图的形式展现实体间的复杂关系,不仅能够促进信息的有效组织和利用,还为智能问答、推荐系统、语义搜索等应用提供了强大的支持。

2、在现有技术中,在对知识图谱进行构建时,往往是直接对某一垂直领域进行单方面的设定和提取,无法根据场景的变化提供优良的知识图谱构建,因此,需要一种基于大语言模型的知识图谱构建方法及系统来解决上述问题。


技术实现思路

1、针对现有技术存在的不足,本专利技术目的是提供一种基于大语言模型的知识图谱构建方法及系统,通过训练大语言模型对文本实体进行提取和关系抽取,为构建知识图谱提供了精准的文本实体和实体关系,以解决现有的知识图谱在构建过程中覆盖面低,无法对多种场景进行构建的问题。

2、为了实现上述目的,本专利技术是通过如下的技术方案来实现:第一方面,一种基于大语言模型的知识图谱构建系统,所述系统包括数据采集模块、数据识别模块和图谱构建模块;

3、所述数据采集模块用于从公开数据集中获取文本数据;

4、所述数据识别模块用于对获取到的文本数据进行实体识别和关系抽取,得到文本实体和实体关系;

5、所述图谱构建模块包括关系连接单元和图谱优化单元,所述关系连接单元用于对文本实体和实体关系进行连接,得到文本实体关系网络;

6、所述图谱优化单元用于对文本实体关系网络进行结构优化,得到优化知识图谱。

7、进一步地,所述数据识别模块包括模型构建单元和识别抽取单元,所述模型构建单元配置有模型构建策略,所述模型构建策略包括从数据库中获取大量文本数据,设置为训练文本数据,对训练文本数据进行清洗,去除超文本标记语音、特殊字符、多余空格和无关信息,得到清洗训练文本数据;

8、构建模型,使用大量的清洗训练文本数据对模型进行预训练,得到预训练模型;

9、获取任意清洗训练文本数据,确定该清洗训练文本数据的命名实体的类型体系,对清洗训练文本数据进行人工标注,得到标注训练文本数据;

10、使用标注训练文本数据对预训练模型进行训练,得到大语言模型。

11、进一步地,所述识别抽取单元配置有识别抽取策略,所述识别抽取策略包括获取文本数据,对文本数据进行清洗后得到清洗训练文本数据,使用训练完成的大语言模型对清洗训练文本数据进行命名实体识别,得到文本实体;

12、使用训练完成的大语言模型对文本实体的关系进行抽取,预测实体间的关系类型和关系指向,得到实体关系。

13、进一步地,所述关系连接单元配置有关系连接策略,所述关系连接策略包括获取文本实体和文本关系,对具有文本关系的文本实体创建预连接,从文本关系中获取预连接中的关系指向,将指出的文本实体设置为指出文本实体,将被指向的文本实体设置为被指向文本实体;

14、获取所有指出文本实体和被指向文本实体,得到指出文本实体集和被指向文本实体集;

15、将指出文本实体集和被指向文本实体集中的相同文本实体进行合并,对整合后的指出文本实体集和被指向文本实体集进行重连接,得到文本实体关系网络,所述文本实体关系网络包括指出文本实体的多个被指向文本实体和被指向文本实体的多个指出文本实体。

16、进一步地,所述图谱优化单元配置有关系优化策略,所述关系优化策略包括从文本关系中获取每个文本关系间的文本类型,将所述文本类型填入文本实体关系网,

17、对文本实体关系网进行优化处理,得到优化关系网。

18、进一步地,所述优化处理包括从文本实体关系网中获取连续产生连接的三个文本实体,将处于连接中间的文本实体删除后,使用大语言模型对剩下两个文本实体进行关系抽取;

19、当未抽取到实体关系时,保持原连接不变;

20、当抽取到实体关系时,将剩下两个文本实体进行连接并填入关系类型;

21、对文本实体关系网中所有文本都进行优化处理后得优化关系网。

22、进一步地,所述图谱优化单元还配置有关系验证策略,所述关系验证策略包括获取优化关系网和知识图谱中的现有实体,将优化关系网中的文本实体和实体关系填入知识图谱中,得到预知识图谱;

23、对预知识图谱的图谱完整性进行评估,将图谱完整性为从优化关系网中填入的文本实体与知识图谱中的现有实体的比值设置为图谱完整性百分比;

24、当图谱完整性百分比大于等于第一比例时,将所述预知识图谱设置为优化知识图谱;

25、当图谱完整性百分比小于第一比例时,对大语言模型进行实时迭代后重新获取文本实体和文本关系,直至图谱完整性百分比大于等于第一比例。

26、第二方面,一种基于大语言模型的知识图谱构建方法,所述方法包括:

27、步骤s1:从公开数据集中获取文本数据;

28、步骤s2:对获取到的文本数据进行实体识别和关系抽取,得到文本实体和实体关系;

29、步骤s3:对文本实体和实体关系进行连接,得到文本实体关系网络;

30、步骤s4:对文本实体关系网络进行结构优化,得到优化知识图谱。

31、本专利技术的有益效果:本专利技术首先通过从公开数据集中获取文本数据,文本数据用于训练大语言模型和提取文本实体,从公开数据集中获取文本数据可以保证训练集充足,提高了大语言模型的准确性;

32、本专利技术还通过训练大语言模型对文本数据进行实体识别和关系抽取,可以迅速从大量文本中提取结构化信息,准确获取文本中的文本实体,提升识别结果的相关性和准确性;

33、本专利技术还通过对知识图谱进行评估,可以对大语言模型的结果进行反馈,及时对大语言模型进行迭代,不断提高大语言模型的准确性。

34、本专利技术附加方面的优点将在下面的具体实施方式的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的知识图谱构建系统,其特征在于,包括数据采集模块、数据识别模块和图谱构建模块;

2.根据权利要求1所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述数据识别模块包括模型构建单元和识别抽取单元,所述模型构建单元配置有模型构建策略,所述模型构建策略包括从数据库中获取大量文本数据,设置为训练文本数据,对训练文本数据进行清洗,去除超文本标记语音、特殊字符、多余空格和无关信息,得到清洗训练文本数据;

3.根据权利要求2所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述识别抽取单元配置有识别抽取策略,所述识别抽取策略包括获取文本数据,对文本数据进行清洗后得到清洗训练文本数据,使用训练完成的大语言模型对清洗训练文本数据进行命名实体识别,得到文本实体;

4.根据权利要求3所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述关系连接单元配置有关系连接策略,所述关系连接策略包括获取文本实体和文本关系,对具有文本关系的文本实体创建预连接,从文本关系中获取预连接中的关系指向,将指出的文本实体设置为指出文本实体,将被指向的文本实体设置为被指向文本实体;

5.根据权利要求4所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述图谱优化单元配置有关系优化策略,所述关系优化策略包括从文本关系中获取每个文本关系间的文本类型,将所述文本类型填入文本实体关系网,

6.根据权利要求5所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述优化处理包括从文本实体关系网中获取连续产生连接的三个文本实体,将处于连接中间的文本实体删除后,使用大语言模型对剩下两个文本实体进行关系抽取;

7.根据权利要求6所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述图谱优化单元还配置有关系验证策略,所述关系验证策略包括获取优化关系网和知识图谱中的现有实体,将优化关系网中的文本实体和实体关系填入知识图谱中,得到预知识图谱;

8.适用于权利要求1-7任意一项的一种基于大语言模型的知识图谱构建方法,其特征在于,所述方法包括:

...

【技术特征摘要】

1.一种基于大语言模型的知识图谱构建系统,其特征在于,包括数据采集模块、数据识别模块和图谱构建模块;

2.根据权利要求1所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述数据识别模块包括模型构建单元和识别抽取单元,所述模型构建单元配置有模型构建策略,所述模型构建策略包括从数据库中获取大量文本数据,设置为训练文本数据,对训练文本数据进行清洗,去除超文本标记语音、特殊字符、多余空格和无关信息,得到清洗训练文本数据;

3.根据权利要求2所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述识别抽取单元配置有识别抽取策略,所述识别抽取策略包括获取文本数据,对文本数据进行清洗后得到清洗训练文本数据,使用训练完成的大语言模型对清洗训练文本数据进行命名实体识别,得到文本实体;

4.根据权利要求3所述的一种基于大语言模型的知识图谱构建系统,其特征在于,所述关系连接单元配置有关系连接策略,所述关系连接策略包括获取文本实体和文本关系,对具有文本关系的文本实体创建预连接,从文本...

【专利技术属性】
技术研发人员:廖林徐梦阳王欣王薇
申请(专利权)人:北京西普霍斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1