System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语料库生成方法、装置、设备及存储介质制造方法及图纸_技高网

语料库生成方法、装置、设备及存储介质制造方法及图纸

技术编号:43646025 阅读:6 留言:0更新日期:2024-12-13 12:42
本申请公开了一种语料库生成方法、装置、设备及存储介质,涉及知识图谱技术领域,包括:获取原始表数据,其中,原始表数据为结构化库表格式的数据;按照预设的图表征结构对原始表数据进行映射处理,得到映射后的原始表数据;对映射后的原始表数据进行格式转换,得到原始表数据对应的键值对数据;接收外部输入的第一指令,将第一指令以及键值对数据输入预设大模型,得到预设大模型输出的知识图谱,其中,预设大模型基于第一指令中的实际转换案例将键值对数据转换为图表征结构的知识图谱;基于多个原始表数据对应的知识图谱构建语料库。本申请实现了从结构化库表数据到知识图谱的自动转换。

【技术实现步骤摘要】

本申请涉及知识图谱,尤其涉及一种语料库生成方法、装置、设备及存储介质


技术介绍

1、近年来,知识图谱作为一种重要的知识构建和表示形式,在人工智能和数据科学领域扮演着关键的角色。

2、知识图谱能够以图形的形式组织实体及其之间的关系,使得机器能够理解和推理这些信息,进而支持各种高级应用,如智能搜索、推荐系统和个人助理等。然而,目前大部分原始数据仍以结构化库表为主要存储形式,这些数据通常是以二维表格的形式组织,每一行代表一个记录,每一列代表一种属性。但是,知识图谱采用的是图表征格式,即由节点和边组成的图形结构,因此结构化库表与知识图谱之间存在显著的数据格式差异,难以直接根据结构化库表构建知识图谱。

3、因此,如何实现结构化库表数据到知识图谱的有效转换,是目前亟需解决的一个问题。


技术实现思路

1、本申请的主要目的在于提供一种语料库生成方法、装置、设备及存储介质,旨在解决如何实现结构化库表数据到知识图谱的有效转换的技术问题。

2、为实现上述目的,本申请提出一种语料库生成方法,所述语料库生成方法包括:

3、获取原始表数据,其中,所述原始表数据为结构化库表格式的数据;

4、按照预设的图表征结构对所述原始表数据进行映射处理,得到映射后的原始表数据;

5、对映射后的原始表数据进行格式转换,得到所述原始表数据对应的键值对数据;

6、接收外部输入的第一指令,将所述第一指令以及所述键值对数据输入预设大模型,得到所述预设大模型输出的知识图谱,其中,所述预设大模型基于所述第一指令中的实际转换案例将所述键值对数据转换为图表征结构的知识图谱;

7、基于多个所述原始表数据对应的知识图谱构建语料库。

8、在一实施例中,图表征结构包括实体、属性以及各实体之间的关系,所述按照预设的图表征结构对所述原始表数据进行映射处理,得到映射后的原始表数据的步骤,包括:

9、确定所述原始表数据中与所述图表征结构匹配的实体、属性以及各实体之间的关系,按照匹配的实体、属性以及各实体之间的关系对所述原始表数据进行映射处理,得到映射后的原始表数据。

10、在一实施例中,所述确定所述原始表数据中与所述图表征结构匹配的实体、属性以及各实体之间的关系的步骤,包括:

11、确定不同类型的原始表数据对应的实体类型;

12、将各所述原始表数据中的每一行数据确定为图表征结构的一个实体;

13、确定各实体类型对应原始表数据的表头信息,根据所述表头信息确定各实体的属性名称,并从各原始表数据中提取各实体中各属性名称对应的属性值,将所述原始表数据中每一行数据对应的属性名称和属性值作为对应实体的属性;

14、分析不同类型的原始表数据之间的关系类型,并根据所述关系类型确定各实体之间的关系。

15、在一实施例中,所述第一指令至少包括执行指令的角色、所述角色的工作内容、所述工作内容对应的示例以及知识图谱每一部分的详细描述,其中,所述工作内容为将键值对数据转换成具备图表征结构的知识图谱,所述工作内容对应的示例为执行所述工作内容的实际转换案例。

16、在一实施例中,所述对映射后的原始表数据进行格式转换,得到所述原始表数据对应的键值对数据的步骤,包括:

17、遍历映射后的原始表数据中所有实体,获取每个所述实体对应的所有属性;

18、将各所述属性对应的属性名称作为键,各所述属性作为值,创建各所述实体对应的多个键值对;

19、根据各所述实体对应的多个键值对创建包含各所述实体中所有键值对的键值对数据。

20、在一实施例中,所述按照预设的图表征结构对所述原始表数据进行映射处理,得到映射后的原始表数据的步骤之后,还包括:

21、依据预设拼接规则,将映射后的原始表数据的每个实体与所述实体对应的属性拼接为第一字符串;

22、根据映射后的原始表数据中各实体之间的关系将各实体拼接为第二字符串;

23、根据所述第一字符串和所述第二字符串生成知识图谱。

24、在一实施例中,所述获取原始表数据的步骤之后,还包括:

25、获取微调数据集,其中,所述微调数据集包括多个历史知识图谱以及各所述历史知识图谱对应原始表数据的自然语言描述;

26、确定预训练模型,通过所述微调数据集对所述预训练模型进行微调,得到微调后的生成模型,其中,所述生成模型用于解析外部输入的第二指令,生成所述原始表数据对应自然语言描述的知识图谱;

27、接收外部输入的第二指令,将所述第二指令输入所述生成模型,得到所述生成模型输出的知识图谱,其中,所述第二指令包含所述原始表数据对应的自然语言描述。

28、此外,为实现上述目的,本申请还提出一种语料库生成装置,所述语料库生成装置包括:获取模块,用于获取原始表数据,其中,所述原始表数据为结构化库表格式的数据;

29、映射模块,用于按照预设的图表征结构对所述原始表数据进行映射处理,得到映射后的原始表数据;

30、转换模块,用于对映射后的原始表数据进行格式转换,得到所述原始表数据对应的键值对数据;

31、执行模块,用于接收外部输入的第一指令,将所述第一指令以及所述键值对数据输入预设大模型,得到所述预设大模型输出的知识图谱,其中,所述预设大模型基于所述第一指令中的实际转换案例将所述键值对数据转换为图表征结构的知识图谱;

32、生成模块,用于基于多个所述原始表数据对应的知识图谱构建语料库。

33、此外,为实现上述目的,本申请还提出一种语料库生成设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的语料库生成方法的步骤。

34、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的语料库生成方法的步骤。

35、此外,为实现上述目的,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上文所述的语料库生成方法的步骤。

36、本申请通过获取原始表数据,其中,原始表数据为结构化库表格式的数据;按照预设的图表征结构对原始表数据进行映射处理,得到映射后的原始表数据;对映射后的原始表数据进行格式转换,得到原始表数据对应的键值对数据;接收外部输入的第一指令,将第一指令以及键值对数据输入预设大模型,得到预设大模型输出的知识图谱,其中,预设大模型基于第一指令中的实际转换案例将键值对数据转换为图表征结构的知识图谱;基于多个原始表数据对应的知识图谱构建语料库,能够将结构化库表转换为标准化的键值对格式,然后通过外部输入的指令定制知识图谱的构建规则,从而通过大模型生成需求的知识图谱,实现了从结构化库表数本文档来自技高网...

【技术保护点】

1.一种语料库生成方法,其特征在于,所述语料库生成方法包括:

2.如权利要求1所述的语料库生成方法,其特征在于,图表征结构包括实体、属性以及各实体之间的关系,所述按照预设的图表征结构对所述原始表数据进行映射处理,得到映射后的原始表数据的步骤,包括:

3.如权利要求2所述的语料库生成方法,其特征在于,所述确定所述原始表数据中与所述图表征结构匹配的实体、属性以及各实体之间的关系的步骤,包括:

4.如权利要求1所述的语料库生成方法,其特征在于,所述第一指令至少包括执行指令的角色、所述角色的工作内容、所述工作内容对应的示例以及知识图谱每一部分的详细描述,其中,所述工作内容为将键值对数据转换成具备图表征结构的知识图谱,所述工作内容对应的示例为执行所述工作内容的实际转换案例。

5.如权利要求1所述的语料库生成方法,其特征在于,所述对映射后的原始表数据进行格式转换,得到所述原始表数据对应的键值对数据的步骤,包括:

6.如权利要求1所述的语料库生成方法,其特征在于,所述按照预设的图表征结构对所述原始表数据进行映射处理,得到映射后的原始表数据的步骤之后,还包括:

7.如权利要求1所述的语料库生成方法,其特征在于,所述获取原始表数据的步骤之后,还包括:

8.一种语料库生成装置,其特征在于,所述语料库生成装置包括:

9.一种语料库生成设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至7中任一项所述的语料库生成方法的步骤。

10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语料库生成方法的步骤。

...

【技术特征摘要】

1.一种语料库生成方法,其特征在于,所述语料库生成方法包括:

2.如权利要求1所述的语料库生成方法,其特征在于,图表征结构包括实体、属性以及各实体之间的关系,所述按照预设的图表征结构对所述原始表数据进行映射处理,得到映射后的原始表数据的步骤,包括:

3.如权利要求2所述的语料库生成方法,其特征在于,所述确定所述原始表数据中与所述图表征结构匹配的实体、属性以及各实体之间的关系的步骤,包括:

4.如权利要求1所述的语料库生成方法,其特征在于,所述第一指令至少包括执行指令的角色、所述角色的工作内容、所述工作内容对应的示例以及知识图谱每一部分的详细描述,其中,所述工作内容为将键值对数据转换成具备图表征结构的知识图谱,所述工作内容对应的示例为执行所述工作内容的实际转换案例。

5.如权利要求1所述的语料库生成方法,其特征在于,所述对映射后的原始表数据进行...

【专利技术属性】
技术研发人员:陆志鹏韩光符兴斌郑曦国丽周崇毅杨伟伟郭红刚唐超王欢张婧莹
申请(专利权)人:中电数据产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1