System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及超声波电源领域,具体涉及基于大语言模型的勘察设计规范知识图谱模式构建方法。
技术介绍
1、知识图谱是一种由互相连接的实体、概念和事件构成的数据结构,它通过语义关系来建立数据点之间的联系。知识图谱模式是知识图谱的上层知识,是对知识图谱内容的一种抽象的、语义化的且概念化的规范,也是知识图谱构建、存储和应用的基础。知识图谱模式的设计是构建知识图谱中至关重要的一环,直接影响着知识图谱的质量。
2、当前知识图谱在勘察设计行业中已经有了一些尝试与应用,在勘察设计知识关联、知识聚合、知识发现等方面也已展现了一些应用前景。但由于勘察设计行业知识体量大、知识分散、知识多源异构,因此如何在勘察设计领域简化知识图谱的构建方法,提升知识图谱在行业的应用效能,仍然是目前行业尚未解决的问题。
3、现有技术中,中国专利技术专利申请(公开号cn116701648a)公开了一种基于规范标准映射知识图谱及schema设计方法,方法包括:构建专业规范文档库;抽取所述专业规范文档库中的关键共性特征;根据所述关键共性特征构建对应的节点类、关系类和属性类;根据所述关键共性特征抽取节点实例信息;将所述节点类与节点实例信息建立映射关系以完成知识图谱构建。该专利技术提到了规范标准映射知识图谱及schema设计方法,来构建专业规范文档库;抽取所述专业规范文档库中的关键共性特征;根据所述关键共性特征构建对应的节点类、关系类和属性类;根据所述关键共性特征抽取节点实例信息;将所述节点类与节点实例信息建立映射关系以完成知识图谱构建。
4、
技术实现思路
1、本专利技术的目的在于解决构建勘察设计规范知识图谱模式困难,需要过多依赖人工且灵活性不高的问题,提出基于大语言模型的勘察设计规范知识图谱模式构建方法。
2、一方面,本专利技术提出基于大语言模型的勘察设计规范知识图谱模式构建方法,结合了自顶向下和自底向上的知识图谱模式设计方法,具体步骤顺序如下:
3、s1、收集勘察设计领域的设计规范文件,并对所述设计规范文件进行切片,得到所述文本切片;
4、s2、利用大语言模型对文本切片进行实体类型、实体类型的属性名列表、关系类型、关系类型的属性名列表的识别;
5、s3、通过关键词筛选与词频-逆向文件频率相结合的方法对所述实体类型进行过滤,在所述实体类型中筛选出与勘察设计专业相关的实体类型,
6、s4、利用所述大语言模型自动生成勘察设计规范知识图谱模式;
7、s5、校验所述勘察设计规范知识图谱模式,并对大语言模型进行微调。
8、优选的,所述步骤s1中勘察设计领域的文本切片是将文本分解为包含独立观点或信息片段的命题,并根据所述命题的语义相关性进行聚类和组织,具体步骤如下:
9、s11、使用所述大型语言模型理解所述勘察设计领域的设计规范文件,并进行分解得到所述包含独立观点或信息片段的命题;
10、s12、使用所述大型语言模型评估所述命题与所述勘察设计领域的设计规范文件中其他内容的关联程度;
11、s13、根据所述步骤s12中所得评估结果,将所述命题进行分类,放入不同的信息块中;
12、进一步优选的,所述步骤s13中的分类方式具体为,将所述命题添加到语义相关的信息块中,如果所述命题为全新的独立观点或信息片段则创建新的信息块。
13、优选的,所述步骤s2识别所述实体类型与关系类型具体包括:
14、s21、设计用于提取所述设计规范文档中的实体类型、关系类型、属性名信息的提示词;
15、s22、将所述提示词输入给所述大语言模型,判断是否出现重复的所述实体类型或关系类型,出现已识别的所述实体类型或关系类型则进行合并,出现未识别过的所述实体类型或关系类型则进行新增操作。
16、进一步优选的,所述步骤s22中的合并具体为,通过所述大语言模型将两个所述实体类型或所述关系类型的不同属性名列表进行合并
17、优选的,所述步骤s3对所述实体类型过滤及归一化具体包括:
18、s31、收集勘察设计专业的词汇并整理成词库;
19、s32、统计实体类型名称在所述词库中出现的频率,并计算每一个所述实体类型名称的词频-逆向文件频率值;
20、s33、根据所述实体类型名称的词频-逆向文件频率值进行排序,提取出排序前100的词频-逆向文件频率值对应的所述实体类型;
21、优选的,所述步骤s4具体为,将新收集得到的文本切片输入到所述大语言模型,重复所述步骤s2和s3的操作,利用所述大语言模型不断识别新的所述实体类型、所述实体类型的属性名列表、所述关系类型、所述关系类型的属性名,自动生成所述勘察设计规范知识图谱模式。
22、优选的,所述步骤s5具体包括:
23、s51、校验所述勘察设计规范知识图谱模式,具体采用人工校验的方式,通过所述人工校验保留准确的信息,完善不完整的信息,修改不完全准确的信息,删除不需要的信息;同时,在进行所述人工校验过程中对发现的问题及审核结果进行记录,用于跟踪大语言模型的改进历史;
24、s52、将已收集和整理的所述勘察设计领域的设计规范文档作为微调大语言模型的训练数据集,用已经完成校验的所述勘察设计规范知识图谱模式的数据对训练数据集进行标注,使用标注好的数据集对大语言模型进行微调。
25、与现有技术相比,本专利技术的有益效果:
26、本专利技术提供基于大语言模型的勘察设计规范知识图谱模式构建方法,针对勘察设计领域的文本特点进行文本切分,结合自顶向下和自底向上两种知识图谱模式的构建方法,使用大语言模型完成对所述勘察设计规范知识图谱模式的构建;本专利技术的有益效果是,本专利技术解决了现有文本切分技术不适合勘察设计领域,在处理文本时出现的缺乏灵活性和难以实现对复杂语义深入理解的问题,同时解决了现有技术需要过多依赖人工且灵活性不高的问题,有效简化了知识图谱模式的定义难度并提升了知识图谱构建效率。
本文档来自技高网...【技术保护点】
1.基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,具体步骤顺序如下:
2.根据权利要求1所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤S1中勘察设计领域的文本切片是将文本分解为包含独立观点或信息片段的命题,并根据所述命题的语义相关性进行聚类和组织,具体步骤如下:
3.根据权利要求2所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤S13中的分类方式具体为,将所述命题添加到语义相关的信息块中,如果所述命题为全新的独立观点或信息片段则创建新的信息块。
4.根据权利要求1所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤S2识别所述实体类型与关系类型具体包括:
5.根据权利要求4所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤S22中的合并具体为,通过所述大语言模型将两个所述实体类型的不同属性名列或两个所述关系类型的不同属性名列表进行合并。
6.根据权利要求1所述的基于大语言模型的勘察设计规范知识图谱模
7.根据权利要求1所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤S4具体为,将新收集得到的文本切片输入到所述大语言模型,重复所述步骤S2和S3的操作,利用所述大语言模型识别新的所述实体类型、所述实体类型的属性名列表、所述关系类型、所述关系类型的属性名,实现所述步骤S4,自动生成所述勘察设计规范知识图谱模式。
8.根据权利要求1所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤S5具体包括:
9.基于大语言模型的勘察设计规范知识图谱模式计算机装置,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8中任一项所述的基于大语言模型的勘察设计规范知识图谱模式构建方法。
...【技术特征摘要】
1.基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,具体步骤顺序如下:
2.根据权利要求1所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤s1中勘察设计领域的文本切片是将文本分解为包含独立观点或信息片段的命题,并根据所述命题的语义相关性进行聚类和组织,具体步骤如下:
3.根据权利要求2所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤s13中的分类方式具体为,将所述命题添加到语义相关的信息块中,如果所述命题为全新的独立观点或信息片段则创建新的信息块。
4.根据权利要求1所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤s2识别所述实体类型与关系类型具体包括:
5.根据权利要求4所述的基于大语言模型的勘察设计规范知识图谱模式构建方法,其特征在于,所述步骤s22中的合并具体为,通过所述大语言模型将两个所述实体类型的不同属性名列或两个所述关系类型的不同属性名列表进行合并。
6.根据权利...
【专利技术属性】
技术研发人员:邓军桥,章宇,唐朝国,曾永平,林龙,张居力,蒋俊杰,陈梓珺,罗永亮,田鸿雁,宋佳伟,张建,朱夏乐,王煦,陈洪春,罗禄森,
申请(专利权)人:中铁二院工程集团有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。