System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识图谱,具体涉及一种基于子图结构信息增强的大语言模型知识图谱补全方法。
技术介绍
1、知识图谱(knowledge graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通常情况下,知识图谱的构建是采集多个来源的知识,可以是一些表格、文本、数据库等。根据数据的类型可以分为结构化数据、非结构化数据和半结构化数据。采集到数据后,对要对数据进行知识融合,也就是把代表相同概念的实体合并,将多个来源的数据集合并成一个数据集并建立相互之间的关系。这样就得到了最终的数据,在此基础上就可以建立相应的知识图谱。但是,在实际操作过程中,由于数据采集方案的不同和数据来源的问题,往往会造成知识图谱不全的问题,该问题通常需要在后级引入补全流程进行处理。
2、现有技术中,比如,中国专利cn202311042067.7公开了一种不完备态势信息推理补完及其模型训练方法,属于态势信息处理
本专利技术方法首先将区域目标和目标间的行为意图转化为知识图谱中的实体和关系,目标的双方属性、类型和位置信息作为实体的属性,目标间的意图类型作为关系的属性,然后构建归纳推理框架,聚合相邻目标节点的特征,并结合实体的双方属性、类型和位置信息,生成目标节点的嵌入表示,对候选三元组“头实体-关系-尾实体”进行评分计算,最后输出各目标间的意图识别结果,完成不完备态势信息的推理补完,从而实现更加准确的意图识别
3、但是,在实际实施过程中,专利技术人发现,该类技术方案在处理过程中,主要是依赖已有的知识数据进行推理、补全,在应对相对复杂的知识图谱时存在一定的局限性。大语言模型(large language model,llm),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。其通过大量语料进行训练,理论上可对知识图谱的数据来源较少的问题进行弥补。但由于大语言模型本身通常仅接受文本类型的输入,对知识图谱中的图关系,包括节点、边等关注不够,导致了推理效果不佳的问题,且随着知识图谱的复杂化,这一问题也愈发严重。
技术实现思路
1、针对现有技术中存在的上述问题,现提供一种基于子图结构信息增强的大语言模型知识图谱补全方法。
2、具体技术方案如下:
3、一种基于子图结构信息增强的大语言模型知识图谱补全方法,包括:
4、步骤s1:针对已有知识图谱抽取子图结构信息;
5、步骤s2:依照所述子图结构信息确定补全任务类型,并依照所述子图结构信息和所述补全任务类型构建提示文本序列;
6、步骤s3:将所述提示文本序列输入知识图谱补全大模型,所述知识图谱补全大模型的输出结果对应于所述已有知识图谱的缺失信息。
7、另一方面,所述步骤s1包括:
8、步骤s11:针对所述已有知识图谱确定存在所述缺失信息的待补全三元组;
9、步骤s12:针对待补全三元组抽取与所述待补充三元组中的第一节点存在关联的关联节点信息;
10、所述关联节点信息包括与所述第一节点存在连接的第二节点和所述第一节点与所述第二节点之间的联系关系;
11、步骤s13:依照所述关联节点信息和所述待补全三元组生成所述子图结构信息。
12、另一方面,所述步骤s12包括:
13、步骤s121:于所述已有知识图谱中,依次选取一个待判别三元组;
14、所述待判别三元组与所有的所述待补全三元组不同;
15、步骤s122:判断所述三元组中是否存在所述第一节点;
16、若是,转向步骤s123;
17、若否,转向步骤s124;
18、步骤s123:针对所述三元组提取所述关联节点信息,随后转向步骤s124;
19、步骤s124:返回所述步骤s121,直至遍历了所有的所述待判别三元组后转向所述步骤s13。
20、另一方面,所述步骤s2包括:
21、步骤s21:对所述待补充三元组进行解析,以确定所述待补充三元组中是否存在缺失实体内容;
22、若是,转向步骤s25;
23、若否,转向步骤s22;
24、步骤s22:判断所述缺失实体内容是否为关系;
25、若是,转向步骤s23;
26、若否,转向步骤s24;
27、步骤s23:针对所述待补充三元组采用第一提示模板组装得到所述提示文本序列,随后转向所述步骤s3;
28、步骤s24:针对所述待补充三元组采用第二提示模板组装得到所述提示文本序列,随后转向所述步骤s3;
29、步骤s25:对所述待补充三元组中的多个元素的元素类型进行判断,以提取所述元素类型错误的错误元素,依照所述错误元素采用第三提示模板组装得到所述提示文本序列,随后转向所述步骤s3。
30、另一方面,于执行所述步骤s3之前,还包括模型微调过程,所述模型微调过程包括:
31、步骤a31:对所述知识图谱补全大模型抽取待调整参数,以及,对所述提示文本序列添加标注信息;
32、步骤a32:将所述提示文本序列输入所述知识图谱补全大模型并获取调试输出数据;
33、步骤a33:依照所述调试输出数据和所述标注信息调整所述待调整参数;
34、步骤a34:返回所述步骤a32直至满足迭代条件后输出所述知识图谱补全大模型。
35、一种基于子图结构信息增强的大语言模型知识图谱补全系统,用于实施上述的大语言模型知识图谱补全方法,包括:
36、抽取模块,所述抽取模块针对已有知识图谱抽取子图结构信息;
37、提示模块,所述提示模块连接所述抽取模块,所述提示模块依照所述子图结构信息确定补全任务类型,并依照所述子图结构信息和所述补全任务类型构建提示文本序列;
38、输入模块,所述输入模块连接所述提示模块,所述输入模块将所述提示文本序列输入知识图谱补全大模型,所述知识图谱补全大模型的输出结果对应于所述已有知识图谱的缺失信息。
39、另一方面,所述抽取模块包括:
40、三元组查找模块,所述三元组查找模块针对所述已有知识图谱确定存在所述缺失信息的待补全三元组;
41、关联提取模块,所述关联提取模块连接所述三元组查找模块,所述关联提取模块针对待补全三元组抽取与所述待补充三元组中的第一节点存在关联的关联节点信息;
42、所述关联节点信息包括与所述第一节点存在连接的第二节点和所述第一节点与所述第二节点之间的联系关系;
43、信息组装模块,所述信息组装模块连接所述关联提取模块,所述信息组装模块依照所述关联节点信息和所述待补全三元组生成所述本文档来自技高网...
【技术保护点】
1.一种基于子图结构信息增强的大语言模型知识图谱补全方法,其特征在于,包括:
2.根据权利要求1所述的大语言模型知识图谱补全方法,其特征在于,所述步骤S1包括:
3.根据权利要求2所述的大语言模型知识图谱补全方法,其特征在于,所述步骤S12包括:
4.根据权利要求2所述的大语言模型知识图谱补全方法,其特征在于,所述步骤S2包括:
5.根据权利要求1所述的大语言模型知识图谱补全方法,其特征在于,于执行所述步骤S3之前,还包括模型微调过程,所述模型微调过程包括:
6.一种基于子图结构信息增强的大语言模型知识图谱补全系统,其特征在于,用于实施如权利要求1-5任意一项所述的大语言模型知识图谱补全方法,包括:
7.根据权利要求6所述的大语言模型知识图谱补全系统,其特征在于,所述抽取模块包括:
8.根据权利要求7所述的大语言模型知识图谱补全系统,其特征在于,关联提取模块包括:
9.根据权利要求7所述的大语言模型知识图谱补全系统,其特征在于,所述提示模块包括:
10.根据权利要求6所述的
...【技术特征摘要】
1.一种基于子图结构信息增强的大语言模型知识图谱补全方法,其特征在于,包括:
2.根据权利要求1所述的大语言模型知识图谱补全方法,其特征在于,所述步骤s1包括:
3.根据权利要求2所述的大语言模型知识图谱补全方法,其特征在于,所述步骤s12包括:
4.根据权利要求2所述的大语言模型知识图谱补全方法,其特征在于,所述步骤s2包括:
5.根据权利要求1所述的大语言模型知识图谱补全方法,其特征在于,于执行所述步骤s3之前,还包括模型微调过程,所述模型微调过程包括:
6.一种基于子...
【专利技术属性】
技术研发人员:代艳格,薛浩,袁丹,李琦,秦琪,
申请(专利权)人:上海威派格智慧水务股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。