System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器学习,尤其是一种基于大模型的地质找矿文献知识提取方法及系统。
技术介绍
1、随着科技进步和业务发展,新产生的文献会不断有新的概念和名词出现,传统人工阅读文献提取信息会因为知识储备等问题造成无法理解文献,而且由于探矿找矿领域的知识量较大且因切入角度不同所需要的专业知识也不同,不同文献需要不同细分领域的专家辅助才能实现,因此现有矿产文献提取工作是通过人力完成,同时,由于矿产相关文献量大,篇幅也相对来说较长,人工提取需要完整阅读文献并识别提取,整个过程非常耗时,效率低下。
2、另一方面,在阅读和识别过程中,通常引入三元组数据,三元组数据是一种基本的数据结构,由三个要素组成:主体(实体)、谓词(关系)和客体(实体)。这种结构用于描述事物之间的关系,通常表示为(主体,谓词,客体),主体和客体是实体,可以是具体的事物或抽象的概念,谓词表示主体和客体之间的关系。在阅读现有文献并识别三元组的过程中,部分专业内容是普通技术工种无法理解的,这就容易造成一些三元组提取困难或不知该如何提取的情况出现,需要依赖专业人员或专家辅助阅读,如果无法获得专业人员或专家的支撑,该文献信息便无法提取。采用人工进行文献阅读和三元组信息识别提取受限于人的精力和疲劳程度,在阅读和识别过程中相比于机器更容易出现失误。
3、矿产研究和探矿研究在发展过程中经历了多个阶段,未来也继续前行,在这个过程中,研究人员所撰写的文献的语言结构和行文逻辑都有很大差别,阅读和提取人员只能识别其中一部分语言结构和行文逻辑,对于古早稀有的文献和未来暂未产生
4、人工阅读在面对多语言文献环境和复杂语言文献环境时效率非常低,甚至无法完成阅读和提取工作。
技术实现思路
1、为了解决上述问题,本专利技术的目的是提供一种基于大模型的地质找矿文献知识提取方法及系统,通过大模型的快速阅读和精准识别优势替代人工,实现矿产文献三元组提取。
2、本专利技术提供了一种基于大模型的地质找矿文献知识提取方法,所述方法包括:
3、建立三元组学习模型,训练所述三元组学习模型以识别地质找矿文献中的三元组数据以及三元组数据在地质找矿文献中存在的形式;
4、以所述三元组学习模型作为引擎从各类文献入口收集地质找矿文献,将收集后的地质找矿文献存入预先设置的数据库,并基于所述地质找矿文献进行分类标注工作;
5、利用所述三元组学习模型从所述数据库中存储的地质找矿文献中抽取出三元组数据,并基于抽取的所述三元组数据形成叶状知识点存入知识库;
6、通过业务逻辑组织所述叶状知识点形成树形或星形知识结构;
7、基于所述知识结构绘制知识图谱。
8、可选地,所述基于所述地质找矿文献进行分类标注工作包括:
9、对地质实体的命名名称进行标注;
10、对地质实体的属性信息进行标注;
11、对地质实体之间的相互关系、地质实体与属性信息之间的语义关系进行标注;
12、对所述地质找矿文献的文章观点、数值与方法进行标注。
13、可选地,所述属性信息包括矿床、属性特征、控矿因素、找矿标志;
14、所述矿床包括以下中的一项或多项:环境/成矿环境/地质环境/构造域,地质现象,方法/地质方法/地质技术/地质原理/步骤;
15、所述属性特征包括以下中的一项或多项:形成年代/时间/成矿年代、成岩年龄、结晶年龄,品位/元素品位,矿体形态,矿脉/矿体,矿段/矿带,矿区/矿田/矿集区,地区/地点,岩石类型,矿床类型,资源量/产量;
16、所述找矿标准包括以下中的一项或多项:地球物理异常/元素异常,地球化学异常/元素异常,遥感解释异常/元素异常;
17、所述控矿因素包括以下中的一项或多项:地质体/岩体/三大岩体/围岩类型,地层,地质事件/地质过程,蚀变类型,矿化阶段/矿化类型,成矿作用/矿化作用,构造。
18、可选地,利用所述三元组学习模型抽取数据时包括:利用promt提示词工程构建结构化promt;所述结构化promt包括:角色、目标、{上下文,限制}、{技能,工具}、{输入规则,输出规则}、输出例子。
19、本专利技术还提供了一种基于大模型的地质找矿文献知识提取系统,所述系统包括一个或多个处理器以及存储有程序指令对非暂时性计算机可读存储介质,当所述一个或多个处理器执行所述程序指令时,所述一个或多个处理器用于实现上述任一项所述的基于大模型的地质找矿文献知识提取方法。
20、可选地,所述系统包括:矿产文献采集模块、文献信息提取研发模块、信息知识精加工模块以及文献知识产品生产模块;
21、所述矿产文献采集模块用于通过多种渠道采集矿产文献;
22、所述文献信息提取研发模块用于生成文献信息提取工具,以基于采集到的矿产文献进行信息提取;
23、所述信息知识精加工模块,用于生成找矿预测图谱;
24、所述文献知识产品生产模块用于提供找矿专题服务应用。
25、可选地,所述矿产文献采集模块商业采集、自主建设、开放获取和/或共享交换采集矿产文献。
26、本专利技术还提供了一种计算设备,所述计算设备包括上述任一项所述的基于大模型的地质找矿文献知识提取系统。
27、本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述任一项所述的基于大模型的地质找矿文献知识提取方法。
28、根据本专利技术,由于通过大模型进行知识提取方法,并非仅依赖于对结构化数据、半结构化数据、非结构化数据中的实体、关系和属性进行整合,而是除了识别三元组数据之外,还对三元组存在的形式进行识别,这些形式包括文本形式、超文本形式、跨文本形式、图片形式、数据形式、跨数据形式等,另一方面,根据本专利技术,不但对实体关系属性进行标注,还对文章观点、数值与方法进行标注,这样能够确保知识图谱的生成效率和准确率。
29、在本专利技术中,建立实体消歧机制,该机制将首先学习大量模板文献建立一系列实体对象聚类集合,再根据目标文献基于上下文形成指向对象的语义字典,将该字典聚合到建立好的对象聚类下,构建三元组时将先匹配实体对象聚类再匹配语义字典的二次追踪策略来实现实体消歧。
30、本专利技术的基于大模型的地质找矿文献知识提取系统通过大模型经过学习积累了较多的专业知识,能够准确识别专业内容中需要提取的信息,降低了对外界辅助的依赖。通过采用机器阅读和机器抽取取代人工,消除阅读和抽取过程中因疲劳导致的错误率。进一步地,通过机器学习更新升级大模型,使大模型始终能够理解每一篇文献的语言结构和行文逻辑,准确提取所需信息。为此,本专利技术建立模型迭代机制,机制包含全域新阅读、提示词工程、新结构识别及新提示词工程迭代等步骤。通过全域新阅读获取新文献中语言结构和提示词工程,与已有模型进行相似度匹配,低于设定的阈值时本文档来自技高网...
【技术保护点】
1.一种基于大模型的地质找矿文献知识提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述地质找矿文献进行分类标注工作包括:
3.根据权利要求2所述的方法,其特征在于,所述属性信息包括矿床、属性特征、控矿因素、找矿标志;
4.根据权利要求1所述的方法,其特征在于,利用所述三元组学习模型具有实体消歧机制;
5.根据权利要求1所述的方法,其特征在于,利用所述三元组学习模型具有模型迭代机制;
6.一种基于大模型的地质找矿文献知识提取系统,其特征在于,所述系统包括一个或多个处理器以及存储有程序指令对非暂时性计算机可读存储介质,当所述一个或多个处理器执行所述程序指令时,所述一个或多个处理器用于实现权利要求1-5中任一项所述的基于大模型的地质找矿文献知识提取方法。
7.根据权利要求6所述的系统,其特征在于,所述系统包括:矿产文献采集模块、文献信息提取研发模块、信息知识精加工模块以及文献知识产品生产模块;
8.根据权利要求7所述的系统,其特征在于,所述矿产文献采集模块商业采
9.一种计算设备,其特征在于,所述计算设备包括权利要求6-8任一项所述的基于大模型的地质找矿文献知识提取系统。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5中任一项所述的基于大模型的地质找矿文献知识提取方法。
...【技术特征摘要】
1.一种基于大模型的地质找矿文献知识提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述地质找矿文献进行分类标注工作包括:
3.根据权利要求2所述的方法,其特征在于,所述属性信息包括矿床、属性特征、控矿因素、找矿标志;
4.根据权利要求1所述的方法,其特征在于,利用所述三元组学习模型具有实体消歧机制;
5.根据权利要求1所述的方法,其特征在于,利用所述三元组学习模型具有模型迭代机制;
6.一种基于大模型的地质找矿文献知识提取系统,其特征在于,所述系统包括一个或多个处理器以及存储有程序指令对非暂时性计算机可读存储介质,当所述一个或多个处理器执行所述程序指令时,所述一个或多...
【专利技术属性】
技术研发人员:张静,王春宁,周峰,宋韦剑,陈晶,刘国,
申请(专利权)人:中国地质图书馆中国地质调查局地学文献中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。