System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理,具体而言,涉及金矿宏观知识体系自动化构建技术方法。
技术介绍
1、随着全球矿产资源的不断开发和利用,金矿勘探和开发的复杂性和挑战性也在不断增加。传统的找矿方法主要依赖于地质勘探和经验积累,这些方法不仅效率低下,而且难以适应现代找矿工作的需求。近年来,信息技术和数据驱动的方法逐渐在找矿领域崭露头角,成为当前研究的热点。通过利用大数据、人工智能和知识图谱等技术,研究人员能够更加精准地进行矿产资源的勘探与开发。
2、金矿作为一种重要的矿产资源,其勘探和开发工作具有极高的经济价值和战略意义。然而,金矿资源的分布复杂,矿床类型多样,勘探难度大。知识图谱作为一种语义化的知识表示方式,能够将复杂的专业知识结构化、系统化地呈现出来,从而为公众提供一个全面、直观的知识平台。因此,如何对金矿领域的知识图谱进行构建成为了不容小觑的技术问题。
技术实现思路
1、有鉴于此,本申请的目的在于提供金矿宏观知识体系自动化构建技术方法,对于金矿领域的文本来说,目标模型可以更好地识别出关键实体和关系,从而提高了实体和关系抽取的精度,提高了构建出的金矿领域知识图谱的准确性。
2、第一方面,本申请实施例提供了一种金矿宏观知识体系自动化构建技术方法,所述方法包括:
3、获取金矿领域的文献数据集,并从所述文献数据集中提取出目标语料;
4、将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组;其中,所述初始三元组包
5、对所述初始三元组中的实体进行消融,得到目标三元组,并将所述目标三元组进行发布并转入图数据库,以形成金矿领域的知识图谱。
6、进一步的,所述从所述文献数据集中提取出目标语料,包括:
7、利用预设筛选条件对所述文献数据集进行筛选,确定出多个候选文献;
8、针对于每个候选文献,对该候选文献进行内容提取,得到该候选文献对应的文本内容,并对所述文本内容进行文本处理,以得到该候选文献对应的目标语料。
9、进一步的,通过下述步骤对所述目标模型中的预训练模型进行领域微调:
10、获取所述金矿领域文本数据,定义原始预训练模型的微调任务,并基于所述文本数据和所述微调任务对所述原始预训练模型进行微调,得到所述预训练模型;
11、或者,
12、利用所述金矿领域文本数据训练金矿领域的词嵌入模型,并将所述词嵌入模型与所述原始预训练模型进行拼接或加权平均,以得到所述预训练模型;
13、或者,
14、利用所述金矿领域文本数据构建自定义词汇表,并将所述自定义词汇表添加到所述原始预训练模型的分词器中,以得到所述预训练模型;
15、或者,
16、利用所述金矿领域文本数据对所述原始预训练模型进行继续预训练,以得到所述预训练模型。
17、进一步的,所述将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组,包括:
18、将所述目标语料输入到所述目标模型的预训练模型中,对多条目标语料进行编码,得到文本特征;
19、将所述文本特征分别输入到所述联合抽取模型的领域注意力层以及注意力权重层中,以调整每个文本特征的权重,得到加权后的文本特征;
20、将所述加权后的文本特征输入到所述目标模型的分区层中,生成实体分区的第一特征、关系分区的第二特征以及共享分区的第三特征;
21、将所述第一特征、所述第二特征和所述第三特征分别输入到所述目标模型的实体内存、关系内存以及共享内存中,得到实体特征、关系特征以及共享特征,并对所述实体特征、所述关系特征以及所述共享特征进行联合编码,得到目标特征;
22、将所述目标特征分别输入到所述目标模型的命名实体识别处理层和关系抽取处理层中,进行所述目标语料对应的初始三元组。
23、进一步的,通过下述步骤对所述初始三元组中的实体进行消融:
24、针对于所述初始三元组中的每个实体,从知识库中提取出与该实体相匹配的候选实体,并为每个候选实体提取对应的实体特征;
25、将每个候选实体以及每个候选实体对应的实体特征输入到分数预测模型中,得到每个实体特征对应的实体分数,并利用多个候选实体中实体分数最高的候选实体作为该实体的消融结果,以得到所述目标三元组。
26、第二方面,本申请实施例还提供了一种金矿宏观知识体系自动化构建装置,所述构建装置包括:
27、语料提取模块,用于获取金矿领域的文献数据集,并从所述文献数据集中提取出目标语料;
28、三元组抽取模块,用于将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组;其中,所述初始三元组包括金矿领域的实体、实体类型及关系,所述目标模型中的预训练模型是基于金矿领域文本数据进行领域微调的,所述目标模型中的联合抽取模型还包括领域注意力层和注意力权重层;
29、知识图谱生成模块,用于对所述初始三元组中的实体进行消融,得到目标三元组,并将所述目标三元组进行发布并转入图数据库,以形成金矿领域的知识图谱。
30、进一步的,所述语料提取模块在用于从所述文献数据集中提取出目标语料时,所述语料提取模块还用于:
31、利用预设筛选条件对所述文献数据集进行筛选,确定出多个候选文献;
32、针对于每个候选文献,对该候选文献进行内容提取,得到该候选文献对应的文本内容,并对所述文本内容进行文本处理,以得到该候选文献对应的目标语料。
33、进一步的,所述构建装置还包括模型微调模块,所述模型微调模块用于通过下述步骤对所述目标模型中的预训练模型进行领域微调:
34、获取所述金矿领域文本数据,定义原始预训练模型的微调任务,并基于所述文本数据和所述微调任务对所述原始预训练模型进行微调,得到所述预训练模型;
35、或者,
36、利用所述金矿领域文本数据训练金矿领域的词嵌入模型,并将所述词嵌入模型与所述原始预训练模型进行拼接或加权平均,以得到所述预训练模型;
37、或者,
38、利用所述金矿领域文本数据构建自定义词汇表,并将所述自定义词汇表添加到所述原始预训练模型的分词器中,以得到所述预训练模型;
39、或者,
40、利用所述金矿领域文本数据对所述原始预训练模型进行继续预训练,以得到所述预训练模型。
41、第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理本文档来自技高网...
【技术保护点】
1.一种金矿宏观知识体系自动化构建技术方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从所述文献数据集中提取出目标语料,包括:
3.根据权利要求1所述的方法,其特征在于,通过下述步骤对所述目标模型中的预训练模型进行领域微调:
4.根据权利要求1所述的方法,其特征在于,所述将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组,包括:
5.根据权利要求1所述的方法,其特征在于,通过下述步骤对所述初始三元组中的实体进行消融:
6.一种金矿宏观知识体系自动化构建装置,其特征在于,所述构建装置包括:
7.根据权利要求6所述的构建装置,其特征在于,所述语料提取模块在用于从所述文献数据集中提取出目标语料时,所述语料提取模块还用于:
8.根据权利要求6所述的构建装置,其特征在于,所述构建装置还包括模型微调模块,所述模型微调模块用于通过下述步骤对所述目标模型中的预训练模型进行领域微调:
9.一种电子设备,其特征在于,包括:处理器、
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的金矿宏观知识体系自动化构建技术方法的步骤。
...【技术特征摘要】
1.一种金矿宏观知识体系自动化构建技术方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从所述文献数据集中提取出目标语料,包括:
3.根据权利要求1所述的方法,其特征在于,通过下述步骤对所述目标模型中的预训练模型进行领域微调:
4.根据权利要求1所述的方法,其特征在于,所述将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组,包括:
5.根据权利要求1所述的方法,其特征在于,通过下述步骤对所述初始三元组中的实体进行消融:
6.一种金矿宏观知识体系自动化构建装置,其特征在于,所述构建装置包括:
7.根据权利要求6所述的构建装置,其特征在于,所述语料提取模块在用于从所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。