System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及隧道工程,具体涉及一种地质文本结构化方法、装置、电子设备及存储介质。
技术介绍
1、隧道工程一直以来都是现代城市建设和交通基础设施中的重要组成部分,然而,隧道工程的成功与否在很大程度上依赖于对地下地质情况的准确了解和合理评估。因此,地质调查在隧道工程中扮演着至关重要的角色,其基本依据是地质勘察资料。这些地质资料可以帮助工程师们在设计和建造过程中做出正确的决策,保证隧道施工的安全。隧道工程地质概况是对隧道地质勘查情况的文字描述,蕴藏了丰富的地质信息,通常以非结构化的形式保存。对于非结构化地质数据而言,其不规则性和模糊性使得传统的程序难以理解,当中的数据很少能用预先定义的模式进行组织,因此需要对非结构化的进行深度挖掘与知识提取。相较于非结构化数据来说,结构化数据具有预先定义好的数据模型或组织方式,因此易于存储、检索与利用。地质信息提取是实现地质文本结构化的重要步骤,地质实体(包括岩石、地质构造、地层等)是地质信息表达中的关键和核心要素。准确识别文本中的地质实体以有效抽取地质信息、获取地质知识,是地质大数据构建的基础性和关键性工作。因此,获取地质文本中的地质实体对于地质文本数据结构化具有重要意义。地质命名实体识别是从地质文本中提取地质信息以支持数据分析和地质解释的关键任务。当前地质领域的ner方法大部分都集中在数据本身。由于地质是一个专业性很强的领域,地质文本中包含的实体数量与种类多,语义精炼简洁,并且地质领域的强专业性导致地质领域与通用领域相比能够使用的数据集相对较少。这些特点会导致模型在学习时不能很好地运用文本中的知
2、现有技术中,在进行地址文本结构化的过程中存在以下问题:
3、(1)地质未登录词语导致模型识别精度低的问题:目前,地质领域的深度学习模型主要仰赖于训练数据中已有的词汇,然而在面对未曾在训练数据中出现过的词汇(即未登录词)以及特定领域的专业名词(例如地质领域术语)时,模型常常面临着识别困难的挑战。当模型遭遇未曾在训练数据中出现过的新词汇(未登录词)时,可能导致识别精度降低。举例而言,地质领域出现了一种新发现的矿石,其名称在训练数据中从未被记录。由于模型未经过专门训练以识别这一新词汇,它可能无法准确理解和分类该术语,致使在实际应用中对这一新矿石的识别精度较低。常用于分词的隐马尔可夫(hmm)模型方面,该模型通常依赖于观测序列和隐藏状态之间的概率转移矩阵。由于未登录词汇未在训练数据中出现,hmm模型可能难以建立准确的概率转移模型,导致对这些未登录词的分词效果不佳。因为hmm模型的参数是从已知的训练数据中学得的,对未曾学习到的词汇,其概率估计会受到限制。深度学习模型同样存在这一问题。例如,长短时记忆网络(lstm)模型在训练过程中学到了输入序列的长期依赖关系。然而,如果未登录词汇在训练数据中未能充分得到表征,lstm可能无法准确捕捉这些词汇的语境和语义信息。由于lstm模型通常在大规模数据上进行预训练,缺乏对地质领域的特定训练数据可能导致其在未登录词上的泛化性能不佳。这使得这些模型在处理地质领域的文本时,特别是在面对未登录词汇时,存在着准确性和鲁棒性方面的不足之处;
4、(2)预训练模型缺乏地质领域知识的问题:命名实体识别在文本处理中扮演着至关重要的角色,在上述研究现状中得出在地质命名实体识别领域预训练模型相较于其他模型可以取得更好的效果。目前广泛采用的预训练模型主要基于开放领域的通用文本进行训练。然而,由于地质领域与通用领域之间的知识联系相对较少,地质领域的知识和专业术语更为丰富且复杂。与通用领域相比,地质领域的文本数据更加专业化。这一差异导致预训练模型在地质领域的任务中无法充分发挥其性能,因为这些模型在开放领域文本中学到的通用知识难以迁移到地质领域。具体而言,地质领域的专业文本需要更深层次的领域专业知识,而通用领域的模型学到的通用性信息难以涵盖这些特定领域的要求。因此,预训练模型在处理地质领域的专业文本时缺乏足够的背景知识,从而在地质领域任务中表现出性能下降的问题。另一个挑战是地质领域实体的复杂性。地质资料中包含许多特定的地质实体,如岩石类型、矿物名称、地层信息等,当前模型难以充分理解和捕捉地质领域实体的语境和语义信息,导致了模型在实体类别识别上精确度低的问题;
5、(3)隧道地质文本信息提取依赖传统人工方法及领域知识的问题:目前对于隧道地质文本的地质信息提取通常依赖传统的人工方法,由于地质领域的专业性,执行实体提取必须具备相应的领域知识。然而,这种传统方法存在类型识别错误和效率低的问题。在传统方法中,人工实体提取通常需要地质专业人员阅读大量的文本,从中辨识出地质实体,包括地层、岩性、矿物等。这种手工阅读方法容易受到人为主观判断和疲劳程度的影响,导致实体识别时的类型错误,尤其是在长时间的处理过程中,专业人员可能出现疏漏和疲劳,从而影响实体提取的准确性。此外,由于隧道工程涉及大量的地质文本数据,传统的人工方法也面临处理效率低下的问题。专业人员需要耗费大量时间和精力进行手动实体提取,限制了数据处理的速度和规模。在文本自动化提取中也面临一些挑战。首先,地质文本涉及到大量的专业术语和复杂结构,模型需要具备对地质领域的深刻理解,以正确识别和分类各种地质实体。其次,地质信息可能包含时空特性和实体之间的复杂关系,需要深度学习模型具备更强的语义理解和推理能力。因此,未来的研究需要重点关注如何在自动化地质信息提取中克服这些挑战,提高模型对地质文本的全面理解和应用能力。
6、预训练模型通过在大规模数据上学习通用语言表示,为多领域自然语言处理任务提供了坚实的基础,并在各个领域和任务中取得了显著的成功。然而,由于预训练模型与微调任务之间存在领域差异,这导致这些模型在知识驱动领域任务中的性能相对较差。特别是在地质领域,预训练模型在解读地质领域文本方面与普通人类一样,只能依赖上下文理解文本的含义,无法像地质领域专家一样借助其丰富的地质知识进行深度推理。此外,地质领域与通用领域之间的知识联系相对有限,这使得预训练模型在地质领域任务中无法充分发挥其性能。
技术实现思路
1、本专利技术的目的在于克服上述技术不足,提供一种地质文本结构化方法、装置、电子设备及存储介质,解决现有技术中地质文本结构化准确率较低的技术问题。
2、为达到上述技术目的,本专利技术采取了以下技术方案:
3、第一方面,本专利技术提供了一种地质文本结构化方法,包括如下步骤:
4、采用依存句法对预先建立的地质实体信息数据集进行分析,以构建隧道工程地质知识三元组库;
5、获取待处理地质文本,将所述待处理地质文本输入至预先训练完备的深度学习模型中,并基于所述隧道工程地质知识三元组库对所述待处理地质文本进行识别,以得到地质文本结构化结果,其中,所述深度学习模型包括依次连接的知识检索层、嵌入层、transformer层、本文档来自技高网...
【技术保护点】
1.一种地质文本结构化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的地质文本结构化方法,其特征在于,所述采用依存句法对预先建立的地质实体信息数据集进行分析,以构建隧道工程地质知识三元组库,包括:
3.根据权利要求1所述的地质文本结构化方法,其特征在于,所述知识检索层用于在所述隧道工程地质知识三元组库中查找与所述待处理地质文本对应的三元组,并将所述三元组嵌入到所述待处理地质文本中,以形成句子树。
4.根据权利要求3所述的地质文本结构化方法,其特征在于,所述嵌入层用于将所述句子树的各个字符映射为固定维度的向量。
5.根据权利要求4所述的地质文本结构化方法,其特征在于,所述Transformer层用于对所述向量进行编码后,生成可见矩阵。
6.根据权利要求5所述的地质文本结构化方法,其特征在于,所述BiLSTM层用于基于所述可见矩阵,捕捉长距离实体特征,学习序列标签之间的相互关系,获取全局最优序列。
7.根据权利要求6所述的地质文本结构化方法,其特征在于,所述Softmax层用于基于所述全局最优序列,输出
8.一种地质文本结构化装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:处理器和存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的地质文本结构化方法中的步骤。
...【技术特征摘要】
1.一种地质文本结构化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的地质文本结构化方法,其特征在于,所述采用依存句法对预先建立的地质实体信息数据集进行分析,以构建隧道工程地质知识三元组库,包括:
3.根据权利要求1所述的地质文本结构化方法,其特征在于,所述知识检索层用于在所述隧道工程地质知识三元组库中查找与所述待处理地质文本对应的三元组,并将所述三元组嵌入到所述待处理地质文本中,以形成句子树。
4.根据权利要求3所述的地质文本结构化方法,其特征在于,所述嵌入层用于将所述句子树的各个字符映射为固定维度的向量。
5.根据权利要求4所述的地质文本结构化方法,其特征在于,所述transformer层用于对所述向量进行编码...
【专利技术属性】
技术研发人员:刘修国,花卫华,闻建聪,倪鑫,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。