System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向混凝土预制构件质量标准领域的关系抽取方法技术_技高网

一种面向混凝土预制构件质量标准领域的关系抽取方法技术

技术编号:43462587 阅读:4 留言:0更新日期:2024-11-27 13:00
本发明专利技术属于计算机技术领域,尤其是一种面向混凝土预制构件质量标准领域的关系抽取方法,现提出以下方案,具体包括引入ALBERT预训练模型,ALBERT模型通过其轻量级的设计,即因子化词嵌入和跨层参数共享,不仅减少了模型的资源消耗,还保持了高效的性能。此外,方法进一步融合了基于双向门控循环单元的架构和自注意力机制。本发明专利技术模型的整体架构专为提高混凝土预制构件质量标准领域内关系抽取的精度与处理效率而设计,同时,在提高处理精确度和效率的同时,也致力于减少计算资源的消耗,为处理混凝土预制构件质量标准专业领域内的复杂文本分析提供一个更为高效且资源节约的解决方案。

【技术实现步骤摘要】

本专利技术涉及计算机,具体涉及一种专门针对混凝土预制构件质量标准领域的新的关系识别方法。


技术介绍

1、建筑业作为国民经济的支柱产业,是现代化产业的重要组成部分。以科技创新引领现代化产业体系建设,以智能建造为抓手,大力推动建筑业数字化转型、高质量发展。混凝土预制构件作为装配式混凝土建筑的基础材料,混凝土预制构件的质量管控对建筑的整体质量十分关键。因此,混凝土预制构件领域的科技创新研究意义重大。

2、随着行业发展,建筑业信息化取得了显著成就,由原来的岗位级、部门级逐渐向企业级、社会级发展。其中,项目智能化逐渐成为质量管控和成本管控的主要手段。然而,在装配式建筑领域,智能化的应用大多仅限于混凝土结构的三维结构设计阶段,混凝土预制构件质量管控领域缺乏智能化手段。全国公用领域混凝土预制构件国家级标准发行数量逐年上升,标准内容多且繁杂,并且根据具体生产构件类型的不同,大多数公司都有自己的标准。针对市面上众多标准,研究一种智能化、专业化的标准知识组织与利用方法对行业发展至关重要。知识图谱恰好是一种极其优秀的知识组织与利用工具。在先前的研究中,已有其他行业探索并实践了使用知识图谱来整合和应用知识,进而开发出基于知识图谱的辅助决策软件,并在此过程中取得了显著成果。构建知识图谱的核心任务之一是关系抽取。关系抽取作为信息抽取的一个核心领域。其主要目标是从文本中识别出特定的实体间关系。在本领域中,可以抽取实体间的关系。随着时间的发展,关系抽取技术经历了三个主要阶段:基于规则的方法、传统的机器学习方法和基于深度学习的方法。在机器学习领域,又细分为监督学习、无监督学习和半监督学习。而在深度学习阶段,重点是监督学习和远程监督学习。

3、基于规则的关系抽取方法主要依靠手动编写的规则来从文本中识别并提取关系。这类方法通常分为基于触发词的方法和基于依存关系分析的方法。其优势在于特定场景下能够实现较高准确度,但存在不足:低召回率、规则编写耗时费力且难以维护,以及在不同环境中适应性和鲁棒性较差。基于机器学习的方法可以分为监督学习、半监督学习和无监督学习。监督学习以高准确度为优势,但依赖大量标注数据,且标注过程耗时成本高。半监督学习结合少量标注数据和大量未标注数据,减少标注需求,但模型性能依赖于标注数据质量。无监督学习则通过数据的内在结构来发现模式,无需数据标注,但准确度和可靠性通常低于监督学习方法。深度学习领域中,关系抽取主要采用监督学习的流水线方法和联合抽取方法。流水线方法将实体识别和关系分类分为两个独立步骤,每个步骤可独立优化,便于错误分析和调试。联合抽取方法则是端到端的,同时处理实体识别和关系分类,提高整体性能,但复杂性和资源需求较高。2013年,socher等人提出了基于rnn的关系抽取方法,该方法为分析树的每个节点分配一个向量和一个矩阵,有效解决了单词向量空间模型在长短语解析上的限制。rnn模型在处理序列信息方面有优势,但面临梯度爆炸和长期依赖问题。cnn通过特征提取层和映射层以及权值共享机制提高效率和性能。在经过上述早期深习模型周期后,人们开始考虑如何处理长依赖问题,基于rnn的两个变体lstm与gru被提出。lstm通过其独特的门控机制和细胞状态有效地学习和保留了上下文。gru及其变体bigru通过引入门控机制来捕获上下文信息。相较于lstm,gru的结构更加简单,运行速度更快,资源消耗更小。而且,zhou和zhang等人,lu y等人分别在金融与军事领域将bigru结合注意力机制进行研究,发现关系抽取性能十分优秀。总结来说,bigru在关系抽取领域的优势在于其能够全面地捕获和分析文本数据中的长距离依赖,同时通过整合正向和反向信息,提供更加丰富和准确的上下文理解。此外,bigru在结合注意力机制时,可以进一步提高关系抽取的准确性和效率。这些特性使得bigru成为处理复杂关系抽取任务的强大工具,尤其在需要高度准确性和深入分析的应用场景中表现出色。

4、在混凝土预制构件质量标准领域的知识图谱构建过程中,完成了命名实体识别后,还需要对实体间关系进行抽取。关系抽取精度和效率直接影响到知识图谱的完整性和实用性。然而,该领域的关系抽取面临着由于句子内不同实体关系距离较远所造成的长距离依赖问题,以及专业领域词汇的复杂性给传统关系抽取算法带来的挑战。这些因素共同影响了传统算法在精确性和计算效率上的表现。

5、有鉴于此,本专利技术提供一种面向混凝土预制构件质量标准领域的关系抽取方法,以解决上述现有技术中存在的技术问题。


技术实现思路

1、针对上述存在的技术不足,本专利技术提供了一种专门针对混凝土预制构件质量标准领域的新的关系识别方法albert-bigru-sa;首先引入albert预训练模型,albert模型通过其轻量级的设计,即因子化词嵌入和跨层参数共享,不仅减少了模型的资源消耗,还保持了高效的性能。此外,方法进一步融合了基于双向门控循环单元的架构和自注意力机制,以增强模型对长距离依赖的捕捉能力和对复杂关系类型的理解。自注意力机制的引入特别针对提高句子中距离较远实体间的关系识别能力,从而有效处理长句子中的关系抽取。结合bigru,这种方法不仅提高了关系识别的准确性,而且通过自注意力机制的并行计算特性,提升了处理速度。

2、为解决前文提到技术问题,本专利技术提出了一种专门针对混凝土预制构件质量标准领域的新的关系识别方法albert-bigru-sa,具体步骤如下:

3、步骤1:在文本预处理阶段,输入的文本数据被处理并转换成格式化的序列。这包括同步标记文本中的实体位置、关系类型以及文本本身,确保每个句子s被准确地解析。这一步骤是关键,因为它为模型提供了必要的输入格式,包括句子、实体标记及其相互关系。

4、步骤2:进行分词与词嵌入,每个句子通过albert模型进行分词和词嵌入,生成词向量矩阵e。albert模型在此阶段用于转换文本序列为高维词向量,这些向量能够有效地捕获词语的语义特征以及语境信息。

5、albert通过因子化词嵌入、跨层参数共享以及句子顺序预测(sop)技术,不仅保持了接近bert的语义表征能力,同时显著降低了训练和推理过程中的资源消耗。在混凝土预制构件质量标准领域,albert的中文版本特别针对以下挑战提供了有效的解决方案:

6、(1)资源效率提升:albert的高效性在处理大量的技术规范文档时尤为重要,使得在资源受限的环境下也能高效处理大规模数据。

7、(2)长距离依赖处理:通过sop技术,albert增强了对长句中复杂工程术语的识别能力。

8、(3)精确度提升:结合bmes标注法,albert的中文版本提供了更细粒度的中文文本分析能力,提高了识别的准确度。

9、albert词嵌入首先有输入文本t{w1,w2,…,wn},经过标记化和可选的分词处理,将文本分解成更小的单元(如词或子词)。每个词或子词被转换成对应的词向量。这一转换涉及查找预先训练好的词嵌入表,以及使用参数共享技术减少存储和计算需求。词嵌入过程本文档来自技高网...

【技术保护点】

1.一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤2中所述ALBERT通过因子化词嵌入、跨层参数共享以及句子顺序预测(SOP)技术,不仅保持了接近BERT的语义表征能力,同时显著降低了训练和推理过程中的资源消耗。

3.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤3中所述双向门控循环单元(BiGRU)是循环神经网络(RNN)的一种变体,它结合了GRU和双向RNN的特点,BiGRU由两个独立的GRU组成,分别处理序列的正向和反向信息,最终将两个方向的信息整合在一起,形成对当前输入点全面的上下文理解。

4.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤3中所述自注意力机制是一种使模型能够关注输入句子中所有词汇之间的内部关系的技术;它通过计算句子中每个词与其他所有词之间的关系,来获取句子的全面表示。

5.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,在步骤3中将所述自注意力机制集成到模型中,处理混凝土预制构件质量标准领域中的复杂文本;保证模型对实体识别的准确性,并增强对长句子和复杂句式的理解能力;进而在保证处理效率的同时,确保对混凝土预制构件质量标准文本的高精度句子级向量表示,为深入分析和知识抽取提供强大的支持。

6.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤4中所述Softmax层的输出是一个概率分布,表示给定实体对属于每个关系类别的概率;结合神经网络的其他层,Softmax层可以通过端到端的方式进行训练,允许梯度从损失函数直接反向传播,优化模型的整体性能。

7.根据权利要求1-6任意一项所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤1中所述文本数据为归集凝土预制构件质量标准文件整理抽取得到,由于质量标准数据较为繁杂,选取其中的检验标准与注意事项,经过OCR识别与Python编写脚本转换为可识别的TXT文件;

8.根据权利要求7所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤1中所述文本数据处理后需要对数据进行标注,所述数据标注要进行实体标注和关系标注:

...

【技术特征摘要】

1.一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤2中所述albert通过因子化词嵌入、跨层参数共享以及句子顺序预测(sop)技术,不仅保持了接近bert的语义表征能力,同时显著降低了训练和推理过程中的资源消耗。

3.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤3中所述双向门控循环单元(bigru)是循环神经网络(rnn)的一种变体,它结合了gru和双向rnn的特点,bigru由两个独立的gru组成,分别处理序列的正向和反向信息,最终将两个方向的信息整合在一起,形成对当前输入点全面的上下文理解。

4.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,步骤3中所述自注意力机制是一种使模型能够关注输入句子中所有词汇之间的内部关系的技术;它通过计算句子中每个词与其他所有词之间的关系,来获取句子的全面表示。

5.根据权利要求1所述的一种面向混凝土预制构件质量标准领域的关系抽取方法,其特征在于,在步骤3...

【专利技术属性】
技术研发人员:涂明陈兵勇孙克平施东兴曾毅彪汪中华李中伟余嘉俊李方朋尤思翰
申请(专利权)人:中建三局集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1