一种融合深度学习与依存句法的工艺标准实体关系抽取方法技术

技术编号：43769460 阅读：16 留言：0更新日期：2024-12-24 16:09

本发明专利技术公开了一种融合深度学习与依存句法的工艺标准实体关系抽取方法，包括：收集流程生产工艺标准非结构化文本，并对所需提取的实体进行标注，以建立实体关系数据集；搭建MacBERT‑BiGRU‑IDCNN‑CRF实体抽取模型进行训练；将待抽取的流程生产工艺标准非结构化文本通过训练好的深度学习模型进行实体抽取；将抽取出的实体通过词典导入自然语言处理工具中；对待抽取的流程生产工艺标准非结构化文本以句子为单位对句子进行分词；依据分词后的结果对各组成部分进行依存分析，获得句子的依存关系；依据句子的依存关系，对句子中各组成部分进行上下位划分，获得上下位关系；依据上下位关系构建的三元组搭建规则将句子转化为三元组结构导入图数据库中。本发明专利技术能有效解决自然语言处理工具对文本的实体边界划分问题；并且通过提出的三元组构建规则，能更好地适应中文工艺标准领域的文本特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种融合深度学习与依存句法的工艺标准实体关系抽取方法，属于知识图谱。

技术介绍

1、工艺知识对现代企业的产品开发、质量控制、增强创新能力和提高综合竞争力有着重要影响是企业重要的智力资源。在流程制造企业的产品生产过程中，积累了大量的工艺要求、操作规范、工艺标准等资料，在现代化工业生产中具有重要作用，它直接关系到产品质量、生产企业的竞争力。因此，构建出生产工艺标准知识图谱对于实现企业数字化生产、控制产品生产质量具有重要意义。

2、构建知识图谱的关键技术之一是从非结构化的数据中抽取出用于表示实体与实体间语义关系的三元组结构。目前在垂直领域知识图谱自动化构建仍然存在许多挑战，一方面垂直领域的数据知识结构更加复杂，通常包含较为复杂的本体工程和规则型知识；另一方面垂直领域知识抽取的质量要求更高，较多地依靠从企业内部的结构化和非结构化的数据进行联合抽取，并且垂直领域知识专业性强，不同领域存在不同的专有词汇和概念需要进行专门的处理和抽取。针对上述问题有学者提出结合实体在句子中依存关系来构建三元组关系，但由于工艺标准文本专业性强，实体边界模糊等特点，传统的分词工具很难对实体的边界进行准确的划分。

技术实现思路

1、为解决生产工艺标准领域知识文本实体边界模糊本体工程复杂等属性，本专利技术提供了一种融合深度学习与依存句法的工艺标准实体关系抽取方法，以解决自然语言处理工具对文本的实体边界划分问题；并提出三元组构建规则，以适应中文工艺标准领域的文本特点。

2、本专利技术的技术方案是：

3、第一方面，提供了一种融合深度学习与依存句法的工艺标准实体关系抽取方法，包括：步骤1：收集流程生产工艺标准非结构化文本，并对所需提取的实体进行标注，以建立实体关系数据集；步骤2：搭建macbert-bigru-idcnn-crf实体抽取模型，调整超参数，将标记好的实体关系数据集划分训练集与测试集以用于训练macbert-bigru-idcnn-crf实体抽取模型；步骤3：将待抽取的流程生产工艺标准非结构化文本通过训练好的深度学习模型进行实体抽取；步骤4：将抽取出的实体通过词典导入自然语言处理工具中；对待抽取的流程生产工艺标准非结构化文本以句子为单位对句子进行分词；依据分词后的结果对各组成部分进行依存分析，获得句子的依存关系；步骤5：依据句子的依存关系，对句子中各组成部分进行上下位划分，获得上下位关系；依据上下位关系构建的三元组搭建规则将句子转化为三元组结构导入图数据库中。

4、进一步地，利用文本标注工具，采取bmeo标注策略对文本进行标注，将文本中包含的实体关系类型划分为设备、工艺参数、标准、工艺、方法、物料和功能几大类别，基于这七种类别对流程生产工艺非结构化文本进行标注。

5、进一步地，所述macbert-bigru-idcnn-crf实体抽取模型采用macbert层、bigru层、idcnn层、特征融合层、全连接层、crf模型搭建，所述macbert层是一种预训练的深度双向transformer模型，用于将输入的标注好的数据划分成句子与字符，再分别将其转化为字符特征和句子特征；所述bigru层使用两个gru层，将macbert层转换好的字符特征输入bigru层进行处理；将macbert层输出的句子特征拼接到字符特征中以实现句子特征升维的目的，再将拼接后的字符特征输入使用了迭代扩张卷积的idcnn层；将由idcnn输出的包含句法、句子结构信息的字符特征与由bigru输出的包含上下位语义信息的字符特征在特征融合层通过加权平均的方法进行特征融合；再将融合后的字符特征输入全连接层转换为输出结果所需的维度，最后由crf模型输出对应每个字符所预测的标签结果。

6、进一步地，所述三元组搭建规则，具体为：首先根据上下位关系判断句子是否可以独立构建三元组，具体方法可以通过计算hops的最大值与最小值间的差值来判断，若差值大于等于2则判断为可以独立构建三元组，这时依据实体的上下位关系来确定头实体与尾实体，然后以谓语作为对应的关系来构建三元组；若差值小于2的情况说明句子成分不可以独立构建三元组，这时需要引入其句子所属的上级名称作为三元组的头实体，句子中谓语作为关系，剩下的成分作为尾实体来构建三元组；其中，hops表示任一词元到根词root的距离。

7、第二方面，提供了一种融合深度学习与依存句法的工艺标准实体关系抽取系统，包括：标注模块，用于执行步骤1：收集流程生产工艺标准非结构化文本，并对所需提取的实体进行标注，以建立实体关系数据集；搭建模块，用于执行步骤2：搭建macbert-bigru-idcnn-crf实体抽取模型，调整超参数，将标记好的实体关系数据集划分训练集与测试集以用于训练macbert-bigru-idcnn-crf实体抽取模型；抽取模块，用于执行步骤3：将待抽取的流程生产工艺标准非结构化文本通过训练好的深度学习模型进行实体抽取；获得模块，用于执行步骤4：将抽取出的实体通过词典导入自然语言处理工具中；对待抽取的流程生产工艺标准非结构化文本以句子为单位对句子进行分词；依据分词后的结果对各组成部分进行依存分析，获得句子的依存关系；转化模块，用于执行步骤5：依据句子的依存关系，对句子中各组成部分进行上下位划分，获得上下位关系；依据上下位关系构建的三元组搭建规则将句子转化为三元组结构导入图数据库中。

8、第三方面，提供了一种终端，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器被配置为执行上述中任意一项所述的融合深度学习与依存句法的工艺标准实体关系抽取方法。

9、本专利技术的有益效果是：针对工艺标准知识文本实体边界模糊的问题，本专利技术提出了一种深度学习模型macbert-bigru-idcnn-crf，通过对文本的上下文特征与句子结构信息进行训练融合增强了模型对实体抽取任务的能力，从而增强了依存分析任务中实体边界划分的精度；并根据工艺标准文本特点提出了一种三元组构建规则，通过这种方法抽取的实体关系更加灵活，可以一定程度解决领域知识图谱本体工程复杂的问题，并且以此方法构建的知识图谱在知识表示上更加精细，使知识图谱中包含更丰富的语义信息，有助于后续的描述性数据分析和依靠逻辑推理的方法来实现数据分析。

本文档来自技高网...

【技术保护点】

1.一种融合深度学习与依存句法的工艺标准实体关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的融合深度学习与依存句法的工艺标准实体关系抽取方法，其特征在于，利用文本标注工具，采取BMEO标注策略对文本进行标注，将文本中包含的实体关系类型划分为设备、工艺参数、标准、工艺、方法、物料和功能几大类别，基于这七种类别对流程生产工艺非结构化文本进行标注。

3.根据权利要求1所述的融合深度学习与依存句法的工艺标准实体关系抽取方法，其特征在于，所述MacBERT-BiGRU-IDCNN-CRF实体抽取模型采用MacBERT层、BIGRU层、IDCNN层、特征融合层、全连接层、CRF模型搭建，所述MacBERT层是一种预训练的深度双向Transformer模型，用于将输入的标注好的数据划分成句子与字符，再分别将其转化为字符特征和句子特征；所述BiGRU层使用两个GRU层，将MacBERT层转换好的字符特征输入BiGRU层进行处理；将MacBERT层输出的句子特征拼接到字符特征中以实现句子特征升维的目的，再将拼接后的字符特征输入使用了迭代扩张卷积的IDCNN层；将由

4.根据权利要求1所述的融合深度学习与依存句法的工艺标准实体关系抽取方法，其特征在于，所述三元组搭建规则，具体为：首先根据上下位关系判断句子是否可以独立构建三元组，具体方法可以通过计算hops的最大值与最小值间的差值来判断，若差值大于等于2则判断为可以独立构建三元组，这时依据实体的上下位关系来确定头实体与尾实体，然后以谓语作为对应的关系来构建三元组；若差值小于2的情况说明句子成分不可以独立构建三元组，这时需要引入其句子所属的上级名称作为三元组的头实体，句子中谓语作为关系，剩下的成分作为尾实体来构建三元组；其中，hops表示任一词元到根词Root的距离。

5.一种融合深度学习与依存句法的工艺标准实体关系抽取系统，其特征在于，包括：

6.一种终端，其特征在于：包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器被配置为执行权利要求1-4中任意一项所述的融合深度学习与依存句法的工艺标准实体关系抽取方法。

...

【技术特征摘要】

1.一种融合深度学习与依存句法的工艺标准实体关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的融合深度学习与依存句法的工艺标准实体关系抽取方法，其特征在于，利用文本标注工具，采取bmeo标注策略对文本进行标注，将文本中包含的实体关系类型划分为设备、工艺参数、标准、工艺、方法、物料和功能几大类别，基于这七种类别对流程生产工艺非结构化文本进行标注。

3.根据权利要求1所述的融合深度学习与依存句法的工艺标准实体关系抽取方法，其特征在于，所述macbert-bigru-idcnn-crf实体抽取模型采用macbert层、bigru层、idcnn层、特征融合层、全连接层、crf模型搭建，所述macbert层是一种预训练的深度双向transformer模型，用于将输入的标注好的数据划分成句子与字符，再分别将其转化为字符特征和句子特征；所述bigru层使用两个gru层，将macbert层转换好的字符特征输入bigru层进行处理；将macbert层输出的句子特征拼接到字符特征中以实现句子特征升维的目的，再将拼接后的字符特征输入使用了迭代扩张卷积的idcnn层；将由idcnn输出的包含句法、句子结构信息的字符特征与由bigru输出的...

【专利技术属性】
技术研发人员：许一鸣，阴艳超，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人