当前位置: 首页 > 专利查询>中国电建集团华东勘测设计研究院有限公司专利>正文

基于深度学习的文本知识自动抽取与图谱化方法及系统技术方案

技术编号：43781174 阅读：32 留言：0更新日期：2024-12-24 16:17

本发明专利技术公开了一种基于深度学习的文本知识自动抽取与图谱化方法，通过结合深度学习模型优化语义理解算法，增强模型对文本内部结构和外部关系的感知能力，实现对设备故障知识的全面抽取和详细关系分析,并利用知识图谱技术，实施自动化的图谱构建流程，以提高图谱的查询效率和分析能力，包括：S1对原始文档进行结构化处理，分割为独立的案例单元，并提取设备故障相关的关键信息；S2识别并标注文档中的关键实体及其相互关系；S3基于提取的实体和关系，构建并更新故障案例的知识图谱。本发明专利技术具有高度的自动化、智能化、可扩展性及模块化设计，易于集成到现有的工业信息化系统中，助力企业实现智能化转型与升级。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能与工业信息化技术交叉领域，具体涉及一种基于深度学习的文本知识自动抽取与图谱化方法。

技术介绍

1、随着工业化的不断深入和机械设备的大量应用，设备的稳定运行成为企业持续发展的关键因素。然而，在实际生产过程中，设备故障频发，不仅影响生产进度，还增加了企业的维护成本。传统的设备故障分析方法往往依赖于人工经验和纸质记录，存在数据分散、整理耗时、分析不准确等问题。随着大数据、人工智能等技术的快速发展，工业互联网和智能制造逐渐兴起，企业对设备维护管理的智能化水平提出了更高要求，如何利用这些先进技术实现设备故障知识的自动化抽取与高效利用，成为企业亟待解决的问题。

2、专利技术人在深入研究工业设备故障分析领域的自然语言处理(nlp)与知识图谱构建技术时，发现现有技术在这一领域的应用存在显著缺陷。传统方法往往仅关注文本的表面信息，如关键词匹配或简单的句法分析，而忽视了文本的深层语义结构和上下文关系。这种处理方式导致在抽取设备名称、故障现象、故障原因及处理措施等关键信息时，精度和全面性大打折扣。技术难点在于，如何构建一种能够深入理解文本语义、准确捕捉复杂语境和隐含关系的模型。

3、进一步研究表明，现有技术的语义理解能力受限于算法设计和模型结构。虽然有些方法采用了机器学习或统计方法，但由于缺乏深度神经网络对文本深层特征的提取能力，难以准确理解设备故障描述中的复杂语义关系。因此，另一个技术难点在于，如何设计一种深度学习模型，使其能够自动学习文本的高阶特征，并在不同领域和语境下实现有效的语义理解。

>4、此外，在实际应用中，专利技术人发现传统方法在处理大规模、多样化文本数据时，自动化程度低且可扩展性差。这主要是因为传统方法高度依赖人工干预和规则定义，难以适应快速变化的数据环境。因此，第三个技术难点在于，如何实现一种高度自动化的文本处理流程，使其能够自动适应不同规模和类型的文本数据，同时保持高效和准确。

技术实现思路

1、本专利技术要解决的技术问题是：工业设备故障分析领域中文本知识处理效率低下、准确性不足的问题。为此，本专利技术提出了基于深度学习的文本知识自动抽取与图谱化方法，包括以下步骤：

2、步骤s1，文档分析与信息提取：利用深度学习模型对原始文档进行结构化处理，将其分割为独立的案例单元，识别关键段落，并自动提取与设备故障相关的文本知识，为知识图谱构建奠定基础；

3、步骤s2，实体关系抽取：通过命名实体识别(ner)和关系抽取，识别并标注文档中的关键实体及其相互关系，为知识图谱构建提供结构化的基础数据；

4、步骤s3，知识图谱构建：基于步骤s1和s2中抽取的实体和关系，构建并更新故障案例的知识图谱，确保图谱的准确性和扩展性。

5、进一步地，所述深度学习模型在大规模通用语料库上预训练，并通过在包含水利设备检修相关专业术语、复杂技术描述和特定文档结构的专属训练数据集上进行进一步训练，以提高模型在水利设备检修领域的语义理解和信息抽取能力。

6、进一步地，所述深度学习模型在大规模通用语料库上预训练，并通过在包含工业设备故障分析领域相关数据的专用语料库上进行进一步训练，以使其特别适用于工业设备故障分析领域的文本处理，能够准确识别并抽取设备名称、故障现象、故障原因以及处理措施的关键信息。

7、进一步地，步骤s1包括以下步骤：

8、步骤s101，文档读取与分割：读取原始文档，使用正则表达式匹配文档中的标题标签及段落分隔符，将文档分割为多个单元，每个单元对应一个案例，并进一步分析内容连贯性和上下文关系，调整分割边界，确保每个单元的独立性和完整性；

9、步骤s102，关键词识别：采用基于深度学习模型的自然语言处理(nlp)技术对文本进行分词和词性标注，构建包含与设备故障相关的“故障现象”、“故障原因分析”、“故障解决方案”、“故障解决效果”及其同义词和短语变体的关键词词典；

10、步骤s103，段落标记与提取：通过文本匹配和语义分析，在文档中识别包含关键词或相关语义的段落或句子，标记并提取这些关键段落，为后续的结构化信息提取做好准备；

11、步骤s104，结构化提取：基于关键词标记，自动提取每个案例的标题、故障现象描述、原因分析、解决方案和解决效果评估的关键信息。

12、进一步地，步骤s2包括以下步骤：

13、步骤s201，命名实体识别：采用nlp中的ner模型，对文档中的文本进行实体识别，定义实体类型，包括设备、故障现象、故障原因和处理措施，并通过训练或调整ner模型以识别这些类型的实体，对文档进行实体标注，输出包含实体类型及其边界的文本；

14、步骤s202，关系抽取：设计关系抽取模板或规则，基于实体类型和上下文信息定义关系类型，包括“发生”、“归因”和“推荐”及其他相关的定义关系类型的短语，识别并抽取实体之间的关系，构建关系三元组(实体1-关系-实体2)并存储。

15、进一步地，步骤s3包括以下步骤：

16、步骤s301，节点与边创建：将抽取的实体作为节点，每个节点包含实体id、类型和属性，将抽取的关系作为边，连接相应的实体节点，每条边包含关系类型和方向等属性，构建故障案例的知识图谱，每个案例视为图谱中的一个子图；

17、步骤s302，图谱融合：检查现有的知识图谱，识别与新抽取案例中的实体和关系相匹配的节点和边，对于匹配的节点和边，进行合并或更新操作，确保图谱的准确性和一致性，对于新出现的实体和关系，添加到知识图谱中，以扩展图谱的覆盖范围和深度。

18、进一步地，步骤s1和s2中抽取的实体和关系支持人工审核，对抽取的故障案例进行质量评估，并对不符合质量的案例进行修正或剔除，确保最终数据集的高质量。

19、进一步地，步骤s3中，在抽取到关键信息后，利用知识图谱技术将所述信息以图的形式表示和存储，并在知识图谱的构建过程中，采用具有高查询速度和大规模数据处理能力的图数据库管理系统，以支持设备故障知识的组织和管理，确保图谱的存储和查询性能。

20、进一步地，所述方法支持通过分布式计算架构或多线程处理对大量文档和复杂数据进行并行处理，具有良好的可扩展性和适应性，适于在短时间内高效完成设备故障相关信息的抽取和知识图谱的构建，并适应不同规模的水利设备检修文档及多样化的数据类型。

21、更进一步地，本专利技术采用以下技术方案：

22、一种基于深度学习的文本知识自动抽取与图谱化系统，该系统采用模块化设计，包含以下独立的模块：

23、语义分析模块：用于执行深度学习模型的语义分析功能，该模块通过在大规模通用语料库和专用领域语料库上训练的深度学习模型，对输入文本进行深度语义理解，识别文本中的设备名称、故障现象、故障原因和处理措施的关键信息；

24、信息抽取模块：基于语义分析模块的输出，自动抽取与设备故障相关的关键信息，并生成用于后续知识图谱构建的数据结构，该模块支持本文档来自技高网...

【技术保护点】

1.基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，所述深度学习模型在大规模通用语料库上预训练，并通过在包含水利设备检修相关专业术语、复杂技术描述和特定文档结构的专属训练数据集上进行进一步训练，以提高模型在水利设备检修领域的语义理解和信息抽取能力。

3.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，所述深度学习模型在大规模通用语料库上预训练，并通过在包含工业设备故障分析领域相关数据的专用语料库上进行进一步训练，以使其特别适用于工业设备故障分析领域的文本处理，能够准确识别并抽取设备名称、故障现象、故障原因以及处理措施的关键信息。

4.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，步骤S1包括以下步骤：

5.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，步骤S2包括以下步骤：

6.根据权利要求1所述的基于深度学习的文本知识自动抽取与图

7.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，步骤S1和S2中抽取的实体和关系支持人工审核，对抽取的故障案例进行质量评估，并对不符合质量的案例进行修正或剔除，确保最终数据集的高质量。

8.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，步骤S3中，在抽取到关键信息后，利用知识图谱技术将所述信息以图的形式表示和存储，并在知识图谱的构建过程中，采用具有高查询速度和大规模数据处理能力的图数据库管理系统，以支持设备故障知识的组织和管理，确保图谱的存储和查询性能。

9.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，所述方法支持通过分布式计算架构或多线程处理对大量文档和复杂数据进行并行处理，具有良好的可扩展性和适应性，适于在短时间内高效完成设备故障相关信息的抽取和知识图谱的构建，并适应不同规模的水利设备检修文档及多样化的数据类型。

10.一种基于深度学习的文本知识自动抽取与图谱化系统，其特征在于，该系统采用模块化设计，包含以下独立的模块：

...

【技术特征摘要】

1.基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，步骤s1包括以下步骤：

5.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征在于，步骤s2包括以下步骤：

6.根据权利要求1所述的基于深度学习的文本知识自动抽取与图谱化方法，其特征...

【专利技术属性】
技术研发人员：杜泽禹，刘卓然，李黎，董涛，雷春盛，
申请(专利权)人：中国电建集团华东勘测设计研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人