一种面向中文工业领域的知识实体识别方法及系统技术方案

技术编号：34275827 阅读：40 留言：0更新日期：2022-07-24 17:07

本发明专利技术公开了一种面向中文工业领域的知识实体识别方法及系统。本发明专利技术采用了特征性工业文本语料并对其做出手工标注作为模型的输入，利用2种不同的数据增强的方式对训练文本进行多特征处理后分别输入词嵌入层，对不同的嵌入特征向量利用叠加求均值的方式，采用卷积神经网络，针对对处理长文本的优势结合了膨胀卷积神经网络，并在卷积层后加入注意力设置训练权重。其中，改进膨胀卷积的网络结构来更好地扩展抽取长文本的特征时的感受视野。地扩展抽取长文本的特征时的感受视野。地扩展抽取长文本的特征时的感受视野。

A knowledge entity recognition method and system for Chinese industry

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文工业领域的知识实体识别方法及系统

[0001]本专利技术涉及计算机人工智能
，尤其涉及一种面向中文工业领域的知识实体识别方法及系统。

技术介绍

[0002]近年来，随着人工智能技术的不断发展，生活中的方方面面中融入了智能计算机，当然也推动了制造工业的信息化建设工作。随着工业车间的自动化持续发展，工业自动化显得日益重要，同时，工业生产相关行业中产生的数据更是不计其数。其中，制造工业数据是工业供给、生产过程中的完整而又全面的记录，里面蕴涵着大量的信息。人们开始通过自然语言处理技术将这些制造工业数据信息进行挖掘，从而得到结构化的与工业生产制造供给密切相关的工业知识。
[0003]命名实体识别(Named Entity Recognition，简称NER)是指识别文本中特定的实体，常用的有人名、地名、组织名等。在工业领域，旨在自动识别、分类和处理工业生产发展进程中的实体，例如零部件、技术手段等。NER是工业数据结构化的基础，是开展工业数据文本研究的前提。由于中文文本处理的复杂性，中文文本的NER相比英文文本难度更大。目前常用命名实体识别的方法主要有：基于词典和规则的方法、基于传统机器学习的方法与基于深度学习的方法。
[0004]基于字典的方法通过字符串模糊查找或者完全匹配，但是无法检索字典中不存在的实体。基于规则的方法根据实体特征和其常见搭配，人为制定规则集，但是耗时长，需要领域专家编写规则，并且不能应用新的领域。
[0005]近年来，随着机器学习技术的发展和应用，基于机器学习的方法...

【技术保护点】

【技术特征摘要】
1.一种面向中文工业领域的知识实体识别方法，其特征在于，包括如下步骤：步骤S1：采集工业领域的句子文本，对文本数据进行预处理，包括：挑选指定工业领域的文献期刊构建数据集，对数据集中的进行文本按段落摘取，对文本段落按句子分割，对文本句子进行清洗；步骤S2：对步骤1预处理后的文本进行标签标注；具体标签分类按实际需求给出；对已标注文本数据进行数据增强，增强方式分为2类：实体替换和实体位置交换；步骤S3：将标注完成的原文本与其两类增强后的新文本输入至命名实体识别模型，命名实体识别模型包括依次连接的BERT长句多特征嵌入层、实体标签训练层、注意力层、双向长短时记忆网络层和条件随机场；所述BERT长句多特征嵌入层分别输出3类长句文本嵌入向量，对3类嵌入向量进行叠加求均值，形成组合文本嵌入向量；将组合文本嵌入向量输入至实体标签训练层，对标签进行训练；实体标签训练层是由4个膨胀卷积模块组成，每个模块设置了1个卷积网络和2个二膨胀卷积网络(2
‑
dilated convolution neural network)；通过注意力层对标签训练结果进行权重侧重训练后，输出至双向长短时记忆网络层与条件随机场中进行标签预测，对命名实体识别模型进行训练后，得到训练好的命名实体识别模型；步骤S4：将待识别的中文工业领域的句子文本进行预处理后，输入到训练好的命名实体识别模型中，进行实体识别。2.根据权利要求1所述的面向中文小领域工业的知识实体识别方法，其特征在于，所述步骤S1中，包括如下子步骤：S11，查找工业数据和智能工厂的相关分析文献，对应性地截取具有相关性、包含相关领域的工业实体的文本段落；S12，清洗句子去除标点，对选取的文本段落以每行一个字加上一个空格字符和“\n”排列，并且将句号字符以“\n”替代，代表分句，以备后续成句输入网络。3.根据权利要求1所述的面向中文小领域工业的知识实体识别方法，其特征在于，所述步骤S2中，包括如下子步骤：S21，对工业领域文本数据实体进行分类，具体类别视具体需求而定，分类后对文本数据的实体进行实体类别标签标注；S22，对已标注完成的文本句子进行数据增强，采用nlpcda工具包对文本进行两类不同的文本实体增强方式，包括实体替换和实体位置交换，其中实体替换是对文本句子中的实体随机替换为数据集中所包含的其他实体；实体位置交换是对句子中的多个实体进行空间上的交换，不改变实体。4.根据权利要求3所述的面向中文小领域工业的知识实体识别方法，其特征在于，所述步骤S21中，工业领域文本数据类别包括实物、技术和概念三个类型。5.根据权利要求1所述的面向中文小领域工业的知识实体识别方法，其特征在于，所述步骤S3中：S31，对文本的实体进行基于BIOE标签标记法对每个类型标签进行转换，生成标注信息；标注的工业文本数据信息中...

【专利技术属性】
技术研发人员：欧阳阳，林志赟，韩志敏，王琛琛，王博，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人