一种面向中文工业领域的知识实体识别方法及系统技术方案

技术编号:34275827 阅读:40 留言:0更新日期:2022-07-24 17:07
本发明专利技术公开了一种面向中文工业领域的知识实体识别方法及系统。本发明专利技术采用了特征性工业文本语料并对其做出手工标注作为模型的输入,利用2种不同的数据增强的方式对训练文本进行多特征处理后分别输入词嵌入层,对不同的嵌入特征向量利用叠加求均值的方式,采用卷积神经网络,针对对处理长文本的优势结合了膨胀卷积神经网络,并在卷积层后加入注意力设置训练权重。其中,改进膨胀卷积的网络结构来更好地扩展抽取长文本的特征时的感受视野。地扩展抽取长文本的特征时的感受视野。地扩展抽取长文本的特征时的感受视野。

A knowledge entity recognition method and system for Chinese industry

【技术实现步骤摘要】
一种面向中文工业领域的知识实体识别方法及系统


[0001]本专利技术涉及计算机人工智能
,尤其涉及一种面向中文工业领域的知识实体识别方法及系统。

技术介绍

[0002]近年来,随着人工智能技术的不断发展,生活中的方方面面中融入了智能计算机,当然也推动了制造工业的信息化建设工作。随着工业车间的自动化持续发展,工业自动化显得日益重要,同时,工业生产相关行业中产生的数据更是不计其数。其中,制造工业数据是工业供给、生产过程中的完整而又全面的记录,里面蕴涵着大量的信息。人们开始通过自然语言处理技术将这些制造工业数据信息进行挖掘,从而得到结构化的与工业生产制造供给密切相关的工业知识。
[0003]命名实体识别(Named Entity Recognition,简称NER)是指识别文本中特定的实体,常用的有人名、地名、组织名等。在工业领域,旨在自动识别、分类和处理工业生产发展进程中的实体,例如零部件、技术手段等。NER是工业数据结构化的基础,是开展工业数据文本研究的前提。由于中文文本处理的复杂性,中文文本的NER相比英文文本难度更大。目前常用命名实体识别的方法主要有:基于词典和规则的方法、基于传统机器学习的方法与基于深度学习的方法。
[0004]基于字典的方法通过字符串模糊查找或者完全匹配,但是无法检索字典中不存在的实体。基于规则的方法根据实体特征和其常见搭配,人为制定规则集,但是耗时长,需要领域专家编写规则,并且不能应用新的领域。
[0005]近年来,随着机器学习技术的发展和应用,基于机器学习的方法逐渐成为主流方法。虽然该方法的可移植性强,但其依赖标注数据的质量和规模,特征工程复杂。随着机器学习的进一步发展,基于深度学习的方法得到了大家的进一步关注。虽然这种方法不再需要像传统机器学习方法那样人为选取复杂的特征集合作为模型训练集,但需要更大规模的语料集。
[0006]由于每家制造工厂有不同的制造产品、制造流程、制造工业和供应链,因此每个实体工厂尤其独特性,并且也缺少公开的生产制造相关的语料标注集。因此,面向不同的智能制造工厂提出应用不同的手工标注集搭建对智能工业的促进是相当巨大的。

技术实现思路

[0007]本专利技术所要解决的技术问题在于现有技术中用于面向中文小领域工业的知识实体识别构建方法由于制造工业数据具有各不相同的特性存在缺少公开的生产制造相关的语料标注集,提出一种面向中文小领域工业的知识实体识别构建方法及系统。本专利技术采用了特征性工业文本语料并对其做出手工标注作为模型的输入,利用2种不同的数据增强的方式对训练文本进行多特征处理后分别输入词嵌入层,对不同的嵌入特征向量利用叠加求均值的方式,采用卷积神经网络,针对对处理长文本的优势结合了膨胀卷积神经网络,并在
卷积层后加入注意力设置训练权重。其中,改进膨胀卷积的网络结构来更好地扩展抽取长文本的特征时的感受视野。
[0008]为达到上述目的,本专利技术的技术方案如下:第一方面,本专利技术提供了一种面向中文工业领域的知识实体识别方法,包括如下步骤:
[0009]步骤S1:采集工业领域的句子文本,对文本数据进行预处理,包括:挑选指定工业领域的文献期刊构建数据集,对数据集中的进行文本按段落摘取,对文本段落按句子分割,对文本句子进行清洗;
[0010]步骤S2:对步骤1预处理后的文本进行标签标注;具体标签分类按实际需求给出;对已标注文本数据进行数据增强,增强方式分为2类:实体替换和实体位置交换;
[0011]步骤S3:将标注完成的原文本与其两类增强后的新文本输入至命名实体识别模型,命名实体识别模型包括依次连接的BERT长句多特征嵌入层、实体标签训练层、注意力层、双向长短时记忆网络层和条件随机场;
[0012]所述BERT长句多特征嵌入层分别输出3类长句文本嵌入向量,对3类嵌入向量进行叠加求均值,形成组合文本嵌入向量;
[0013]将组合文本嵌入向量输入至实体标签训练层,对标签进行训练;实体标签训练层是由4个膨胀卷积模块组成,每个模块设置了1个卷积网络和2个二膨胀卷积网络(2

dilated convolution neural network);
[0014]通过注意力层对标签训练结果进行权重侧重训练后,输出至双向长短时记忆网络层与条件随机场中进行标签预测,对命名实体识别模型进行训练,得到训练好的命名实体识别模型;
[0015]步骤S4:将待识别的中文工业领域的句子文本进行预处理后,输入到训练好的命名实体识别模型中,进行实体识别。
[0016]进一步地,所述步骤S1中,包括如下子步骤:
[0017]S11,查找工业数据和智能工厂的相关分析文献,对应性地截取具有相关性、包含相关领域的工业实体的文本段落;
[0018]S12,清洗句子去除标点,对选取的文本段落以每行一个字加上一个空格字符和“\n”排列,并且将句号字符以“\n”替代,代表分句,以备后续成句输入网络。
[0019]进一步地,所述步骤S2中,包括如下子步骤:
[0020]S21,对工业领域文本数据实体进行分类,具体类别视具体需求而定,分类后对文本数据的实体进行实体类别标签标注;
[0021]S22,对已标注完成的文本句子进行数据增强,采用nlpcda工具包对文本进行两类不同的文本实体增强方式,包括实体替换和实体位置交换,其中实体替换是对文本句子中的实体随机替换为数据集中所包含的其他实体;实体位置交换是对句子中的多个实体进行空间上的交换,不改变实体。
[0022]进一步地,所述步骤S21中,工业领域文本数据类别包括实物、技术和概念三个类型。
[0023]进一步地,所述步骤S3中,包括如下子步骤:
[0024]S31,对文本的实体进行基于BIOE标签标记法对每个类型标签进行转换,生成标注信息;标注的工业文本数据信息中,每一字符对应有一标注的BIOE;
[0025]S32,将标注信息作为工业文本数据的命名实体识别标签,构建带有命名实体识别标签的样本数据集;
[0026]S33,将原文本与其通过文本增强后的两类文本按句分别输入BERT长句多特征嵌入层;BERT长句多特征嵌入层输出的高维特征向量序列中,每一字符对应一特征向量;
[0027]S34,将BERT长句多特征嵌入层输出的组合文本嵌入向量进行叠加求均值处理,然后将处理后的结果向量作为实体标签训练层的输入,对组合文本嵌入向量进行全局性的特征提取;将经实体标签训练层训练后的文本特征输入注意力层进行权重训练,针对不同的文本特征训练不同的权重矩阵,使特征形成偏好,经注意力针对权重训练后输入至双向长短时记忆网络层与条件随机场中进行进一步特征提炼,获取文本实体所对应的标签概率。
[0028]进一步地,所述注意力层,根据BERT长句多特征嵌入层的输出向量h
t
和注意力机制计算注意力权重a
i
,注意力层的输出向量x
k
为:
[0029]x<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向中文工业领域的知识实体识别方法,其特征在于,包括如下步骤:步骤S1:采集工业领域的句子文本,对文本数据进行预处理,包括:挑选指定工业领域的文献期刊构建数据集,对数据集中的进行文本按段落摘取,对文本段落按句子分割,对文本句子进行清洗;步骤S2:对步骤1预处理后的文本进行标签标注;具体标签分类按实际需求给出;对已标注文本数据进行数据增强,增强方式分为2类:实体替换和实体位置交换;步骤S3:将标注完成的原文本与其两类增强后的新文本输入至命名实体识别模型,命名实体识别模型包括依次连接的BERT长句多特征嵌入层、实体标签训练层、注意力层、双向长短时记忆网络层和条件随机场;所述BERT长句多特征嵌入层分别输出3类长句文本嵌入向量,对3类嵌入向量进行叠加求均值,形成组合文本嵌入向量;将组合文本嵌入向量输入至实体标签训练层,对标签进行训练;实体标签训练层是由4个膨胀卷积模块组成,每个模块设置了1个卷积网络和2个二膨胀卷积网络(2

dilated convolution neural network);通过注意力层对标签训练结果进行权重侧重训练后,输出至双向长短时记忆网络层与条件随机场中进行标签预测,对命名实体识别模型进行训练后,得到训练好的命名实体识别模型;步骤S4:将待识别的中文工业领域的句子文本进行预处理后,输入到训练好的命名实体识别模型中,进行实体识别。2.根据权利要求1所述的面向中文小领域工业的知识实体识别方法,其特征在于,所述步骤S1中,包括如下子步骤:S11,查找工业数据和智能工厂的相关分析文献,对应性地截取具有相关性、包含相关领域的工业实体的文本段落;S12,清洗句子去除标点,对选取的文本段落以每行一个字加上一个空格字符和“\n”排列,并且将句号字符以“\n”替代,代表分句,以备后续成句输入网络。3.根据权利要求1所述的面向中文小领域工业的知识实体识别方法,其特征在于,所述步骤S2中,包括如下子步骤:S21,对工业领域文本数据实体进行分类,具体类别视具体需求而定,分类后对文本数据的实体进行实体类别标签标注;S22,对已标注完成的文本句子进行数据增强,采用nlpcda工具包对文本进行两类不同的文本实体增强方式,包括实体替换和实体位置交换,其中实体替换是对文本句子中的实体随机替换为数据集中所包含的其他实体;实体位置交换是对句子中的多个实体进行空间上的交换,不改变实体。4.根据权利要求3所述的面向中文小领域工业的知识实体识别方法,其特征在于,所述步骤S21中,工业领域文本数据类别包括实物、技术和概念三个类型。5.根据权利要求1所述的面向中文小领域工业的知识实体识别方法,其特征在于,所述步骤S3中:S31,对文本的实体进行基于BIOE标签标记法对每个类型标签进行转换,生成标注信息;标注的工业文本数据信息中...

【专利技术属性】
技术研发人员:欧阳阳林志赟韩志敏王琛琛王博
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1