一种命名实体识别方法、系统、存储介质及终端技术方案

技术编号:37153269 阅读:20 留言:0更新日期:2023-04-06 22:11
本发明专利技术公开了一种命名实体识别方法、系统、存储介质及终端,包括使用多种遮蔽方法对句子中单词的令牌token进行遮蔽,并训练BERT

【技术实现步骤摘要】
一种命名实体识别方法、系统、存储介质及终端


[0001]本专利技术涉及实体识别
,尤其涉及一种命名实体识别方法、系统、存储介质及终端。

技术介绍

[0002]命名实体识别(NER)是自然语言处理技术中的一个子任务,目的是从一段非结构化文本料中抽取出实体并判断其标签的类别,如公共领域的实体标签:人名,地名,组织名。NER不仅作为信息提取的独立工具,而且在各种自然语言处理应用中发挥着重要作用,如知识图谱构建,问答系统等。命名实体识别的实现方法有基于规则、无监督学习、人工特征有监督、深度学习监督学习等方式。
[0003]在深度学习有监督的学习中一般有三个模块:Embedding表示,将每个token转换为词向量,代表方法有Word2Vec,训练了有CBOW、Skip

gram等模型。上下文编码器,可以提取上下文语句中隐藏信息:代表模型有BILSTM、GPT、BERT等;标注解码器是NER模型的最后一部分,其将经过上下文编码器得到的表征作为输入,常用的解码器有MLP+SoftMax和CRF。
[0004]在使用预训练模型之前,普遍使用的是BILSTM+CRF实体抽取方法,需要使用如Word2Vec等方法预先训练词向量。使用预训练BERT可以先从大规模语料上学习语言模型,再在下游任务进行微调,不用预训练词向量,而且可以很好地使用预训练语料中的信息,所以在下游任务中BERT起到了举足轻重的作用。加入了BERT后,BILSTM捕捉的上下文信息在BERT中其实也蕴含了,且BiLSTM无法并行计算,为了提高实体抽取效率所以本专利的实体抽取基线方法是BERT+CRF。BERT是使用Transfomer的Encoder部分进行编码的模型,Transfomer Encoder的核心是使用Self

attention机制进行特征提取。使用Self

attention机制可以很好地提取到全局特征,但是有两个不足:1、原始BERT对于局部信息不敏感。由于BERT预训练时随机掩码方式及内部的Self

attention机制所建立的关系为全连接图,原始BERT只能关注到全局信息;2、BERT+BILSTM+CRF架构空间复杂度及计算复杂度高,无法进行高效运算。首先BERT内部点积相似度的计算复杂度为其中N是序列长度。其次,BiLSTM无法并行计算,这种复杂度导致其难以处理较长的序列。

技术实现思路

[0005]本专利技术的目的在于克服现有实体识别方法里对局部信息不敏感以及计算复杂度高的问题,提供了一种命名实体识别方法、系统、存储介质及终端。
[0006]本专利技术的目的是通过以下技术方案来实现的:
[0007]在第一方案中,提供一种命名实体识别方法,所述方法包括以下步骤:
[0008]S1、输入待识别句子,使用多种遮蔽方法对句子中单词的令牌token进行遮蔽,并训练BERT

Convolution模型;
[0009]S2、把长度限制为N token的句子进行分词预处理,得到符合词表的单词token,将token转换为多种token embedding,并将多种token embedding相加作为BERT

embedding,并将多种token embedding相加作为BERT

Convolution模型的输入,其中N为句子长度;使用BERT

Convolution模型根据上下文对每个token进行词向量编码,其中,所述BERT

Convolution模型中集成动态卷积和Self

attention机制,对所述token embedding进行动态卷积并将卷积得到的词向量特征与自注意力机制得到的结果进行拼接;所述BERT

Convolution模型输出为N*d的词向量信息,再通过全连接层进行向量变换,输出每个实体标签的分数向量,所述d为embedding的维度;
[0028]CRF模块,用于将分数向量组成的分数矩阵输入到CRF层中,使用Viterbi算法进行解码,找到一条概率最大的实体标签路径,并根据所述概率最大的实体标签路径识别出句子中实体。
[0029]在第三方案中,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行任意一项所述命名实体识别方法。
[0030]在第四方案中,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行任意一项所述命名实体识别方法。
[0031]需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
[0032]与现有技术相比,本专利技术有益效果是:
[0033](1)本专利技术的BERT

Convolution模型中集成动态卷积和Self

attention机制,对所述token embedding进行动态卷积并将卷积得到的词向量特征与自注意力机制得到的结果进行拼接,将局部信息嵌入全局信息中,可以更好地提取到输入句子的实体局部信息,可以提升BERT中Self

attention机制对局部信息注意力,更准确地提取实体;同时,将动态卷积与Self

attention机制结合,减少了冗余头部的数量,优化了Self

attention机制中的计算复杂度,很大程度上节省了Self

attention的计算成本。
[0034](2)在一个示例中,除了BERT基本的Token级掩蔽策略,在训练阶段新增了实体掩蔽策略和短语级策略的掩蔽,将属于同一个实体类别或者同一个短语的几个字都进行掩蔽,而不是仅屏蔽一个单词或字符。通过这种方式,在训练过程中隐含地学习短语和实体的先验知识。让模型隐式地学习关于知识和较长语义依赖性的信息,例如实体之间的关系、实体的属性,以指导单词嵌入学习,以使模型具有更好的通用性和适应性。
附图说明
[0035]图1为本专利技术实施例示出的一种命名实体识别方法的流程示意图;
[0036]图2为本专利技术实施例示出的使用三种遮蔽方法以及多种token embedding相加进行分词处理的流程示意图;
[0037]图3为本专利技术实施例示出的BERT

Convolution模型整体结构示意图;
[0038]图4为本专利技术实施例示出的预训练示意图;
[0039]图5为本专利技术实施例示出的词嵌入的示意图;
[0040]图6为本专利技术实施例示出的BERT

Convolution示意图;
[0041]图7为本专利技术实施例示出的维特比算法对一句话的标注过程示意。
具体实施方式
[0042]下面结合附图对本专利技术的技术方案进行清本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括以下步骤:S1、输入待识别句子,使用多种遮蔽方法对句子中单词的令牌token进行遮蔽,并训练BERT

Convolution模型;S2、把长度限制为N token的句子进行分词预处理,得到符合词表的单词token,将token转换为多种token embedding,并将多种token embedding相加作为BERT

Convolution模型的输入,其中N为句子长度;S3、使用BERT

Convolution模型根据上下文对每个token进行词向量编码,其中,所述BERT

Convolution模型中集成动态卷积和Self

attention机制,对所述token embedding进行动态卷积并将卷积得到的词向量特征与自注意力机制得到的结果进行拼接;S4、BERT

Convolution模型输出为N*d的词向量信息,再通过全连接层进行向量变换,输出每个实体标签的分数向量,所述d为embedding的维度;S5、将分数向量组成的分数矩阵输入到CRF层中,使用Viterbi算法进行解码,找到一条概率最大的实体标签路径,并根据所述概率最大的实体标签路径识别出句子中实体。2.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述遮蔽方法包括基本级掩蔽策略Basic

Level Masking、实体掩蔽策略Entity

Level Masking以及短语级策略的掩蔽Phrase

Level Masking。3.根据权利要求2所述的一种命名实体识别方法,其特征在于,所述使用多种遮蔽方法对句子中单词的令牌token进行遮蔽,包括:使用Basic

Level Masking随机屏蔽15%的基本语言单元,对于在原句中被抹去的词汇,80%的词汇采用一个特殊符号[MASK]替换,10%的词汇采用一个任意词替换,剩余10%的词汇保持原词汇不变,并使用句子中的其他token作为输入,来预测被mask掉的token;新增Entity

Level Masking将Basic

Level Masking中只被部分mask的实体的token全部mask起来,让模型预测整个实体;使用Phrase

Level Masking随机选择句子中的几个短语,掩码并预测同一短语中的所有基本单元。4.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述分词预处理包括:对输入的中文分为单字,英文使用BertTokenize分词器进行分词。5.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述将token转换为多种token embedding,并将多种token em...

【专利技术属性】
技术研发人员:匡平杨东升
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1