【技术实现步骤摘要】
一种命名实体识别方法、系统、存储介质及终端
[0001]本专利技术涉及实体识别
,尤其涉及一种命名实体识别方法、系统、存储介质及终端。
技术介绍
[0002]命名实体识别(NER)是自然语言处理技术中的一个子任务,目的是从一段非结构化文本料中抽取出实体并判断其标签的类别,如公共领域的实体标签:人名,地名,组织名。NER不仅作为信息提取的独立工具,而且在各种自然语言处理应用中发挥着重要作用,如知识图谱构建,问答系统等。命名实体识别的实现方法有基于规则、无监督学习、人工特征有监督、深度学习监督学习等方式。
[0003]在深度学习有监督的学习中一般有三个模块:Embedding表示,将每个token转换为词向量,代表方法有Word2Vec,训练了有CBOW、Skip
‑
gram等模型。上下文编码器,可以提取上下文语句中隐藏信息:代表模型有BILSTM、GPT、BERT等;标注解码器是NER模型的最后一部分,其将经过上下文编码器得到的表征作为输入,常用的解码器有MLP+SoftMax和CRF。
[0004]在使用预训练模型之前,普遍使用的是BILSTM+CRF实体抽取方法,需要使用如Word2Vec等方法预先训练词向量。使用预训练BERT可以先从大规模语料上学习语言模型,再在下游任务进行微调,不用预训练词向量,而且可以很好地使用预训练语料中的信息,所以在下游任务中BERT起到了举足轻重的作用。加入了BERT后,BILSTM捕捉的上下文信息在BERT中其实也蕴含了,且BiLSTM无法并行 ...
【技术保护点】
【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括以下步骤:S1、输入待识别句子,使用多种遮蔽方法对句子中单词的令牌token进行遮蔽,并训练BERT
‑
Convolution模型;S2、把长度限制为N token的句子进行分词预处理,得到符合词表的单词token,将token转换为多种token embedding,并将多种token embedding相加作为BERT
‑
Convolution模型的输入,其中N为句子长度;S3、使用BERT
‑
Convolution模型根据上下文对每个token进行词向量编码,其中,所述BERT
‑
Convolution模型中集成动态卷积和Self
‑
attention机制,对所述token embedding进行动态卷积并将卷积得到的词向量特征与自注意力机制得到的结果进行拼接;S4、BERT
‑
Convolution模型输出为N*d的词向量信息,再通过全连接层进行向量变换,输出每个实体标签的分数向量,所述d为embedding的维度;S5、将分数向量组成的分数矩阵输入到CRF层中,使用Viterbi算法进行解码,找到一条概率最大的实体标签路径,并根据所述概率最大的实体标签路径识别出句子中实体。2.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述遮蔽方法包括基本级掩蔽策略Basic
‑
Level Masking、实体掩蔽策略Entity
‑
Level Masking以及短语级策略的掩蔽Phrase
‑
Level Masking。3.根据权利要求2所述的一种命名实体识别方法,其特征在于,所述使用多种遮蔽方法对句子中单词的令牌token进行遮蔽,包括:使用Basic
‑
Level Masking随机屏蔽15%的基本语言单元,对于在原句中被抹去的词汇,80%的词汇采用一个特殊符号[MASK]替换,10%的词汇采用一个任意词替换,剩余10%的词汇保持原词汇不变,并使用句子中的其他token作为输入,来预测被mask掉的token;新增Entity
‑
Level Masking将Basic
‑
Level Masking中只被部分mask的实体的token全部mask起来,让模型预测整个实体;使用Phrase
‑
Level Masking随机选择句子中的几个短语,掩码并预测同一短语中的所有基本单元。4.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述分词预处理包括:对输入的中文分为单字,英文使用BertTokenize分词器进行分词。5.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述将token转换为多种token embedding,并将多种token em...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。