一种基于bert和字词向量结合的中文命名实体识别方法技术

技术编号:35524865 阅读:24 留言:0更新日期:2022-11-09 14:45
一种基于bert和字词向量结合的中文命名实体识别方法,通过对语言模型进行预训练和微调操作提升模型的向量表征能力,之后将bert形成的字向量和Word2vec形成的词向量进行拼接并使用BiGRU和IDCNN双通道神经网络模型提取特征,加入词性特征后有效提高命名实体识别效果。充分挖掘文本的语义信息,充分提取字的上下文信息,从而产生高效的字向量表示;增强字向量的表征能力,解决短文本上下文中单个字语义信息提取不足的问题,最终提高识别准确率;能够解决循环神经网络丢失局部信息的问题,能够提取到更多重要的特征信息;可以使重要特征赋予更高的权重从而提取更重要的特征以提高最终的识别性能;能够提高实体分类效果,更好的识别实体的类别从而提高实体识别准确率。的识别实体的类别从而提高实体识别准确率。的识别实体的类别从而提高实体识别准确率。

【技术实现步骤摘要】
一种基于bert和字词向量结合的中文命名实体识别方法


[0001]本专利技术涉及自然语言处理
,更具体的是涉及一种基于bert和字词向量结合的中文命名实体识别方法。

技术介绍

[0002]近年来,深度学习技术的快速发展给自然语言处理领域内的各种任务带来了极大的便捷。在命名实体识别任务上,使用基于深度学习的序列标注模型在多个领域的数据集上取得了非常好的效果,这使得越来越多的研究人员使用深度学习方法进行命名实体识别的工作,这些工作以很小的特征工程代价却取得了比以往传统的机器学习更优异的成绩。
[0003]相较于英文命名实体识别,中文命名实体识别的研究难度更大。由于在中文文本里词语之间没有分隔符,造成了在分析文本前必须先进行分词。为了避免因为分词错误而导致识别出的实体边界错误,中文命名实体识别领域提出了通过单字进行识别,但字符级识别同样存在弊端,即未能利用文本中的词语和词语之间的特征信息。在特征提取层,循环神经网络虽然在处理序列数据方面具有优势,但其易丢失文本数据的局部信息。另外,文本中的实体大多都是名词,因此引入词性特征能够提高识别准确率。
[0004]综上所述,如何针对中文文本存在的问题选择合适的方法予以解决,提高中文文本的实体识别的准确性成为亟待解决的问题。

技术实现思路

[0005]鉴于此,为了解决上述现有技术中存在的问题,本专利技术提供了一种基于bert和字词结合的命名实体识别方法,通过对语言模型进行预训练和微调操作提升模型的向量表征能力,之后将bert形成的字向量和Word2vec形成的词向量进行拼接并使用BiGRU和IDCNN双通道神经网络模型提取特征,加入词性特征后有效提高了命名实体识别的效果。
[0006]一种基于bert和字词向量结合的中文命名实体识别方法,构建命名实体识别模型,该模型包括词嵌入层,BiGRU和IDCNN特征提取层,Self

Attention层和CRF层,包括以下步骤:
[0007]步骤1、获取文本数据作为训练语料对语言模型Word2vec进行预训练,训练完后得到词向量查找表;使用文本数据对BERT模型进行pre

training;
[0008]步骤2、对文本数据进行预处理和数据标注操作;
[0009]步骤3、将预处理完并标注好的数据输入bert模型中,得到每个字的字向量表示;
[0010]步骤4、将文本数据经过分词,通过Word2vec的词向量表得到每个词对应的词向量;
[0011]步骤5、将步骤3和步骤4得到的字向量进行拼接,得到每个字对应的最终的融合的字向量;
[0012]步骤6、将文本数据进行分词得到每个词的词性特征并编码为对应的词性向量;
[0013]步骤7、将步骤5融合得到的向量表示输入BiGRU层,循环神经网络计算如下:
[0014]σ(W
i
*[h
t
‑1,X
t
])
[0015]r
t
=σ(W
r
*[h
t
‑1,x
t
])
[0016][0017][0018]其中,σ是sigmod函数,
·
是点积,x
t
表示t时刻的输入向量,h
t
是隐藏状态也是该时刻的输出向量,包含前面t时刻所有的有效信息。z
t
是一个更新门,控制信息流入下一个时刻,r
t
是一个重置门,控制信息丢失,二者共同决定隐藏状态的输出;将融合后的向量输入IDCNN层,迭代膨胀卷积神经网络(IDCNN)由多层不同膨胀宽度的DCNN网络组成。最终得到IDCNN层的向量表示;
[0019]步骤8、将BiGRU层的隐藏向量与IDCNN层的输出向量进行拼接操作,得到新的向量表示;
[0020]步骤9、将步骤6得到的词性向量与步骤8得到的向量进行拼接操作;
[0021]步骤10、将步骤9得到的向量输入到多头注意力机制中,使用自注意力机制学习句子中任意两个字符之间的依赖关系,并捕捉句子的内部结构信息。经过注意力层的计算得到一个具有更好表征能力的向量;
[0022]步骤11、经过注意力层的输出结果经过线性层的映射之后输入到CRF层计算输入文本所有可能的标签序列的概率,选择概率最大的标签序列作为最终的预测标签。
[0023]进一步地,步骤1中,获取文本数据形成文档b.txt;对文档b.txt进行数据预处理,形成分词后的词语集;使用分词词语集对Word2vec的skip

gram模型预训练,得到词向量查找表。
[0024]进一步地,步骤1中,加载预训练好的BERT模型,加载bert_config.json、bert_model.ckpt、vocab.txt三个文件;根据Mask Language Model任务将获取到的文本数据作为训练语料对bert进行pre

training。
[0025]进一步地,步骤2中,预处理包括:过滤掉特殊字符和数据标注。
[0026]进一步地,数据标注方式采用的是BIO,B指的是一个实体的开始字符,I指的是一个实体的非开始字符,O为非实体标签。
[0027]进一步地,步骤4中,将文本数据进行全模式分词,得到句子中所有可能形成词的词语集;之后使用Word2vec词向量查找表得到每个字对应的词向量;将每个字的候选词向量进行融合形成一个词向量,得到每个字对应的最终的词向量表示。
[0028]进一步地,步骤6中,首先将文本数据进行分词,得到分词后的词语,通过词性查找表得到每个词对应的词性,之后使用one

hot编码方式将词性编码为词性向量,并将词性向量与该词对应的词向量进行拼接得到含有词性的词向量。
[0029]进一步地,步骤9中,首先将步骤6得到的向量输入到一个Dense层进行线性转换得到新的表示,同时将步骤8得到的向量输入到一个Dense层进行线性映射得到一个相同维度的表示,之后将两个变量进行向量拼接操作。
[0030]进一步地,步骤11中,设存在句子S={x1,x2,...x
n
},预测的标签序列为Y={y1,y2,...y
n
};CRF层标签标记的过程如下:
[0031]o
i
=Wh

i
+b
[0032][0033][0034]其中,h

i
为经过自注意力层后形成的新的向量表示,W为网络层的权重参数矩阵,b为偏移量矩阵,o
i
表示的是第i个字对应的各标签得分值,表示第i个字x
i
对应标签为y
i
的得分,表示标签y
i
‑1和y
i
之间的转移分数矩阵,score(S,Y)为句子S对应的标签序列Y的总本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于bert和字词向量结合的中文命名实体识别方法,构建命名实体识别模型,该模型包括词嵌入层,BiGRU和IDCNN特征提取层,Self

Attention层和CRF层,其特征在于:所述方法包括以下步骤:步骤1、获取文本数据作为训练语料对语言模型Word2vec进行预训练,训练完后得到词向量查找表;使用文本数据对BERT模型进行pre

training;步骤2、对文本数据进行预处理和数据标注操作;步骤3、将预处理完并标注好的数据输入bert模型中,得到每个字的字向量表示;步骤4、将文本数据经过分词,通过Word2vec的词向量表得到每个词对应的词向量;步骤5、将步骤3和步骤4得到的字词向量进行拼接,得到每个字对应的最终的融合的字向量;步骤6、将文本数据进行分词得到每个词的词性特征并编码为对应的词性向量;步骤7、将步骤5融合得到的向量表示输入BiGRU层,循环神经网络计算如下:σ(W
i
*[h
t
‑1,X
t
)r
t
=σ(W
r
*[h
t
‑1,x
t
])])其中,σ是sigmod函数,
·
是点积,x
t
表示t时刻的输入向量,h
t
是隐藏状态也是该时刻的输出向量,包含前面t时刻所有的有效信息。z
t
是一个更新门,控制信息流入下一个时刻,r
t
是一个重置门,控制信息丢失,二者共同决定隐藏状态的输出;将融合后的向量输入IDCNN层,迭代膨胀卷积神经网络IDCNN由多层不同膨胀宽度的DCNN网络组成;最终得到IDCNN层的向量表示;步骤8、将BiGRU层的隐藏向量与IDCNN层的输出向量进行拼接操作,得到新的向量表示;步骤9、将步骤6得到的词性向量与步骤8得到的向量进行拼接操作;步骤10、将步骤9得到的向量输入到多头注意力机制中,使用自注意力机制学习句子中任意两个字符之间的依赖关系,并捕捉句子的内部结构信息。经过注意力层的计算得到一个具有更好表征能力的向量;步骤11、经过注意力层的输出结果经过线性层的映射之后输入到CRF层计算输入文本所有可能的标签序列的概率,选择概率最大的标签序列作为最终的预测标签。2.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法,其特征在于:步骤1中,获取文本数据形成文档b.txt;对文档b.txt进行数据预处理,形成分词后的词语集;使用分词词语集对Word2vec的skip

gram模型预训练,得到词向量查找表。3.根据权利要求1所述的一种基于bert和字词向量结合的中文命名实体识别方法,其特征在于:步骤1中,加载预训练好的BERT模型,加载bert_config.json、bert_model.ckpt、vocab.txt三个文件;根据Mask ...

【专利技术属性】
技术研发人员:孙国梓陈赛李华康刘文杰黄国耀
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1