The invention discloses a named entity recognition method based on semi-supervised learning and self-defined dictionary, which includes the following steps: S1, pre-training Bi_LSTM language model with unlabeled data; S2, vectorization of each character using word vector model in Embedding layer; S3, using two-tier bidirectional LSTM as sequence annotation model, and the sequence annotation model adopts annotation data training; Add user-defined dictionary; S5, use Viterbi decoding to find the maximum probability path in the sequence. The invention splices the output of the pre-trained language model with the output of the first layer bidirectional LSTM, and acts as the input of the second layer bidirectional LSTM to reduce the use of the tagged corpus, while replacing the tagged corpus of the new field only when switching the field. In addition, the transmission matrix into Viterbi decoding can be changed by setting up a custom dictionary when predicting, so as to achieve the effect of a custom dictionary.
【技术实现步骤摘要】
一种半监督学习结合自定义词典的命名实体识别方法
本专利技术涉及数据处理领域,面向命名实体识别技术应用,具体涉及一种半监督学习结合自定义词典的命名实体识别方法。
技术介绍
命名实体识别(NamedEntityRecognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。NER是信息检索、查询分类、自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。半监督学习(Semi-SupervisedLearning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。它的形式化描述是给定一个来自某未知分布的样例集S=LU,其中L是已标签样例集L={(x1,y1),(x2,y2),…,(x|L|,y|L|)},U是一个未标签样例集U={xc1,xc2,…,xc|U|},希望得到函数f:XyY可以准确地对样例x预测其标签y。其中xi,xc1均为d维向量,ytIY为样例xi的标签,|L|和|U|分别为L和U的大小,即所包含的样例数,半监督学习就是在样例集S上寻找最优的学习器。如果S=L,那么问题就转化为传统的有监督学习;反之,如果S=U,那么问题是转化为传统的无监督学习。如何综合利用已标签样例和未标签样例,是半监督学习需要解决的问题。自定义词典是基于用户需求的产物,不同领域和行业的 ...
【技术保护点】
1.一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,包括如下步骤:S1、用未标注数据预训练Bi‑LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi‑LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;S4、加入用户自定义词典:经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;S5、使用维特比解码求出序列中的最大概率路径:将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。
【技术特征摘要】
1.一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;S4、加入用户自定义词典:经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;S5、使用维特比解码求出序列中的最大概率路径:将步骤S4中得到的根据用户自定义词...
【专利技术属性】
技术研发人员:苏海波,高体伟,孙伟,王然,于帮付,黄伟,
申请(专利权)人:北京百分点信息科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。