一种半监督学习结合自定义词典的命名实体识别方法技术

技术编号:21299511 阅读:35 留言:0更新日期:2019-06-12 07:54
本发明专利技术公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi‑LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明专利技术将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。

A Named Entity Recognition Method Based on Semi-supervised Learning and Custom Dictionary

The invention discloses a named entity recognition method based on semi-supervised learning and self-defined dictionary, which includes the following steps: S1, pre-training Bi_LSTM language model with unlabeled data; S2, vectorization of each character using word vector model in Embedding layer; S3, using two-tier bidirectional LSTM as sequence annotation model, and the sequence annotation model adopts annotation data training; Add user-defined dictionary; S5, use Viterbi decoding to find the maximum probability path in the sequence. The invention splices the output of the pre-trained language model with the output of the first layer bidirectional LSTM, and acts as the input of the second layer bidirectional LSTM to reduce the use of the tagged corpus, while replacing the tagged corpus of the new field only when switching the field. In addition, the transmission matrix into Viterbi decoding can be changed by setting up a custom dictionary when predicting, so as to achieve the effect of a custom dictionary.

【技术实现步骤摘要】
一种半监督学习结合自定义词典的命名实体识别方法
本专利技术涉及数据处理领域,面向命名实体识别技术应用,具体涉及一种半监督学习结合自定义词典的命名实体识别方法。
技术介绍
命名实体识别(NamedEntityRecognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。NER是信息检索、查询分类、自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。半监督学习(Semi-SupervisedLearning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。它的形式化描述是给定一个来自某未知分布的样例集S=LU,其中L是已标签样例集L={(x1,y1),(x2,y2),…,(x|L|,y|L|)},U是一个未标签样例集U={xc1,xc2,…,xc|U|},希望得到函数f:XyY可以准确地对样例x预测其标签y。其中xi,xc1均为d维向量,ytIY为样例xi的标签,|L|和|U|分别为L和U的大小,即所包含的样例数,半监督学习就是在样例集S上寻找最优的学习器。如果S=L,那么问题就转化为传统的有监督学习;反之,如果S=U,那么问题是转化为传统的无监督学习。如何综合利用已标签样例和未标签样例,是半监督学习需要解决的问题。自定义词典是基于用户需求的产物,不同领域和行业的用户对实体有不同的定义和理解,因此有的词在某些用户看来是实体,而对其他用户来说,可能不是实体。因此用户自定义词典是很有必要的,通过词典可以提高命名实体识别的准确率,使其更符合用户的需求。
技术实现思路
针对现有技术的不足,本专利技术旨在提供一种半监督学习结合自定义词典的命名实体识别方法。为了实现上述技术目的,本专利技术采用如下技术方案:一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;S4、加入用户自定义词典:经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;S5、使用维特比解码求出序列中的最大概率路径:将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。进一步地,步骤S2中,所述字向量模型为word2vec模型。更进一步地,步骤S2中,具体采用Skip-gram方法进行字向量模型训练。再进一步地,采用Skip-gram方法进行字向量模型训练的具体步骤为:(1)首先收集应用领域相关的均衡语料;(2)针对步骤(1)收集的语料数据作预处理,包括过滤掉垃圾数据、停低频字和无意义符号,以及整理成训练数据的格式,得到训练数据;(3)将训练数据送给Skip-gram模型,训练得到字向量模型。本专利技术的有益效果在于:基于预训练语言模型(PretrainedLanguageModel)、字符嵌入(charembeddings)技术、自定义词典技术、半监督训练(Semi-SupervisedLearning)、双向LSTM(LongShortTermMemory,长短时记忆模型)网络、CRF(ConditionalRandomField,条件随机场)模型等,来实现半监督学习的NER训练。通过以上方法和特殊的网络结构将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入。通过此方法,可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。附图说明图1为本专利技术实施例的方法流程示意图;图2为本专利技术实施例中Bi-LSTM语言模型的网络示意图;图3为本专利技术实施例中常用的word2vec训练模型CBOW示意图;图4为本专利技术实施例中常用的word2vec训练模型skip-gram模型示意图;图5为本专利技术实施例中字向量模型训练的流程示意图;图6为本专利技术实施例中序列标注模型示意图。具体实施方式以下将结合附图对本专利技术作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围并不限于本实施例。以下对本实施例涉及的专业术语作简单解释:命名实体识别:从给定文本数据中识别出特定专有名词,如人名、地名、机构名、时间词、产品名等。Word2vec:是google公司开发的算法,通过无监督训练,将词变成一个几百维的向量,这种向量可以捕捉词语之间的语义相关性。也叫词向量或者词嵌入。Tensorflow:Tensorflow是google开源的深度学习平台,提供了丰富的接口、多平台(CPU、GPU、HADOOP)和分布式支持、可视化监控。Skip-gram:Google用来在大数据上训练Wordvec采用方法,它通过当前词预测周围的词得到训练目标函数。LSTM:LSTM(LongShort-TermMemory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留,有效解决了传统循环神经网络长路径依赖问题。CRF:CRF(ConditionalRandomField)条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。CRF采用马尔科夫链作为隐含变量的概率转移模型,通过可观测状态判别隐含变量,属于判别模型。半监督学习:半监督学习(Semi-SupervisedLearning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。自定义词典:用户自定义词典是在进行NER提取的时候,用户希望提取的特殊实体,通过设置词典的方式,确保其会提取出来。本实施例提供一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;采用预训练的Bi-LSTM语言模型有以下优点:1)减少标注语料的需求量,语言模型的主要作用就是特征的自动抽取,采用未标注数据进行预训练,提前得到每个字符的语义信息。2)减少了模型的训练时间,由于提前进行的预训练,减少了用标注数据进行训练的时间。本专利技术采用Bi-LSTM模型来进行语言模型的训练,是无监督学习的方法,不需要本文档来自技高网
...

【技术保护点】
1.一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,包括如下步骤:S1、用未标注数据预训练Bi‑LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi‑LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;S4、加入用户自定义词典:经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;S5、使用维特比解码求出序列中的最大概率路径:将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。

【技术特征摘要】
1.一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,包括如下步骤:S1、用未标注数据预训练Bi-LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;S4、加入用户自定义词典:经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;S5、使用维特比解码求出序列中的最大概率路径:将步骤S4中得到的根据用户自定义词...

【专利技术属性】
技术研发人员:苏海波高体伟孙伟王然于帮付黄伟
申请(专利权)人:北京百分点信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1