当前位置: 首页 > 专利查询>清华大学专利>正文

一种快速命名体识别方法技术

技术编号:22884275 阅读:49 留言:0更新日期:2019-12-21 07:24
本发明专利技术提出一种快速命名体识别方法,涉及命名体识别领域。该方法首先对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;对预处理完毕的文本分别进行局部信息建模和全局信息建模,得到文本字符的局部上下文表示和全局上下文表示;基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。本发明专利技术在保持命名体识别性能的前提下有效地提升了命名体识别的速度。

A fast named object recognition method

【技术实现步骤摘要】
一种快速命名体识别方法
本专利技术涉及命名体识别领域,具体涉及一种快速命名体识别方法,用于从文本中快速抽取命名实体。
技术介绍
命名体识别旨在从文本中提取命名体,并将它们分类为不同的类别,例如人员,位置和组织。例如,在句子“阿里准备去阿里工作”中,命名体识别任务的目的是将第一个“阿里”识别为人员实体,将第二个“阿里”识别为组织实体。命名体识别是自然语言处理领域的一项重要任务,也是许多下游应用程序的先决条件,例如实体链接和关系抽取,这两者对于构建和应用知识图非常重要。因此,命名体识别任务近年来受到越来越多的关注。近年来,基于深度学习的方法已在命名体识别中广泛使用。这些方法通常基于LSTM(长短时记忆网络)-CRF(条件随机场)架构及其变体。例如,Lample等人提出了一种基于LSTM-CRF的命名体识别方法,其中LSTM用于从句子的上下文信息中学习单词的隐向量表示,CRF用于捕获单词标签之间的依赖关系以进行联合标签解码。Chiu等人提出了一种基于CNN-LSTM-CRF架构的方法,其中卷积神经网络(CNN)网络用于从单词字母中学习单词的表示。彼得斯等人提出了一种基于CNN-LSTMs-CRF架构的名为TagLM的半监督命名体识别方法。他们建议将来自预训练语言模型的上下文单词向量合并到他们的模型中以增强单词表示。与英文文本不同,中文文本中的词语没有明确的分隔符如空格,来将词语进行分割。因此,中文命名体识别通常被建模为字符级序列标记问题。例如,彭等人提出了一种基于LSTM-CRF架构的中文命名体识别方法,其中LSTM网络用于从全局上下文信息中学习字符表示,并且CRF用于捕获用于标签解码的相邻标签之间的依赖性。然而,计算LSTM网络的时间复杂度非常高。此外,它也难以有效地被并行计算加速,很难通过GPU加速获益。因此,这些基于LSTM-CRF的NER方法的效率通常不令人满意。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提出一种快速命名体识别方法。该方法在保持命名体识别性能的前提下有效地提升了命名体识别的速度。本专利技术提出一种快速命名体识别方法,其特征在于,包括以下步骤:1)对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;2)对步骤1)预处理完毕的文本进行局部信息建模,得到文本字符的局部上下文表示;3)对步骤1)预处理完毕的文本进行全局信息进行建模,得到文本字符的全局上下文表示;4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。本专利技术的特点及有益效果在于:本专利技术的一种快速命名体识别方法,使用了一个CNNs-SelfAttention-CRF的框架,首先从文本中捕捉文本的局部信息,进而利用这些基于局部信息的字符表示学习基于全局信息的字符表示,并利用两种表示联合解码标签序列。该方法在保持命名体识别性能的前提下有效地提升了命名体识别的速度。附图说明图1为为本专利技术方法的整体流程图。图2为本专利技术实施例的工作原理图。具体实施方式本专利技术提出一种快速命名体识别方法,下面结合附图和具体实施例对本专利技术进一步详细说明如下。本专利技术提出一种快速命名体识别方法,整体流程如图1所示,包括以下步骤:1)对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;2)对步骤1)预处理完毕的文本进行局部信息建模,得到文本字符的局部上下文表示。进一步地,在本专利技术的一个实施例中,步骤2)包括:使用字符向量嵌入矩阵查找所述文本字符的向量表示;使用字符级别的卷积神经网络,根据字符的局部上下文学习文本字符的隐向量表示。局部信息对于实体的识别十分重要。例如,在“中美关系”中,通过字符“美”,我们可以很容易地推断,字符“中”是一个地名实体。可以理解的是,本专利技术实施例可以对通过对文本中的字符对文本局部信息进行建模,使用字符嵌入矩阵查找所述字符的语义向量表示;并使用两层字符级别的卷积神经网络,从字符的语义向量表示学习字符的局部上下文表示。具体而言,图2为本专利技术实施例的工作原理图。如图2所示,本专利技术实施例对于一个文本的字符序列[w1,w2,...,wN],需要从中建模文本局部信息的隐向量表示。通过这一个步骤,每个字符通过字符嵌入查找表被映射到一个低维向量,其中V是词汇量大小,D是嵌入维度。在模型训练期间,该字符嵌入查找表的参数可以训练。该文本字符序列被转换为向量序列[e1,e2,…,eN]。下一层是CNN(ConvolutionalNeuralNetworks,卷积神经网络)。将ci记作为i个字符由第一层卷积神经网络学到的表示,其计算方法如下:ci=ReLU(F1×e(i-k:i+k)+b1),其中e(i-k:i+k)是从位置i-k到i+k的字符嵌入向量的串联,和是CNN网络中的滤波器参数,NF1是滤波器数量,2k+1是窗口大小。ReLU是非线性激活函数。将gi记作为第i个字符的局部上下文表示,其为第二层卷积神经网络的输出,其计算方法如下:gi=ReLU(F2×c(i-t:i+t)+b2),其中c(i-t:i+t)是从位置i-t到i+t的第一层卷积神经网络输出的串联,和是CNN网络中的滤波器参数,NF2是滤波器数量,2t+1是窗口大小。CNN网络的输出是一系列字符的上下文表示,表示为[g1,g2,…,gN]。3)对步骤1)预处理完毕的文本进行全局信息建模,得到文本字符的全局上下文表示;进一步地,在本专利技术的一个实施例中,所述步骤3)包括:使用字符级的多头自我注意力机制,根据文本字符的全局上下文信息学习字符的隐向量表示。可以理解的是,本实例可以通过一个多头自我注意力机制,利用文本字符的局部上下文表示对文本的全局信息进行建模,得到文本字符的全局上下文表示。具体而言,如图2所示,在这一步骤中,多头自我注意力机制利用文本字符的局部上下文表示[g1,g2,...,gN]对文本的全局信息进行建模,得到文本字符的全局上下文表示[m1,m2,...,mM]:4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。进一步地,在本专利技术的一个实施例中,所述步骤4)包括:使用条件随机场利用文本的局部和全局上下文字符表示解码出标签,得到预测的命名实体,获取当前文本实体标注的loss函数。具体而言,如图2所示,在这一步骤中,我们首先将2)中得到的局部上下文字符表示和3)中得到的全局上下文字符表示进行拼接,得到一个信息更为全面的字符表示hj=[gj;mj]。我们通过条件随机场利用该字符表示h=[h1,h2,…,hN]计算字符序列对应于每一个标签序列y的分数。本文档来自技高网
...

【技术保护点】
1.一种快速命名体识别方法,其特征在于,包括以下步骤:/n1)对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;/n2)对步骤1)预处理完毕的文本进行局部信息建模,得到文本字符的局部上下文表示;/n3)对步骤1)预处理完毕的文本进行全局信息进行建模,得到文本字符的全局上下文表示;/n4)基于文本字符的局部上下文表示和全局上下文表示对文本字符的标签序列进行联合解码,得到得到命名体识别任务的损失函数,对损失函数进行优化,得到文本的命名体识别结果。/n

【技术特征摘要】
1.一种快速命名体识别方法,其特征在于,包括以下步骤:
1)对待识别的文本进行预处理,将文本进行分句,并转换为字符序列;
2)对步骤1)预处理完毕的文本进行局部信息建模,得到文本字符的局部上下文表示;
3)对步骤1)预...

【专利技术属性】
技术研发人员:齐涛黄永峰
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1