当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于半监督学习的开放域中文文本命名实体识别方法技术

技术编号:19341890 阅读:33 留言:0更新日期:2018-11-07 13:48
一种基于半监督学习的开放域命名实体识别方法,包括模型训练与利用模型预测两个步骤:模型训练阶段将训练集文本进行分词预处理;然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN‑CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件。

An open domain Chinese named entity recognition method based on semi supervised learning

An open domain named entity recognition method based on semi-supervised learning consists of two steps: model training and model prediction: pre-processing the training set text in the model training stage; then, using word vector space constructed by Word2vec tool, the word vectors of the distributed form of words in the training text are obtained; The KNN classifier and CRF annotator are trained with the training concentrate word vector and the entity type label of each word vector to generate the prediction model of KNN CRF named entity class. In the prediction stage, empty reliable result sets are introduced, which are added to reliable result sets whenever new prediction results are generated. When the number of reliable result sets reaches the threshold, the KNN and CRF models are discarded, the results of reliable result sets are added to the training set, and the KNN classifier and CRF annotation model are retrained; the steps mentioned above are repeated until the conditions are satisfied.

【技术实现步骤摘要】
一种基于半监督学习的开放域中文文本命名实体识别方法
:本专利技术是一种命名实体识别方法,尤其是基于半监督学习的开放域命名实体识别方法。
技术介绍
:随着信息技术的快速发展,当今社会已经迎来了数据大爆炸时期,每时每刻都会产生海量的数据,无论是个人、企业还是政府。而如何在这些数据当中提取出其中所蕴含着的对人们有价值的信息则显得至关重要。命名实体识别就是为了解决该任务而提出的一种利用计算机技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。传统的命名实体识别的做法是关键词的检索和基于相关的规则,例如通过与数据库中关键词的匹配以及固定的句式模式匹配从而提取目标数据。然而该方法的不足之处在于难以保证数据库数据的完备以及规则制定过程的费时费力,因此需要人工对其进一步的干预来得到最终所需要的信息。同时,在作为象形文字的中文的应用中,命名实体识别技术相较于英文往往来说要更有挑战性,原因可以归结为以下几点:(1)中文文本中,字与字之间没有类似英文单词间有空格,因此“词”在中文中是一种比较模糊的概念,因而确定词的分界就是命名实体识别的第一步。(2)命名实体中存在着嵌套现象。比如“南京大学计算机学院”这一组织机构名称中还嵌套着“南京大学”这一可同样作为组织机构名称的子结构。并且在机构名称中这种现象十分普遍。(3)中文词语的灵活多变,有些词语在不同的上下文中有着不同的实体类型,比如“重大”可能是作为形容词,也可以作为机构名“重庆大学”的缩写。(4)中文表达中广泛存在着缩写的表达现象,比如“南大”就是机构名“南京大学”实体的缩写表达。缩写实体的识别往往也是难点之一。
技术实现思路
:本专利技术解决的问题是,提供一种基于半监督学习的面向中文文本的开放域命名实体识别方法。本方法依托Python分词工具jieba以及tensorflow中的word2vector工具,将文本中的中文文本数据进行分词和转换为词向量,并通过KNN分类器训练CRF模型,最后将训练好的KNN模型和CRF模型进行组合来对未标注的文本执行命名实体识别的任务。针对上述技术问题,本专利技术所采取的技术方案是,一种基于半监督学习的开放域命名实体识别方法,包括以下主要过程:结果集更新、KNN分类过程和CRF标注过程;包括模型训练与利用模型预测两个步骤:1)模型训练阶段:a)将训练集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)在训练好的KNN分类器中,将用分布式表示的词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;d)训练CRF标注模型。e)结束。2)模型预测阶段:a)将测试集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值,则更新该标签给该词;d)在测试集数据经过KNN之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值,则认为标注结果可靠,加入到可靠结果集中;e)每当可靠结果集的数量达到预设值N时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程;f)结束。步骤1)-a中分词处理采用的是python中的中文分词工具jieba,目的是为了对中文文本进行分词,原因是相对于英文文本,中文文本词与词之间没有空格分隔,而分词工具的作用就是识别词与词之间的间隔。步骤1)-b中通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式,即相对于传统one-hotrepresentation表示的更加低维的实数向量,如[0.792,-0.177,-0.107,0.109,-0.542,…],维度的范围为50-100,而且词向量表示形式可以用词向量之间的欧式距离来判断词与词之间的相似性。步骤1)-c中KNN分类器的训练过程为:i.初始化KNN分类器lk为空;ii.对于训练集中每个句子t中每个词的词向量以及其标签c组合成计算出其特征向量iii.将组合加入到KNN分类器lk中:iv.若训练文本中的句子没有提取完毕,重复ii和iii步骤;v.返回训练好的KNN分类器;vi.结束。步骤1)-c中KNN分类器的预测步骤为:i.初始化nb为特征向量的上下文词向量的特征向量集合ii.计算该词向量预测的标签iii.计算词向量预测为标签c的概率iv.返回得到的预测标签和对应的概率值;v.结束。步骤1)-d中训练CRF模型的具体步骤如下:i.给定训练数据集X和对应的标记序列Y,K个特征函数fk(x,y),需要学习模型参数wk和条件概率Pw(y|x),其中wk和Pw(y|x)满足以下关系:目标转换为求解所有的模型参数wk;ii.用梯度下降法求解模型参数;iii.结束。步骤2)-d中CRF模型预测的具体步骤如下:i.输入模型的K个特征函数和对应的K个权重,观测序列x=(x1,x2,…,xn),可能的标记个数m;ii.将局部状态定义为δi(l)表示在位置i标记l各个可能取值(1,2...m)对应的非规范化概率的最大值,另一个局部状态Ψi+1(l)来记录使δi+1(l)达到最大的位置i的标记取值,这个值用来最终回溯最优解。iii.初始化Ψ1(l)=start,l=1,2,…,m;iv.对i=1,2,…,n-1进行递推:l=1,2,…,ml=1,2,...,mv.终止:vi.回溯:i=n-1,n-2,…,1;vii.得到最终标记序列结束。有益效果:本专利技术是一种基于半监督学习的开放域文本命名实体识别方法,通过将词转变为分布式形式表达的词向量作为输入,训练KNN-CRF命名实体预测模型,同时预测阶段,将已预测成功的结果加入到训练集中对预测模型进行重新训练,实现命名实体识别的半监督的学习方法,从而解决传统词袋模型丢失上下文语义的缺点,同时半监督学习的模式(不断更新作为种子的训练集)使得不依赖于规则或大量语料库进行学习的命名实体识别方法成为了可能,大大提高了命名实体识别的效率。附图说明:图1为本专利技术的方法流程图;图2为本专利技术的整体结构图。具体实施方式:为了更了解本专利技术的
技术实现思路
,特举具体实施例并配合附图说明如下。首先对训练数据进行分词处理,然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN-CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件图1是本专利技术构建预测模型的流程图。步骤0在原始文本中取出一部分(约20%)作为训练集文本,剩余的作为测试集文本数据,都进行分词处理;步骤1将分好词的训练集文本和测试集文本中的词用one-hotRepresentation的形式表示,作为word2vector工具的输入,生成分布式表示的词向量;步骤2用训练集中的词向量来本文档来自技高网
...

【技术保护点】
1.一种基于半监督学习的开放域中文文本命名实体识别方法,其特征是,包括模型训练与利用模型预测两个步骤:1)模型训练阶段:a)将训练集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)在训练好的KNN分类器中,将用分布式表示的词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;d)训练CRF标注模型。e)结束;2)模型预测阶段:a)将测试集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值,则更新该标签给该词;d)在测试集数据经过KNN之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值,则认为标注结果可靠,加入到可靠结果集中;e)每当可靠结果集的数量达到N=500时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程;f)结束。

【技术特征摘要】
1.一种基于半监督学习的开放域中文文本命名实体识别方法,其特征是,包括模型训练与利用模型预测两个步骤:1)模型训练阶段:a)将训练集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)在训练好的KNN分类器中,将用分布式表示的词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;d)训练CRF标注模型。e)结束;2)模型预测阶段:a)将测试集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值,则更新该标签给该词;d)在测试集数据经过KNN之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值,则认为标注结果可靠,加入到可靠结果集中;e)每当可靠结果集的数量达到N=500时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程;f)结束。2.根据权要求1所述的基于半监督学习的开放域中文文本命名实体识别方法,其特征是,步骤1)-a中分词处理采用的是python中的中文分词工具jieba,目的是为了对中文文本进行分词,原因是相对于英文文本,中文文本词与词之间没有空格分隔,而分词工具的作用就是识别词与词之间的间隔。3.根据权要求1所述的基于半监督学习的开放域中文文本命名实体识别方法,其特征是,步骤1)-b中通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式,即相对于传统one-hotrepresentation表示的更加低维的实数向量,如[0.792,-0.177,-0.107,0.109,-0.542,…],维度的范围为50-100,而且词向量表示形式可以用词向量之间的欧式距离来判断词与词之间的相似性。...

【专利技术属性】
技术研发人员:吴骏陈鹏飞唐思雨孙伟王崇骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1