An open domain named entity recognition method based on semi-supervised learning consists of two steps: model training and model prediction: pre-processing the training set text in the model training stage; then, using word vector space constructed by Word2vec tool, the word vectors of the distributed form of words in the training text are obtained; The KNN classifier and CRF annotator are trained with the training concentrate word vector and the entity type label of each word vector to generate the prediction model of KNN CRF named entity class. In the prediction stage, empty reliable result sets are introduced, which are added to reliable result sets whenever new prediction results are generated. When the number of reliable result sets reaches the threshold, the KNN and CRF models are discarded, the results of reliable result sets are added to the training set, and the KNN classifier and CRF annotation model are retrained; the steps mentioned above are repeated until the conditions are satisfied.
【技术实现步骤摘要】
一种基于半监督学习的开放域中文文本命名实体识别方法
:本专利技术是一种命名实体识别方法,尤其是基于半监督学习的开放域命名实体识别方法。
技术介绍
:随着信息技术的快速发展,当今社会已经迎来了数据大爆炸时期,每时每刻都会产生海量的数据,无论是个人、企业还是政府。而如何在这些数据当中提取出其中所蕴含着的对人们有价值的信息则显得至关重要。命名实体识别就是为了解决该任务而提出的一种利用计算机技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。传统的命名实体识别的做法是关键词的检索和基于相关的规则,例如通过与数据库中关键词的匹配以及固定的句式模式匹配从而提取目标数据。然而该方法的不足之处在于难以保证数据库数据的完备以及规则制定过程的费时费力,因此需要人工对其进一步的干预来得到最终所需要的信息。同时,在作为象形文字的中文的应用中,命名实体识别技术相较于英文往往来说要更有挑战性,原因可以归结为以下几点:(1)中文文本中,字与字之间没有类似英文单词间有空格,因此“词”在中文中是一种比较模糊的概念,因而确定词的分界就是命名实体识别的第一步。(2)命名实体中存在着嵌套现象。比如“南京大学计算机学院”这一组织机构名称中还嵌套着“南京大学”这一可同样作为组织机构名称的子结构。并且在机构名称中这种现象十分普遍。(3)中文词语的灵活多变,有些词语在不同的上下文中有着不同的实体类型,比如“重大”可能是作为形容词,也可以作为机构名“重庆大学”的缩写。(4)中文表达中广泛存在着缩写的表达现象,比如“南大”就是机构名“南京大学”实体的缩写表达。缩写实体的识别往往也是难点之一。
技术实现思路
...
【技术保护点】
1.一种基于半监督学习的开放域中文文本命名实体识别方法,其特征是,包括模型训练与利用模型预测两个步骤:1)模型训练阶段:a)将训练集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)在训练好的KNN分类器中,将用分布式表示的词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;d)训练CRF标注模型。e)结束;2)模型预测阶段:a)将测试集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值,则更新该标签给该词;d)在测试集数据经过KNN之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值,则认为标注结果可靠,加入到可靠结果集中;e)每当可靠结果集的数量达到N=500时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程;f)结束。
【技术特征摘要】
1.一种基于半监督学习的开放域中文文本命名实体识别方法,其特征是,包括模型训练与利用模型预测两个步骤:1)模型训练阶段:a)将训练集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)在训练好的KNN分类器中,将用分布式表示的词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;d)训练CRF标注模型。e)结束;2)模型预测阶段:a)将测试集文本进行分词预处理;b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;c)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值,则更新该标签给该词;d)在测试集数据经过KNN之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值,则认为标注结果可靠,加入到可靠结果集中;e)每当可靠结果集的数量达到N=500时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程;f)结束。2.根据权要求1所述的基于半监督学习的开放域中文文本命名实体识别方法,其特征是,步骤1)-a中分词处理采用的是python中的中文分词工具jieba,目的是为了对中文文本进行分词,原因是相对于英文文本,中文文本词与词之间没有空格分隔,而分词工具的作用就是识别词与词之间的间隔。3.根据权要求1所述的基于半监督学习的开放域中文文本命名实体识别方法,其特征是,步骤1)-b中通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式,即相对于传统one-hotrepresentation表示的更加低维的实数向量,如[0.792,-0.177,-0.107,0.109,-0.542,…],维度的范围为50-100,而且词向量表示形式可以用词向量之间的欧式距离来判断词与词之间的相似性。...
【专利技术属性】
技术研发人员:吴骏,陈鹏飞,唐思雨,孙伟,王崇骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。