一种文本实体抽取方法技术

技术编号:22000482 阅读:21 留言:0更新日期:2019-08-31 05:28
本发明专利技术公开了一种文本实体抽取方法,本发明专利技术利用了大量语料中信息的冗余和重复,先用短语分割和远程监督的方式得到噪声较多的实体,再挖掘实体的上下文序列模式(规则),自动地得到了Snorkel的输入规则,利用Snorkel对噪声标签的容错能力,得到了质量比远程监督好的结果。循环地对模型和结果修正,逐渐去掉噪声,并得到更可靠的序列模式。本发明专利技术没有用标签样本,节省了人工;Snorkel的输入规则是自动得到的;结合远程监督、规则挖掘、snorkel,以及循环过程,递进式地改善结果、去除噪声,提高抽取质量。

A Text Entity Extraction Method

【技术实现步骤摘要】
一种文本实体抽取方法
本专利技术涉及自然语言处理
,尤其涉及一种少样本文本实体抽取方法。
技术介绍
在文本信息抽取的应用场景中,场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的现状,面对这样的现状,在模型训练的思路下,快速建立标注样本、需要更少样本或噪声更大的样本的深度模型是两个热门的研究方向,在基于抽取规则的思路下,抽取规则集的快速挖掘和建设是热门的研究方向。目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获得样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本的标注上,整体开发效率仍然低下。而在基于抽取规则的方法中,虽然不需要人工直接对样本进行标注,但是抽取规则往往需要在领域知识基础上进行大量调试,一套完全基于规则的系统可能需要上万条的规则集。为了减轻规则集的开发,规则集的挖掘和自动生成成为一个热点研究方向。Snorkel是一个从规则到模型的途径,然而它对规则集的准确性依赖性很强,且规则不是自动产生的。
技术实现思路
本专利技术结合抽取规则和模型训练的思路,提出一种少量标注样本条件下的信息抽取解决方案,无人工干预就可得到准确率较高的抽取模型。本专利技术的目的是通过以下技术方案来实现的:一种文本实体抽取方法,该方法包括以下步骤:(1)规则集的自动挖掘,包括以下子步骤:(1.1)在大量的语料上进行短语分割,得到名词短语;(1.2)用远程监督的方式对名词短语进行实体和实体类型识别;(1.3)在实体和实体类型识别的结果上挖掘出现频次高的序列模式;在序列模式中,如果原语料中的名词短语被识别为实体,则用该名词短语的实体类型替换序列模式中的该名词短语;(1.4)根据序列模式中包含的实体类型,将同义的序列模式进行聚合,得到每个语义对应的序列模式子集A;(1.5)对每个语义对应的序列模式子集A中的实体类型的层级进行调整:在序列模式聚合的结果上,对每个语义对应的序列模式子集A统计其中的实体类型层级,取最多数层级作为该子集A中的实体类型层级;(1.6)对于每种实体类型,从各子集A中找出包含该类型的序列模式,得到这种实体类型对应的序列模式子集B;(2)产生有标签数据:将每种实体类型对应的序列模式子集B作为Snorkel的输入,预测出样本的标签,即实体类型,标签带有置信度;(3)训练实体抽取回归模型:用带有置信度的标签训练实体抽取回归模型,用训练好的回归模型预测语料,得到实体识别结果;(4)返回步骤(1),用训练好的实体抽取回归模型重新预测语料,用得到的结果对步骤(1)得到的短语分割、远程监督实体识别的结果进行修正,继续剩余的步骤,重新得到实体抽取回归模型和实体识别结果;重复这一过程,直到步骤(3)得到的实体结果与上一次过程得到的结果一致。进一步地,所述步骤(1.1)中,利用AutoPhrase方法进行短语分割,得到名词短语。进一步地,所述步骤(1.3)中,在实体和实体类型识别的结果上,用PrefixSpan方法挖掘出现频次高的序列模式。进一步地,所述步骤(1.4)中,具体聚合方式如下:对序列模式集合建立图结构,图中每个顶点是一个序列模式,两个模式之间的边通过两个模式之间共同的实体类型数量、共同的上下文词数量、相同的实体抽取结果数量这三个特征来定义,基于以上三个特征训练回归模型来赋予每条边权重,用分团算法得到子图,即序列模式子集。本专利技术的有益效果是:本专利技术利用了大量语料中信息的冗余和重复,先用短语分割和远程监督的方式得到噪声较多的实体,再挖掘实体的上下文序列模式(规则),自动地得到了Snorkel的输入规则,利用Snorkel对噪声标签的容错能力,得到了质量比远程监督好的结果。循环地对模型和结果修正,逐渐去掉噪声,并得到更可靠的序列模式。本专利技术没有用标签样本,节省了人工;Snorkel的输入规则是自动得到的;结合远程监督、规则挖掘、snorkel,以及循环过程,递进式地改善结果、去除噪声,得到的结果比远程监督好。附图说明图1是本专利技术方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所述实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例,都属于本专利技术的保护范围。本专利技术在少样本的场景下,在大量的无标注样本上进行规则集的自动挖掘,利用Snorkel对规则集进行管理,并产生大量的包含噪声的带置信度的有标签数据,最后用这些数据来训练实体抽取回归模型。如图1所示,本专利技术提出的文本实体抽取方法,具体包括以下步骤:一.规则集的自动挖掘在大量的语料上,首先用AutoPhrase方法[AutoPhrase:AutomatedPhraseMiningfromMassiveTextCorpora]进行短语分割,得到名词短语;用远程监督的方式对名词短语进行实体和实体类型识别(对于英文医学文本,利用MetaMap工具可得到更好的结果);在实体和实体类型识别的结果上,用PrefixSpan方法[PrefixSpan:MiningSequentialPatternsEfficientlybyPrefix-ProjectedPatternGrowth]挖掘出现频次高的序列模式。序列模式是在通常的正则模板上增加了实体类型,例如:($MEDCINE)maybehelpfulfor($DISEASE),其中的($MEDCINE)和($DISEASE)分别表示药物、疾病实体类型,序列模式中对应位置可以是任意一种药物、疾病。在序列模式中,如果原语料中的名词短语被识别为实体,则用该名词短语的实体类型替换序列模式中的该名词短语,提高序列模式的泛化性。根据序列模式中包含的实体类型,将同义的序列模式进行聚合,得到每个语义对应的序列模式子集A,每个子集A中的模式表示相同的语义。同义的序列模式是指表达相同语义的序列模式,如“Person’sageis$Digit”和“$Person,$Digit”这两个序列模式都表达了“人的年龄是数字”这个语义。具体聚合方式如下:对序列模式集合建立图结构,图中每个顶点是一个序列模式,两个模式之间的边通过两个模式之间共同的实体类型数量、共同的上下文词数量、相同的实体抽取结果数量这三个特征来定义,基于以上三个特征训练回归模型来赋予每条边权重,用分团算法[Aprocedureforcliquedetectionusingthegroupmatrix]得到子图,即序列模式子集A。在序列模式“$Countrypresident$Politician”和“president$Politicianof$Country”中,两个模式之间共同的实体类型为$Country和$Politician,共同的实体类型数量为2,共同的上下文词为president,数量为1,相同的实体抽取结果即用这两个序列模式在语料中抽取到的实体数量,例如在$Politician类型实体的抽取中,统计抽取到的$Politician类型实体的本文档来自技高网...

【技术保护点】
1.一种文本实体抽取方法,其特征在于,该方法包括以下步骤:(1)规则集的自动挖掘,包括以下子步骤:(1.1)在大量的语料上进行短语分割,得到名词短语;(1.2)用远程监督的方式对名词短语进行实体和实体类型识别;(1.3)在实体和实体类型识别的结果上挖掘出现频次高的序列模式;在序列模式中,如果原语料中的名词短语被识别为实体,则用该名词短语的实体类型替换序列模式中的该名词短语;(1.4)根据序列模式中包含的实体类型,将同义的序列模式进行聚合,得到每个语义对应的序列模式子集A;(1.5)对每个语义对应的序列模式子集A中的实体类型的层级进行调整:在序列模式聚合的结果上,对每个语义对应的序列模式子集A统计其中的实体类型层级,取最多数层级作为该子集A中的实体类型层级;(1.6)对于每种实体类型,从各子集A中找出包含该类型的序列模式,得到这种实体类型对应的序列模式子集B;(2)产生有标签数据:将每种实体类型对应的序列模式子集B作为Snorkel的输入,预测出样本的标签,即实体类型,标签带有置信度;(3)训练实体抽取回归模型:用带有置信度的标签训练实体抽取回归模型,用训练好的回归模型预测语料,得到实体识别结果;(4)返回步骤(1),用训练好的实体抽取回归模型重新预测语料,用得到的结果对步骤(1)得到的短语分割、远程监督实体识别的结果进行修正,继续剩余的步骤,重新得到实体抽取回归模型和实体识别结果;重复这一过程,直到步骤(3)得到的实体结果与上一次过程得到的结果一致。...

【技术特征摘要】
1.一种文本实体抽取方法,其特征在于,该方法包括以下步骤:(1)规则集的自动挖掘,包括以下子步骤:(1.1)在大量的语料上进行短语分割,得到名词短语;(1.2)用远程监督的方式对名词短语进行实体和实体类型识别;(1.3)在实体和实体类型识别的结果上挖掘出现频次高的序列模式;在序列模式中,如果原语料中的名词短语被识别为实体,则用该名词短语的实体类型替换序列模式中的该名词短语;(1.4)根据序列模式中包含的实体类型,将同义的序列模式进行聚合,得到每个语义对应的序列模式子集A;(1.5)对每个语义对应的序列模式子集A中的实体类型的层级进行调整:在序列模式聚合的结果上,对每个语义对应的序列模式子集A统计其中的实体类型层级,取最多数层级作为该子集A中的实体类型层级;(1.6)对于每种实体类型,从各子集A中找出包含该类型的序列模式,得到这种实体类型对应的序列模式子集B;(2)产生有标签数据:将每种实体类型对应的序列模式子集B作为Snorkel的输入,预测出样本的标签,即实体类型,标签带有置信度;(3)训练实体抽取回归模型:用带有置信度的标签训练实体抽取回...

【专利技术属性】
技术研发人员:金霞
申请(专利权)人:成都火石创造科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1