一种文本实体抽取方法技术

技术编号：22000482 阅读：21 留言：0更新日期：2019-08-31 05:28

本发明专利技术公开了一种文本实体抽取方法，本发明专利技术利用了大量语料中信息的冗余和重复，先用短语分割和远程监督的方式得到噪声较多的实体，再挖掘实体的上下文序列模式(规则)，自动地得到了Snorkel的输入规则，利用Snorkel对噪声标签的容错能力，得到了质量比远程监督好的结果。循环地对模型和结果修正，逐渐去掉噪声，并得到更可靠的序列模式。本发明专利技术没有用标签样本，节省了人工；Snorkel的输入规则是自动得到的；结合远程监督、规则挖掘、snorkel，以及循环过程，递进式地改善结果、去除噪声，提高抽取质量。

A Text Entity Extraction Method

全部详细技术资料下载

【技术实现步骤摘要】
一种文本实体抽取方法
本专利技术涉及自然语言处理
，尤其涉及一种少样本文本实体抽取方法。
技术介绍
在文本信息抽取的应用场景中，场景多样、细化，缺少标注样本，标注样本获取成本高是工业应用上面临的现状，面对这样的现状，在模型训练的思路下，快速建立标注样本、需要更少样本或噪声更大的样本的深度模型是两个热门的研究方向，在基于抽取规则的思路下，抽取规则集的快速挖掘和建设是热门的研究方向。目前的文本信息抽取方法中，基于模型训练的方法需要大量的标注样本，虽然有一些深度模型呈现准确度越来越高，需要的标注样本量越来越少的趋势，但仍然需要一定量的标注样本才能训练得到可用的模型，在获得样本前，无法开展工作，这样的过程相当于将开发成本转嫁到样本的标注上，整体开发效率仍然低下。而在基于抽取规则的方法中，虽然不需要人工直接对样本进行标注，但是抽取规则往往需要在领域知识基础上进行大量调试，一套完全基于规则的系统可能需要上万条的规则集。为了减轻规则集的开发，规则集的挖掘和自动生成成为一个热点研究方向。Snorkel是一个从规则到模型的途径，然而它对规则集的准确性依赖性很强，且规则不是自动产生的。
技术实现思路
本专利技术结合抽取规则和模型训练的思路，提出一种少量标注样本条件下的信息抽取解决方案，无人工干预就可得到准确率较高的抽取模型。本专利技术的目的是通过以下技术方案来实现的：一种文本实体抽取方法，该方法包括以下步骤：(1)规则集的自动挖掘，包括以下子步骤：(1.1)在大量的语料上进行短语分割，得到名词短语；(1.2)用远程监督的方式对名词短语进行实体和实体类型识别；(1.3)在实体...

【技术保护点】
1.一种文本实体抽取方法，其特征在于，该方法包括以下步骤：(1)规则集的自动挖掘，包括以下子步骤：(1.1)在大量的语料上进行短语分割，得到名词短语；(1.2)用远程监督的方式对名词短语进行实体和实体类型识别；(1.3)在实体和实体类型识别的结果上挖掘出现频次高的序列模式；在序列模式中，如果原语料中的名词短语被识别为实体，则用该名词短语的实体类型替换序列模式中的该名词短语；(1.4)根据序列模式中包含的实体类型，将同义的序列模式进行聚合，得到每个语义对应的序列模式子集A；(1.5)对每个语义对应的序列模式子集A中的实体类型的层级进行调整：在序列模式聚合的结果上，对每个语义对应的序列模式子集A统计其中的实体类型层级，取最多数层级作为该子集A中的实体类型层级；(1.6)对于每种实体类型，从各子集A中找出包含该类型的序列模式，得到这种实体类型对应的序列模式子集B；(2)产生有标签数据：将每种实体类型对应的序列模式子集B作为Snorkel的输入，预测出样本的标签，即实体类型，标签带有置信度；(3)训练实体抽取回归模型：用带有置信度的标签训练实体抽取回归模型，用训练好的回归模型预测语料，得到实体...

【技术特征摘要】
1.一种文本实体抽取方法，其特征在于，该方法包括以下步骤：(1)规则集的自动挖掘，包括以下子步骤：(1.1)在大量的语料上进行短语分割，得到名词短语；(1.2)用远程监督的方式对名词短语进行实体和实体类型识别；(1.3)在实体和实体类型识别的结果上挖掘出现频次高的序列模式；在序列模式中，如果原语料中的名词短语被识别为实体，则用该名词短语的实体类型替换序列模式中的该名词短语；(1.4)根据序列模式中包含的实体类型，将同义的序列模式进行聚合，得到每个语义对应的序列模式子集A；(1.5)对每个语义对应的序列模式子集A中的实体类型的层级进行调整：在序列模式聚合的结果上，对每个语义对应的序列模式子集A统计其中的实体类型层级，取最多数层级作为该子集A中的实体类型层级；(1.6)对于每种实体类型，从各子集A中找出包含该类型的序列模式，得到这种实体类型对应的序列模式子集B；(2)产生有标签数据：将每种实体类型对应的序列模式子集B作为Snorkel的输入，预测出样本的标签，即实体类型，标签带有置信度；(3)训练实体抽取回归模型：用带有置信度的标签训练实体抽取回...

【专利技术属性】
技术研发人员：金霞，
申请(专利权)人：成都火石创造科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人