基于孪生网络的远程监督关系抽取降噪系统技术方案

技术编号:28132600 阅读:28 留言:0更新日期:2021-04-19 11:57
本申请实施例涉及一种基于孪生网络的远程监督关系抽取降噪系统,旨在旨在降低远程监督回标训练数据的噪声影响,同时减少训练数据损失的情况。该系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;所述文本分析模块用于接收远程监督回标文本数据,输出初始候选数据和初始高可信度数据;所述关系选择器训练模块用于利用标注好的文本数据训练出基于孪生网络的关系选择器;所述关系选择模块用于对初始候选数据和初始高可信度数据进行关系选择,输出噪声数据和新增高可信度数据;所述噪声聚类模块用于对噪声数据进行聚类分析,输出新增候选数据,所述关系分类模块用于输出最后的分类结果。果。果。

【技术实现步骤摘要】
基于孪生网络的远程监督关系抽取降噪系统


[0001]本专利技术涉及自然语言处理
,尤其是涉及一种基于孪生网络的远程监督关系抽取降噪系统。

技术介绍

[0002]关系抽取是信息抽取中的一个基本任务,目的是对句子中实体对的语义关系进行预测,对于知识图谱的构建有着重要的作用。关系抽取的一个关键问题是缺乏大规模高质量的标注数据,远程监督的方法可以有效解决标注数据较少的问题,远程监督是通过将语料与知识库对齐来获取训练数据,即假设知识库中存在某一实体对,那么语料中所有含有这个实体对的句子都被标记为此实体对在知识库中对应的关系。
[0003]远程监督是一种有效的自动标注大规模训练数据的方法,但是由于其假设过于宽松,回标数据的过程中会产生大量的噪声,这些噪声数据会严重影响关系抽取的性能。基于多实例学习的方法在降噪任务上取得了不错的效果,多实例学习将相同实体对对应的实例放在同一个包中,其中一些是噪声。多实例学习选取每个包中可能性最大的实例作为真正例,每个包中剩余的实例对模型的训练没有帮助,这样就造成了大量训练数据的损失。

技术实现思路

[0004]本申请实施例提供一种基于孪生网络的远程监督关系抽取降噪系统,旨在降低远程监督回标训练数据的噪声影响,同时减少训练数据损失的情况。
[0005]本申请实施例第一方面提供一种基于孪生网络的远程监督关系抽取降噪系统,所述系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;
[0006]所述文本分析模块,用于接收待分析的远程监督回标文本数据,输出初始候选数据及初始高可信度数据;
[0007]所述关系选择器训练模块,用于接收有标注的文本数据,并训练出基于孪生网络的关系选择器,输出关系选择器模型;
[0008]所述关系选择模块,与所述文本分析模块相连,用于接收所述初始候选数据及所述高可信度数据,经过对所述初始候选数据的选择之后,输出噪声数据及新增的所述高可信度数据;
[0009]所述噪声数据聚类模块,与所述关系选择模块相连,用于接收所述关系选择模块生成的所述噪声数据,经过聚类对所述噪声数据重新进行标注,输出新增的所述候选数据;
[0010]所述关系分类模块,与所述噪声数据聚类模块相连,用于接收所述文本分析模块,所述关系选择模块以及所述噪声聚类模块的最终输出数据,通过全连接映射到关系空间,输出关系分类结果。
[0011]可选地,所述文本分析模块用于对所述远程监督回标文本数据进行向量化处理,获得所述待分析的远程监督回标文本数据中每个句子的词向量与位置向量,生成句向量;
将含有相同实体的所述句向量放在同一个包中;将每个所述包中可信度最高的句向量作为所述初始高可信度数据输出,其余句向量作为所述初始候选数据输出。
[0012]可选地,所述关系选择器训练模块具体采用孪生网络模型,输入数据包括与目标抽取数据不相关的有标注数据,所述有标注数据具有众多类别,利用所述有标注数据训练一个孪生网络模型,所述孪生网络模型即作为所述关系选择器。
[0013]可选地,将同一包中的高可信度数据实例与候选数据实例分别输入同一关系选择器通过距离计算判断两个实例是否属于同一关系,若判断结果为是同一关系,则将与所述高可信度数据实例属于同一关系的所述候选数据实例归为新增的所述高可信度数据实例;若判断结果为非同一关系,则将与所述高可信度数据实例不属于同一关系的所述候选数据实例归为噪声数据实例。
[0014]可选地,所述噪声数据聚类模块使用半监督的k均值聚类方法对所述噪声数据进行聚类分析,将所有高可信度数据作为带标签数据计算得到各个类的聚类中心,通过计算每个噪声数据实例距离聚类中心的距离,给噪声数据实例打上新的标签,获得新增的所述候选数据。
[0015]可选地,所述关系选择模块与所述噪声数据聚类模块将不断的迭代进行,直至不再产生新的所述噪声数据,或者,对所述噪声数据进行聚类分析无法得到新增的所述候选数据,最终的输出结果为所述降噪系统最终降噪后的数据。
[0016]可选地,所述噪声数据为关系选择模块在对所述候选数据进行判别结束之后产生的,但是在经过噪声数据聚类模块重新聚类之后,仍然有可能被标记为新的所述候选数据。
[0017]可选地,所述所有高可信度数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例产生初始的所述高可信度数据;其二为每一次所述关系选择模块输出的新增的所述高可信度数据。
[0018]可选地,所述侯选数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例后剩余部分数据为初始的所述候选数据;其二为每一次所述噪声聚类模块输出的新增的所述候选数据。
[0019]可选地,关系分类模块用于根据所述文本分析模块、所述关系选择模块以及所述噪声聚类模块产生的最终降噪结果,通过全连接映射到关系空间,输出最终的关系分类结果。
[0020]采用本申请提出的基于孪生网络的远程监督关系抽取降噪系统,该系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块,文本分析模块接收待分析的远程监督回标文本数据,输出初始候选数据及初始高可信度数据;关系选择器训练模块接收有标注的文本数据,训练出基于孪生网络的关系选择器,输出关系选择模型;关系选择模块接收到初始候选数据及初始高可信度数据后,对初始候选数据进行选择,输出噪声数据以及新增的高可信度数据;噪声聚类模块接收关系选择模块生成的噪声数据,对噪声数据进行聚类分析,将噪声数据重新进行标注,输出新增候选数据;关系分类模块接收到降噪完成的数据,通过全连接映射到关系空间,输出关系分类结果。使用该降噪系统对待分析的远程监督回标文本数据进行处理,关系选择器与噪声聚类模块将不断的迭代进行,直至不再产生新的数据,有效的消除了远程监督回标文本数据中的噪声数据,减少了训练数据的损失。
附图说明
[0021]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是根据一实施例示出的基于孪生网络的远程监督关系抽取降噪系统的结构示意图;
[0023]图2是根据一示例性实施例示出的关系选择器训练模块的结构示意图;
[0024]图3是根据一示例性实施例示出的关系选择模块的结构示意图;
[0025]图4是根据一示例性实施例示出的噪声数据聚类模块的结构示意图;
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]本专利技术实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生网络的远程监督关系抽取降噪系统,其特征在于,所述系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;所述文本分析模块,用于接收待分析的远程监督回标文本数据,输出初始候选数据及初始高可信度数据;所述关系选择器训练模块,用于接收有标注的文本数据,并训练出基于孪生网络的关系选择器,输出关系选择器模型;所述关系选择模块,与所述文本分析模块相连用于接收所述初始候选数据及所述高可信度数据,经过对所述初始候选数据的选择之后,输出噪声数据及新增的所述高可信度数据;所述噪声数据聚类模块,与所述关系选择模块相连,用于接收所述关系选择模块生成的所述噪声数据,经过聚类对所述噪声数据重新进行标注,输出新增的所述候选数据;所述关系分类模块,与所述噪声数据聚类模块相连,用于接收所述文本分析模块,所述关系选择模块以及所述噪声聚类模块的最终输出数据,通过全连接映射到关系空间,输出关系分类结果。2.根据权利要求1所述的降噪系统,其特征在于,所述文本分析模块用于对所述远程监督回标文本数据进行向量化处理,获得所述待分析的远程监督回标文本数据中每个句子的词向量与位置向量,生成句向量;将含有相同实体的所述句向量放在同一个包中;将每个所述包中可信度最高的句向量作为所述初始高可信度数据输出,其余句向量作为所述初始候选数据输出。3.根据权利要求1所述的降噪系统,其特征在于,所述关系选择器训练模块具体采用孪生网络模型,输入数据包括与目标抽取数据不相关的有标注数据,所述有标注数据具有众多类别,利用所述有标注数据训练一个孪生网络模型,所述孪生网络模型即作为所述关系选择器。4.根据权利要求3所述的降噪系统,其特征在于,用于利用所述有标注数据训练的所述孪生网络模型作为所述关系选择器,将同一包中的高可信度数据实例与候选数据实例分别输入同一关系选择器通过距离计算判断...

【专利技术属性】
技术研发人员:陶建华霍文帅张大伟杨国花刘通
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1