当前位置: 首页 > 专利查询>复旦大学专利>正文

一种面向中文领域大规模复杂关系数据集构建框架制造技术

技术编号:33543590 阅读:13 留言:0更新日期:2022-05-21 09:57
本发明专利技术公开了一种面向中文领域大规模复杂关系数据集构建框架,具有这样的特征,包括:数据收集模块,从原始语料库中筛选表达知识三元组的文本,构建基于远程监督的数据集合;复杂样本特征工程和种子样本选择模块,从基于远程监督的数据集合中选出符合八类特征的复杂样本,组成高优种子样本集合;复杂样本发现模块,基于高优种子样本集合,预测输入数据属于复杂样本的置信度分数,按照分数从高到低排序,并选择头部的样本构建数据集;众包标注模块,对数据集进行数据标注,得到数据集的所有样本的高质量三元组标签。样本的高质量三元组标签。样本的高质量三元组标签。

【技术实现步骤摘要】
一种面向中文领域大规模复杂关系数据集构建框架


[0001]本专利技术涉及关系抽取领域,具体涉及一种面向中文领域大规模复杂关系数据集构建框架。

技术介绍

[0002]关系抽取是自然语言处理的核心任务之一,是知识图谱的构建的基础环节,决定着下游任务的性能,如问答系统、推荐系统等。关系抽取旨在从非结构化文本中抽取出结构化关系事实,如从“北京是中国的首都”可抽取关系事实(北京,首都,中国)。如果数据集中缺少数据类型,模型就无法习得这种模式。关系抽取数据集是训练关系抽取模型的基础资源,数据集的规模、质量严重制约着抽取模型的性能。因此,关系抽取数据集的构建是关系抽取模型的动力源头,是构建高效、准确系统的重要组成部分。
[0003]当前,已经发布了一些关系抽取数据集,根据句子的长度可分为两类,即句子级别、文档级别。句子级别的关系抽取数据集主要有SemEval

2010 Task8、ACE05、TACRED等,其中以SemEval

2010 Task8和ACE05为代表的数据集大多是通过设定标注准则,人工从文本中标注三元组。以TACRED为代表的数据集依靠众包标注完成构建任务,但未考虑众包人员因自身因素引入的噪声问题。文档级别的关系抽取数据集主要有DocRED等,该数据集是为了推进文档级关系抽取的研究进度,通过设定标注原则,发布众包任务,并引入了物质奖励,完成数据集构建任务。无论是文档级还是句子级的关系抽取数据集都有共同的缺陷,即构建周期长,人力成本大。此外,上述数据集主要面向科学研究,提升模型的性能,推动领域发展。但真实场景中数据往往含有很多干扰词,实体间关系隐式表达等,使得在学术标准数据集取得优异表现的模型难以在真实场景中适用。因此,构建一个面向中文领域的复杂关系抽取数据集衡量模型在真实场景中的性能是很有必要的。
[0004]当前,一些关系抽取模型在学术标准数据集WebNLG和NYT均取得了优异的性能,如NovelTagging、CopyRE、GraphRel和CasRel等。其中最优异的模型CasRel在WebNLG和NYT上的F1指标分别达到了91.8%和89.6%。但这优异的指标并不能证明抽取模型在实际场景中有着出色的应用效果。CasRel模型在学术标准数据集WebNLG和实际应用数据集DuIE上进行抽取性能对比评估的结果表明,当数据集从WebNLG切换到DuIE时,CasRel模型的F1指标从89.3%骤降至62.8%。最主要的原因是实际应用中的数据往往存在着更多的复杂样本,而现有实体关系抽取模型并不能很好地解决。如CasRel能够非常准确的从WebNLG中样本“Elliot See was born on July 23rd,1927in Dallas,and died in St.Louis on February 28th,1966.”抽取出人物“Elliot See”的出生地和死亡地分别是“Dallas”和“St.Louis”,因为,上下文中出现了关系指示词“born”和“died”。但DuIE中的样本“Yang Jima(1986

),...,is a student of 2005in the Department of

,Communication University of China...In the semifinal of the Chinese Idol Show,Yang excellently performed the Lhasa Ballad,which was recognizedby thejudges and the audience.As a result,she got to the final competition.”没有显式指出

graduate”,CasRel无法得到“Yang Jima”的毕业院校是“Communication University ofChina”。此外,从百度百科实体对应的文本摘要中,随机采样500条样本统计得到,40.1%的三元组知识是包含在复杂的文本信息中的,并不能通过简单的模式识别抽取得到。因此,一个用来评测深度模型在实际应用场景中性能的复杂关系抽取数据集是十分重要的。
[0005]近期,虽已发布了一些关系抽取数据集,但是这些数据集没有重点关注实际应用中存在的大量且多样的复杂样本,且严重依赖人工标注,构建周期长。

技术实现思路

[0006]本专利技术是为了解决上述问题而进行的,目的在于提供一种面向中文领域大规模复杂关系数据集构建框架。
[0007]本专利技术提供了一种面向中文领域大规模复杂关系数据集构建框架,具有这样的特征,包括:数据收集模块,从原始语料库中筛选表达知识三元组的文本,构建基于远程监督的数据集合;复杂样本特征工程和种子样本选择模块,从基于远程监督的数据集合中选出符合八类特征的复杂样本,组成高优种子样本集合;复杂样本发现模块,基于高优种子样本集合,预测输入数据属于复杂样本的置信度分数,按照分数从高到低排序,并选择头部的样本构建数据集;众包标注模块,对数据集进行数据标注,得到数据集的所有样本的高质量三元组标签。
[0008]在本专利技术提供的面向中文领域大规模复杂关系数据集构建框架中,还可以具有这样的特征:其中,数据收集模块从原始语料库中获取大量的文本和知识三元组,利用自动机匹配算法,筛选出同时满足以下条件的文本:(1)同时包含两个及以上的实体(实体来自于所有的知识三元组);(2)在提及的多个实体中,至少有两个实体存在于同一三元组中。基于远程监督假设和匹配过滤,获取文本和知识三元组,具体步骤如下:步骤1

1,从原始语料库中获得知识三元组信息和文本;步骤1

2,使用自然语言处理工具包,对获得的文本进行实体识别,得到文本提及的实体;步骤1

3,确认文本提及的实体在知识三元组信息中是否存在关系,并将存在关系的文本和知识三元组信息筛选出来,构建基于远程监督的数据集合。
[0009]在本专利技术提供的面向中文领域大规模复杂关系数据集构建框架中,还可以具有这样的特征:其中,复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种子样本选择部,复杂样本特征工程部主要针对复杂样本中的八类特征进行启发式特征工程,得到对应维度上的特征值,以区分常规样本和复杂样本,复杂种子样本选择部基于特征值进行复杂种子样本选择,特征值包括文本长度特征值、实体间距特征值、干扰词特征值、语义相似关系特征值、隐式表达特征值、同类实体数量特征值、三元组数量特征值以及三元组重叠特征值。
[0010]在本专利技术提供的面向中文领域大规模复杂关系数据集构建框架中,还可以具有这样的特征:其中,文本长度特征值的确定方式为:以字为单位度量文本长度,以文本中字的数量作为文本长度特征值,实体间距特征值的确定方式为:在文本中找到实体所有的出现位置后,以最近邻的两处位置之间的文本长度作为实体间距特征值,中文按照字计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向中文领域大规模复杂关系数据集构建框架,其特征在于,包括:数据收集模块,从原始语料库中筛选表达知识三元组的文本,构建基于远程监督的数据集合;复杂样本特征工程和种子样本选择模块,从所述基于远程监督的数据集合中选出符合八类特征的复杂样本,组成高优种子样本集合;复杂样本发现模块,基于所述高优种子样本集合,预测输入数据属于复杂样本的置信度分数,按照分数从高到低排序,并选择头部的样本构建数据集;众包标注模块,对所述数据集进行数据标注,得到所述数据集的所有样本的高质量三元组标签。2.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架,其特征在于:其中,所述数据收集模块从所述原始语料库中获取大量的文本和知识三元组,利用自动机匹配算法,筛选出同时满足以下条件的文本:(1)同时包含两个及以上的实体(实体来自于所有的知识三元组);(2)在提及的多个实体中,至少有两个实体存在于同一三元组中,基于远程监督假设和匹配过滤,获取所述文本和所述知识三元组,具体步骤如下:步骤1

1,从原始语料库中获得知识三元组信息和文本;步骤1

2,使用自然语言处理工具包,对获得的所述文本进行实体识别,得到文本提及的实体;步骤1

3,确认所述文本提及的实体在所述知识三元组信息中是否存在关系,并将存在关系的所述文本和所述知识三元组信息筛选出来,构建所述基于远程监督的数据集合。3.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架,其特征在于:其中,所述复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种子样本选择部,所述复杂样本特征工程部主要针对复杂样本中的八类特征进行启发式特征工程,得到对应维度上的特征值,以区分常规样本和复杂样本,所述复杂种子样本选择部基于所述特征值进行复杂种子样本选择,所述特征值包括文本长度特征值、实体间距特征值、干扰词特征值、语义相似关系特征值、隐式表达特征值、同类实体数量特征值、三元组数量特征值以及三元组重叠特征值。4.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架,其特征在于:其中,所述文本长度特征值的确定方式为:以字为单位度量文本长度,以文本中字的数量作为所述文本长度特征值,所述实体间距特征值的确定方式为:在文本中找到实体所有的出现位置后,以最近邻的两处位置之间的文本长度作为所述实体间距特征值,中文按照字计算,英文按照单词计算。5.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架,其特征在于:其中,利用预定义的关系辅助信息表进行所述干扰词特征值、所述隐式表达特征值以及所述语义相似关系特征值的构建,所述预定义的关系辅助信息包括关系、语义相似关系、显式表达以及干扰词,所述干扰词特征值的确定过程为:遍历三元组中的关系,从辅助信息表中获得对应关
系的所有干扰词,如果文本中存在任一干扰词,则样本存在干扰词特征值置为true,否则置为flase,所述隐式表达特征值的确定过程为:针对文本中提及的所有关系,依次判断是否存在显式表达语法模式,则隐式表达特征值置为flase,否则置为true,所述语义相似关系特征值的确定过程为:如果远程监督三元组包含的所有关系中,存在预定义的语义相似关系,则语义相似关系特征值置为true,否则置为flase,所述隐式表达特征值和所述语义相似关系特征值都是布尔类型,指示样本是否符合对应类型的复杂特征。6.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架,其特征在于:其中,所述同类实体数量特征值的确定过程为:根据自然语言处理工具包TexSmart的输出结果和预定义辅助信息合并不同关系三元组中的同类实体,统计各类型实体数量,取其中最大值为所述同类实体数量特征值,所述三元组数量特征值的确定过程为:根据识别的实体数量计算,假设文本中提及实体的数量为n,考虑到关系的有向性,三元组数量的特征值置为n
·
(n

1),所述三元组重叠特征值的确定过程为:直接统计远程监督的三元组中,存在Entity Pair Overlap和Single Entity Overlap的数量总和。7.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架,其特征在于:其中,所述复杂种子样本选择部将基于计算得到的所述特征值进行复杂种子样本选择,具体过程为:步骤2

1,直接从基于远程监督的数据集合中过滤不满足任一复杂特征的样本,对于布尔类型的特征如果为true,则视为满足对应的复杂特征,对于连续值类型的特征,按照人工设置的最低阈值进行初步过滤,经过复杂样本筛选器后,保留的数据构成了复杂样本候选数据集;步骤2

2,从所述复杂样本候选数据集中随机采样多个样本,并在给定上下文和特征的情况下,选择复杂样本,构成复杂样本数据集,并标记负样本数据集和未标注数据集,最终筛选组成所述高优种子样本集合,步骤2

1中,阈值设定为所述文本长度特征值≥40、所述实体间距特征值≥10、所述同类实体数量特征值≥3、所述三元...

【专利技术属性】
技术研发人员:赵津程俏童翰文肖仰华
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1