一种面向中文领域大规模复杂关系数据集构建框架制造技术

技术编号：33543590 阅读：13 留言：0更新日期：2022-05-21 09:57

本发明专利技术公开了一种面向中文领域大规模复杂关系数据集构建框架，具有这样的特征，包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对数据集进行数据标注，得到数据集的所有样本的高质量三元组标签。样本的高质量三元组标签。样本的高质量三元组标签。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文领域大规模复杂关系数据集构建框架

[0001]本专利技术涉及关系抽取领域，具体涉及一种面向中文领域大规模复杂关系数据集构建框架。

技术介绍

[0002]关系抽取是自然语言处理的核心任务之一，是知识图谱的构建的基础环节，决定着下游任务的性能，如问答系统、推荐系统等。关系抽取旨在从非结构化文本中抽取出结构化关系事实，如从“北京是中国的首都”可抽取关系事实(北京，首都，中国)。如果数据集中缺少数据类型，模型就无法习得这种模式。关系抽取数据集是训练关系抽取模型的基础资源，数据集的规模、质量严重制约着抽取模型的性能。因此，关系抽取数据集的构建是关系抽取模型的动力源头,是构建高效、准确系统的重要组成部分。
[0003]当前，已经发布了一些关系抽取数据集，根据句子的长度可分为两类，即句子级别、文档级别。句子级别的关系抽取数据集主要有SemEval
‑
2010 Task8、ACE05、TACRED等，其中以SemEval
‑
2010 Task8和ACE05为代表的数据集大多是通过设定标注准则，人工从文本中标注三元组。以TACRED为代表的数据集依靠众包标注完成构建任务，但未考虑众包人员因自身因素引入的噪声问题。文档级别的关系抽取数据集主要有DocRED等，该数据集是为了推进文档级关系抽取的研究进度，通过设定标注原则，发布众包任务，并引入了物质奖励，完成数据集构建任务。无论是文档级还是句子级的关系抽取数据集都有共同的缺陷，即构建周期长，人力成本大。此外，上述数据集主要面向科学研究...

【技术保护点】

【技术特征摘要】
1.一种面向中文领域大规模复杂关系数据集构建框架，其特征在于，包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从所述基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于所述高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对所述数据集进行数据标注，得到所述数据集的所有样本的高质量三元组标签。2.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述数据收集模块从所述原始语料库中获取大量的文本和知识三元组，利用自动机匹配算法，筛选出同时满足以下条件的文本：(1)同时包含两个及以上的实体(实体来自于所有的知识三元组)；(2)在提及的多个实体中，至少有两个实体存在于同一三元组中，基于远程监督假设和匹配过滤，获取所述文本和所述知识三元组，具体步骤如下：步骤1
‑
1，从原始语料库中获得知识三元组信息和文本；步骤1
‑
2，使用自然语言处理工具包，对获得的所述文本进行实体识别，得到文本提及的实体；步骤1
‑
3，确认所述文本提及的实体在所述知识三元组信息中是否存在关系，并将存在关系的所述文本和所述知识三元组信息筛选出来，构建所述基于远程监督的数据集合。3.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种子样本选择部，所述复杂样本特征工程部主要针对复杂样本中的八类特征进行启发式特征工程，得到对应维度上的特征值，以区分常规样本和复杂样本，所述复杂种子样本选择部基于所述特征值进行复杂种子样本选择，所述特征值包括文本长度特征值、实体间距特征值、干扰词特征值、语义相似关系特征值、隐式表达特征值、同类实体数量特征值、三元组数量特征值以及三元组重叠特征值。4.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述文本长度特征值的确定方式为：以字为单位度量文本长度，以文本中字的数量作为所述文本长度特征值，所述实体间距特征值的确定方式为：在文本中找到实体所有的出现位置后，以最近邻的两处位置之间的文本长度作为所述实体间距特征值，中文按照字计算，英文按照单词计算。5.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，利用预定义的关系辅助信息表进行所述干扰词特征值、所述隐式表达特征值以及所述语义相似关系特征值的构建，所述预定义的关系辅助信息包括关系、语义相似关系、显式表达以及干扰词，所述干扰词特征值的确定过程为：遍历三元组中的关系，从辅助信息表中获得对应关
系的所有干扰词，如果文本中存在任一干扰词，则样本存在干扰词特征值置为true，否则置为flase，所述隐式表达特征值的确定过程为：针对文本中提及的所有关系，依次判断是否存在显式表达语法模式，则隐式表达特征值置为flase，否则置为true，所述语义相似关系特征值的确定过程为：如果远程监督三元组包含的所有关系中，存在预定义的语义相似关系，则语义相似关系特征值置为true，否则置为flase，所述隐式表达特征值和所述语义相似关系特征值都是布尔类型，指示样本是否符合对应类型的复杂特征。6.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述同类实体数量特征值的确定过程为：根据自然语言处理工具包TexSmart的输出结果和预定义辅助信息合并不同关系三元组中的同类实体，统计各类型实体数量，取其中最大值为所述同类实体数量特征值，所述三元组数量特征值的确定过程为：根据识别的实体数量计算，假设文本中提及实体的数量为n，考虑到关系的有向性，三元组数量的特征值置为n
·
(n
‑
1)，所述三元组重叠特征值的确定过程为：直接统计远程监督的三元组中，存在Entity Pair Overlap和Single Entity Overlap的数量总和。7.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：其中，所述复杂种子样本选择部将基于计算得到的所述特征值进行复杂种子样本选择，具体过程为：步骤2
‑
1，直接从基于远程监督的数据集合中过滤不满足任一复杂特征的样本，对于布尔类型的特征如果为true，则视为满足对应的复杂特征，对于连续值类型的特征，按照人工设置的最低阈值进行初步过滤，经过复杂样本筛选器后，保留的数据构成了复杂样本候选数据集；步骤2
‑
2，从所述复杂样本候选数据集中随机采样多个样本，并在给定上下文和特征的情况下，选择复杂样本，构成复杂样本数据集，并标记负样本数据集和未标注数据集，最终筛选组成所述高优种子样本集合，步骤2
‑
1中，阈值设定为所述文本长度特征值≥40、所述实体间距特征值≥10、所述同类实体数量特征值≥3、所述三元...

【专利技术属性】
技术研发人员：赵津，程俏，童翰文，肖仰华，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人