System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理中文档级关系抽取技术,尤其涉及不完全标注场景下的文档级关系抽取方法。
技术介绍
1、在信息时代的快速发展中,互联网上的数据量呈指数级增长。这些数据中蕴含着丰富的信息,而如何从这些非结构化数据中有效地提取信息并转化为可用的结构化知识,是自然语言处理领域面临的重要挑战之一。关系抽取作为信息抽取的核心任务之一,其目的是识别和提取文本中实体间的语义关系,从而支持知识图谱的构建、智能问答系统的开发等应用。
2、传统的关系抽取任务通常限于句子级别,即识别单个句子中的实体对关系。然而,随着研究的深入,跨句子甚至整个文档的关系抽取逐渐受到重视,这被称为文档级关系抽取。在这个任务中,关系可能涉及多个句子中的实体,且这些实体间的关联更为复杂。
3、在实际应用中,由于标注成本高昂且耗时,经常会遇到标注不完全的情况,即许多潜在的关系没有被明确标注出来。尽管正例未标注学习可以在不完全标注场景下取得显著的提升,但其中仍然存在着瓶颈,其性能在很大程度上取决于标注正样本的分布是否完备。由于在现实世界的数据集中,往往难以获得全面且均匀分布的正样本,这一限制成为了提升模型性能的主要障碍。因此,如何解决这一问题成为了一个重要需求。
技术实现思路
1、鉴于现有技术的局限性,本专利技术的目的是提出一种适用于不完全标注环境的正例未标注度量学习文档级关系抽取方法。
2、本专利技术采用度量学习方法,以及进行数据增强来加强模型泛化性能,即使在标注不完全的数据上也能达到较
3、本专利技术首先将正例未标注学习与度量学习结合以学习更好的表征。然后使用dropout增强来扩展标注正样本的分布。最后使用无类别关系嵌入作为伪负样本,提出一种正例-无类别mixup方法,以进一步提高模型的泛化性能。
4、通过本专利技术的方法,可以显著提高文档级关系抽取在不完全标注环境下的性能,为构建更加丰富和准确的知识体系提供强有力的技术支持。
5、实现本专利技术目的的具体技术方案是:
6、一种正例未标注度量学习文档级关系抽取方法,包括以下步骤:
7、步骤1:正例未标记度量学习
8、首先设置一个无类别关系(数据中没有这种关系),然后分别为每个正类别关系和无类别关系设置一个锚点,通过改造正负度量学习的损失函数,将带有无类别关系的文档级关系抽取转化为一种基于代理的度量学习任务,具体包括:
9、设置一个无类别关系,再为每个正类别关系和无类别关系设置一个锚点,使用softmax_norm作为度量学习的损失函数,然后通过假设未标记数据能够反映真实的整体分布将正负度量学习的损失函数改造为正例未标注度量学习期望损失,最后得到将关系抽取改为度量学习任务后的损失函数:
10、
11、其中,k是预定义类的数量,和表示类别i的第j个样本是正样本和未标记样本,和分别是类别i的正样本和未标注样本的数量,c0是无类别关系嵌入,其余ci为预定义关系嵌入,l表示softmaxnorm损失,f是嵌入,x是实例空间,πlabeled,i=p(si=+1),(1-πlabeled,i)=(1-p(si=+1))=p(si=-1),si=+1和si=-1表示第i个类别被标记或未标记,πi和(1-πi)是第i个类别的正和负先验,πlabeled,i和(1-πlabeled,i)是第i个类别被标记部分的正和负先验,,πu,i和(1-πu,i)是第i个类别未被标记部分的正和负先验。
12、步骤2:dropout扰动正例增强
13、使用dropout扰动来扩展正样本的分布转化为正样本增强正例未标注度量学习,缓解标注样本分布有偏的问题;具体包括:
14、通过在同一句子的两次前向传播中应用不同的dropout掩码,模型能够产生两个略有差异的嵌入,这两个嵌入随后被视为正样本对;代入损失函数,得到加入dropout扰动正例增强后的损失函数:
15、
16、其中,正样本x通过dropout扰动以获得x′。
17、步骤3:mixup增强与伪负样本
18、在每个类别的正负样本之间进行插值,进一步增强模型的关系抽取能力,使得模型最终抽取关系三元组的效果更好,具体包括:
19、使用无类别关系嵌入代替伪负实体对,然后通过将两个随机选取的训练样本及其标签进行凸组合,生成新的虚拟训练样本,得到正例未标注学习中mixup的损失函数:
20、
21、其中
22、fmix(x)=μf(x)+(1-μ)c0
23、μ从beta(α,α)分布中采样,μ∈[0,1]且α>0;
24、然后通过加权的形式加入到损失函数中,再使用数据近似得到最终的损失函数:
25、
26、其中v是控制正样本混合强度的超参数。
27、本专利技术的有益效果在于:
28、本专利技术具备显著的经济和技术优势。首先,通过设置无类别关系作为锚点,将文档级关系抽取转化为易于管理的度量学习任务,极大减少了对大量标注数据的需求,从而降低了数据标注成本。其次,本专利技术采用dropout扰动和mixup增强方法,有效地扩展了模型对正样本的处理能力和泛化能力,缓解了标注样本分布偏差问题。这些策略综合提升了模型在实际应用中的性能,特别是在不完全标注的数据集上,相对于传统方法实现了显著的性能提升。
本文档来自技高网...【技术保护点】
1.一种正例未标注度量学习文档级关系抽取方法,其特征在于,具体包括以下步骤:
2.如权利要求1所述的正例未标注度量学习文档级关系抽取方法,其特征在于,所述的步骤1,具体包括:
3.如权利要求1所述的正例未标注度量学习文档级关系抽取方法,其特征在于,所述的步骤2,具体包括:
4.如权利要求1所述的正例未标注度量学习文档级关系抽取方法,其特征在于,所述的步骤3,具体包括:
【技术特征摘要】
1.一种正例未标注度量学习文档级关系抽取方法,其特征在于,具体包括以下步骤:
2.如权利要求1所述的正例未标注度量学习文档级关系抽取方法,其特征在于,所述的步骤1,具体包括:
3....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。