一种基于多粒度对比学习的远程监督关系抽取方法技术

技术编号：42763537 阅读：9 留言：0更新日期：2024-09-18 13:49

本发明专利技术提供了一种基于多粒度对比学习的远程监督关系抽取方法，涉及信息抽取技术领域，方法包括：获取数据样本中的句子；将句子分割为单词序列；向单词序列的头部和尾部分别进行标记，得到标记后的句子；利用双向编码器得到初始句子特征；利用正例对编码器得到初始正样本特征；根据图编码器得到关系和实体对的约束特征并将约束特征融合到对应的初始句子特征和初始正样本特征中，得到增强句子特征和增强正样本特征；将增强句子特征融合为包级特征；将包级特征和增强正样本特征输入对比学习关系分类器，对数据样本的关系进行抽取，得到分类关系。本发明专利技术解决了忽略不同层级特征之间的交互导致关系抽取的准确性和效率低及长尾关系抽取能力弱的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息抽取，特别是涉及一种基于多粒度对比学习的远程监督关系抽取方法。

技术介绍

1、关系抽取是自然语言处理中的一项基础任务，也是信息提取的关键子任务。关系抽取的目的是从文本中自动识别实体(如人名、地点、组织等)以及实体间的语义关系，这些关系通常以[头实体、关系、尾实体]的三元组形式或是[主语、谓语、宾语]的结构表示。关系抽取任务获得的语义信息能够为知识图谱构建、信息检索、智能问答系统等提供支持，是推动语义网和人工智能发展的关键技术之一。

2、不过，有监督的关系抽取方法存在明显的瓶颈，这类方法往往依赖大量手工标注的文本数据。但在大数据的时代背景下，人工标注过程不仅耗时耗力，而且成本高昂。此外，随着知识的日益扩展和更新，手工标注的数据集很快就会变得过时，无法满足实时更新的需求。因此，远程监督方法被应用到关系抽取任务中。

3、远程监督是一种将结构化知识库与非结构化语料库进行配对，以自动生成标注数据的方法(例如图1)。远程监督遵循一个基本假设：如果两个实体在知识库中有关系记录，那么任何包含这两个实体的文本都可能表达这种关系。这种假设允许远程监督使用已有的结构化知识库(如freebase、wikidata等)自动标注文本数据，降低了手动标注的工作量，有助于训练数据的扩展和更新，使关系抽取模型能够在大量数据上进行训练，提高了关系抽取的可扩展性和效率。

4、尽管远程监督方法能够自动标注训练数据，但是也会产生错误标注的问题。因为在现实世界的数据集中，不是所有包含特定实体对的句子都准确表达了知识库中

5、为了减轻噪声数据对模型性能的负面影响，过去的研究主要采用基于多实例学习和注意力机制相结合的远程监督关系抽取方法。例如，zeng等人首次在远程监督关系抽取领域中将多实例学习和深度学习神经网络结合起来，降低了远程监督数据集中错误标签对于模型的负面影响。多实例学习允许从包含多个文本实例的“实例包”(bag)中学习实体关系，从而削弱了噪声标注的负面影响。然而，基于多实例学习的远程监督关系抽取模型往往处理的数据粒度较粗，重点放在包级别的表示上，未充分利用其他级别的信息，并忽略了不同层次特征之间交互的重要性。这种策略导致数据利用效率较低，因为其他层次特征的语义信息和实体关系间的结构化信息未得到充分挖掘。

6、在关系抽取任务中，模型通常利用上下文信息来理解实体之间的关系。如果只关注一个层级的特征信息，将会忽略其他层级的信息，导致信息丢失。例如，句子级特征可以提供句子结构信息和实体之间的语义信息，而包级特征则可以提供关系三元组所处的语境和背景信息。只利用一个层级的特征信息会丢失另一个级别的特征信息，从而无法捕捉到实体之间更复杂的语义信息，最终导致模型性能下降。

7、此外，远程监督数据集总是存在严重的数据长尾问题。即，大多数句子实例对应少量关系(即头部关系)，而大多数关系(即长尾关系)对应较少的句子实例。例如，远程监督关系抽取领域最常使用的nyt10数据集中，超过60％的关系属于长尾关系，并且对应的实例数量少于100个。然而，这个长尾问题在远程监督关系抽取领域中往往被忽视，即使是最先进的远程监督关系抽取模型也无法很好地处理这个问题。

技术实现思路

1、为了克服现有技术的不足，本专利技术的目的是提供一种基于多粒度对比学习的远程监督关系抽取方法，本专利技术解决了现有技术中忽略不同层级特征之间的交互导致关系抽取的准确性和效率低以及长尾关系抽取能力弱的问题。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种基于多粒度对比学习的远程监督关系抽取方法，应用于远程监督关系抽取模型，所述远程监督关系抽取模型包括：正例对编码器、图编码器和包编码器，所述正例对编码器用于获取初始正样本特征，所述图编码器用于提取约束图中关系和实体对的约束特征并将所述所述约束特征融合到对应的初始句子特征和初始正样本特征中，得到增强句子特征和增强正样本特征，所述包编码器用于将所述增强句子特征融合为包级特征，方法包括：

4、获取数据样本中的句子；

5、将所述句子分割为单词序列；

6、向所述单词序列的头部和尾部分别进行标记，得到标记后的句子；

7、利用bert(双向编码器)对标记后的句子进行编码并对所述单词序列的头尾进行串联得到初始句子特征；

8、根据所述句子，利用所述正例对编码器得到初始正样本特征；

9、根据所述图编码器得到关系和实体对的约束特征并将所述约束特征融合到对应的初始句子特征和初始正样本特征中，得到增强句子特征和增强正样本特征；

10、利用所述包编码器将所述增强句子特征融合为包级特征；

11、将所述包级特征和所述增强正样本特征输入对比学习关系分类器，对所述数据样本的关系进行抽取，得到分类关系。

12、优选地，所述正例对编码器的构建方法为：

13、获取第一plm编码器、第二plm编码器、第一多实例注意力层和第二多实例注意力层构建正例对编码器；

14、根据所述第一plm编码器、第二plm编码器、第一多实例注意力层和第二多实例注意力层构建正例对编码器，其中所述第一plm编码器与所述第一多实例注意力层连接，所述第一多实例注意力层连接和所述第二plm编码器均与所述第二多实例注意力层连接。

15、优选地，所述图编码器采用2层gcn。

16、本专利技术公开了以下技术效果：

17、本专利技术提供了一种基于多粒度对比学习的远程监督关系抽取方法，应用于远程监督关系抽取模型，所述远程监督关系抽取模型包括：正例对编码器、图编码器和包编码器，所述正例对编码器用于获取初始正样本特征，所述图编码器用于提取约束图中关系和实体对的约束特征并将所述所述约束特征融合到对应的初始句子特征和初始正样本特征中，得到增强句子特征和增强正样本特征，所述包编码器用于将所述增强句子特征融合为包级特征，方法包括：获取数据样本中的句子；将所述句子分割为单词序列；向所述单词序列的头部和尾部分别进行标记，得到标记后的句子；利用bert(双向编码器)对标记后的句子进行编码并对所述单词序列的头尾进行串联得到初始句子特征；根据所述句子，利用所述正例对编码器得到初始正样本特征；根据所述图编码器得到关系和实体对的约束特征并将所述约束特征融合到对应的初始句子特征和初始正样本特征中，得到增强句子特征和增强正样本特征；利用所述包编码器将所述增强句子特征融合为包级特征；将所述包级特征和所述增强正样本特征输入对比学习关系分类器，对所述数据样本的关系进行抽取，得到分类关系。本专利技术通过对句子头尾进行特殊标记，加强了长尾的抽取能力并利用不同粒度特征的相互作用，在不同层级的特征间进行语义交互，提升了关系抽取的精确度。

本文档来自技高网...

【技术保护点】

1.一种基于多粒度对比学习的远程监督关系抽取方法，其特征在于，应用于远程监督关系抽取模型，所述远程监督关系抽取模型包括：正例对编码器、图编码器和包编码器，所述正例对编码器用于获取初始正样本特征，所述图编码器用于提取约束图中关系和实体对的约束特征并将所述所述约束特征融合到对应的初始句子特征和初始正样本特征中，得到增强句子特征和增强正样本特征，所述包编码器用于将所述增强句子特征融合为包级特征，方法包括：

2.根据权利要求1所述的一种基于多粒度对比学习的远程监督关系抽取方法，其特征在于，所述正例对编码器的构建方法为：

3.根据权利要求1所述的一种基于多粒度对比学习的远程监督关系抽取方法，其特征在于，所述图编码器采用2层GCN。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘胜全，贾李睿智，蹇兆瑞，孔博，刘源，姜少臣，
申请(专利权)人：新疆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人