一种基于概率图的实体联合标注关系抽取方法和系统技术方案

技术编号:32975699 阅读:12 留言:0更新日期:2022-04-09 11:52
本发明专利技术公开了一种基于概率图的实体联合标注关系抽取方法和系统,属于自然语言处理技术领域。包括进行特征提取;进行实体抽取:将实体抽取任务转为序列标注任务,将所述序列输入第一模型中得到第一输出特征,对所述第一输出特征激活后得到预测序列,通过设定的阈值得到实体的开始和结束位置;根据就近原则对主体和客体进行匹配,标记相近的实体头部和尾部进行截取;进行关系分类:随机抽取实体对,并根据所述第一模型的中间特征,生成第二输出特征,将所述第二输出特征输入第二模型中得到对应分类关系。本发明专利技术考虑到两个子任务之间的相关性,使得抽取任务的结果不过分依赖于实体抽取的结果,避免误差累积的问题,以及关系重叠。以及关系重叠。以及关系重叠。

【技术实现步骤摘要】
一种基于概率图的实体联合标注关系抽取方法和系统


[0001]本专利技术属于自然语言处理
,具体涉及一种基于概率图的实体联合标注关系抽取方法和系统。

技术介绍

[0002]关系抽取是信息抽取的一个重要子任务,目的是从非结构化的文本中提取结构化的数据,关系抽取的主要任务是抽取出文本中的实体和实体之间存在的关系,这些关系以三元组(主语、关系、宾语)的形式表示,这对构建知识图谱具有重要的作用。现有的主流关系抽取技术分为基于规则的关系抽取、有监督关系抽取、无监督关系抽取和半监督关系抽取。
[0003]基于规则的关系抽取首先基于规则和人工提取关系词,随后基于抽取的关系词抽取关系句,然后基于人工总结的模板进行模板匹配来抽取三元组。基于规则的关系抽取主要还是通过人工定义的一些抽取规则从文章中抽取三元组信息,重点是如何定义规则。与深度学习关系抽取相比,基于规则的关系抽取简单实用,无需训练,但是识别精度不稳定,容易受到特殊实体的影响,局限于特定领域。
[0004]监督学习的关系集合通常是确定的,有监督的关系抽取将任务当作分类问题,设计有效的特征进行训练,然后进行预测。有监督的关系抽取是目前研究的主流方法,获得的效果也是最好的,但是需要大量的训练数据和人工标注的语料。
[0005]半监督学习一般利用少量的标注信息作为种子模板,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,但是生成的训练数据无法保证训练数据的质量,容易引入大量的噪声,并且在整个任务的pipeline上会产生误差的传播和累积,影响后续关系抽取的精度。
[0006]无监督关系抽取一般利用语料中存在的大量冗余信息做聚类,根据类簇确定实体之间的关系。但由于聚类方法本身就存在难以描述关系和低频实例召回率低的问题,因此无监督学习一般难以得到很好的抽取效果。
[0007]在现有技术中,大多将关系抽取看作是串联的任务,即传统流水线的方法先进行实体识别,然后为每一对实体预测关系,这种方式使得任务相对简单且分工明确,但是存在一系列问题:两个任务的解决过程中没有考虑到两个子任务之间的相关性,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问题。对于关系重叠的问题,串联方式无法提供较好的解决方案。

技术实现思路

[0008]技术问题:针对上述问题,本专利技术提供一种基于概率图的实体联合标注关系抽取方法和系统,本专利技术主要是利用概率图的思想,将实体关系建模为从实体到关系的映射,解决了一个句子中多个关系之间实体重合的问题和一个关系中多个实体对重合的问题,避免误差累积,以及关系重叠的问题。
[0009]技术方案:第一方面,本专利技术提供一种基于概率图的实体联合标注关系抽取方法,包括:
[0010]接收待进行实体联合标注关系抽取的文本;
[0011]进行特征提取:利用预训练的BERT编码器生成所述文本词嵌入,对所述词嵌入进行字词混合编码及位置编码,提取文本特征;
[0012]进行实体抽取:将实体抽取任务转为序列标注任务,将所述序列输入第一模型中得到第一输出特征,对所述第一输出特征激活后得到预测序列,通过设定的阈值得到实体的开始和结束位置;根据就近原则对主体和客体进行匹配,标记相近的实体头部和尾部进行截取;其中,所述第一模型包括依次连接的第一网络、第二网络和第三网络;
[0013]进行关系分类:随机抽取实体对,并根据所述第一模型的中间特征,生成第二输出特征,将所述第二输出特征输入第二模型中得到对应分类关系;其中,所述第二模型包括依次连接的第四网络、第五网络和第六网络。
[0014]进一步地,所述字词混合编码的方法包括:
[0015]输入以字为单位的文本序列得到字向量序列,通过一个预训练好的Word2Vec模型来提取对应的词向量;
[0016]将每个词的词向量经过一个矩阵变换到跟字向量一样的维度加上该字的字向量。
[0017]进一步地,所述位置编码采用正弦位置编码。
[0018]进一步地,所述将实体抽取任务转为序列标注任务包括:
[0019]解析输入句子的标签,将句子中存在的多对实体关系中的主体和客体的头部和尾部分别记录在一个列表中;其中,主体标记为sub,客体标记为ob,标注的同时判断主体和客体的部分是否重合,如果重合则添加重合标记overlap;
[0020]将所有句子转化为序列,然后将实体抽取任务转化为序列标注任务;
[0021]利用预训练BERT编码器对词进行编码,对编码作最大池化并拼接到原始特征上,得到第一输入,其作为第一网络的输入。
[0022]进一步地,所述第一网络为两层双向长短期记忆网络;
[0023]所述第二网络为一层一维卷积神经网络;
[0024]所述第三网络为两层全连接层。
[0025]进一步地,所述第一模型的中间特征为所述第一网络提取的词表征。
[0026]进一步地,所述随机抽取实体对,并根据所述第一模型的中间特征,生成第二输出特征的方法包括:
[0027]对标注好的序列进行解析,得到所有候选主体和客体;
[0028]随机选取一个主体和客体,重用第一网络提取的词表征,并将选取的主体和客体对应的词嵌入附加到所述词表征中,得到第一表征;
[0029]将所述第一表征进行最大池化操作并拼接到第一表征中,得到第二输出特征。
[0030]进一步地,所述第四网络为两层一维卷积神经网络;
[0031]所述第五网络为一层膨胀门卷积层;
[0032]所述第六网络为一层全连接层。
[0033]进一步地,在对第一模型进行训练时,将原序列和预测序列的误差作为损失进行模型的训练;
[0034]在对第二模型进行训练时,原始实体对之间的关系和预测关系的误差作为损失进行模型的训练。
[0035]第二方面,本专利技术提供一种基于概率图的实体联合标注关系抽取系统,根据本专利技术任一所述的基于概率图的实体联合标注关系抽取方法进行实体联合标注关系抽取,包括:
[0036]数据接收单元,用于接收待进行实体联合标注关系抽取的文本;
[0037]特征提取单元,用于进行特征提取:利用预训练的BERT编码器生成所述文本词嵌入,对所述词嵌入进行字词混合编码及位置编码,提取文本特征;
[0038]实体抽取单元,用于进行实体抽取:将实体抽取任务转为序列标注任务,将所述序列输入第一模型中得到第一输出特征,对所述第一输出特征激活后得到预测序列,通过设定的阈值得到实体的开始和结束位置;根据就近原则对主体和客体进行匹配,标记相近的实体头部和尾部进行截取;其中,所述第一模型包括依次连接的第一网络、第二网络和第三网络;
[0039]关系分类单元,进行关系分类:随机抽取实体对,并根据所述第一模型的中间特征,生成第二输出特征,将所述第二输出特征输入第二模型中得到对应分类关系;其中,所述第二模型包括依次连接的第四网络、第五网络和第六网络。
[0040]有益效果:本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于概率图的实体联合标注关系抽取方法,其特征在于,包括:接收待进行实体联合标注关系抽取的文本;进行特征提取:利用预训练的BERT编码器生成所述文本词嵌入,对所述词嵌入进行字词混合编码及位置编码,提取文本特征;进行实体抽取:将实体抽取任务转为序列标注任务,将所述序列输入第一模型中得到第一输出特征,对所述第一输出特征激活后得到预测序列,通过设定的阈值得到实体的开始和结束位置;根据就近原则对主体和客体进行匹配,标记相近的实体头部和尾部进行截取;其中,所述第一模型包括依次连接的第一网络、第二网络和第三网络;进行关系分类:随机抽取实体对,并根据所述第一模型的中间特征,生成第二输出特征,将所述第二输出特征输入第二模型中得到对应分类关系;其中,所述第二模型包括依次连接的第四网络、第五网络和第六网络。2.根据权利要求1所述的方法,其特征在于,所述字词混合编码的方法包括:输入以字为单位的文本序列得到字向量序列,通过一个预训练好的Word2Vec模型来提取对应的词向量;将每个词的词向量经过一个矩阵变换到跟字向量一样的维度加上该字的字向量。3.根据权利要求1所述的方法,其特征在于,所述位置编码采用正弦位置编码。4.根据权利要求1

3任一项所述的方法,其特征在于,所述将实体抽取任务转为序列标注任务包括:解析输入句子的标签,将句子中存在的多对实体关系中的主体和客体的头部和尾部分别记录在一个列表中;其中,主体标记为sub,客体标记为ob,标注的同时判断主体和客体的部分是否重合,如果重合则添加重合标记overlap;将所有句子转化为序列,然后将实体抽取任务转化为序列标注任务;利用预训练BERT编码器对词进行编码,对编码作最大池化并拼接到原始特征上,得到第一输入,其作为第一网络的输入。5.根据权利要求4所述的方法,其特征在于,所述第一网络为两层双向长短期记忆网络;所述第二网络为一层一维卷积神经网络;所述第三网络为两层全连接层。6.根据权利要求5所...

【专利技术属性】
技术研发人员:曹建军皮德常翁年凤胥萌丁鲲袁震江春
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1