一种基于Transformer的实体关系联合抽取方法、介质及系统技术方案

技术编号:33212460 阅读:22 留言:0更新日期:2022-04-27 16:48
本发明专利技术请求保护一种基于Transformer的实体关系联合抽取方法、介质及系统,该方法的步骤包括:将训练数据中标注的实体关系的三元组与训练数据使用特殊的标识符连接;将处理过后的训练数据中的词进行向量化映射;将映射过后的训练数据输入到基于注意力机制的实体关系联合抽取模型当中,并通过反向传播算法进行模型的训练,得到实体关系预测模型;再将需要进行实体关系联合抽取的句子输入到训练好的模型中,预测出句子中的三元组关系。本发明专利技术通过将三元组抽取任务视为序列到序列的任务,通过参数共享的方法实现模型的联合抽取。参数共享的方法实现模型的联合抽取。参数共享的方法实现模型的联合抽取。

【技术实现步骤摘要】
一种基于Transformer的实体关系联合抽取方法、介质及系统


[0001]本专利技术属于深度学习与自然语言处理技术,具体涉及一种基于Transformer 的实体关系联合抽取方法和系统。

技术介绍

[0002]随着大数据时代的到来,互联网上的数据量急速攀升,其中主要包含大量的 自然语言文本,如此大量的自然语言文本中蕴含了大量的隐藏知识,如何快速 高效地从开放领域的文本中抽取出隐藏的知识,成为了摆在人们面前的重要问 题。为了解决这个问题,信息抽取在1998年的MUC

7会议上被首次提出,实体 关系抽取是文本挖掘、信息抽取的核心任务,其通过对文本信息建模,自动抽 取出实体之间的语义关系,提取出有效的语义知识。
[0003]因此,为了从海量的非结构化数据中抽取出隐藏的知识,知识图谱的概念被 提出。在知识图谱中,把海量数据中的人名、地点等专有名词表示为实体,并 将任意两个实体之间的联系表示为关系,通过三元组的形式(主实体,关系,副 实体)构建出知识图谱。因此,为了自动化的抽取出结构化文本中的三元组,研 究者们提出了信息抽取的方法,其中基于流水线和联合学习的方法为现在主要 的两种方法。
[0004]目前,实体关系根据抽取方法分为流水线的方法和联合学习的方法。流水线 的方法将实体关系抽取视为两个子任务,先对文本进行命名实体识别,再对命 名实体之间的关系进行识别,称为关系抽取。联合抽取的方法是将命名实体识 别和关系抽取视为一个子任务,通过联合学习的方法直接抽取出数据中的三元 组。避免了命名实体识别的准确率问题带来的误差累计问题,提高了实体关系 抽取的准确率,本专利所做的工作也是基于联合学习的方法。提出了一种新的 实体关系联合抽取的思路。
[0005]经过检索,申请公开号CN111666427A,一种实体关系联合抽取方法、装置、 设备及介质,包括:获取训练样本数据;利用所述训练样本数据对预先搭建的 实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型 中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组 对当前预测关系的影响进行注意力计算;当获取到待进行实体关系抽取的目标 文本,利用所述训练后模型输出对应的实体关系抽取结果。这样,对包括自注 意力层的实体关系抽取模型进行训练,能够在实体关系的抽取过程中考虑其他 三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。
[0006]公开号CN111666427A中提出基于Bert+cnn模型进行实体关系联合抽取存 在的问题如下:
[0007]1.其存在较高的复杂度,不利于模型的落地,
[0008]2.同时,其使用的字级别矩阵难以解决三元组重叠问题,
[0009]3.最后,其依赖于CNN模型,该模型在解决长时序问题上也存在诸多弊端, 其无法捕获长距离信息。
[0010]本专利技术专利针对其的改进方法如下:
[0011]1.首先,本专利技术专利引入了半标记半指针网络,相较于公开号CN111666427A 有更
好的解决三元组重叠问题的能力,
[0012]2.其次,本专利技术专利使用了transformer模型作为特征提取器,其在解决 长时序问题上优于CN111666427A所提出的模型。
[0013]3.最后,本专利技术模型减低模型复杂度的同时能够获得优于CN111666427A中 所提出的模型三元组抽取的效果。
[0014]申请公开号CN113157936A,一种实体关系联合抽取方法、装置、电子设备和 存储介质,该方法包括:获取标记序列;根据所述标记序列确定语义表示;根 据标记序列和所述语义表示确定特征图矩阵;根据特征图矩阵预测实体信息相 关的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵; 将三元组相关的字级别矩阵合并得到目标三元组。本申请实施例中实体信息相 关的的字级别矩阵,实体和关系相关的字级别矩阵和三元组相关的字级别矩阵 是分阶段确定的,通过基于图像语义分割的多阶段实体关系抽取联合方法,使 用语义分割框架进行目标三元组抽取,避免了实体重叠和误差累积的问题,并 通过多阶段渐进式的方式,提升了抽取效果。
[0015]公开号CN113157936A中同样提出了一种基于Bert+CRF的实体关系联合抽取 模型,其采用新的标注方案,其存在的问题是:
[0016]1.难以解决三元组重叠问题,在实体关系联合抽取问题中,实体与实体之 间可能存在多个关系,然而,目前的分类器会出现分类混淆的情况,该专利技术专 利同样存在如上情况。
[0017]2.其同样基于Bert模型,其模型复杂度较高,同时依赖于CRF模型,该模 型为时序模型,容易出现梯度消失或者梯度爆炸的情况,难以捕获长距离信息。
[0018]我们的解决方法如下:
[0019]1.我们采用半指针半标记的方案,避免了分类器的混淆情况,进而避免了 三元组的重叠问题。
[0020]2.我们的模型基于transformer模型,模型复杂度相对较低,同时避免了 时序模型的缺点,相较于CN113157936A中提出的模型有更好的解决长时序问题 的能力。

技术实现思路

[0021]本专利技术旨在解决以上现有技术的问题。提出了一种抽取出非结构化数据中的 隐藏信息,构建出知识图谱,同时提高实体关系抽取的性能的基于Transformer 的实体关系联合抽取方法及系统。本专利技术的技术方案如下:
[0022]一种基于Transformer的实体关系联合抽取方法,其包括以下步骤:
[0023]获取互联网数据集,并对互联网数据集进行预处理,将数据集中的句子与对 应的三元组用预设的标识符连接起来,并标注主实体、关系和副实体的开始位 置和结束位置,并且涉及到多个三元组时需要预设的分隔符,同时训练数据需 要开始和结束标识符,处理后的数据如下;特殊分隔符和特殊的开始和结束标 识符分别指:
[0024][SOS]h
(1)
,r
(1)
,t
(1)
[S2S_SEQ][0025]h
(2)
,r
(2)
,t
(2)
[S2S_SEQ][0026]...
[0027]h
(n)
,r
(n)
,t
(n)
[EOS][0028]将处理过后的数据集中的每个字进行向量化映射,同时通过每个字在句中的 位置计算出位置向量,输入到基于Transformer的神经网络模型中,再通过反 向传播算法进行训练,得到基于注意力机制的实体关系联合抽取模型;
[0029]将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体 关系联合抽取模型中,预测出每个句子中的三元组。
[0030]进一步的,所述基于Transformer的神经网络模型的训练过程包括:
[0031]1)将输入句子中的每个词或字映射成对应的字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的实体关系联合抽取方法,其特征在于,包括以下步骤:获取互联网数据集,并对互联网数据集进行如下预处理,将数据集中的句子与对应的三元组用预设的标识符连接起来,并标注主实体、关系和副实体的开始位置和结束位置,并且涉及到多个三元组时需要预设的分隔符,同时训练数据需要预设的开始和结束标识符,处理后的数据如下;将处理过后的数据集中的每个字进行向量化映射,同时通过每个字在句中的位置计算出位置向量,输入到基于Transformer的神经网络模型中,再通过反向传播算法进行训练,得到基于Transformer的实体关系联合抽取模型;将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体关系联合抽取模型中,预测出句子中的三元组。2.根据权利要求1所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述基于Transformer的神经网络模型的训练过程包括:1)将输入句子中的每个词或字映射成对应的字向量;2)在编码层,把训练样例中的每个字对应的字向量作为输入,采用Transformer编码器学习句子中每个字的上下文信息,同时得到表示向量H
l
;3)在通过分类器预测出训练样例中的主实体,其中通过二进制分类器,分别预测出训练样例中每个主实体的开始位置p
start
和结束位置p
end
,以及主实体的向量表示4)在解码层中,将编码器输出的表示向量H
l
与二进制分类器预测出的主实体通过预设的方式拼接或者简单相加,得到新的上下文表示向量M
l
,在对M
l
进行解码,通过二进制分类器分类出副实体;5)根据得到的标签的向量表示进行计算,得到主实体、关系和副实体分别所在的开始位置和结束位置;6)选取所有样本的最大似然函数作为模型的目标函数;7)通过反向传播算法训练模型,更新模型中所有的参数,最终得到收敛的实体关系联合抽取模型。3.根据权利要求1或2所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述根据训练集中的训练样例和三元组信息,使用特殊的标识符处理,其中,训练样例需要至少两种标识符,分别是开始标识符和结束标识符;该样例的三元组信息需要至少三种标识符,分别是开始标识符、分隔符和结束标识符;其中,三元组处理后的数据如下:[SOS]h
(1)
,r
(1)
,t
(1)
[S2S_SEQ]h
(2)
,r
(2)
,t
(2)
[S2S_SEQ]...h
(n)
,r
(n)
,t
(n)
[EOS]其中h,r,t分别代表主实体,关系和副实体,[SOS],[S2S_SEQ],[EOS]分别表示三元组的开始标识符,三元组分隔符和三元组结束标识符。4.根据权利要求2所述的一种基于Transformer的实体关...

【专利技术属性】
技术研发人员:张正常光辉黄海辉胡新庭陈浪
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1