一种基于Transformer的实体关系联合抽取方法、介质及系统技术方案

技术编号：33212460 阅读：22 留言：0更新日期：2022-04-27 16:48

本发明专利技术请求保护一种基于Transformer的实体关系联合抽取方法、介质及系统，该方法的步骤包括：将训练数据中标注的实体关系的三元组与训练数据使用特殊的标识符连接；将处理过后的训练数据中的词进行向量化映射；将映射过后的训练数据输入到基于注意力机制的实体关系联合抽取模型当中，并通过反向传播算法进行模型的训练，得到实体关系预测模型；再将需要进行实体关系联合抽取的句子输入到训练好的模型中，预测出句子中的三元组关系。本发明专利技术通过将三元组抽取任务视为序列到序列的任务，通过参数共享的方法实现模型的联合抽取。参数共享的方法实现模型的联合抽取。参数共享的方法实现模型的联合抽取。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer的实体关系联合抽取方法、介质及系统

[0001]本专利技术属于深度学习与自然语言处理技术，具体涉及一种基于Transformer 的实体关系联合抽取方法和系统。

技术介绍

[0002]随着大数据时代的到来，互联网上的数据量急速攀升，其中主要包含大量的自然语言文本，如此大量的自然语言文本中蕴含了大量的隐藏知识，如何快速高效地从开放领域的文本中抽取出隐藏的知识，成为了摆在人们面前的重要问题。为了解决这个问题，信息抽取在1998年的MUC
‑
7会议上被首次提出，实体关系抽取是文本挖掘、信息抽取的核心任务，其通过对文本信息建模，自动抽取出实体之间的语义关系，提取出有效的语义知识。
[0003]因此，为了从海量的非结构化数据中抽取出隐藏的知识，知识图谱的概念被提出。在知识图谱中，把海量数据中的人名、地点等专有名词表示为实体，并将任意两个实体之间的联系表示为关系，通过三元组的形式(主实体,关系,副实体)构建出知识图谱。因此，为了自动化的抽取出结构化文本中的三元组，研究者们提出了信息抽取的方法，其中基于流水线和联合学习的方法为现在主要的两种方法。
[0004]目前，实体关系根据抽取方法分为流水线的方法和联合学习的方法。流水线的方法将实体关系抽取视为两个子任务，先对文本进行命名实体识别，再对命名实体之间的关系进行识别，称为关系抽取。联合抽取的方法是将命名实体识别和关系抽取视为一个子任务，通过联合学习的方法直接抽取出数据中的三元组。避免了命名实...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的实体关系联合抽取方法，其特征在于，包括以下步骤：获取互联网数据集，并对互联网数据集进行如下预处理，将数据集中的句子与对应的三元组用预设的标识符连接起来，并标注主实体、关系和副实体的开始位置和结束位置，并且涉及到多个三元组时需要预设的分隔符，同时训练数据需要预设的开始和结束标识符，处理后的数据如下；将处理过后的数据集中的每个字进行向量化映射，同时通过每个字在句中的位置计算出位置向量，输入到基于Transformer的神经网络模型中，再通过反向传播算法进行训练，得到基于Transformer的实体关系联合抽取模型；将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体关系联合抽取模型中，预测出句子中的三元组。2.根据权利要求1所述的一种基于Transformer的实体关系联合抽取方法，其特征在于，所述基于Transformer的神经网络模型的训练过程包括：1)将输入句子中的每个词或字映射成对应的字向量；2)在编码层，把训练样例中的每个字对应的字向量作为输入，采用Transformer编码器学习句子中每个字的上下文信息,同时得到表示向量H
l
；3)在通过分类器预测出训练样例中的主实体，其中通过二进制分类器，分别预测出训练样例中每个主实体的开始位置p
start
和结束位置p
end
，以及主实体的向量表示4)在解码层中，将编码器输出的表示向量H
l
与二进制分类器预测出的主实体通过预设的方式拼接或者简单相加，得到新的上下文表示向量M
l
，在对M
l
进行解码，通过二进制分类器分类出副实体；5)根据得到的标签的向量表示进行计算，得到主实体、关系和副实体分别所在的开始位置和结束位置；6)选取所有样本的最大似然函数作为模型的目标函数；7)通过反向传播算法训练模型，更新模型中所有的参数，最终得到收敛的实体关系联合抽取模型。3.根据权利要求1或2所述的一种基于Transformer的实体关系联合抽取方法，其特征在于，所述根据训练集中的训练样例和三元组信息，使用特殊的标识符处理，其中，训练样例需要至少两种标识符，分别是开始标识符和结束标识符；该样例的三元组信息需要至少三种标识符，分别是开始标识符、分隔符和结束标识符；其中，三元组处理后的数据如下：[SOS]h
(1)
,r
(1)
,t
(1)
[S2S_SEQ]h
(2)
,r
(2)
,t
(2)
[S2S_SEQ]...h
(n)
,r
(n)
,t
(n)
[EOS]其中h,r,t分别代表主实体，关系和副实体，[SOS],[S2S_SEQ],[EOS]分别表示三元组的开始标识符，三元组分隔符和三元组结束标识符。4.根据权利要求2所述的一种基于Transformer的实体关...

【专利技术属性】
技术研发人员：张正，常光辉，黄海辉，胡新庭，陈浪，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人