【技术实现步骤摘要】
一种基于Transformer的实体关系联合抽取方法、介质及系统
[0001]本专利技术属于深度学习与自然语言处理技术,具体涉及一种基于Transformer 的实体关系联合抽取方法和系统。
技术介绍
[0002]随着大数据时代的到来,互联网上的数据量急速攀升,其中主要包含大量的 自然语言文本,如此大量的自然语言文本中蕴含了大量的隐藏知识,如何快速 高效地从开放领域的文本中抽取出隐藏的知识,成为了摆在人们面前的重要问 题。为了解决这个问题,信息抽取在1998年的MUC
‑
7会议上被首次提出,实体 关系抽取是文本挖掘、信息抽取的核心任务,其通过对文本信息建模,自动抽 取出实体之间的语义关系,提取出有效的语义知识。
[0003]因此,为了从海量的非结构化数据中抽取出隐藏的知识,知识图谱的概念被 提出。在知识图谱中,把海量数据中的人名、地点等专有名词表示为实体,并 将任意两个实体之间的联系表示为关系,通过三元组的形式(主实体,关系,副 实体)构建出知识图谱。因此,为了自动化的抽取出结构化文本中的三元组,研 究者们提出了信息抽取的方法,其中基于流水线和联合学习的方法为现在主要 的两种方法。
[0004]目前,实体关系根据抽取方法分为流水线的方法和联合学习的方法。流水线 的方法将实体关系抽取视为两个子任务,先对文本进行命名实体识别,再对命 名实体之间的关系进行识别,称为关系抽取。联合抽取的方法是将命名实体识 别和关系抽取视为一个子任务,通过联合学习的方法直接抽取出数据中的三元 组。避免了命名实 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的实体关系联合抽取方法,其特征在于,包括以下步骤:获取互联网数据集,并对互联网数据集进行如下预处理,将数据集中的句子与对应的三元组用预设的标识符连接起来,并标注主实体、关系和副实体的开始位置和结束位置,并且涉及到多个三元组时需要预设的分隔符,同时训练数据需要预设的开始和结束标识符,处理后的数据如下;将处理过后的数据集中的每个字进行向量化映射,同时通过每个字在句中的位置计算出位置向量,输入到基于Transformer的神经网络模型中,再通过反向传播算法进行训练,得到基于Transformer的实体关系联合抽取模型;将需要进行实体关系抽取的句子输入到训练完成的基于Transformer的实体关系联合抽取模型中,预测出句子中的三元组。2.根据权利要求1所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述基于Transformer的神经网络模型的训练过程包括:1)将输入句子中的每个词或字映射成对应的字向量;2)在编码层,把训练样例中的每个字对应的字向量作为输入,采用Transformer编码器学习句子中每个字的上下文信息,同时得到表示向量H
l
;3)在通过分类器预测出训练样例中的主实体,其中通过二进制分类器,分别预测出训练样例中每个主实体的开始位置p
start
和结束位置p
end
,以及主实体的向量表示4)在解码层中,将编码器输出的表示向量H
l
与二进制分类器预测出的主实体通过预设的方式拼接或者简单相加,得到新的上下文表示向量M
l
,在对M
l
进行解码,通过二进制分类器分类出副实体;5)根据得到的标签的向量表示进行计算,得到主实体、关系和副实体分别所在的开始位置和结束位置;6)选取所有样本的最大似然函数作为模型的目标函数;7)通过反向传播算法训练模型,更新模型中所有的参数,最终得到收敛的实体关系联合抽取模型。3.根据权利要求1或2所述的一种基于Transformer的实体关系联合抽取方法,其特征在于,所述根据训练集中的训练样例和三元组信息,使用特殊的标识符处理,其中,训练样例需要至少两种标识符,分别是开始标识符和结束标识符;该样例的三元组信息需要至少三种标识符,分别是开始标识符、分隔符和结束标识符;其中,三元组处理后的数据如下:[SOS]h
(1)
,r
(1)
,t
(1)
[S2S_SEQ]h
(2)
,r
(2)
,t
(2)
[S2S_SEQ]...h
(n)
,r
(n)
,t
(n)
[EOS]其中h,r,t分别代表主实体,关系和副实体,[SOS],[S2S_SEQ],[EOS]分别表示三元组的开始标识符,三元组分隔符和三元组结束标识符。4.根据权利要求2所述的一种基于Transformer的实体关...
【专利技术属性】
技术研发人员:张正,常光辉,黄海辉,胡新庭,陈浪,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。