System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于双向机制的关系抽取算法制造技术_技高网

一种基于双向机制的关系抽取算法制造技术

技术编号:43210950 阅读:10 留言:0更新日期:2024-11-05 17:06
本发明专利技术公开了一种基于双向机制的关系抽取算法。本发明专利技术提出了一种两阶段的抽取再评估的管道框架,包括以下步骤:(1)在抽取阶段,首先利用实体/关系抽取器,抽取给定输入文本的主体集、客体集以及关系类型;其次,设计面向主体的三元组抽取器,基于输入文本C、主体集S和潜在关系R,迭代抽取文本中所有面向主体的三元组(2)在评估阶段,从主体角度、从客体角度和从关系角度评估三元组的质量。本发明专利技术适用于复杂关系抽取任务,通过设计一种新颖的基于双向机制的关系抽取算法,从主体到客体和客体到主体两个方向迭代抽取所有三元组元素,有效缓解数据不平衡的限制,并提高在复杂三元组情况下的性能。

【技术实现步骤摘要】

本专利技术属于自然语言处理,具体来说涉及文本信息抽取,更具体地说,涉及提供了一种基于双向机制的关系抽取算法


技术介绍

1、关系抽取是数据挖掘和知识库构建的重要任务,以往的研究通常利用管道方法和联合方法解决关系抽取任务。管道方法是两阶段的框架,即首先识别实体,然后确定每个实体对的关系。联合方法是在一个阶段的框架中联合获得主体、客体和关系。联合方法是目前关系抽取任务的主流方法,有助于缓解管道方法的误差传播问题。

2、在复杂关系抽取任务中,往往存在数据不平衡问题和复杂三元组。数据不平衡问题是指主体和客体的实体类型数量规模不一致。复杂三元组包括重叠三元组、多个三元组以及跨句三元组,其中重叠是指三元组中的元素存在相同或嵌套的情况,多个是指一个句子中存在多个三元组,跨句是指三元组中的三个元素存在于不同的句子中。

3、现有的联合方法难以解决以上两个问题:(1)对于数据不平衡,在联合方法中,总是同等地进行主体抽取和对象抽取。(2)对于复杂三元组,联合方法只对三元组元素进行单次抽取,缺乏三元组内部任两元素之间的先验知识支持。因此,对于复杂关系抽取任务,先前的工作仅采用管道方法或联合方法对该任务进行建模,难以处理复杂情况和数据不平衡问题,导致精度或召回率下降。

4、综上所述,本交叉领域亟需设计一种新的复杂关系抽取算法来解决上述问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种基于双向机制的关系抽取算法。第一,为了缓解数据不平衡问题,本专利技术提出了一种基于双向机制的管道抽取方法,分别面向主体和客体进行三元组抽取,互补的抽取结果缓解了数据不平衡的限制。第二,本专利技术将迭代抽取引入到抽取方法中,迭代抽取具有多个输入和输出,在抽取过程中可以将三元组元素的语义信息融合到上下文表示中,利用三元组中任两元素的学习信息抽取另一个元素,在困难情况下具有突出的性能。第三,本专利技术提出了一个新颖的两阶段的抽取再评估的管道框架,上述的抽取阶段保证了较高的召回率,本专利技术在评估框架中分别从主体角度、客体角度以及关系角度评估了抽取到的三元组的质量,进一步提高了准确率。

2、本专利技术的技术路线实现形式为:提出了一种两阶段的抽取再评估的管道框架,(1)在抽取阶段,首先利用实体/关系抽取器,抽取给定输入文本的主体集、客体集以及关系类型;其次,设计面向主体的三元组抽取器,基于输入文本c、主体集s和潜在关系r,迭代抽取文本中所有面向主体的三元组每次迭代包括两个步骤:1)将主体s、关系r和c拼接输入到sr2o中识别客体o,得到2)将o、r和c拼接输入到or2s中识别s’,得到将和的并集作为再次,以同样的方式设计面向主体的三元组抽取器,迭代抽取文本中的所有面向客体的三元组即和的并集;(2)在评估阶段,从三个角度评估三元组的质量。首先从主体角度,保留主体相同时和的交集ts;其次,从客体角度,保留客体相同时和的交集to;再次,从关系角度,设计面向关系的三元组过滤器,将和ts的差集、和to的差集作为候选三元组输入到面向关系的三元组过滤器中,保留正确的三元组输出tr;最后将ts、to和tr作为最终的三元组结果。

3、本专利技术以复杂关系抽取为例,具体步骤为:

4、sl、利用实体/关系抽取器,抽取给定输入文本的主体集、客体集以及关系类型;

5、s2、设计面向主体的三元组抽取器,基于输入文本c、主体集s和潜在关系r,迭代抽取文本中所有面向主体的三元组每次迭代包括两个步骤:(1)将主体s、关系r和c拼接输入到sr2o中识别客体o,得到(2)将o、r和c拼接输入到or2s中识别s’,得到将和的并集作为以同样的方式设计面向主体的三元组抽取器,迭代抽取文本中的所有面向客体的三元组即和的并集;

6、s3、设计一种多角度的评估框架,从三个角度评估三元组的质量。从主体角度,保留主体相同时和的交集ts;从客体角度,保留客体相同时和的交集to;从关系角度,设计面向关系的三元组过滤器,将和ts的差集、和to的差集作为候选三元组输入到面向关系的三元组过滤器中,保留正确的三元组输出tr。最后将ts、to和tr作为最终的三元组结果。

7、进一步地,步骤s1包括:

8、s11、给定输入文本c={c1,c2,...,cn},利用上下文感知的预训练语言模型bert为c进行编码,获得上下文表示hc:

9、hc=plm([<cls>,c1,c2,…,cn,<sep>])

10、其中<cls>和<sep>是bert模型中的特殊token;

11、s12、给定hc,利用全局指针网络gp作为实体预测器获得实体跨度集合s、客体跨度集合o以及关系类型。即,使用一个全局矩阵m∈rn×n(其中,n表示c中token的数量)来记录所有跨度的概率。m中的每个元素mh,t(1≤h,h≤t),表示从第h个token开始到第t个token结束的跨度的概率:

12、

13、其中,w1、w2、b1和b2是可训练的权重,rh和rt是用于在hh和ht中加入相对位置信息的旋转矩阵。主体/客体预测器的目标函数为(以主体预测器为例):

14、

15、其中ω={(h,t)|1≤h≤t≤n}是给定c中所有可能的主体跨度的集合,ω∈ωp包含所有的真实主体跨度;

16、s13、给定hc,将hc中<cls>的隐藏状态输入关系分类器,输出关系类型的概率pr:

17、pr=σ(wrh<cls>+br)

18、其中wr为可训练权重,σ为sigmoid函数。将二进制交叉熵作为损失函数,即:

19、

20、其中,nr为关系的个数,yr为真实关系标签。在推理阶段,如果概率pr超过阈值λ,则保留该关系,否则将其删除。

21、进一步地,步骤s2包括:

22、s2l、给定主体c∈c,s∈s以及r∈rp,其中rp表示潜在关系类型集合,利用提示学习技术,将它们拼接起来作为模型的输入x:

23、x=[<cls>,s,<s>,sty,<r>,r,<0>,oty,<sep>,c1,c2,…,cn,<sep>]

24、其中,<s>,<r>和<o>分别是分离s,sty,r和oty的特殊标记。sty和oty分别表示s和o的实体类型的序列;

25、s22、将x输入全局指针网络sr2o获得客体集o。基于该客体集o,通过提示学习技术将每个o、r、c和模式信息拼接二起来,使用另一个全局指针网络or2s获取主体集s′。

26、s23、不断重复迭代进行以上两个步骤,最终获得全部三元组其中来自sr2o,来自or2s。

27、s24、给定主体c∈c,o∈o以及r∈rp,用s2l的方法将它们拼接作为输入x,同样重复迭代类似s22和s23的步骤,最终获得全部三元组其中来自or2s,来自sr20。

28、进一步地,步骤s3包括:

29、s3l、从主体角度,保留当主体相本文档来自技高网...

【技术保护点】

1.一种基于双向机制的关系抽取算法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤S1具体包括:

3.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤S2具体包括:

4.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤S3具体包括:

【技术特征摘要】

1.一种基于双向机制的关系抽取算法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤s1具体包括:

3.根据权...

【专利技术属性】
技术研发人员:王嘉诚阮彤张维彦陈闯叶琪翟洁
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1