System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于自然语言处理,具体来说涉及文本信息抽取,更具体地说,涉及提供了一种基于双向机制的关系抽取算法。
技术介绍
1、关系抽取是数据挖掘和知识库构建的重要任务,以往的研究通常利用管道方法和联合方法解决关系抽取任务。管道方法是两阶段的框架,即首先识别实体,然后确定每个实体对的关系。联合方法是在一个阶段的框架中联合获得主体、客体和关系。联合方法是目前关系抽取任务的主流方法,有助于缓解管道方法的误差传播问题。
2、在复杂关系抽取任务中,往往存在数据不平衡问题和复杂三元组。数据不平衡问题是指主体和客体的实体类型数量规模不一致。复杂三元组包括重叠三元组、多个三元组以及跨句三元组,其中重叠是指三元组中的元素存在相同或嵌套的情况,多个是指一个句子中存在多个三元组,跨句是指三元组中的三个元素存在于不同的句子中。
3、现有的联合方法难以解决以上两个问题:(1)对于数据不平衡,在联合方法中,总是同等地进行主体抽取和对象抽取。(2)对于复杂三元组,联合方法只对三元组元素进行单次抽取,缺乏三元组内部任两元素之间的先验知识支持。因此,对于复杂关系抽取任务,先前的工作仅采用管道方法或联合方法对该任务进行建模,难以处理复杂情况和数据不平衡问题,导致精度或召回率下降。
4、综上所述,本交叉领域亟需设计一种新的复杂关系抽取算法来解决上述问题。
技术实现思路
1、有鉴于此,本专利技术提供了一种基于双向机制的关系抽取算法。第一,为了缓解数据不平衡问题,本专利技术提出了一种基于双
2、本专利技术的技术路线实现形式为:提出了一种两阶段的抽取再评估的管道框架,(1)在抽取阶段,首先利用实体/关系抽取器,抽取给定输入文本的主体集、客体集以及关系类型;其次,设计面向主体的三元组抽取器,基于输入文本c、主体集s和潜在关系r,迭代抽取文本中所有面向主体的三元组每次迭代包括两个步骤:1)将主体s、关系r和c拼接输入到sr2o中识别客体o,得到2)将o、r和c拼接输入到or2s中识别s’,得到将和的并集作为再次,以同样的方式设计面向主体的三元组抽取器,迭代抽取文本中的所有面向客体的三元组即和的并集;(2)在评估阶段,从三个角度评估三元组的质量。首先从主体角度,保留主体相同时和的交集ts;其次,从客体角度,保留客体相同时和的交集to;再次,从关系角度,设计面向关系的三元组过滤器,将和ts的差集、和to的差集作为候选三元组输入到面向关系的三元组过滤器中,保留正确的三元组输出tr;最后将ts、to和tr作为最终的三元组结果。
3、本专利技术以复杂关系抽取为例,具体步骤为:
4、sl、利用实体/关系抽取器,抽取给定输入文本的主体集、客体集以及关系类型;
5、s2、设计面向主体的三元组抽取器,基于输入文本c、主体集s和潜在关系r,迭代抽取文本中所有面向主体的三元组每次迭代包括两个步骤:(1)将主体s、关系r和c拼接输入到sr2o中识别客体o,得到(2)将o、r和c拼接输入到or2s中识别s’,得到将和的并集作为以同样的方式设计面向主体的三元组抽取器,迭代抽取文本中的所有面向客体的三元组即和的并集;
6、s3、设计一种多角度的评估框架,从三个角度评估三元组的质量。从主体角度,保留主体相同时和的交集ts;从客体角度,保留客体相同时和的交集to;从关系角度,设计面向关系的三元组过滤器,将和ts的差集、和to的差集作为候选三元组输入到面向关系的三元组过滤器中,保留正确的三元组输出tr。最后将ts、to和tr作为最终的三元组结果。
7、进一步地,步骤s1包括:
8、s11、给定输入文本c={c1,c2,...,cn},利用上下文感知的预训练语言模型bert为c进行编码,获得上下文表示hc:
9、hc=plm([<cls>,c1,c2,…,cn,<sep>])
10、其中<cls>和<sep>是bert模型中的特殊token;
11、s12、给定hc,利用全局指针网络gp作为实体预测器获得实体跨度集合s、客体跨度集合o以及关系类型。即,使用一个全局矩阵m∈rn×n(其中,n表示c中token的数量)来记录所有跨度的概率。m中的每个元素mh,t(1≤h,h≤t),表示从第h个token开始到第t个token结束的跨度的概率:
12、
13、其中,w1、w2、b1和b2是可训练的权重,rh和rt是用于在hh和ht中加入相对位置信息的旋转矩阵。主体/客体预测器的目标函数为(以主体预测器为例):
14、
15、其中ω={(h,t)|1≤h≤t≤n}是给定c中所有可能的主体跨度的集合,ω∈ωp包含所有的真实主体跨度;
16、s13、给定hc,将hc中<cls>的隐藏状态输入关系分类器,输出关系类型的概率pr:
17、pr=σ(wrh<cls>+br)
18、其中wr为可训练权重,σ为sigmoid函数。将二进制交叉熵作为损失函数,即:
19、
20、其中,nr为关系的个数,yr为真实关系标签。在推理阶段,如果概率pr超过阈值λ,则保留该关系,否则将其删除。
21、进一步地,步骤s2包括:
22、s2l、给定主体c∈c,s∈s以及r∈rp,其中rp表示潜在关系类型集合,利用提示学习技术,将它们拼接起来作为模型的输入x:
23、x=[<cls>,s,<s>,sty,<r>,r,<0>,oty,<sep>,c1,c2,…,cn,<sep>]
24、其中,<s>,<r>和<o>分别是分离s,sty,r和oty的特殊标记。sty和oty分别表示s和o的实体类型的序列;
25、s22、将x输入全局指针网络sr2o获得客体集o。基于该客体集o,通过提示学习技术将每个o、r、c和模式信息拼接二起来,使用另一个全局指针网络or2s获取主体集s′。
26、s23、不断重复迭代进行以上两个步骤,最终获得全部三元组其中来自sr2o,来自or2s。
27、s24、给定主体c∈c,o∈o以及r∈rp,用s2l的方法将它们拼接作为输入x,同样重复迭代类似s22和s23的步骤,最终获得全部三元组其中来自or2s,来自sr20。
28、进一步地,步骤s3包括:
29、s3l、从主体角度,保留当主体相本文档来自技高网...
【技术保护点】
1.一种基于双向机制的关系抽取算法,其特征在于包括以下步骤:
2.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤S1具体包括:
3.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤S2具体包括:
4.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤S3具体包括:
【技术特征摘要】
1.一种基于双向机制的关系抽取算法,其特征在于包括以下步骤:
2.根据权利要求1所述的一种基于双向机制的关系抽取算法,其特征在于,所述的步骤s1具体包括:
3.根据权...
【专利技术属性】
技术研发人员:王嘉诚,阮彤,张维彦,陈闯,叶琪,翟洁,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。