基于关系路径的远程监督关系抽取方法、装置及介质制造方法及图纸

技术编号:29704115 阅读:14 留言:0更新日期:2021-08-17 14:32
本发明专利技术公开了一种基于关系路径的远程监督关系抽取方法、装置及介质,其中方法包括以下步骤:通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;通过直接句子编码模块获取实体对的相应关系的预测概率;针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。本发明专利技术采用了联合学习框架将直接句子的特征信息和关系路径的推理信息合理地结合起来,提高关系抽取的精准度,可广泛应用于自然语言处理领域。

【技术实现步骤摘要】
基于关系路径的远程监督关系抽取方法、装置及介质
本专利技术涉及自然语言处理领域,尤其涉及一种基于关系路径的远程监督关系抽取方法、装置及介质。
技术介绍
信息抽取是指从自然语言文本中自动抽取指定类型的实体、关系、事件等事实信息的应用技术。信息抽取主要包括三个子任务:实体抽取、关系抽取和事件抽取。其中关系抽取作为信息抽取领域的核心任务和关键环节,近年来也受到了学术界和工业界的广泛关注。关系抽取的主要目标是从自然语言文本中识别并且判别实体对之间存在的特定关系。研究者利用关系抽取可以从海量的无结构文本中抽取出格式统一的实体关系,这进一步提高了海量数据的处理效率;将多个实体的语义关系和实体进行关联,有利于知识库和相关问答系统的自动构建;对用户查询文本进行分析处理,帮助提高智能检索的效率等。关系抽取任务本质上是一个多分类的文本分类任务,即针对文本中识别出的实体对存在的关系划分到某个或某几个预定义的关系类别。目前主流的关系抽取方法是基于神经网络学习的关系分类方法,而其中取得较好效果的关系分类方法主要是有监督的关系抽取方法和基于远程监督的关系抽取方法。有监督的关系抽取是目前发展较成熟的一个分支,其以包含实体对的一个句子为处理样本,主要利用有标注的训练数据的信息来帮助识别未标注的样本中实体对存在的关系,优点是能有效利用样本的标记信息,识别效果较好,但缺点是标注训练语料的过程耗时费力,代价高昂。远程监督关系抽取(DistantlySupervisedRelationExtraction,DSRE)方法作为目前主流的半监督的深度学习的关系抽取方法,受到了研究者的广泛关注。远程监督的实体关系抽取方法显著降低了对人工标注的依赖,大大降低了构建标注数据集的成本,可以自动抽取大量的实体对,且这种方法移植性较好,能够更加方便地应用到其他领域。远程监督的基本假设是如果一个实体对在知识库中存在某种关系,那么包含这个实体对的所有句子都会表达出这种关系。利用这种假设,远程监督的关系抽取的方法将无标注的文本数据与知识库中的实体进行对齐来产生大量的弱标注语料,进而利用这些标注语料来训练关系分类模型。这种强假设在数据标注过程将不可避免地带来错误标注问题:大量包含实体对的句子并未表达出实体对在知识库中存在的关系从而产生数据噪音。当前大多数的远程监督关系抽取模型为了缓解远程监督带来的错误标注问题,往往采用了多示例学习的框架,即首先通过将所有包含实体对的句子根据不同的实体对分成一个个的包,再通过卷积神经网络(CNN)、长短期记忆网络(LSTM)等特征学习神经网络对包中的一个个句子进行向量表示,再按照不同的策略对包的所有的句子表示进行信息融合生成包的向量表示,最后将包的表示输入到分类器后抽取出对应的已被远程监督机制标注好的关系(以下简称目标关系)。这种多示例的学习框架在某些特定数据集上的确取得了不错的效果,但模型的鲁棒性和应用场景比较局限,在实体关系网络复杂的真实场景下仍存在一定的问题。首先,这种多示例的学习框架针对每一个实体对抽取目标关系时,往往都局限于这个实体对对应的包中的信息,而忽略了与其他包之间存在的联系。其次,目前有一些模型利用了包与包之间的简单的两跳关系路径来帮助模型抽取出目标关系,然而真实的场景下实体之间的关系路径并不仅仅是两跳的关系路径,三跳四跳等多跳的关系路径同样占有很大的比重,这些路径中固然有很多无效的关系路径,但同样存在着对模型有帮助的正样本路径。此外,这些利用了两跳关系路径的模型在对关系路径信息进行融合时对于每一个实体对仅仅选择了一条置信度最高的关系路径,这样的做法虽然筛除了大量的无效或者噪音路径,但同时也损失了对于推理出目标关系有帮助的其他的正样本路径。
技术实现思路
为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种基于关系路径的远程监督关系抽取方法、装置及介质。本专利技术所采用的技术方案是:一种基于关系路径的远程监督关系抽取方法,包括以下步骤:通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;针对每个包的句子,通过直接句子编码模块获取实体对的相应关系的预测概率;针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。进一步,所述构建实体对句子集合,包括:根据远程监督机制构造出的实体对句子集合,整理每个实体对对应的两跳、三跳或四跳的关系路径;将每个包对应的关系路径信息通过路径表示框架进行建模,得到每个预定义关系的预测置信度。进一步,所述直接句子编码模块包括输入表示层、句子表示编码层和包表示编码层;输入表示层用于获取句子中每个词的向量表示,进而得到整个句子的向量表示序列;句子表示编码层用于将句子的向量表示转化成整个句子的特征表示向量;包表示编码层采用基于自注意力机制的多示例学习方法,对包中所有句子的特征表示向量进行加权求和,得到整个包的表示向量。进一步,所述获取句子中每个词的向量表示,进而得到整个句子的向量表示序列,包括:利用词嵌入技术拼接每个词的语义信息向量和位置信息向量,以建模出每个词的向量表示xi∈Rk(k=kw+kp×2);其中,kw代表该词语义信息向量的维度,kp×2代表该词的相对位置信息向量。进一步,所述对包中所有句子的特征表示向量进行加权求和,包括:将句子级别注意力机制权重加入到包中的句子中,以使有效的句子比重增大,带有噪音的句子比重减小;获得降噪后的包的特征表示。进一步,所述整个包的表示向量为:其中b是包表示向量,αi是对应每一个句子表示向量的权重,αi的表达式为:其中,ei表示输入的句子与预测关系的匹配程度,ei的计算方式为:ei=giAr其中,A是加权的对角矩阵,r而代表所有关系标签中其中一个关系的关系表征向量;最后通过softmax分类器获得条件概率:其中,nr代表所有预定义的关系总数,o是给定包与所有关系类型的匹配得分:o=Mb+v是偏置向量,而M是所有关系的表示矩阵。进一步,所述通过关系路径编码模块获取关系路径推理出相应关系的预测概率,包括:给定一个实体对(h,t)之间存在的关系路径p,该关系路径p连接了n个实体对{(h,e1),(e1,e2),...,(en-1,t)},设这n个实体对对应的关系集合为Rp={r1,r2,...,rn};每一个被连接的实体对都至少代表了一个句子,基于关系路径p推理出关系r的条件概率描述为:其中,ui衡量了根据该关系路径p推理出某个关系r的置信度;ui的表达式为:其中,rt是对于实体对(h,t)的已被远程监督机制标注好的关系。进一步,所述联合学习本文档来自技高网
...

【技术保护点】
1.一种基于关系路径的远程监督关系抽取方法,其特征在于,包括以下步骤:/n通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;/n针对每个包的句子,通过直接句子编码模块获取实体对的相应关系的预测概率;/n针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;/n在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。/n

【技术特征摘要】
1.一种基于关系路径的远程监督关系抽取方法,其特征在于,包括以下步骤:
通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐,构建实体对句子集合,根据实体对的内容将句子划分为多个包;
针对每个包的句子,通过直接句子编码模块获取实体对的相应关系的预测概率;
针对每个包对应的实体对的推理关系路径,通过关系路径编码模块获取关系路径推理出相应关系的预测概率;
在联合学习模块中,结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。


2.根据权利要求1所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述构建实体对句子集合,包括:
根据远程监督机制构造出的实体对句子集合,整理每个实体对对应的两跳或多跳的关系路径;
将每个包对应的关系路径信息通过路径表示框架进行建模,得到每个预定义关系的预测置信度。


3.根据权利要求1所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述直接句子编码模块包括输入表示层、句子表示编码层和包表示编码层;
输入表示层用于获取句子中每个词的向量表示,进而得到整个句子的向量表示序列;
句子表示编码层用于将句子的向量表示转化成整个句子的特征表示向量;
包表示编码层采用基于自注意力机制的多示例学习方法,对包中所有句子的特征表示向量进行加权求和,得到整个包的表示向量。


4.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述获取句子中每个词的向量表示,进而得到整个句子的向量表示序列,包括:
利用词嵌入技术拼接每个词的语义信息向量和位置信息向量,以建模出每个词的向量表示xi∈Rk(k=kw+kp×2);
其中,kw代表该词语义信息向量的维度,kp×2代表该词的相对位置信息向量。


5.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述对包中所有句子的特征表示向量进行加权求和,包括:
将句子级别注意力机制权重加入到包中的句子中,以使有效的句子比重增大,带有噪音的句子比重减小;
获得降噪后的包的特征表示。


6.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法,其特征在于,所述整个包的表示向量为:



其中b是包表示...

【专利技术属性】
技术研发人员:蔡毅刘诤
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1