基于关系路径的远程监督关系抽取方法、装置及介质制造方法及图纸

技术编号：29704115 阅读：30 留言：0更新日期：2021-08-17 14:32

本发明专利技术公开了一种基于关系路径的远程监督关系抽取方法、装置及介质，其中方法包括以下步骤：通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐，构建实体对句子集合，根据实体对的内容将句子划分为多个包；通过直接句子编码模块获取实体对的相应关系的预测概率；针对每个包对应的实体对的推理关系路径，通过关系路径编码模块获取关系路径推理出相应关系的预测概率；在联合学习模块中，结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。本发明专利技术采用了联合学习框架将直接句子的特征信息和关系路径的推理信息合理地结合起来，提高关系抽取的精准度，可广泛应用于自然语言处理领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于关系路径的远程监督关系抽取方法、装置及介质
本专利技术涉及自然语言处理领域，尤其涉及一种基于关系路径的远程监督关系抽取方法、装置及介质。
技术介绍
信息抽取是指从自然语言文本中自动抽取指定类型的实体、关系、事件等事实信息的应用技术。信息抽取主要包括三个子任务：实体抽取、关系抽取和事件抽取。其中关系抽取作为信息抽取领域的核心任务和关键环节，近年来也受到了学术界和工业界的广泛关注。关系抽取的主要目标是从自然语言文本中识别并且判别实体对之间存在的特定关系。研究者利用关系抽取可以从海量的无结构文本中抽取出格式统一的实体关系，这进一步提高了海量数据的处理效率；将多个实体的语义关系和实体进行关联，有利于知识库和相关问答系统的自动构建；对用户查询文本进行分析处理，帮助提高智能检索的效率等。关系抽取任务本质上是一个多分类的文本分类任务，即针对文本中识别出的实体对存在的关系划分到某个或某几个预定义的关系类别。目前主流的关系抽取方法是基于神经网络学习的关系分类方法，而其中取得较好效果的关系分类方法主要是有监督的关系抽取方法和基于远程监督的关系抽取方法。有监督的关系抽取是目前发展较成熟的一个分支，其以包含实体对的一个句子为处理样本，主要利用有标注的训练数据的信息来帮助识别未标注的样本中实体对存在的关系，优点是能有效利用样本的标记信息，识别效果较好，但缺点是标注训练语料的过程耗时费力，代价高昂。远程监督关系抽取(DistantlySupervisedRelationExtraction，DSRE)方法作为目前主流的半监督的深度学...

【技术保护点】
1.一种基于关系路径的远程监督关系抽取方法，其特征在于，包括以下步骤：/n通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐，构建实体对句子集合，根据实体对的内容将句子划分为多个包；/n针对每个包的句子，通过直接句子编码模块获取实体对的相应关系的预测概率；/n针对每个包对应的实体对的推理关系路径，通过关系路径编码模块获取关系路径推理出相应关系的预测概率；/n在联合学习模块中，结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。/n

【技术特征摘要】
1.一种基于关系路径的远程监督关系抽取方法，其特征在于，包括以下步骤：
通过远程监督机制将知识库中的实体对和文本语料中的实体对进行对齐，构建实体对句子集合，根据实体对的内容将句子划分为多个包；
针对每个包的句子，通过直接句子编码模块获取实体对的相应关系的预测概率；
针对每个包对应的实体对的推理关系路径，通过关系路径编码模块获取关系路径推理出相应关系的预测概率；
在联合学习模块中，结合直接句子编码模块中的信息和关系路径编码模块中的信息获取最终对应实体对的预测关系。

2.根据权利要求1所述的一种基于关系路径的远程监督关系抽取方法，其特征在于，所述构建实体对句子集合，包括：
根据远程监督机制构造出的实体对句子集合，整理每个实体对对应的两跳或多跳的关系路径；
将每个包对应的关系路径信息通过路径表示框架进行建模，得到每个预定义关系的预测置信度。

3.根据权利要求1所述的一种基于关系路径的远程监督关系抽取方法，其特征在于，所述直接句子编码模块包括输入表示层、句子表示编码层和包表示编码层；
输入表示层用于获取句子中每个词的向量表示，进而得到整个句子的向量表示序列；
句子表示编码层用于将句子的向量表示转化成整个句子的特征表示向量；
包表示编码层采用基于自注意力机制的多示例学习方法，对包中所有句子的特征表示向量进行加权求和，得到整个包的表示向量。

4.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法，其特征在于，所述获取句子中每个词的向量表示，进而得到整个句子的向量表示序列，包括：
利用词嵌入技术拼接每个词的语义信息向量和位置信息向量，以建模出每个词的向量表示xi∈Rk(k＝kw+kp×2)；
其中，kw代表该词语义信息向量的维度，kp×2代表该词的相对位置信息向量。

5.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法，其特征在于，所述对包中所有句子的特征表示向量进行加权求和，包括：
将句子级别注意力机制权重加入到包中的句子中，以使有效的句子比重增大，带有噪音的句子比重减小；
获得降噪后的包的特征表示。

6.根据权利要求3所述的一种基于关系路径的远程监督关系抽取方法，其特征在于，所述整个包的表示向量为：

其中b是包表示...

【专利技术属性】
技术研发人员：蔡毅，刘诤，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人