当前位置: 首页 > 专利查询>山东芯辰人工智能科技有限公司山东正晨科技股份有限公司专利>正文

基于关系注意力增强和词性掩码的实体关系联合抽取方法技术

技术编号：39138715 阅读：27 留言：0更新日期：2023-10-23 14:54

本发明专利技术公开一种基于关系注意力增强和词性掩码的实体关系联合抽取方法，包括：对自然语句和关系名序列分别进行分词并拼接后得到分词标记序列；提取分词标记序列的词编码特征，进行关系预测，得到候选关系列表；对自然语句进行词性标注，和句子分词标记对齐后得到词性对齐序列，从而生成多层掩码；将多层掩码引入至多头注意力模块中，将多层注意力矩阵划分为实体抽取预测表和关系三元组预测表，从而分别进行实体抽取结果和关系三元组预测。在考虑实体对关系抽取作用的同时，兼顾关系对实体抽取的辅助作用，同时引入词性信息，提高对实体抽取的准确度。抽取的准确度。抽取的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于关系注意力增强和词性掩码的实体关系联合抽取方法

[0001]本专利技术涉及信息抽取
，特别是涉及一种基于关系注意力增强和词性掩码的实体关系联合抽取方法。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]随着互联网的快速发展，互联网用户在享受网上冲浪乐趣的同时也产生了庞大的非结构化数据。这些数据中包含大量文本内容，蕴含丰富的语义信息，想要充分利用这些语义信息，就需要对这些非结构化文本进行知识提取。
[0004]为了从自由文本等非结构化数据中抽取出计算机可以理解的结构化语义信息，人们提出了信息抽取技术。信息抽取技术主要包括命名实体识别、关系抽取、事件抽取等子任务。其中命名实体识别和关系抽取是信息检索、知识图谱构建等任务的基础，命名实体识别主要是识别文本中特定的实体，如人名、地名、组织名等；关系抽取主要是识别实体之间的关系，如人和公司之间的从属关系、家庭成员关系等。实体与关系抽取任务则包含上述两个子任务，主要目的是抽取自然语言文本中存在的实体对和实体对之间存在的关系类型，并以(头实体h；关系r；尾实体t)三元组的形式表示。
[0005]深度学习方法能够自动从文本中学习语义特征，不需要构建大量的特征工程，目前其相关技术已经被广泛引用到了计算机视觉与自然语言处理等任务中。实体与关系抽取任务中也涌现了很多基于深度学习的抽取方法，这些方法大致可以分为两类：基于流水线的方法与联合抽取的方法。
[0006]基于流水线的实体关系抽取...

【技术保护点】

【技术特征摘要】
1.基于关系注意力增强和词性掩码的实体关系联合抽取方法，其特征在于，包括：对待处理的自然语句和关系名序列分别进行分词后，得到句子分词标记和关系分词标记，将句子分词标记和关系分词标记拼接得到分词标记序列；提取分词标记序列的词编码特征，根据词编码特征进行关系预测，得到候选关系列表；对自然语句进行词性标注，将得到的词性标注序列和句子分词标记对齐后得到词性对齐序列，根据词性对齐序列生成多层掩码；对分词标记序列采用多层Transformer编码器进行处理，在每层Transformer编码器的多头注意力处理中引入多层掩码，由此得到多层注意力矩阵，将多层注意力矩阵划分为实体抽取预测表和关系三元组预测表；根据实体抽取预测表与设定阈值的比较得到实体抽取结果，根据候选关系列表对关系三元组预测表中不存在的关系删除后，通过与设定阈值的比较得到关系三元组预测结果，将实体抽取结果和关系三元组预测结果整合得到实体关系三元组。2.如权利要求1所述的基于关系注意力增强和词性掩码的实体关系联合抽取方法，其特征在于，根据词编码特征进行关系预测的过程中，以首编码特征作为序列整体特征，以其余编码特征的均值作为序列局部特征，通过序列整体特征和序列局部特征进行关系预测；其中，关系预测包含2个全连接层和2个激活函数层，选择得分最高的k个关系类别作为候选关系列表。3.如权利要求1所述的基于关系注意力增强和词性掩码的实体关系联合抽取方法，其特征在于，所述多层掩码包括词性掩码和句子分词掩码。4.如权利要求1所述的基于关系注意力增强和词性掩码的实体关系联合抽取方法，其特征在于，每层Transformer编码器包括多头注意力模块和深度前馈网络，将分词标记序列转换为连续向量，输入Transformer编码器中，先通过引入多层掩码的多头注意力模块，将多头注意力模块的输出和连续向量相加后，再通过深度前馈网络得到该层Transformer编码器的输出。5.如权利要求1所述的基于关系注意力增强和词性掩码的实体关系联合抽取方法，其特征在于，所述实体抽取预测表为多层注意力矩阵中前N层注意力矩阵并求均值得到的用于实体抽取的抽取矩阵；实体抽取过程中，根据实体的头坐标和尾坐标进行判断，且不考虑抽取矩阵中坐标大于ml的元素和对角线下的元素，ml为句子分词标记长度。6.如权利要求1所述的基于关系注意力增强和词性掩码的实体关系联合抽取方法，其特征...

【专利技术属性】
技术研发人员：周风余，王国祥，陈建业，刘进，范崇锋，尹磊，李庆政，高鹤，丁笑迎，
申请(专利权)人：山东芯辰人工智能科技有限公司山东正晨科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人