一种基于同步神经网络的意见二元组抽取方法技术

技术编号：23705488 阅读：22 留言：0更新日期：2020-04-08 11:17

一种基于同步神经网络的意见二元组抽取方法。在细粒度情感分析领域，意见二元组抽取是一个重要任务，该任务旨在挖掘意见句中包含的评价对象、评价词、以及两者间的修饰关系。给定意见句，本发明专利技术方法首先基于预训练语言模型BERT构建编码层，学习词的上下文语义。随后，交替构建多个识别层与同步层，以实现评价对象、评价词、以及两者间关系的同步抽取。具体地，识别层包含意见实体抽取与关系检测两个模块，同步层设计了两个同步矩阵(即，边界同步矩阵与关系同步矩阵)来记录识别层学习到的高层语义信息，并传递给下一个识别层，以实现意见实体抽取与关系检测的相互促进。最后，本方法利用一个推理层，基于识别层的结果获取最终的意见二元组。

A method of opinion binary extraction based on synchronous neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于同步神经网络的意见二元组抽取方法
本专利技术属于计算机应用技术，数据挖掘，细粒度情感分析

技术介绍
随着信息技术的发展，互联网中积累了大量的用户评论数据。对这些评论数据进行语义分析和意见挖掘对各行业的发展具有重要意义，由此细粒度情感分析的相关研究逐渐受到广泛关注。其中，意见二元组抽取(即评价对象-评价词二元组抽取)是一个重要的任务。为解决该任务，早期的方法主要采用流水线的方式。例如，Hu等人[1]首先识别意见句中包含的评价对象，再基于关联关系抽取评价对象相邻的形容词作为对应的评价词。Zhuang等人[2]首先抽取意见句中包含的评价对象与评价词，再使用依赖关系模板挖掘其关系。基于流水线的方法虽然可以较为简单的进行二元组的抽取，但是这类方法通常会忽略意见实体抽取与关系检测之间的依赖关系，并且会面临错误传导的问题。为了进一步考虑意见实体抽取和关系检测之间的依赖关系，一些研究工作提出了联合学习的方法。例如，Klinger等人[3,4]分析了评价对象和评价词之间的相互依赖关系，提出了一种基于因子图的联合推理模型来抽取评价对象、评价词和它们之间的关系。Yang等人[5]利用了整数线性规划的方式同时识别评价对象、评价词、意见持有人以及他们之间的关系。但是这些方法通常是基于浅层的机器学习模型，而且需要依赖于手工设计的特征或模板，这在一定程度上限制了二元组抽取的性能。近年来，深度学习的方法被广泛用于意见实体抽取任务，并且取得了很好的研究成果。Liu等人[6]设计了一种结合多种预训练词向量的循环...

【技术保护点】
1.一种基于同步神经网络的意见二元组抽取方法，主要由编码层、多个交替的识别层与同步层、以及推理层组成；具体步骤如下：/n步骤1)编码层：基于预训练的语言模型构建词的上下文语义表示；/n步骤2)识别层：基于步骤1)构建的词的上下文语义表示，同步抽取意见实体的边界、意见实体的类别与评价方面以及评价词之间的修饰关系；/n步骤3)同步层：基于步骤2)中意见实体抽取和关系检测的结果，设计边界同步矩阵与关系同步矩阵记录高层交互信息，为后续的识别层提供信息指导；两个矩阵均被初始化为全零矩阵，并且在每个同步层中不断进行更新；/n步骤4)交替执行步骤2)与步骤3)，以使得意见实体抽取与关系检测能够相互促进；/n步骤5)推理层：将最后一个识别层的结果转化为最终的意见二元组。/n

【技术特征摘要】
1.一种基于同步神经网络的意见二元组抽取方法，主要由编码层、多个交替的识别层与同步层、以及推理层组成；具体步骤如下：
步骤1)编码层：基于预训练的语言模型构建词的上下文语义表示；
步骤2)识别层：基于步骤1)构建的词的上下文语义表示，同步抽取意见实体的边界、意见实体的类别与评价方面以及评价词之间的修饰关系；
步骤3)同步层：基于步骤2)中意见实体抽取和关系检测的结果，设计边界同步矩阵与关系同步矩阵记录高层交互信息，为后续的识别层提供信息指导；两个矩阵均被初始化为全零矩阵，并且在每个同步层中不断进行更新；
步骤4)交替执行步骤2)与步骤3)，以使得意见实体抽取与关系检测能够相互促进；
步骤5)推理层：将最后一个识别层的结果转化为最终的意见二元组。

2.根据权利要求1所述的基于同步神经网络的意见二元组抽取方法，其特征在于，步骤1)编码层的具体操作方法如下：
步骤1.1)对评价文本进行分词处理，得到评价文本对应的词序列；
步骤1.2)对每个词，构建词向量、段落向量、以及位置向量，并将三种向量进行加和得到词的初始向量表示，并将此表示作为步骤1.3)中预训练语言模型的输入向量；
步骤1.3)使用BERT作为预训练语言模型，输入步骤1.2)得到的词的初始向量表示，将BERT最后一层的输出作为词的上下文语义表示。

3.根据权利要求1所述的基于同步神经网络的意见二元组抽取方法，其特征在于，步骤2)识别层的具体操作方法如下：
步骤2.1)意见实体抽取；将意见实体抽取问题形式化为序列标注...

【专利技术属性】
技术研发人员：刘杰，陈少维，王禹，张文政，
申请(专利权)人：南开大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人