当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于同步神经网络的意见二元组抽取方法技术

技术编号:23705488 阅读:22 留言:0更新日期:2020-04-08 11:17
一种基于同步神经网络的意见二元组抽取方法。在细粒度情感分析领域,意见二元组抽取是一个重要任务,该任务旨在挖掘意见句中包含的评价对象、评价词、以及两者间的修饰关系。给定意见句,本发明专利技术方法首先基于预训练语言模型BERT构建编码层,学习词的上下文语义。随后,交替构建多个识别层与同步层,以实现评价对象、评价词、以及两者间关系的同步抽取。具体地,识别层包含意见实体抽取与关系检测两个模块,同步层设计了两个同步矩阵(即,边界同步矩阵与关系同步矩阵)来记录识别层学习到的高层语义信息,并传递给下一个识别层,以实现意见实体抽取与关系检测的相互促进。最后,本方法利用一个推理层,基于识别层的结果获取最终的意见二元组。

A method of opinion binary extraction based on synchronous neural network

【技术实现步骤摘要】
一种基于同步神经网络的意见二元组抽取方法
本专利技术属于计算机应用技术,数据挖掘,细粒度情感分析

技术介绍
随着信息技术的发展,互联网中积累了大量的用户评论数据。对这些评论数据进行语义分析和意见挖掘对各行业的发展具有重要意义,由此细粒度情感分析的相关研究逐渐受到广泛关注。其中,意见二元组抽取(即评价对象-评价词二元组抽取)是一个重要的任务。为解决该任务,早期的方法主要采用流水线的方式。例如,Hu等人[1]首先识别意见句中包含的评价对象,再基于关联关系抽取评价对象相邻的形容词作为对应的评价词。Zhuang等人[2]首先抽取意见句中包含的评价对象与评价词,再使用依赖关系模板挖掘其关系。基于流水线的方法虽然可以较为简单的进行二元组的抽取,但是这类方法通常会忽略意见实体抽取与关系检测之间的依赖关系,并且会面临错误传导的问题。为了进一步考虑意见实体抽取和关系检测之间的依赖关系,一些研究工作提出了联合学习的方法。例如,Klinger等人[3,4]分析了评价对象和评价词之间的相互依赖关系,提出了一种基于因子图的联合推理模型来抽取评价对象、评价词和它们之间的关系。Yang等人[5]利用了整数线性规划的方式同时识别评价对象、评价词、意见持有人以及他们之间的关系。但是这些方法通常是基于浅层的机器学习模型,而且需要依赖于手工设计的特征或模板,这在一定程度上限制了二元组抽取的性能。近年来,深度学习的方法被广泛用于意见实体抽取任务,并且取得了很好的研究成果。Liu等人[6]设计了一种结合多种预训练词向量的循环神经网络方法来抽取评价对象。Xu等人[7]设计了一种卷积神经网络,并考虑领域性词向量来抽取评价对象。Wang等人[8,9]和Li等人[10]关注于评价对象和评价词的联合抽取,并使用深度学习方法取得了很好的性能。具体地,Wang等人[9]和Li等人[10]均采用了注意力机制来捕捉评价对象和评价词之间的潜在关系。Hu等人[11]将预训练的语言模型BERT[12]作为主干结构来抽取评价对象和其对应的情感极性。虽然深度学习技术在意见实体抽取任务中取得了很好的研究成果,但是意见二元组抽取任务依旧是一个未得到充分研究的问题,仍需要进行更多探索性的研究。综上,现有的意见二元组抽取技术主要可以分为两类:基于流水线的方式和基于联合学习的方式。这两类方法虽然在意见二元组任务上取得了一定的研究成果,但是仍存在问题。其中,由于分步学习的影响,基于流水线的方法通常存在错误传导的问题。而现有的基于联合学习的技术虽然可以避免错误传导,并进一步考虑意见实体抽取和关系检测之间的依赖关系,但是相关工作通常是基于因子图、整数线性规划等浅层的机器学习模型,而且需要依赖于手工设计的特征或模板,这在一定程度上限制了二元组抽取的性能。参考文献:[1]Hu,M.,andLiu,B.2004.Miningandsummarizingcustomerreviews.InSIGKDD2004,168–177.[2]Zhuang,L.;Jing,F.;andZhu,X.2006.Moviereviewminingandsummarization.InCIKM2006,43–50.[3]Klinger,R.,andCimiano,P.2013a.Bi-directionalinterdependenciesofsubjectiveexpressionsandtargetsandtheirvalueforajointmodel.InACL2013,848–854.[4]Klinger,R.,andCimiano,P.2013b.Jointandpipelineprobabilisticmodelsforfine-grainedsentimentanalysis:Extractingaspects,subjectivephrasesandtheirrelations.InICDM2013,937–944.[5]Yang,B.,andCardie,C.2013.Jointinferenceforfinegrainedopinionextraction.InACL2013,1640–1649.[6]Liu,P.;Joty,S.R.;andMeng,H.M.2015.Fine-grainedopinionminingwithrecurrentneuralnetworksandwordembeddings.InEMNLP2015,1433–1443.[7]Xu,H.;Liu,B.;Shu,L.;andYu,P.S.2018.Doubleembeddingsandcnn-basedsequencelabelingforaspectextraction.InACL2018,592–598.[8]Wang,W.;Pan,S.J.;Dahlmeier,D.;andXiao,X.2016.Recursiveneuralconditionalrandomfieldsforaspect-basedsentimentanalysis.InEMNLP2016,616–626.[9]Wang,W.;Pan,S.J.;Dahlmeier,D.;andXiao,X.2017.Coupledmulti-layerattentionsforco-extractionofaspectandopinionterms.InAAAI2017,3316–3322.[10]Li,X.;Bing,L.;Li,P.;Lam,W.;andYang,Z.2018.Aspecttermextractionwithhistoryattentionandselectivetransformation.InIJCAI2018,4194–4200.[11]Hu,M.;Peng,Y.;Huang,Z.;Li,D.;andLv,Y.2019.Opendomaintargetedsentimentanalysisviaspan-basedextractionandclassification.InACL2019,537–546.[12]Devlin,J.;Chang,M.;Lee,K.;andToutanova,K.2019.BERT:pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.InNAACL2019,4171–4186.
技术实现思路
本专利技术的目的是解决现有意见二元组抽取技术中面临的错误传导、需要设计手工特征等问题,并提供一种基于同步神经网络的意见二元组抽取方法。本专利技术提出的基于同步神经网络的意见二元组抽取方法基于深度学习技术实现意见二元组的抽取,利用神经网络技术自动学习词的语义特征,进而无需构建手工设计的特征。此外,本专利技术构建了多个交替的识别层与同步层,联合抽取意见句中的评价对象、评价词、以及它们之间的关联关系,在避免错误传导的同时,进一步本文档来自技高网
...

【技术保护点】
1.一种基于同步神经网络的意见二元组抽取方法,主要由编码层、多个交替的识别层与同步层、以及推理层组成;具体步骤如下:/n步骤1)编码层:基于预训练的语言模型构建词的上下文语义表示;/n步骤2)识别层:基于步骤1)构建的词的上下文语义表示,同步抽取意见实体的边界、意见实体的类别与评价方面以及评价词之间的修饰关系;/n步骤3)同步层:基于步骤2)中意见实体抽取和关系检测的结果,设计边界同步矩阵与关系同步矩阵记录高层交互信息,为后续的识别层提供信息指导;两个矩阵均被初始化为全零矩阵,并且在每个同步层中不断进行更新;/n步骤4)交替执行步骤2)与步骤3),以使得意见实体抽取与关系检测能够相互促进;/n步骤5)推理层:将最后一个识别层的结果转化为最终的意见二元组。/n

【技术特征摘要】
1.一种基于同步神经网络的意见二元组抽取方法,主要由编码层、多个交替的识别层与同步层、以及推理层组成;具体步骤如下:
步骤1)编码层:基于预训练的语言模型构建词的上下文语义表示;
步骤2)识别层:基于步骤1)构建的词的上下文语义表示,同步抽取意见实体的边界、意见实体的类别与评价方面以及评价词之间的修饰关系;
步骤3)同步层:基于步骤2)中意见实体抽取和关系检测的结果,设计边界同步矩阵与关系同步矩阵记录高层交互信息,为后续的识别层提供信息指导;两个矩阵均被初始化为全零矩阵,并且在每个同步层中不断进行更新;
步骤4)交替执行步骤2)与步骤3),以使得意见实体抽取与关系检测能够相互促进;
步骤5)推理层:将最后一个识别层的结果转化为最终的意见二元组。


2.根据权利要求1所述的基于同步神经网络的意见二元组抽取方法,其特征在于,步骤1)编码层的具体操作方法如下:
步骤1.1)对评价文本进行分词处理,得到评价文本对应的词序列;
步骤1.2)对每个词,构建词向量、段落向量、以及位置向量,并将三种向量进行加和得到词的初始向量表示,并将此表示作为步骤1.3)中预训练语言模型的输入向量;
步骤1.3)使用BERT作为预训练语言模型,输入步骤1.2)得到的词的初始向量表示,将BERT最后一层的输出作为词的上下文语义表示。


3.根据权利要求1所述的基于同步神经网络的意见二元组抽取方法,其特征在于,步骤2)识别层的具体操作方法如下:
步骤2.1)意见实体抽取;将意见实体抽取问题形式化为序列标注...

【专利技术属性】
技术研发人员:刘杰陈少维王禹张文政
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1