基于多源领域适应联合学习的跨领域文本情感分类方法技术

技术编号:21658711 阅读:62 留言:0更新日期:2019-07-20 05:39
本发明专利技术针对跨领域文本情感分类任务提出了一种多源领域适应联合学习方法与系统。此框架可以同时学习和训练多个领域的神经网络,可以从不同方面引入更丰富的监督信息。多个领域的任务可以相互补充,从而更容易得到更一般化的表示模型。特别地,本发明专利技术设计的联合训练的损失函数包括四个部分:情感分类损失、参数迁移损失、领域融合损失和防止过拟合的正则项。情感分类损失包含了源领域任务和目标领域任务上的情感分类损失,软参数迁移的方法可以有效地迁移源领域的情感知识到目标领域中,而深度领域融合可以保证在学习过程中不同领域的边际分布尽可能地相似。因此多源领域适应联合学习神经网络能够在有限的数据条件下实现更好的特征表示和泛化能力。我们在中文和英文的多领域数据集上验证了提出的多源领域适应联合学习框架,实验结果表明本发明专利技术提出的方法在跨领域文本情感分类准确率上有很大提升。

Cross-domain Text Emotional Classification Based on Multi-source Domain Adaptive Joint Learning

【技术实现步骤摘要】
基于多源领域适应联合学习的跨领域文本情感分类方法
本专利技术涉及自然语言处理文本情感分析领域,提出了一种基于多源领域适应联合学习的跨领域文本情感分类方法。
技术介绍
跨领域情感分类(Cross-domainsentimentclassification)被定义为通过迁移源领域任务的情感信息到目标领域,利用相关的源领域带标签的数据学习一个精确的情感分类器,实现对目标领域不带标签数据的情感极性分类任务。跨领域文本情感分类作为自然语言处理任务中的重要分支,一直是产业界和学术界的研究热点和难点。根据可用的源领域的个数,可以分为单源领域和多源领域的跨领域情感分类。多源领域优势在于可以利用多个源领域的信息训练更鲁棒的模型,难点在于如何选择合适的源领域和如何融合多个多领域的情感信息。大部分多源跨领域情感分类研究主要专注于目标领域数据样本稀缺问题和如何利用多个源领域数据,多采用基于实例迁移或者模型迁移的方法。从模型迁移的角度看,Tan等人定义了多视角和多源领域的迁移学习,提出了一种新的“协同利用不同视角和源领域的知识算法”(StatisticalAnalysisandDataMining:TheASADataScienceJournal,2014,第7卷第4期),通过不同源领域互相协同训练的方法,可以弥补不同领域之间的分布差异。Ge等人提出了一种“快速的、可扩展的在线多领域迁移学习框架”(ProceedingsoftheACMInternationalConferenceonInformationandKnowledgeManagement,2013),此框架在凸优化的基础上,在目标领域的信息指导下从多个源领域中迁移知识。Wu等人在从不带标签的目标领域数据中词的情感极性关系的帮助下,提出了一种“基于情感图的领域相似性度量方法”(ProceedingsoftheAnnualMeetingoftheAssociationforComputationalLinguistics,2016),相似的领域通常会共享共同的情感词和情感词对,目标领域和不同的源领域的相似性也被合并到适应性过程中。Yoshida等人提出了一种“新的贝叶斯概率模型处理多个源领域和多个目标领域的情况”(ProceedingsoftheAAAIConferenceonArtificialIntelligence,2011),在此模型中,每个词有三个要素,分别是领域标签、领域独立/非独立、词的极性。在已公布的迁移学习专利技术方面,主要的成果有:代明军等人提出一种“基于深度混合模型迁移学习的评论情感分类方法及系统”(2018年11月20日公布,公布号为CN109271522A的中国专利技术专利申请),对商品评论的源领域数据样本集进行深度混合模型预训练,对目标领域样本集上进行微调。龙明盛等人提出一种“一种领域适应性网络的深度迁移学习方法”(2018年4月24日公布,公布号为CN107958286A的中国专利技术专利申请),通过根据每一任务相关层对应的分布差异,分类错误率和错配度,确定领域适应性网络的损失函数的值。肖仰华等人提出“一种基于领域适应的自然语言处理任务的迁移学习系统和方法”(2018年2月2日公布,公布号为CN107657313A的中国专利技术专利申请),开放了领域部分模块和特定领域部分模块。传统跨领域情感分类任务实现的是单个源领域到目标领域的情感迁移,而在现实条件下,往往存在多个源领域的数据辅助目标领域的情感分类任务。传统的领域分布度量方法往往只考虑了领域差异,没有考虑领域内的类间和类内的分布。而且已有的硬参数迁移方法,忽略了领域特定的特征,有很强的限制条件。与已公布的专利技术明显不同,本专利技术利用双向门循环单元(Bidirectionalgaterecurrentunit,BiGRU)和卷积神经网络(Convolutionalneuralnetworks,ConvNets)进行深度特征提取,采用软参数迁移的方法进行领域参数共享。在考虑情感分类损失的同时,还考虑了领域融合损失。改进了传统的最大均值差异领域分布度量方法,引入了同一个领域内不同类的差异度和类内的紧致程度。采用软参数迁移的方法共享不同领域之间的参数,在异质空间任务上有更好的泛化性和适应性,较已公布的专利技术方法有较强的创新性。已有的研究表明,额外领域的信息有助于共享的隐层学到更好的内部表示。我们假设不同领域的情感分类任务是相似相关的,而且不同领域的情感学习任务可以共享特征表示。针对多源跨领域情感分类任务,本专利技术提出了一种多源领域适应联合学习框架并应用到多源跨领域情感分类任务中。在此框架中,我们使用目标领域任务作为主任务,多个源领域任务作为辅助任务。在构建领域特定的模型时,使用双向门循环单元模型与卷积神经网络模型结合,提取有效的情感特征。构建了包含情感分类损失、参数共享损失、领域融合损失和正则项在内的联合损失函数,设计了多源领域适应联合学习训练算法,联合训练多个源领域和目标领域的带标签数据。领域适应(Domainadaptation)是从一个或者多个源领域中获取知识和经验,适应到与源领域分布不同的目标领域的过程。领域适应机制是解决跨领域情感分类任务的重要方法。多源领域适应(Multi-sourcedomainadaptation)方法在解决跨领域情感分类任务时需要解决以下两点问题:(1)如何共享不同领域间的情感知识表示?传统的知识表示和迁移策略往往是浅层的,不能共享不同领域的深层特征表示。而已有的硬参数迁移(Hardparametersharing)方法,忽略了特定领域的特征,有很强的限制条件。(2)如何融合多个源领域的知识到目标领域学习算法中?已有的领域适应方法往往只关注于单个源领域到目标领域,样本规模普遍较小。多个源领域之间的知识往往存在共性和交叉,有效利用和融合多个领域的情感知识可以提高目标领域分类的泛化性。度量不同领域距离的一种比较流行的方法是最大均值差异(Maximummeandiscrepancies,MMD)方法及其变体方法。最大均值差异(MMD)是Borgwardt等人提出的一种“边际分布自适应方法”(Bioinformatics,2006,第22卷第14期)。MMD将源领域和目标领域的分布映射到再生希尔伯特空间中,目标是减少源领域和目标领域的边际分布距离。Duan等人提出了使用多核MMD方法和一种新的求解策略,提出了“领域迁移多核学习方法”(IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,第34卷第3期)。Tzeng等人将MMD度量加入到深度神经网络特征层中,并将度量损失加入到模型损失函数中(ArXivPreprintArXiv:14123474v1,2014)。在本专利技术中,我们针对跨领域情感分类任务对MMD度量进行了改进。不仅考虑了不同领域映射后的边际分布距离,还考虑了同一个领域中的不同类的差异应该尽可能地大,同一类中的样本到类中心的距离应尽可能地小,并根据此原则设计了深度领域融合损失函数。
技术实现思路
本专利技术旨在多个源领域和目标领域数据有限的条件下,实现更好得情感迁移,提升泛化能力,实现多个源领域条件下的跨领域情感分本文档来自技高网
...

【技术保护点】
1.一种基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,包括以下步骤:S1,多源领域适应联合学习(Multi‑source domain adaptation with joint learning):我们迁移多个源领域任务TaskSk(1≤k≤K)的情感知识,并利用少量的目标领域带标签数据DL,同时学习TaskSk和TaskT,得到假设

【技术特征摘要】
1.一种基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,包括以下步骤:S1,多源领域适应联合学习(Multi-sourcedomainadaptationwithjointlearning):我们迁移多个源领域任务TaskSk(1≤k≤K)的情感知识,并利用少量的目标领域带标签数据DL,同时学习TaskSk和TaskT,得到假设目标是最小化经验损失提高目标领域任务上的分类效果;S2,构建特定领域的BiGRU-ConvNets深度特征提取模型,使用在大量的无监督语料上得到的预训练词向量作为模型的输入。同时,词向量在针对特定的任务时可以微调;S3,为了预训练BiGRU-ConvNets底层参数,使用源领域和目标领域的数据执行编码—解码操作初始化BiGRU网络的参数,编码解码的操作流程为x→C→h;S4,考虑到不同领域的情感分布的差异性,通过最小化参数迁移过程中的损失Lshare实现情感知识的迁移,目标是迁移多个源领域的知识到目标领域的特征表示中;S5,在源领域任务和目标领域任务上的整体情感损失为S6,源领域TaskSk的特征表示记为RSk,目标领域TaskT的特征表示记为RT,我们希望经过核希尔伯特空间映射后源领域和目标领域的分布尽可能地相似,即RSk≈RT;S7,定义联合损失函数L=Lsen+λLshare+ηLdomain+σReg,优化学习的目标函数是和参数集更新策略;S8,对于每个源任务和目标任务,我们对每个组合对(TaskSk,TaskT)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。2.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,所述步骤S1包括:S11,在多源领域适应联合学习中,有三点值得注意,分别是:数据的表示、学习算法和共享的机制;S12,在数据表示上,我们使用在大量语料上得到的词的分布式表示输入到BiGRU-ConvNets模型中,每个词被表示为低维连续的实值向量;S13,在联合学习算法上,我们使用源领域任务和目标领域任务的组合对交替训练神经网络;S14,在领域共享机制上,我们采用软参数共享的方法分层地抽取和迁移神经网络的参数。此方法既考虑了不同任务的共享结构,又考虑了领域的特定特征。3.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,所述步骤S2包括:S21,在此模型中,输入为文本的词序列x={x1,x2,…xn},其中wi∈Rd为第i-th个词的嵌入式表示,d为词向量的维度;S22,门循环单元(Gatedrecurrentunits,GRU)是一种LSTM的轻量变体,训练速度要快于LSTM。一个门循环单元细胞包含更新门zt,重置门rt,候选门和输出ht;S23,BiGRU包含正向和反向两个隐层,两个方向的结果联合到最终的输出;S24,BiGRU的输出序列h={h1,h2,…hn}作为卷积神经网络的输入。在ConvNets网络中,输入层BiGRU生成的特征向量自顶向下排列生成的矩阵W∈Rn×d。在卷积层中,卷积的窗口大小为N元语法,诸如一元语法、二元语法、三元语法等。wi:i+m-1代表m个词,即wi,wi+1,和wi+m-1;S25,新的特征gi由wi:i+m-1生成,gi=ReLU(eT·wi:i+m-1+b)。其中,ReLU为线性单元激活函数,e∈Rm×d为卷积核,b∈R为偏置项。可以得到卷积矩阵g=[g1,g2…gn-h+1];S26,在Pooling层,我们使用Max-over-pooling的方法对卷积层得到的特征映射抽取最大值。Pooling层输出为每个特征映射的最大值,即最终l个卷积核得到的特征向量为这不仅抽取出了句子中重要的情感信息,还保持了顺序信息;S27,在情感分类阶段,在Pooling层后,输出的特征向量z通过全连接的方式被连接Softmax层。其中y为情感标签,w为全连接层的参数,为偏置项。我们在Softmax层引入Dropout机制减少过拟合。4.根据权利要求1所述的基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,步骤S3还包括:S31,为了预训练BiGRU-ConvNets底层参数,我们使用源领域和目标领域的数据...

【专利技术属性】
技术研发人员:赵传君
申请(专利权)人:山西财经大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1