一种文本情感领域分类的方法及系统技术方案

技术编号:29614673 阅读:17 留言:0更新日期:2021-08-10 18:29
本发明专利技术实施例提供一种文本情感领域分类的方法及系统,包括:BiLSTM自目标域数据和源域数据提取文本初步特征表示;用梯度反转自文本初步特征表示提取各自文本通用特征表示;训练文本通用特征表示并建立域分类子模型损失函数;通过投影机制对文本初步特征表示映射得到文本领域性特征表示;对文本领域性特征表示训练建立情感分类子模型损失函数;根据情感分类子模型损失函数与域分类子模型损失函数之差建立图域对抗模型的损失函数,将图域对抗模型用于对文本进行文本情感领域分类;当收到对待进行情感领域分类的文本时,采用图域对抗模型对其进行情感领域分类。基于对抗学习思想的模型实现跨域情感分类,有效提高深度学习模型的特征提取能力。

【技术实现步骤摘要】
一种文本情感领域分类的方法及系统
本专利技术涉及文本分类,具体涉及一种文本情感领域分类的方法及系统。
技术介绍
作为NLP(自然语言处理)领域内基础性研究的文本情感分类任务,不仅其本身引起了大量研究人员的关注,而且也为其他NLP任务提供了足够技术支撑。例如,实体关系提取、机器翻译、推荐系统等等。传统文本情感分类方法,像SVM,NaiveBayes,随机森林等,大多依赖于手工提取的特征。然而提取这些特征均需要昂贵的时间与金钱代价。同时,此类方法过多地依赖于大规模语料库的支持,其性能依赖语料库的优劣,易受数据稀疏和数据噪声的干扰。近些年,一些深度学习模型已经被提出并用于解决这些问题。这些模型大多围绕CNN,RNN和注意力机制等展开,并取得了优于传统分类方法的分类性能。例如,CNN能够提取局部的及相对位置不变的特征。然而,CNN会忽略文本本身存在的序列形式问题。同时,CNN又因为过度关心局部特征(如not,miss)导致分类任务的错误判定。RNN能对整个句子建模并捕获词汇间的长距离依赖。然而,RNN会因为过度关心文本的整体建模而可能忽略掉某些对文本分类任务重要的局部特征。为解决以上问题,注意力机制被提出并迅速获得大量研究人员的青睐。例如,Transformer_XL模型同时结合了RNN序列建模和Transformer自注意力机制的优点,获得远超Transformer的性能。Bert模型也通过注意力机制最大化的提取到文本的语义信息。简而言之,基于输入文本,神经网络能通过大量训练便可生成其文本的特征表示。并且,这些特征表示直接影响这着分类性能。当前,情感分类技术的一大瓶颈就是如何精确地表现自然语言的语义,即用户的意图。故本专利技术将特征学习视作深度学习模型的关键一环。在实现本专利技术过程中,申请人发现现有技术中至少存在如下问题:在一段文本中,通常会存在一些对文本情感分类任务强相关的词汇,但同时也会存在很多弱相关和无关的词汇。例如,在情感分类中,文本中的“良好”和“不错”一般都表达出积极情感的意思,而“坏的”和“糟糕的”往往象征着消极的情感。然而,本专利技术研究发现,然而,研究发现,在文本中存在的所谓强相关的词汇会干扰深度学习模型的特征学习能力,造成分类任务的错误判定。在句子“Mybrotherisanableseaman.”中,词汇“ableseaman”在军事领域中的意思是一等水兵,其情感倾向为中性,而由于able一词的存在,词汇“ableseaman”在生活领域就会很容易被误解为很有能力的水手,这时其情感倾向为正向。尽管注意力机制能通过赋予文本中强相关的词汇更多的权重和赋予弱相关与无关词汇较少及零权重的方式在一定程度上减轻这种问题。然而由于用词习惯等客观问题的存在,此类问题仍还未被解决。近几年,深度神经网络能够迅速在应用市场开花结果得益于当前大数据时代带来的海量数据及其有效标签。也就是说,当前深度学习算法是以数据集及其对应标签为驱动的,数据集及其标签的数量和质量决定了深度学习算法的性能。然而,由于数据的保密性,大量数据集缺少对应标签,这使得很多性能良好的深度学习算法无法快速应用到市场上。
技术实现思路
本专利技术实施例提供一种文本情感领域分类的方法及系统,基于对抗学习思想的模型,实现跨域情感分类,有效提高深度学习模型的特征提取能力。为达上述目的,一方面,本专利技术实施例提供一种文本情感领域分类的方法,包括:获取目标域数据和源域数据,通过双向长短期记忆网络BiLSTM和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;并通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。另一方面,本专利技术实施例提供一种文本情感领域分类的系统,包括图域对抗模型训练单元和运用单元,其中图域对抗模型训练单元包括数据获取单元、梯度反转层、情感分类子模型构建单元、辅助任务单元、域分类子模型构建单元和结果单元,其中:数据获取单元,用于获取目标域数据和源域数据,通过双向长短期记忆网络BiLSTM和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;梯度反转层,基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;情感分类子模型构建单元,用于通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;辅助任务单元,用于在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;域分类子模型构建单元,用于通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;结果单元,用于根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;运用单元,用于当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。上述技术方案具有如下有益效果:本专利技术提出基于对抗学习思想的模型,实现跨域情感分类,有效提高深度学习模型的特征提取能力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普本文档来自技高网
...

【技术保护点】
1.一种文本情感领域分类的方法,其特征在于,包括:/n获取目标域数据和源域数据,通过双向长短期记忆网络BiLSTM和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;/n基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;/n通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;/n在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;并通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;/n根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;/n当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。/n...

【技术特征摘要】
1.一种文本情感领域分类的方法,其特征在于,包括:
获取目标域数据和源域数据,通过双向长短期记忆网络BiLSTM和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示;其中,所述目标域数据是指待进行情感领域分类的无标签数据,所述源域数据是指已经通过人工标定好情感领域分类的有标签数据;
基于对抗学习思想,在图域对抗模型中采用非常规的梯度反转层自目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性;
通过图域对抗模型的域分类子模型训练文本通用特征表示以预测域标签,并根据预测的域标签建立域分类子模型的损失函数;
在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示;并通过情感分类子模型对文本领域性特征表示进行训练以预测情感标签,并根据预测的情感标签建立情感分类子模型的损失函数;
根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;
当收到对待进行情感领域分类的文本时,采用文本情感领域分类的图域对抗模型对待进行情感领域分类的文本进行情感领域分类。


2.根据权利要求1所述的文本情感领域分类的方法,其特征在于,所述获取目标域数据和源域数据,通过双向长短期记忆网络BiLSTM和图注意力机制模型自目标域数据和源域数据提取文本初步特征表示,具体包括:
目标域数据和源域数据的文本分别以句子形式体现;通过word2vec实现对对目标域数据和源域数据的预训练处理,完成对文本的初始词嵌入操作,自完成的初始词嵌入操作的文本进一步获取目标域数据的文本特征矩阵和源域数据的文本特征矩阵;其中,word2vec为产生词向量的相关模型;
通过BiLSTM模型分别对目标域数据的文本特征矩阵和源域数据的文本特征矩阵进行训练,针对每个词嵌入向量获取其前向隐藏状态向量、反向隐藏状态向量,将各个词相应的前向隐藏状态向量、相应的反向隐藏状态向量进行拼接,得到各词的拼接向量;通过目标域数据的各词的拼接向量形成目标域数据的文本特征表示,通过源域数据的各词的拼接向量形成源域数据的文本特征表示;其中,所述文本特征表示带有上下文信息;
将目标域数据的文本特征表示和源域数据的文本特征表示分别输入到图注意力机制模型,基于图注意力网络编码直接邻居的信息、具有预设层数的注意力网络中的节点只能受到与预设层数相同步数内的相邻节点的影响,分别将目标域数据的文本特征表示和源域数据的文本特征前一层的每个节点特征更新得到其在下一层的节点特征,直至将每个节点特征更新到与预设层数相同步数后得到各节点的最终状态特征,将目标域数据所有节点的最终状态特征作为其文本初步特征表示;将源域数据所有节点的最终状态特征作为其文本初步特征表示。


3.根据权利要求2所述的文本情感领域分类的方法,其特征在于,所述基于对抗学习思想,采用图域对抗模型中采用非常规的梯度反转层自于目标域数据的文本初步特征表示及源域数据的文本初步特征表示中提取文本通用特征表示,提高图域对抗模型的泛化性,具体包括:
将文本初步特征表示送入梯度反转层GRL,通过GRL训练文本初步特征表示;在文本初步特征表示反向传播过程中,在域分类器的域分类损失的梯度反向传播到特征提取器的参数之前自动取反,且在前向传播过程中恒等变化;通过在域分类的损失函数的域分类误差项前引入权重平衡参数表示前向传播与反向传播中梯度的相关变化,并通过域分类器训练引入权重平衡参数后的域分类的损失函数,得到模糊了文本领域性的文本通用特征表示。


4.根据权利要求3所述的文本情感领域分类的方法,其特征在于,所述在图域对抗模型域分类子模型中,通过投影机制对文本初步特征表示进行映射得到文本领域性特征表示,具体包括:
通过投影机制将文本特征表示投影到互相垂直的二维空间向量上,得到文本特征表示第一分向量和文本特征表示第二分向量,所述文本特征表示第一分向量的起点与所述文本特征表示的起点相交,以及文本特征表示第一分向量与所述文本通用特征平行;
取文本特征表示与文本特征表示第一分向量之差,将文本特征表示投影在文本特征表示与文本特征表示第一分向量之差上,得到文本领域性特征;所述文本领域性特征用于在域分类器中进行训练以预测情感分类标签。


5.根据权利要求1所述的文本情感领域分类的方法,其特征在于,所述根据情感分类子模型的损失函数与域分类子模型的损失函数之差建立图域对抗模型的损失函数,通过最小化情感分类子模型的损失函数的源域分类误差项、最大化域分类子模型的损失函数的域分类误差项使得图域对抗模型的损失函数最小化,当图域对抗模型的损失函数值小于预定值时,其所对应的图域对抗模型用于对文本进行文本情感领域分类;具体包括:
在图域对抗...

【专利技术属性】
技术研发人员:唐恒亮米源薛菲曹阳
申请(专利权)人:北京物资学院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1