当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于迁移学习的情感极性分析方法技术

技术编号:29873832 阅读:8 留言:0更新日期:2021-08-31 23:49
本发明专利技术公开了一种基于迁移学习的情感极性分析方法,本发明专利技术首先构建文本排序模型,弥补当前语言模型缺乏句子级预训练任务的缺陷,提高模型的逻辑感知与语义表达能力。然后,构建情感极性分析模型,将文本排序模型训练得到的相关参数迁移到情感极性分析模型中对应的位置。最后,将迁移后的模型在情感极性分析数据集上继续训练。本发明专利技术利用迁移学习为情感极性分析模型引入领域先验知识,可以提高模型的领域适应性,有助于获取更高质量的句子特征,进而提高模型的分类准确率,并且,本发明专利技术所采用的注意力机制可以为情感极性分析模型降低评论文本的噪声干扰,提高模型的分类鲁棒性。

【技术实现步骤摘要】
一种基于迁移学习的情感极性分析方法
本专利技术涉及一种基于迁移学习的情感极性分析方法,属于互联网与自然语言处理领域。
技术介绍
随着移动互联网技术的不断发展与进步,各大新闻媒体、普通民众越来越倾向于在社交网络发布对现实事件的观点和态度。情感极性分析是用自然语言处理的相关理论自动化的获取文本情感倾向或者情感类别的方法,具有极大的利用价值。目前国内外关于情感极性分析的研究已经取得了丰富的成果,对本专利技术的研究工作具有借鉴意义。现有的情感极性分析方法主要分为基于情感词典、基于机器学习、基于深度学习3种。基于情感词典的方法将专家知识引入到情感值的计算过程,适用于缺乏大规模预料的场景,但是存在需要不断扩充和移植性较差的缺点。基于机器学习的方法用监督学习的方式训练一个分类器,与基于情感词典的方法相比,机器学习方法建模简单,扩展性和移植性更好。但是机器学习方法需要高质量的标注数据集,会耗费一定的标注成本。基于深度学习的方法利用神经网络模型训练分类器。与基于情感词典和机器学习的方法相比,深度学习模型有更强的表达能力、取得了更好的分类指标。近年来,随着预训练语言模型的发展,基于深度学习的方式取得了更好的效果。然而考虑具体的应用场景,现有深度学习模型仍存在不足。首先,现有语言模型缺乏句子级预训练任务,导致模型的逻辑感知和语义表达能力仍有进步空间。另外,对于社交评论的情感分析而言,其内容往往具有简短、随意的特点,使得句子特征不密集、噪声多,导致情感极性分析模型的分类鲁棒性不够。针对当前深度学习模型存在的逻辑感知和语义表达能力不足、分类鲁棒性不够问题,本专利技术提出一种基于迁移学习的情感极性分析方法。一方面,模型使用迁移学习的方法,首先在文本排序任务中训练模型的逻辑感知与语义表达能力,然后将相关模型参数迁移到情感极性分析模型中。通过迁移学习,模型可以获得领域先验知识,获取高质量的句子特征并提高模型的分类准确率。另一方面,情感极性分析模型抽取句子特征后,进一步结合注意力机制降低特征噪声,可以提高模型的分类鲁棒性。
技术实现思路
针对现有情感极性分析技术中存在的问题与不足,本专利技术提出了一种基于迁移学习的情感极性分析方法,该方法基于迁移学习为情感极性分析模型引入领域先验知识,可以提高模型的分类准确率。同时,本专利技术基于注意力机制为情感极性分析模型降低噪声干扰,能够提高模型的分类鲁棒性。为了实现上述目的,本专利技术的技术方案如下:一种基于迁移学习的情感极性分析方法,首先按照一定比例将评论文本中字或者词的位置扰乱。然后,构建文本排序模型,将扰乱的句子作为输入,正常语序的句子作为输出来训练模型。接着,构建情感极性分析模型,将文本排序模型中的相关参数迁移到情感极性分析模型中对应的位置。最后,对迁移后的情感极性分析模型继续训练。该方法通过迁移学习为情感极性分析模型引入先验知识,可以提高模型的领域适应性,有助于获取更高质量的句子特征,进而提高模型的分类准确率。一种基于迁移学习的情感极性分析方法,该方法主要包括4个步骤,具体如下:步骤1,构建句子对数据集。按照设定的比例(根据对比实验结果确定比例大小)将情感极性分析数据集中每个句子的词语位置扰乱,同时保留扰乱前的句子,每一组扰乱后的句子和正常语序的句子构成新数据集中的一条训练数据。步骤2,训练文本排序模型。基于seq2seq的方式构建文本排序模型,首先将扰乱的句子作为模型输入,用编码器抽取出句子特征;然后逐字进行解码,根据当前时间步的解码特征预测输出文字;最后将模型输出与正常语序对应位置的文字作对比,基于交叉熵损失函数训练模型参数。步骤3,参数迁移。首先构建情感极性分析模型,并使用与文本排序模型相同的编码结构,然后将文本排序模型的编码参数、词向量参数迁移到情感极性分析模型中。步骤4,训练情感极性分析模型。基于情感极性分析数据集,首先输入评论文本,用编码器抽取句子特征,然后用卷积神经网络、循环神经网络、注意力机制进一步抽取句子的局部特征、整体特征、降噪后的最终特征;最后对特征分类。相对于现有技术,本专利技术的技术效果如下:1.该方法基于迁移学习,首先构建文本排序模型,然后将文本排序模型学到的参数迁移到情感极性分析模型中。有效弥补了当前语言模型缺乏句子级预训练任务的缺陷,可以提高模型的逻辑感知与语义表达能力,获得更高质量的句子特征表示。在实施例中,迁移学习后的模型在分类准确率指标上提高了3.7%,证实了方案的有效性。2.情感极性分析模型首先用CNN(卷积神经网络)抽取句子局部特征,然后用BiGRU(双向门控循环单元)抽取句子整体特征,最后用注意力机制降低特征噪声,可以降低社交文本随意性对模型分类的干扰。对实施例的消融实验表明:相比于直接对整体特征分类,增加注意力机制获得了更高的分类鲁棒性。附图说明图1为本专利技术实施例的整体框架图。图2为本专利技术实施例涉及的文本排序模型框架图。图3为本专利技术实施例涉及的情感极性分析模型框架图。具体实施方式为了加深对本专利技术的认识和理解,下面结合具体实施例,进一步阐明本专利技术。实施例1:一种基于迁移学习的情感极性分析方法,在具体实施时,其整体工作流程如图1所示。该方法首先构建文本排序模型如图2所示,该模型弥补了当前语言模型缺乏句子级预训练任务的缺陷,可以提高模型的逻辑感知与语义表达能力。然后,构建情感极性分析模型如图3所示,将文本排序模型训练得到的相关参数迁移到情感极性分析模型中对应的位置。最后,将迁移后的模型在情感极性分析数据集上继续训练。本方法具体实施步骤如下:步骤1,构建句子对数据集。按照设定的比例(对比试验后,本实施例设置为25%)将情感极性分析数据集中的句子进行扰乱,同时保留扰乱前的句子,将扰乱后的句子和正常语序的句子构成的句子对作为新数据集中的一条训练数据。例如正常语序的句子为:所有医护人员辛苦了。扰乱后的句子为:辛医护人员苦了。其中“辛”和“苦”的上下文都发生了变化。步骤2,训练文本排序模型。用seq2seq的方式构建文本排序模型,首先将扰乱的句子作为模型输入,用编码器抽取句子特征;然后逐字进行解码,根据当前时间步的解码特征预测应输出的文字;最后将模型输出与正常语序作对比,用对数损失函数训练模型参数。该步骤又可以分为3个子步骤,具体实施方式如下。子步骤2-1,句子编码。本实施例用Bert提取文本编码特征,为便于描述,将模型相关符号的含义汇总到表1中。首先输入长为m的文本序列X=(token1,token2,…,tokenm),根据token在vocab中的索引idi提取token的编码Embi并计算出ei,用s表示整个句子构成的文本矩阵,ei和s的具体计算过程如公式(1)、(2)所示,其中position表示位置编码,segment表示段编码。表1模型相关符号含义ei=Bert(Embi+segmenti+postioni)(1)s=(e1,e2,…,em)(2)然后将s送入含有12层tran本文档来自技高网
...

【技术保护点】
1.一种基于迁移学习的情感极性分析方法,其特征在于,所述方法包括以下步骤:/n步骤1,构建句子对数据集,/n步骤2,训练文本排序模型,/n步骤3,参数迁移,/n步骤4,训练情感极性分析模型。/n

【技术特征摘要】
1.一种基于迁移学习的情感极性分析方法,其特征在于,所述方法包括以下步骤:
步骤1,构建句子对数据集,
步骤2,训练文本排序模型,
步骤3,参数迁移,
步骤4,训练情感极性分析模型。


2.根据权利要求1所述的基于迁移学习的情感极性分析方法,其特征在于,
步骤1,构建句子对数据集,具体如下,按照设定的比例将情感极性分析数据集中每个句子的词语位置扰乱,同时保留扰乱前的句子,每一组扰乱后的句子和正常语序的句子构成新数据集中的一条训练数据。


3.根据权利要求1所述的基于迁移学习的情感极性分析方法,其特征在于,
步骤2,训练文本排序模型,基于seq2seq的方式构建文本排序模型,首先将扰乱的句子作为模型输入,用编码器抽取出句子特征;然后逐字进行解码,根据当前时间步的解码特征预测输出文字;最后将模型输出与正常语序对应位置的文字作对比,基于交叉熵损失函数训练模型参数。


4.根据权利要求1所述的基于迁移学习的情感极性分析方法,其特征在于,
步骤3,参数迁移,具体如下,首先构建情感极性分析模型,并使用与文本排序模型相同的编码结构,然后将文本排序模型的编码参数、词向量参数迁移到情感极性分析模型中。


5.根据权利要求1所述的基于迁移学习的情感极性分析方法,其特征在于,步骤4,训练情感极性分析模型,基于情感极性分析数据集,首先输入评论文本,用编码器抽取句子特征,然后用卷积神经网络、循环神经网络、注意力机制进一步抽取句子的局部特征、整体特征、降噪后的最终特征;最后对特征分类。


6.根据权利要求1所述的基于迁移学习的情感极性分析方法,其特征在于,步骤2,训练文本排序模型,具体如下:
子步骤2-1,句子编码,用Bert提取文本编码特征,为便于描述,将模型相关符号的含义汇总到表1中,首先输入长为m的文本序列X=(token1,token2,…,tokenm),根据token在vocab中的索引idi提取token的编码Embi并计算出ei,用s表示整个句子构成的文本矩阵,ei和s的具体计算过程如公式(1)、(2)所示,其中position表示位置编码,segment表示段编码,
表1模型相关符号含义



ei=Bert(Embi+segmenti+postioni)(1)
s=(e1,e2,…,em)(2)
然后将s送入含有12层transformer序列的编码模型提取出最终的编码输出S,公式(3)中LN是层归一化操作,MSA是多头自注意力操作,以第z层为例,首先用MSA处理上一层的编码输出sz-1,然后经过残差和LN操作获得如公式(3)所示,最后用FFN对进行处理,并结合残差和LN获取层编码输出sz如公式(4)所示,FFN的计算过程如公式(5)所示,其中W1、b1、W2、b2均为模型可学习参数,






FFN(x)=max(0,xW1+b1)W2+b2(5)
子步骤2-2,句子解码,使用GRU作为解码网络的基本单元,...

【专利技术属性】
技术研发人员:杨鹏任炳先周华健于晓潭
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1