当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于标签与文本交互的多标签情感分类方法和系统技术方案

技术编号:37992749 阅读:8 留言:0更新日期:2023-06-30 10:07
本发明专利技术公开了一种基于标签与文本交互的多标签情感分类方法,包括:获取待分析的文本,对获取的待分析本文进行数据清洗处理,以得到带有注释标记的预处理文本,对带有注释标记的预处理文本进行数据格式规范化处理,以得到id列表和掩码模板,将id列表和掩码模板输入预先训练好的基于标签与文本交互的多标签情感分类模型中,以得到该文本对应的情感标签。本发明专利技术能够解决现有基于深度学习的情感分类方法由于忽略了情感分类这个特定领域太多的潜在信息,导致句子语义学习不够深入的技术问题;以及由于对情绪进行独立分类处理从而忽略了情绪的共存性和关联性,导致多标签情感分类任务精度不高的技术问题。务精度不高的技术问题。务精度不高的技术问题。

【技术实现步骤摘要】
一种基于标签与文本交互的多标签情感分类方法和系统


[0001]本专利技术属于自然语言处理
,更具体地,涉及一种基于标签与文本交互的多标签情感分类方法和系统。

技术介绍

[0002]情感分类(Emotion Classification)是指根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型。当今时代是信息过载的时代,尤其是社交、购物和外卖等软件平台的兴起导致了海量的文本数据,这些文本蕴含了大量的信息,包含了各种各样的用户的情感集合,充分利用这些信息并进行情感分类无论是对于平台方还是用户都是非常有意义的。对于平台方,可以用其监控用户的反馈从而及时发现并解决用户的问题从而促进平台和用户的共同进步。对于用户,一方面可以让其尽量避免其他用户消极煽动的言论,另一方面也可以帮助用户在网络上合理约束自己。因此,一个准确的情感分类方法有着较大的现实意义。
[0003]由于传统的机器学习方法提取的特征过浅,目前主流的情感分类方法主要倾向于深度学习领域,第一种方法是基于transformer(使用自注意力机制的基于编码器和解码器架构的深度学习模型)的编码器架构,该方法主要就是利用transformer的编码器远优越于循环神经网络(Recurrent Neural Network,简称RNN)和长短期记忆(Long Short Term Memory,简称LSTM)网络的特征抽取能力来到达更好的效果,简单来说就是使用无监督数据预训练该模型,然后将其作为编码器抽取词特征随后接上分类器在情感分类任务上进行微调;第二种方法是基于图神经网络的方法EmoGraph,其通过图网络来捕捉不同情绪之间的依赖关系从而提高分类性能,其中用到的图表是通过利用不同情绪类别之间的共现统计数据构建的;第三种方法是基于片段预测的SpanEmo,其主要是把情感分类问题转化为片段预测问题并使用基于transformer的双向编码器表示(Bidirectional Encoder Representation from Transformers,简称BERT)的预训练模型来实现的。
[0004]然而,上述方法都存在一些不可忽略的缺陷:基于transformer的编码器架构的方法针对于情感分类这个特定领域忽略了太多的潜在信息,因此导致句子语义学习不够深入;此外,该方法对情绪进行独立分类处理,忽略了情绪的共存性和关联性,因此会导致多标签情感分类任务精度不高;EmoGraph方法主要是统计类别标签之间的共现数据,但是对于标签和单词之间的关联挖掘得不够深入,因此导致情感分类模型泛化性不强;SpanEmo方法而言,由于一句话中存在多个对标签有重要影响的对象,SpanEmo的主干是基于BERT模型的,把标签和句子一起编码,那么就无法自适应地提取不同标签的局部判别特征,因此导致无法深度的学习到各个标签与待分析文本中各个部分的注意权重。

技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于标签与文本交互的多标签情感分类方法。其目的在于,解决现有基于深度学习的情感分类方法由于忽略了情
感分类这个特定领域太多的潜在信息,导致句子语义学习不够深入的技术问题;以及由于对情绪进行独立分类处理从而忽略了情绪的共存性和关联性,导致多标签情感分类任务精度不高的技术问题;以及由于对标签和单词之间的关联挖掘得不够深入,导致情感分类模型泛化性不强的技术问题;以及无法自适应地提取不同标签的局部判别特征,导致无法深度的学习到各个标签与待分析文本中各个部分的注意权重的技术问题。
[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种基于标签与文本交互的多标签情感分类方法,包括以下步骤:
[0007](1)获取待分析的文本;
[0008](2)对步骤(1)获取的待分析本文进行数据清洗处理,以得到带有注释标记的预处理文本。
[0009](3)对步骤(2)得到的带有注释标记的预处理文本进行数据格式规范化处理,以得到id列表和掩码模板。
[0010](4)将步骤(3)得到的id列表和掩码模板输入预先训练好的基于标签与文本交互的多标签情感分类模型中,以得到该文本对应的情感标签。
[0011]优选地,步骤(2)是使用ekphrasis将文本中的一些特殊符号抽取为单词,将日期或者用户抽取为统一表示,将拉长的单词抽取为带注释的正常单词,从而得到带有注释标记的预处理文本。
[0012]步骤(3)具体为,首先构建句子对,即首先以<cls>为开头,然后将所有的情感标签集合拼接为一句以问号结尾的话,作为句子对的第一个句子,随后接上<sep>,其后把带有注释标记的预处理文本作为句子对的第二个句子,最后接上<sep>,如果句子对总长度大于128就截断至128,小于128就往后面补<pad>直到总长度为128;然后构建掩码模板,其长度为128,与构建完成的句子对的词一一对应,对应<pad>的位置为0,其余为1;最后编码句子对,使用XLNet词元分析器将拼接好的最终句子对编码为id列表。
[0013]优选地,多标签情感分类模型包含依次连接的基于XLNet架构的编码端、基于标签查询的交互注意力的解码端,以及线性分类层三个部分;
[0014]基于XLNet结构的编码端包含1个嵌入层和c个编码层,其中c的取值为大于1的自然数;
[0015]对于嵌入层而言,其输入长为L的id列表,输出为L*d的句子对向量和L*d的位置编码,L为id列表的长度,d为嵌入维度大小;
[0016]对于编码层而言,其具体结构为:
[0017]第一层是多头自注意力层,输入为嵌入层得到的L*d的句子对向量和L*d的位置编码,输出为L*d的特征向量;
[0018]第二层是前馈神经网络层,其输入为上一层得到的L*d的特征向量,输出为L*d的特征向量。
[0019]对于基于XLNet结构的编码端而言,由于每个编码层的输入与输出维度相同,最终通过1个嵌入层和c个编码层输出最终的L*d的句子对特征向量。
[0020]基于标签查询的交互注意力的解码端包含1个数据处理层和u个解码层,其中u的取值为大于1的自然数;
[0021]对于数据处理层而言,其输入为经过基于XLNet结构的编码端输出的L*d的句子对
特征向量,输出为N*d的标签特征向量、N*d的标签嵌入、M*d的文本特征向量和M*d的位置编码,其中N为情感标签的个数,M为句子对总长度减去由情感标签集合组成的句子对中第一个句子长度后的剩余长度;
[0022]对于解码层而言,其具体结构为:
[0023]第一层是多头交互注意力层,其输入为数据处理层的输出N*d的标签特征向量、N*d的标签嵌入、M*d的文本特征向量和M*d的位置编码,输出为N*d的特征向量;
[0024]第二层是前馈神经网络层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签与文本交互的多标签情感分类方法,其特征在于,包括以下步骤:(1)获取待分析的文本;(2)对步骤(1)获取的待分析本文进行数据清洗处理,以得到带有注释标记的预处理文本。(3)对步骤(2)得到的带有注释标记的预处理文本进行数据格式规范化处理,以得到id列表和掩码模板。(4)将步骤(3)得到的id列表和掩码模板输入预先训练好的基于标签与文本交互的多标签情感分类模型中,以得到该文本对应的情感标签。2.根据权利要求1所述的基于标签与文本交互的多标签情感分类方法,其特征在于,步骤(2)是使用ekphrasis将文本中的一些特殊符号抽取为单词,将日期或者用户抽取为统一表示,将拉长的单词抽取为带注释的正常单词,从而得到带有注释标记的预处理文本。步骤(3)具体为,首先构建句子对,即首先以<cls>为开头,然后将所有的情感标签集合拼接为一句以问号结尾的话,作为句子对的第一个句子,随后接上<sep>,其后把带有注释标记的预处理文本作为句子对的第二个句子,最后接上<sep>,如果句子对总长度大于128就截断至128,小于128就往后面补<pad>直到总长度为128;然后构建掩码模板,其长度为128,与构建完成的句子对的词一一对应,对应<pad>的位置为0,其余为1;最后编码句子对,使用XLNet词元分析器将拼接好的最终句子对编码为id列表。3.根据权利要求1或2所述的基于标签与文本交互的多标签情感分类方法,其特征在于,多标签情感分类模型包含依次连接的基于XLNet架构的编码端、基于标签查询的交互注意力的解码端,以及线性分类层三个部分;基于XLNet结构的编码端包含1个嵌入层和c个编码层,其中c的取值为大于1的自然数;对于嵌入层而言,其输入长为L的id列表,输出为L*d的句子对向量和L*d的位置编码,L为id列表的长度,d为嵌入维度大小;对于编码层而言,其具体结构为:第一层是多头自注意力层,输入为嵌入层得到的L*d的句子对向量和L*d的位置编码,输出为L*d的特征向量;第二层是前馈神经网络层,其输入为上一层得到的L*d的特征向量,输出为L*d的特征向量。对于基于XLNet结构的编码端而言,由于每个编码层的输入与输出维度相同,最终通过1个嵌入层和c个编码层输出最终的L*d的句子对特征向量。基于标签查询的交互注意力的解码端包含1个数据处理层和u个解码层,其中u的取值为大于1的自然数;对于数据处理层而言,其输入为经过基于XLNet结构的编码端输出的L*d的句子对特征向量,输出为N*d的标签特征向量、N*d的标签嵌入、M*d的文本特征向量和M*d的位置编码,其中N为情感标签的个数,M为句子对总长度减去由情感标签集合组成的句子对中第一个句子长度后的剩余长度;对于解码层而言,其具体结构为:
第一层是多头交互注意力层,其输入为数据处理层的输出N*d的标签特征向量、N*d的标签嵌入、M*d的文本特征向量和M*d的位置编码,输出为N*d的特征向量;第二层是前馈神经网络层,其输入为上一层得到的N*d的特征向量,输出为N*d的特征向量。对于基于标签查询的交互注意力的解码端而言,由于每个解码层的输入与输出维度相同,最终通过1个输入处理层和u个解码层输出最终的N*d的情感标签特征向量。线性分类层具体结构为:第一层是线性层,其输入为经过基于标签查询的交互注意力的解码端输出的N*d的情感标签特征向量,输出为N*1的文本对于各个情感标签的关联特征向量;第二层是概率化层,其输入为上一层得到的N*1的文本对于各个情感标签的关联特征向量,输出长度为N的文本对于各个标签的关联概率,根据该概率即可得到文本对应的情感标签。4.根据权利要求1至3中任意一项所述的基于标签与文本交互的多标签情感分类方法,其特征在于,基于标签与文本交互的多标签情感分类模型是通过以下步骤训练得到的:(4

1)获取英文训练集数据;(4

2)对步骤(4

1)获取的英文训练集数据先后进行数据读取、清洗和数据格式规范化处理,以得到id列表和掩码模板;(4

3)将步骤(4

2)得到的id列表和掩码模板输入XLNet模型中进行编码,并对编码结果进行切分,以得到多个标签特征向量和多个待分析文本特征向量;(4

4)将步骤(4

3)得到的标签特征向量和待分析文本特征向量输入解码端中进行解码,以得到最终的情感标签表征;(4

5)将步骤(4

4)得到的最终的情感标签表征输入线性层中,以得到最终的该文本对于各个标签的关联特征,使用该文本对于各个标签的关联特征与步骤(4
‑2‑
1)中该文本对应的实际情感标签计算基于标签与文本交互的多标签情感分类模型的损失函数的损失值,并使用该损失值迭代训练XLNet模型、解码端和线性层的各参数,以得到训练好的基于标签与文本交互的多标签情感分类模型。5.根据权利要求4所述的基于标签与文本交互的多标签情感分类方法,其特征在于,步骤(4

2)具体包括以下子步骤:(4
‑2‑
1)使用Pandas对步骤(4

1)获取的英文训练集数据进行数据读取,以将其每一行拆分为文本和该文本对应的实际情感标签,对文本进行数据清洗,以得到带有注释标记的预处理文本,并直接读取英文训练集数据第一行表头获取所有情感标签,以得到情感标签集合;(4
‑2‑
2)根据步骤(4
‑2‑
1)得到的带有注释标记的预处理文本和情感标签集合构建句子对,根据句子对构建对应的掩码模板,并对该句子对进行编码,以得到id列表。6.根据权利要求5所述的基于标签与文本交互的多标签情感分类方法,其特征在于,步骤(4

3)具体包括以下子步骤;(4
‑3‑
1)对步骤(4

2)得到的id列表先后进行嵌入操作和位置编码处理,以得到句子对的特征向量和位置编码,其维度为L*d,其中d为嵌入维度大小,L表示id列表的长度;(4
‑3‑
2)将步骤(4
‑3‑
1)得到的句子对特征向量和位置编码以及步骤(4

2)得到的掩码
模板输入XLNet模型中,以得到句子对的最终特征向量,其维度为L*d;(4
‑3‑
3)对步骤(4
‑3‑
2)得到的句子对的最终特征向量进行切分处理,以得到维度为N*d的标签特征向量和维度为M*d的待分析文本特征向量,其中N是步骤(4<...

【专利技术属性】
技术研发人员:唐卓吴优李肯立肖雄唐哲浩安振宇曹丽婷严霖
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1