基于多重词特征融合的情感分类方法、介质技术

技术编号：31160141 阅读：33 留言：0更新日期：2021-12-04 10:24

本发明专利技术公开了基于多重词特征融合的情感分类方法、介质，包括：对训练样本集中各文本数据进行文本预处理，得到文本数据转换到的字向量、文本向量、位置向量和词性向量；建立基于Transformer模型的Encoder网络，在Encoder网络的编码层加入词性向量层；将训练样本集中各文本数据对应字向量、文本向量、位置向量和词性向量输入到Transformer模型的Encoder网络中；进行预训练任务，得到情感分类模型；基于情感分类模型对需要进行分类的文本数据进行分类。本发明专利技术利用Transformer健壮的网络结构使得信息能够得到充分的利用，在模型编码层创新性的加入词性层，在情感分析领域，得到了很好的效果。的效果。的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于多重词特征融合的情感分类方法、介质

[0001]本专利技术涉及自然语言处理的情感分析
，特别涉及一种基于多重词特征融合的情感分类方法、介质。

技术介绍

[0002]随着科学技术的日益进步，互联网技术的飞速发展将世界各地的人们联系在一起。越来越多的网民通过互联网平台将自己的观点发表到网上，从而与他人来共享信息或者对网络上的某一事物进行讨论，这就会导致网络中充斥着海量的信息。因此，如何在错综复杂的信息中快速找到有价值的内容，分析内容中所包含人们的情绪正是文本情感分析所要研究的主题。情感分析的应用领域众多，特别是在舆论方面的体现。当相关部门颁布一条新的政策时，人们会对该政策发表自己的看法，运用文本情感分析技术，政府可以及时检测到人们对于新政策的意见，从而能够实时的检测舆情的发展。
[0003]情感分析又叫做意见挖掘，属于自然语言处理(Natural Language Processing，NLP)领域的研究热点问题，其概念最早是由Nasukawa等人以提出来的。简而言之，情感分析就是对带有感情色彩的文本，运用NLP中的相关技术进行分析、识别和挖掘人的情感倾向和主观信息。情感分析的应用范围非常广泛，包括舆情监测、产品分析、话题推断回等，具有很高的研究及应用价值。在舆情监测方面，相关部门能够及时了解网民的舆论倾向，监测舆论的传播方向，合理地调整政策，避免事件朝向恶化的方向发展；在产品推荐方面，卖家可以根据客户对产品的评价，及时了解到客户的满意度，从而提高产品的质量。在话题推断方面，计算机根据前文的内容，理解内...

【技术保护点】

【技术特征摘要】
1.一种基于多重词特征融合的情感分类方法，其特征在于，包括：获取已知情感分类类别的文本数据，构成训练样本集对训练样本集中各文本数据进行文本预处理，得到文本数据转换到的字向量、文本向量、位置向量和词性向量；建立基于Transformer模型的Encoder网络，在Encoder网络的编码层加入词性向量层；将训练样本集中各文本数据对应的字向量、文本向量、位置向量和词性向量输入到Transformer模型的Encoder网络中；进行Masked LM和Next SentencePrediction预训练任务，得到情感分类模型；针对于要进行情感分类的文本数据，进行文本预处理后，得到文本数据转换到的字向量、文本向量、位置向量和词性向量；将要进行情感分类的文本数据所对应字向量、文本向量、位置向量和词性向量输入到情感分类模型得到情感分类结果。2.根据权利要求1所述的基于多重词特征融合的情感分类方法，其特征在于，基于Transformer模型的Encoder网络包括依次连接的编码层、多头自我注意力层、前馈层和线性层；文本数据对应的字向量、文本向量、位置向量和词性向量构成编码层的输入序列，由编码层将序列的每个下标转换成对应的唯一向量化表示，得到词向量；编码层得到的词向量输入到多头自我注意力层中，进行以下操作：通过多头的自我注意力机制为词语提供多个向量表示，向量分别为Query，Key和Value；目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query，其上下文的各个字作为Key；将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中；Attention机制将目标字和上下文各个字的语义向量表示作为输入，通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即目标字的增强语义向量表示。3.根据权利要求1所述的基于多重词特征融合的情感分类方法，其特征在于，进行Masked LM预训练任务中，将编码器输出的序列中a％的Token替换，这其中a1％的Token被替换成其他单词，a2％的Token原封不动，a3％的Token被替换成[mask]；在Next Sentence Prediction预训练任务中，将两个句子A和B连接起来，预测原始文本中句子B是否排在A之后；其中b1％的输入对在原始文档中是前后关系，另外b2％是从训练样本集中随机挑选组成的；a、a1、a2、a3、b1和b2均为常量。4.根据权利要求1所述的基于多重词特征融合的情感分...

【专利技术属性】
技术研发人员：刘文骁，黄唯畅，黄斐然，刘炜麟，黄忠财，黄凯，冯俊杰，陈锌鸿，
申请(专利权)人：暨南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人