本发明专利技术公开了基于多重词特征融合的情感分类方法、介质,包括:对训练样本集中各文本数据进行文本预处理,得到文本数据转换到的字向量、文本向量、位置向量和词性向量;建立基于Transformer模型的Encoder网络,在Encoder网络的编码层加入词性向量层;将训练样本集中各文本数据对应字向量、文本向量、位置向量和词性向量输入到Transformer模型的Encoder网络中;进行预训练任务,得到情感分类模型;基于情感分类模型对需要进行分类的文本数据进行分类。本发明专利技术利用Transformer健壮的网络结构使得信息能够得到充分的利用,在模型编码层创新性的加入词性层,在情感分析领域,得到了很好的效果。的效果。的效果。
【技术实现步骤摘要】
基于多重词特征融合的情感分类方法、介质
[0001]本专利技术涉及自然语言处理的情感分析
,特别涉及一种基于多重词特征融合的情感分类方法、介质。
技术介绍
[0002]随着科学技术的日益进步,互联网技术的飞速发展将世界各地的人们联系在一起。越来越多的网民通过互联网平台将自己的观点发表到网上,从而与他人来共享信息或者对网络上的某一事物进行讨论,这就会导致网络中充斥着海量的信息。因此,如何在错综复杂的信息中快速找到有价值的内容,分析内容中所包含人们的情绪正是文本情感分析所要研究的主题。情感分析的应用领域众多,特别是在舆论方面的体现。当相关部门颁布一条新的政策时,人们会对该政策发表自己的看法,运用文本情感分析技术,政府可以及时检测到人们对于新政策的意见,从而能够实时的检测舆情的发展。
[0003]情感分析又叫做意见挖掘,属于自然语言处理(Natural Language Processing,NLP)领域的研究热点问题,其概念最早是由Nasukawa等人以提出来的。简而言之,情感分析就是对带有感情色彩的文本,运用NLP中的相关技术进行分析、识别和挖掘人的情感倾向和主观信息。情感分析的应用范围非常广泛,包括舆情监测、产品分析、话题推断回等,具有很高的研究及应用价值。在舆情监测方面,相关部门能够及时了解网民的舆论倾向,监测舆论的传播方向,合理地调整政策,避免事件朝向恶化的方向发展;在产品推荐方面,卖家可以根据客户对产品的评价,及时了解到客户的满意度,从而提高产品的质量。在话题推断方面,计算机根据前文的内容,理解内容中有关情绪的变化,分析上下文之间的关联,从而能够合理的推断出文章的走向。
[0004]文本情感分析的研究最早始于2002年,早期的研究方法主要是依据情感知识来实现的,其核心思想是构建一个全面的情感词典,在此基础上设计情感词之间的搭配规则。这种方法在很大程度上依赖于情感词典的构建,同时在处理不同领域的内容时会有比较大的差异。随着机器学习的发展,将机器学习的算法应用到情感分析任务中取得了不错的效果。这些算法包括朴素贝叶斯(Naive Bayes,NB)、K近邻(KNN)、支持向量机(Support Vector Machines,SVM)等,但是这些算法提取的特征大多都是人工设计的方法,这就会导致人工成本高的问题,同时,基于机器学习的方法还存在耗时长、难训练的弊端,很难适用于现实生活中的应用场景。
技术实现思路
[0005]本专利技术的第一目的在于克服现有技术的缺点与不足,提供一种基于多重词特征融合的情感分类方法,利用Transformer健壮的网络结构使得信息能够得到充分的利用,在模型编码层创新性的加入词性层,在情感分析领域,得到了很好的效果。
[0006]本专利技术的第二目的在于提供一种基于多重词特征融合的情感分类装置。
[0007]本专利技术的第三目的在于提供一种存储介质。
[0008]本专利技术的第四目的在于提供一种计算设备。
[0009]本专利技术的第一目的通过下述技术方案实现:一种基于多重词特征融合的情感分类方法,包括:
[0010]获取已知情感分类类别的文本数据,构成训练样本集
[0011]对训练样本集中各文本数据进行文本预处理,得到文本数据转换到的字向量、文本向量、位置向量和词性向量;
[0012]建立基于Transformer模型的Encoder网络,在Encoder网络的编码层加入词性向量层;
[0013]将训练样本集中各文本数据对应的字向量、文本向量、位置向量和词性向量输入到Transformer模型的Encoder网络中;进行Masked LM和Next Sentence Prediction预训练任务,得到情感分类模型;
[0014]针对于要进行情感分类的文本数据,进行文本预处理后,得到文本数据转换到的字向量、文本向量、位置向量和词性向量;
[0015]将要进行情感分类的文本数据所对应字向量、文本向量、位置向量和词性向量输入到情感分类模型得到情感分类结果。
[0016]优选的,基于Transformer模型的Encoder网络包括依次连接的编码层、多头自我注意力层、前馈层和线性层;
[0017]文本数据对应的字向量、文本向量、位置向量和词性向量构成编码层的输入序列,由编码层将序列的每个下标转换成对应的唯一向量化表示,得到词向量;
[0018]编码层得到的词向量输入到多头自我注意力层中,进行以下操作:
[0019]通过多头的自我注意力机制为词语提供多个向量表示,向量分别为Query,Key和Value;
[0020]目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query,其上下文的各个字作为Key;
[0021]将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中;
[0022]Attention机制将目标字和上下文各个字的语义向量表示作为输入,通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,
[0023]计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为Attention的输出,即目标字的增强语义向量表示。
[0024]优选的,进行Masked LM预训练任务中,将编码器输出的序列中a%的Token替换,这其中a1%的Token被替换成其他单词,a2%的Token原封不动,a3%的Token被替换成[mask];
[0025]在Next Sentence Prediction预训练任务中,将两个句子A和B连接起来,预测原始文本中句子B是否排在A之后;其中b1%的输入对在原始文档中是前后关系,另外b2%是从训练样本集中随机挑选组成的;
[0026]a、a1、a2、a3、b1和b2均为常量。
[0027]优选的,基于Transformer模型的Encoder网络的个数为多个,各个基于
Transformer模型的Encoder网络依次连接。
[0028]优选的,基于Transformer模型的Encoder网络在训练后,进行模型的微调,得到情感分类模型;模型微调为:在预处理后的文本数据转换得到的位置向量前插入[CLS]符号。
[0029]优选的,文本预处理包括:
[0030]划分文本分词,利用分词库将文本分割成为组成该语言语句的词语序列;
[0031]构造词汇表:根据划分所有文本得到的词语序列,删去其中的低频词后构造文本的词汇表,所述词汇表用于查询某一词在表中的下标,通过下标查找到对应的词语;
[0032]根据文本分词划分结果以及构造的词汇表,将文本数据转换为四种向量,包括字向量、文本向量、位置向量和词性向量。
[0033]优选的,基于Transformer模型的Encode本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多重词特征融合的情感分类方法,其特征在于,包括:获取已知情感分类类别的文本数据,构成训练样本集对训练样本集中各文本数据进行文本预处理,得到文本数据转换到的字向量、文本向量、位置向量和词性向量;建立基于Transformer模型的Encoder网络,在Encoder网络的编码层加入词性向量层;将训练样本集中各文本数据对应的字向量、文本向量、位置向量和词性向量输入到Transformer模型的Encoder网络中;进行Masked LM和Next SentencePrediction预训练任务,得到情感分类模型;针对于要进行情感分类的文本数据,进行文本预处理后,得到文本数据转换到的字向量、文本向量、位置向量和词性向量;将要进行情感分类的文本数据所对应字向量、文本向量、位置向量和词性向量输入到情感分类模型得到情感分类结果。2.根据权利要求1所述的基于多重词特征融合的情感分类方法,其特征在于,基于Transformer模型的Encoder网络包括依次连接的编码层、多头自我注意力层、前馈层和线性层;文本数据对应的字向量、文本向量、位置向量和词性向量构成编码层的输入序列,由编码层将序列的每个下标转换成对应的唯一向量化表示,得到词向量;编码层得到的词向量输入到多头自我注意力层中,进行以下操作:通过多头的自我注意力机制为词语提供多个向量表示,向量分别为Query,Key和Value;目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query,其上下文的各个字作为Key;将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中;Attention机制将目标字和上下文各个字的语义向量表示作为输入,通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为Attention的输出,即目标字的增强语义向量表示。3.根据权利要求1所述的基于多重词特征融合的情感分类方法,其特征在于,进行Masked LM预训练任务中,将编码器输出的序列中a%的Token替换,这其中a1%的Token被替换成其他单词,a2%的Token原封不动,a3%的Token被替换成[mask];在Next Sentence Prediction预训练任务中,将两个句子A和B连接起来,预测原始文本中句子B是否排在A之后;其中b1%的输入对在原始文档中是前后关系,另外b2%是从训练样本集中随机挑选组成的;a、a1、a2、a3、b1和b2均为常量。4.根据权利要求1所述的基于多重词特征融合的情感分...
【专利技术属性】
技术研发人员:刘文骁,黄唯畅,黄斐然,刘炜麟,黄忠财,黄凯,冯俊杰,陈锌鸿,
申请(专利权)人:暨南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。