当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向稀疏数据的个性化情感分析方法与装置制造方法及图纸

技术编号:24613784 阅读:80 留言:0更新日期:2020-06-24 01:17
本发明专利技术公开了一种面向稀疏数据的个性化情感分析方法与装置,通过对具有相似打分习惯的用户分组,利用分组信息来增强用户表示,实现个性化的情感分析。本方法包括:文档预处理;使用基于深度神经网络的基础情感分析模型计算得到情感打分基础;使用基于群组的个性化分析模型计算得到情感打分偏移和波动;结合情感打分基础和情感打分偏移计算最终情感打分。本方法相比之前的个性化情感分析方法,可以在用户文本数据稀疏的情况下学习得到良好的用户表示,在个性化情感分析中,可以有效地对用户建模,更准确地进行个性化情感分析。

A personalized emotion analysis method and device for sparse data

【技术实现步骤摘要】
一种面向稀疏数据的个性化情感分析方法与装置
本专利技术涉及在数据稀疏的情况下利用用户文本数据对文本进行情感分析,属于机器学习

技术介绍
用户生成文本情感分析旨在根据用户撰写的文本(如一条Twitter或一条购物评论),计算得到一个相应的情感打分(如满意度)。传统的情感分析方法认为文本和情感打分之间的映射对所有的用户来说是相同的,即不区分用户之间的个体差异性。但是,这样的假设不符合实际情况。因为由于用户教育背景、社会经历等不同,他们情感表达方式也会有一定的区别,所以针对用户个性化情感分析十分有必要。而现有的一些个性化情感分析方法通常使用一个固定维度的用户向量来表示每个用户,用户向量通常是随机初始化然后由网络自己学习得到,这种用户表示方式对数据和网络的依赖性很强。根据网络统计结果显示,Twitter的大部分用户是很少发Twitter,而将近80%的Twitter是由10%的活跃用户发出。这意味着在现实生活中,常常存在用户数据稀疏的情况,所以解决数据稀疏环境下的个性化情感分析问题有着十分重要的社会意义。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供了一种面向稀疏数据的个性化情感分析方法与装置,能够处理当前个性化情感分析中的数据稀疏问题。技术方案:为实现上述目的,本专利技术所述的一种面向稀疏数据的个性化情感分析方法,包括如下步骤:(1)对文档进行预处理;(2)使用基于深度神经网络的基础情感分析模型,以文档的单词作为输入,通过句子级的语义表示学习和文档级的语义表示学习分别计算得到文档中每个句子的语义表示和文档的语义表示,并将文档的语义表示映射得到的数值作为情感打分基础;(3)使用基于群组的个性化情感分析模型,以基于深度神经网络的基础情感分析模型得到的文档的语义表示、用户向量和全局群组向量作为输入,通过句子级的用户表示学习和文档级的用户表示学习分别计算得到文档中每个句子的用户表示和文档的用户表示,并将文档的用户表示和基于深度神经网络的基础情感分析模型得到的语义表示表示级联起来作为文档最终表示,并将文档的最终表示映射到两个数值分别作为情感打分偏移和波动;情感打分偏移用于最终的打分计算,情感打分波动用于网络的优化;(4)将情感打分基础和情感打分偏移相加得到最终的情感打分。进一步地,所述步骤(1)中的文档预处理包括:对文档进行分词,过滤掉文档中的停用词和所处理的数据集中仅出现一次的词。进一步地,所述步骤(2)中的使用基于深度神经网络的基础情感分析模型计算情感打分基础包括:(2.1)针对句子中的每个单词,先映射为一个预先训练好的词向量,然后利用双向长短记忆网络Bi-LSTM对句子中的每个词进行编码得到每个词的对应的隐状态;使用注意力机制计算每个词的权重;最后对每个词加权求和,得到每个句子的语义表示;(2.2)是针对文档中的每个句子,以句子的语义表示作为输入,利用Bi-LSTM对文档中的每个句子进行编码得到每个句子的对应的隐状态;使用注意力机制计算每个句子的权重;最后对每个句子加权求和,得到文档的语义表示;(2.3)使用一个多层感知器对文档级的语义表示映射到一个数值,即情感打分基础。进一步地,所述步骤(3)中的使用基于群组的个性化情感分析模型计算情感打分偏移和波动包括:(3.1)以Bi-LSTM中的每个词的隐状态、群组全局向量和文档对应的用户向量为基础,计算得到每个词的用户隐状态;使用注意力机制计算每个词对应的用户隐状态的权重;最后对每个词对应的用户隐状态加权求和,得到句子的用户表示;(3.2)以Bi-LSTM中的每个句子的隐状态、群组全局向量和句子用户表示为基础,计算得到每个句子的用户隐状态;使用注意力机制计算每个句子用户的隐状态的权重;最后对每个句子的用户隐状态加权求和,得到文档的用户表示;(3.3)将文档的语义表示和用户表示级联起来作为文档最终表示;(3.4)使用两个多层感知机分别将文档最终表示映射到两个数值,即情感打分偏移计算和情感打分波动。进一步地,句子的用户表示为:其中,ek是第k个群组的全局向量,是词wij对应的隐状态,u是文档对应的用户向量,和是模型参数,softmax(·)是归一化的逻辑回归函数,tanh(·)是双曲正切激活函数。进一步地,文档的用户表示为:其中,是句子si对应的隐状态,和是模型参数。进一步地,使用联合损失来对网络进行优化,包括:对基于深度神经网络的基础情感分析模型使用均方误差损失;对基于群组的个性化情感分析模型使用高斯惩罚损失,以实现从损失函数中学习得到情感波动,并减小波动过大的样本对网络的影响;加入基于群组向量的惩罚项使得学习得到的群组向量具有判别性;加入网络参数的L2正则化项避免过拟合。进一步地,网络的损失函数定义为:其中,λ‖Θ‖2是网络参数的L2正则化项,T是样本数量,是第t个文档的真实情感打分,是第t个文档的基于深度神经网络的基础情感分析模型的输出结果,yt是第t个文档的基于群组的个性化情感分析模型输出最终情感打分,第t个文档的基于群组的个性化情感分析模型输出的情感打分波动,I是单位矩阵,E={e1,…,eK}是群组向量构成的矩阵,‖·‖F是矩阵的Frobenius范数。基于相同的专利技术构思,本专利技术所述的一种面向稀疏数据的个性化情感分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的面向稀疏数据的个性化情感分析方法。有益效果:本专利技术方法相较于现有的个性化情感分析的方法,可以有效地处理现实生活中是普遍存在的个性化情感分析中的用户数据稀疏的问题,通过将一个用户的情感打分建立成服从高斯分布,考虑了用户情感打分的偏移和波动,可以提高个性化情感分析性能。附图说明图1是本专利技术实施例中的方法流程图。图2是本专利技术实施例中的用户编码器(U-Encoder)的在句子级的用户表示学习中的计算示意图。具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。问题可以描述如下:对于一篇文档及其用户u,个性化的情感分析任务就是预测文档对应的情感打分y(如满意度打分,比如1-5分,1分表示不满意,5分表示很满意)。根据观察,由于用户具有一个一般化的情感表达方式,所以可以得到一个情感打分基础yb,而用户又因为个体化差异,存在情感打分的偏差ys和波动σ2,所以可以将预测的情感打分建模成服从高斯分布的值所以个性化情感分析本文档来自技高网...

【技术保护点】
1.一种面向稀疏数据的个性化情感分析方法,其特征在于,包括如下步骤:/n(1)对文档进行预处理;/n(2)使用基于深度神经网络的基础情感分析模型,以文档的单词作为输入,通过句子级的语义表示学习和文档级的语义表示学习分别计算得到文档中每个句子的语义表示和文档的语义表示,并将文档的语义表示映射得到的数值作为情感打分基础;/n(3)使用基于群组的个性化情感分析模型,以基于深度神经网络的基础情感分析模型得到的文档的语义表示、用户向量和全局群组向量作为输入,通过句子级的用户表示学习和文档级的用户表示学习分别计算得到文档中每个句子的用户表示和文档的用户表示,并将文档的用户表示和基于深度神经网络的基础情感分析模型得到的语义表示表示级联起来作为文档最终表示,并将文档的最终表示映射到两个数值分别作为情感打分偏移和波动;情感打分偏移用于最终的打分计算,情感打分波动用于网络的优化;/n(4)将情感打分基础和情感打分偏移相加得到最终的情感打分。/n

【技术特征摘要】
1.一种面向稀疏数据的个性化情感分析方法,其特征在于,包括如下步骤:
(1)对文档进行预处理;
(2)使用基于深度神经网络的基础情感分析模型,以文档的单词作为输入,通过句子级的语义表示学习和文档级的语义表示学习分别计算得到文档中每个句子的语义表示和文档的语义表示,并将文档的语义表示映射得到的数值作为情感打分基础;
(3)使用基于群组的个性化情感分析模型,以基于深度神经网络的基础情感分析模型得到的文档的语义表示、用户向量和全局群组向量作为输入,通过句子级的用户表示学习和文档级的用户表示学习分别计算得到文档中每个句子的用户表示和文档的用户表示,并将文档的用户表示和基于深度神经网络的基础情感分析模型得到的语义表示表示级联起来作为文档最终表示,并将文档的最终表示映射到两个数值分别作为情感打分偏移和波动;情感打分偏移用于最终的打分计算,情感打分波动用于网络的优化;
(4)将情感打分基础和情感打分偏移相加得到最终的情感打分。


2.根据权利要求1所述的一种面向稀疏数据的个性化情感分析方法,其特征在于,所述步骤(1)中的文档预处理包括:对文档进行分词,过滤掉文档中的停用词和所处理的数据集中仅出现一次的词。


3.根据权利要求1所述的一种面向稀疏数据的个性化情感分析方法,其特征在于,所述步骤(2)中的使用基于深度神经网络的基础情感分析模型计算情感打分基础包括:
(2.1)针对句子中的每个单词,先映射为一个预先训练好的词向量,然后利用双向长短记忆网络Bi-LSTM对句子中的每个词进行编码得到每个词的对应的隐状态;使用注意力机制计算每个词的权重;最后对每个词加权求和,得到每个句子的语义表示;
(2.2)是针对文档中的每个句子,以句子的语义表示作为输入,利用Bi-LSTM对文档中的每个句子进行编码得到每个句子的对应的隐状态;使用注意力机制计算每个句子的权重;最后对每个句子加权求和,得到文档的语义表示;
(2.3)使用一个多层感知器对文档级的语义表示映射到一个数值,即情感打分基础。


4.根据权利要求1所述的一种面向稀疏数据的个性化情感分析方法,其特征在于,所述步骤(3)中的使用基于群组的个性化情感分析模型计算情感打分偏移和波动包括:
(3.1)以Bi-LSTM中的每个词的隐状态、群组全局向量和文档对应的用户向量为基础,计算得到每个词的用户隐状态;使用注意力机制计算每个词对应的用户隐状态的权重;最后对每个词对应的用户隐状态加权求和,得到句子的用户表示;
(3.2)以Bi-LSTM中的每个句子的隐状态、群组全局向量和句子用户表示为基础,计算得到每个句子的用户隐状态;使用注意力机制计算每个句子用户的隐状态...

【专利技术属性】
技术研发人员:周德宇张朦张林海
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1