【技术实现步骤摘要】
一种面向稀疏数据的个性化情感分析方法与装置
本专利技术涉及在数据稀疏的情况下利用用户文本数据对文本进行情感分析,属于机器学习
技术介绍
用户生成文本情感分析旨在根据用户撰写的文本(如一条Twitter或一条购物评论),计算得到一个相应的情感打分(如满意度)。传统的情感分析方法认为文本和情感打分之间的映射对所有的用户来说是相同的,即不区分用户之间的个体差异性。但是,这样的假设不符合实际情况。因为由于用户教育背景、社会经历等不同,他们情感表达方式也会有一定的区别,所以针对用户个性化情感分析十分有必要。而现有的一些个性化情感分析方法通常使用一个固定维度的用户向量来表示每个用户,用户向量通常是随机初始化然后由网络自己学习得到,这种用户表示方式对数据和网络的依赖性很强。根据网络统计结果显示,Twitter的大部分用户是很少发Twitter,而将近80%的Twitter是由10%的活跃用户发出。这意味着在现实生活中,常常存在用户数据稀疏的情况,所以解决数据稀疏环境下的个性化情感分析问题有着十分重要的社会意义。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供了一种面向稀疏数据的个性化情感分析方法与装置,能够处理当前个性化情感分析中的数据稀疏问题。技术方案:为实现上述目的,本专利技术所述的一种面向稀疏数据的个性化情感分析方法,包括如下步骤:(1)对文档进行预处理;(2)使用基于深度神经网络的基础情感分析模型,以文档的单词作为输入,通过句子级的语义表示学习 ...
【技术保护点】
1.一种面向稀疏数据的个性化情感分析方法,其特征在于,包括如下步骤:/n(1)对文档进行预处理;/n(2)使用基于深度神经网络的基础情感分析模型,以文档的单词作为输入,通过句子级的语义表示学习和文档级的语义表示学习分别计算得到文档中每个句子的语义表示和文档的语义表示,并将文档的语义表示映射得到的数值作为情感打分基础;/n(3)使用基于群组的个性化情感分析模型,以基于深度神经网络的基础情感分析模型得到的文档的语义表示、用户向量和全局群组向量作为输入,通过句子级的用户表示学习和文档级的用户表示学习分别计算得到文档中每个句子的用户表示和文档的用户表示,并将文档的用户表示和基于深度神经网络的基础情感分析模型得到的语义表示表示级联起来作为文档最终表示,并将文档的最终表示映射到两个数值分别作为情感打分偏移和波动;情感打分偏移用于最终的打分计算,情感打分波动用于网络的优化;/n(4)将情感打分基础和情感打分偏移相加得到最终的情感打分。/n
【技术特征摘要】
1.一种面向稀疏数据的个性化情感分析方法,其特征在于,包括如下步骤:
(1)对文档进行预处理;
(2)使用基于深度神经网络的基础情感分析模型,以文档的单词作为输入,通过句子级的语义表示学习和文档级的语义表示学习分别计算得到文档中每个句子的语义表示和文档的语义表示,并将文档的语义表示映射得到的数值作为情感打分基础;
(3)使用基于群组的个性化情感分析模型,以基于深度神经网络的基础情感分析模型得到的文档的语义表示、用户向量和全局群组向量作为输入,通过句子级的用户表示学习和文档级的用户表示学习分别计算得到文档中每个句子的用户表示和文档的用户表示,并将文档的用户表示和基于深度神经网络的基础情感分析模型得到的语义表示表示级联起来作为文档最终表示,并将文档的最终表示映射到两个数值分别作为情感打分偏移和波动;情感打分偏移用于最终的打分计算,情感打分波动用于网络的优化;
(4)将情感打分基础和情感打分偏移相加得到最终的情感打分。
2.根据权利要求1所述的一种面向稀疏数据的个性化情感分析方法,其特征在于,所述步骤(1)中的文档预处理包括:对文档进行分词,过滤掉文档中的停用词和所处理的数据集中仅出现一次的词。
3.根据权利要求1所述的一种面向稀疏数据的个性化情感分析方法,其特征在于,所述步骤(2)中的使用基于深度神经网络的基础情感分析模型计算情感打分基础包括:
(2.1)针对句子中的每个单词,先映射为一个预先训练好的词向量,然后利用双向长短记忆网络Bi-LSTM对句子中的每个词进行编码得到每个词的对应的隐状态;使用注意力机制计算每个词的权重;最后对每个词加权求和,得到每个句子的语义表示;
(2.2)是针对文档中的每个句子,以句子的语义表示作为输入,利用Bi-LSTM对文档中的每个句子进行编码得到每个句子的对应的隐状态;使用注意力机制计算每个句子的权重;最后对每个句子加权求和,得到文档的语义表示;
(2.3)使用一个多层感知器对文档级的语义表示映射到一个数值,即情感打分基础。
4.根据权利要求1所述的一种面向稀疏数据的个性化情感分析方法,其特征在于,所述步骤(3)中的使用基于群组的个性化情感分析模型计算情感打分偏移和波动包括:
(3.1)以Bi-LSTM中的每个词的隐状态、群组全局向量和文档对应的用户向量为基础,计算得到每个词的用户隐状态;使用注意力机制计算每个词对应的用户隐状态的权重;最后对每个词对应的用户隐状态加权求和,得到句子的用户表示;
(3.2)以Bi-LSTM中的每个句子的隐状态、群组全局向量和句子用户表示为基础,计算得到每个句子的用户隐状态;使用注意力机制计算每个句子用户的隐状态...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。