当前位置: 首页 > 专利查询>南开大学专利>正文

一种融合多信息源的个性化在线新闻评论情绪预测方法技术

技术编号:11210350 阅读:115 留言:0更新日期:2015-03-26 19:47
本发明专利技术提出了一种融合多信息源的个性化在线新闻评论情绪预测方法。本发明专利技术的方法是在基于单一信息源的在线新闻评论情绪预测的基础上提出了一种融合多信息源的在线新闻评论情绪预测方法。单一的信息源从用户评论,新闻文本和用户情绪投票这三个方面分别对在线新闻评论情绪进行预测,本发明专利技术通过结合多种异构信息源,极大地提高了预测的准确性。本发明专利技术提出的方法显著地优于其他在线新闻评论情绪预测的替代方法,并且在处理大量差异较大的评论集合时更具优势。本发明专利技术可用于用户情感分析和舆情监督。

【技术实现步骤摘要】

本专利技术属于web信息检索与挖掘领域,具体涉及异构新闻内容,评论内容,用户情 感等多种信息源,对在线新闻评论情绪进行预测的方法。
技术介绍
在线新闻服务作为主要的网络信息载体,已经成为人们生活中不可或缺的新闻信 息来源。在线新闻逐渐取代了报纸、广播、电视新闻等传统的新闻接收方式,以及时、全面、 便捷的特点深受广大网民的喜爱。越来越多的人养成了每天在网络上浏览新闻的习惯,从 在线新闻中实时了解新闻讯息,同时针对新闻事件或其他用户的观点,发表自己的评论,抒 发自己的主观情感。 情感预测(sentiment prediction)是情感分析研究中最重要的子任务之一,是指 对给定文本所蕴含的情感进行预测。情感预测问题通常采用分类的方法来解决,即给定一 个带有情感的文本,假设它蕴含的整体情感是唯一的一种,将该文本的整体情感划分到某 一种情感类别中,达到预测该文本情感的目的。利用分类方法解决的情感预测问题,又被称 为情感分类(sentiment classification)。情感分类与文本分类(text classification)都 是基于文本内容的分类问题,但文本分类的目标是识别文本的主题(topic),而情感分类是 判别文本所蕴含的情感信息。 情感分析方面的研究工作现在主要是基于情感类别标注数据的监督学习方法。基 于情感类别标注训练数据集,构建高性能情感分类器,来分析文本的情感类别。Pang等最 早提出利用监督学习方法来解决文本情感分类问题,其策略是选用多种特征选择方法,利 用朴素贝叶斯(naiVe Bayes)、最大熵(maximum entropy)和支持向量机(support vector machine, SVM)等模型对电影评论中所蕴含的情感进行极性划分。Mullen和Collier基于 短语语义倾向信息、形容词、文本主题知识等多种信息源,利用支持向量机模型对电影评论 进行情感分类。Pang等将文本的主观/客观分类问题转换为求解句子连接图的最小分割问 题,构建了一个基于最小分割的分类器对文本进行分类。Gamon利用对数似然比进行特征选 择,使用支持向量机模型对顾客反馈数据进行情感分析。在中文文本情感分析方面,Tan针 对文档级别提出了一种基于经验学习的方法,利用四种特征选取方法和五种机器学习方法 对中文文档进行情感分类,测试和比较各方法的性能。 上述工作是对新闻文章的情绪进行分类和预测,一般来说,新闻文章所含有的情 绪更多地属于新闻撰写者,并不能代表所有用户阅读新闻之后的情绪。本专利技术则是针对在 线新闻的用户评论,研究用户在阅读新闻之后的观点和情绪。 同时,在新闻评论情绪预测问题中,单一的信息源不能反映所有用户的情感,不同 的信息源可从不同的角度解读新闻评论中的用户情绪,且对于不同的评论,不同信息源的 情绪预测指示性和可靠性不同。对于不同的评论,某些信息源可能比其他的信息源更值得 信赖且更具有指示性,不同的信息源应该有不同的权重,以反映它们对不同评论的重要程 度。如何结合多种异构信息源进行在线新闻评论情绪预测,如何为不同的评论分配相应的 异构信息源结合权重,从而提高情绪预测的准确性,是一个重要的研究问题。
技术实现思路
针对目前绝大部分情感分析是针对新闻文章而进行分类和预测的,本专利技术融合了 新闻的评论,新闻本身和用户情绪投票三种方法对用户的情感进行预测,同时通过分配恰 当的权重,使情绪预测的结果更准确。 本专利技术提出了,结合了多 种异构信息源,采用再分类的方法,解决用户新闻评论的情绪预测问题。 该方法可自动地根据评论的特征来识别评论的不同潜在类别,为每一个类别的评 论建立二层逻辑斯谪回归模型预测评论的情绪。根据评论的类型特征不同,不同类的评论 将采取不同的异构信息源结合权重。 本专利技术提出的的主要步 骤如下: 第1、基于单一信息源的在线新闻评论情绪预测 第1. 1、基于评论内容的情绪预测 定义1 :输入文本的特征向量的定义 ①·所有文档的标引词组成的空间为特征空间Ω = {tl,t2,…,tn},hi = 1,2,…,n,为在所有文档中互异的标引词,包括字、单词或词组,η为特征的个数; ②.一个文档d可以在特征空间Ω上用标引词组成的向量来表示,即输入文本的 特征向量d = {txl, tx2,…,txn},txi表示文档d中第i个标引词&的权重; ③.本专利技术使用的是将标引词在文档中出现的次数作为特征权重; 定义2 :评论文档的形式化定义 给定一个用户新闻评论文档集合C,C= {c(1),c(2),…,c(N)}; 定义3 :新闻文档的形式化定义 存在一个与评论文档集合C对应的在线新闻文档集合D,D = {d(1),d(2),…,d(M)}; 定义4 :情绪类别的形式化定义 用户在阅读新闻#0 e D后对其中的新闻事件发表了自己的评论c(i) e C,同时抒 发了某种情绪,即本文研究所关注的新闻评论中的用户情绪; 给定一个预定义的情绪类别标签(class label)集合E,E = R1, e2,…,eK},ek代 表新闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间; 定义5 :评论特征向量的表示 选取新闻评论c(i) e C的一些特征构成特征向量来表示该评论, X⑴=兄),4'...乂')},矸)表示评论c(i)的第j个特征; 所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分 类问题的输入空间; 定义6 :评论标注向量的表示 每个评论c(i) eC对应一个标注向量y(i)表示评论c(i)表达的情绪, = (jfW'···,#} ·,如果评论c(i)标注的情绪是ek类,则本文档来自技高网
...

【技术保护点】
一种融合多信息源的个性化在线新闻评论情绪预测方法,包括如下步骤:第1、基于单一信息源的在线新闻评论情绪预测第1.1、基于评论内容的情绪预测定义1:输入文本的特征向量的定义①.所有文档的标引词组成的空间为特征空间Ω={t1,t2,…,tn},ti,i=1,2,…,n,为在所有文档中互异的标引词,包括字、单词或词组,n为特征的个数;②.一个文档d在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量d={tx1,tx2,…,txn},txi表示文档d中第i个标引词ti的权重;③.本专利技术是将标引词在文档中出现的次数作为特征权重;定义2:评论文档的形式化定义给定一个用户新闻评论文档集合C,C={c(1),c(2),…,c(N)};定义3:新闻文档的形式化定义存在一个与评论文档集合C对应的在线新闻文档集合D,D={d(1),d(2),…,d(M)};定义4:情绪类别的形式化定义用户在阅读新闻d(j)∈D后对其中的新闻事件发表了自己的评论c(i)∈C,同时抒发了某种情绪,即本文研究所关注的新闻评论中的用户情绪;给定一个预定义的情绪类别标签(class label)集合E,E={e1,e2,…,eK},ek代表新闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间;定义5:评论特征向量的表示选取新闻评论c(i)∈C的一些特征构成特征向量来表示该评论,x(i)={x1(i),x2(i),...,xn(i)},]]>表示评论c(i)的第j个特征;所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分类问题的输入空间;定义6:评论标注向量的表示每个评论c(i)∈C对应一个标注向量y(i)表示评论c(i)表达的情绪,如果评论c(i)标注的情绪是ek类,则yr(i)=1,r=k0,r≠k,r,k=1,2,···,K---(1.1)]]>定义7:训练集的形式化定义整个训练集表示为T={(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在输入空间和输出空间上分别定义随机变量X和Y,所有的输入评论特征向量与输出情绪类别标签均看成是随机变量X和Y的取值;定义8:基于评论内容的逻辑斯谛回归模型的定义给定一个评论c及其特征向量x,根据多元逻辑斯谛回归模型,它被分到情绪ek类的条件概率分布为由特征线性函数表示的软最大函数,P=(Y=ek|X=x)=exp(ωk·x)Σr=1Kexp(ωr·x),k=1,2,···K(1.2)]]>其中,x={x1,x2,…,xn,1}∈Rn+1,ωk={ωk1,ωk2,…,ωkn,bk}∈Rn+1为对于情绪ek的权值向量参数;定义9:基于评论内容的逻辑斯谛回归模型优化目标函数定义经验风险是训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化问题:ω*argminω-Σi=1NΣk=1Kyk(i)logexp(ωk·x(i))Σr=1Kexp(ωr·x(i))+λΣk=1KΣj=1n+1ωkj2---(1.3)]]>该模型在定义8的基础上使用了负的极小化对数似然函数,其中N表示文档类型的数目,K表示情绪类别的个数,λ≥0是系数,用以权衡经验风险和正则化项;第1.2、基于用户情绪投票的情绪预测对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,也可使用网站提供的用户情绪投票功能,在给定的候选情绪类别标签集合E={e1,e2,…,eK}中选择与自己想要表达的情绪相同或相近的情绪类别标签;定义10:用户投票的形式化定义将新闻的用户情绪投票信息作为针对该新闻发表的所有评论的元数据(meta data),即每个评论c含有与其对应新闻相同的用户情绪投票信息,用ρ={ρ1,ρ2,…ρK}表示,ρk是用户对情绪ek的投票数目;定义11:评论表达情绪条件概率的定义假设新闻评论中情绪的分布与用户情绪投票中各情绪的分布相同,给定一个评论c,可用情绪ek所得票数占总票数的比例,作为该评论c表达情绪ek的条件概率,即μk=P(Y=ek|ρ)=ρkΣr=1Kρr---(1.4)]]>第1.3、基于新闻内容的情绪预测定义12:标引词的形式化定义选取新闻文本内容和评论文本内容的标引词,Ω={t1,t2,…,tm},ti,i=1,2,…,m,为在所有新...

【技术特征摘要】
1. 一种融合多信息源的个性化在线新闻评论情绪预测方法,包括如下步骤: 第1、基于单一信息源的在线新闻评论情绪预测 第1. 1、基于评论内容的情绪预测 定义1 :输入文本的特征向量的定义 ① .所有文档的标引词组成的空间为特征空间Ω=Itpt2,…,?η}4,?= 1,2^··,η, 为在所有文档中互异的标引词,包括字、单词或词组,η为特征的个数; ②.一个文档d在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量 d=ltxl,tx2,…,txn},txi表示文档d中第i个标引词&的权重; ③ .本发明是将标引词在文档中出现的次数作为特征权重; 定义2 :评论文档的形式化定义 给定一个用户新闻评论文档集合C,C= {c(1),c(2),…,c(N)}; 定义3 :新闻文档的形式化定义 存在一个与评论文档集合C对应的在线新闻文档集合D,D= {d(1),d(2),…,d(M)}; 定义4:情绪类别的形式化定义 用户在阅读新闻#0eD后对其中的新闻事件发表了自己的评论c(i)eC,同时抒发了 某种情绪,即本文研究所关注的新闻评论中的用户情绪; 给定一个预定义的情绪类别标签(classlabel)集合E,E=Ie^e2, 代表新 闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间; 定义5 :评论特征向量的表示 选取新闻评论c(i)eC的一些特征构成特征向量xu> ^R来表示该评论, X0') = ,xy)表示评论c(i)的第j个特征; 所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分类问 题的输入空间; 定义6 :评论标注向量的表示 每个评论c(1)eC对应一个标注向量y(1)表示评论c(1)表达的情绪,/> =Of如果评论c(i>标注的情绪是ek类,则定义7 :训练集的形式化定义 整个训练集表示为T= {(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在输入空间和输出空间 上分别定义随机变量X和Y,所有的输入评论特征向量与输出情绪类别标签均看成是随机 变量X和Y的取值; 定义8 :基于评论内容的逻辑斯谪回归模型的定义 给定一个评论c及其特征向量X,根据多元逻辑斯谪回归模型,它被分到情绪ek类的条 件概率分布为由特征线性函数表示的软最大函数,其中,X= (X11X2, ...,xn, 1}eRn+1,COk = {(〇kl,COk2,…,C0kn,bk}eRn+1 为对于情绪ek 的权值向量参数; 定义9 :基于评论内容的逻辑斯谪回归模型优化目标函数定义 经验风险是训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化 问题:该模型在定义8的基础上使用了负的极小化对数似然函数,其中N表示文档类型的数 目,K表示情绪类别的个数,λ彡〇是系数,用以权衡经验风险和正则化项; 第1. 2、基于用户情绪投票的情绪预测 对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,也可 使用网站提供的用户情绪投票功能,在给定的候选情绪类别标签集合E=Ie1,e2,…,eK}中 选择与自己想要表达的情绪相同或相近的情绪类别标签; 定义10 :用户投票的形式化定义 将新闻的用户情绪投票信息作为针对该新闻发表的所有评论的元数据(metadata), 即每个评论c含有与其对应新闻相同的用户情绪投票信息,用P= (P1,P2,…PK}表示, Pk是用户对情绪ek的投票数目; 定义11 :评论表达情绪条件概率的定义 假设新闻评论中情绪的分布与用户情绪投票中各情绪的分布相同,给定一个评论c,可 用情绪所得票数占总票数的比例,作为该评论c表达情绪的条件概率,即第1. 3、基于新闻内容的情绪预测 定义12:标引词的形式化定义 选取新闻文本内容和评论文本内容的标引词,Ω=It1,t2,…,tm},h,i= 1,2, 为在所有新闻文档和评论文档中互异的标引词;每个标引词在文档中的权重构成该文档的 特征向量,特征向量存在的空间构成了该分类问题的特征空间,也是该分类问题的输入空 间; ...

【专利技术属性】
技术研发人员:张莹俞力王超杨志帆袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1