【技术实现步骤摘要】
本专利技术属于web信息检索与挖掘领域,具体涉及异构新闻内容,评论内容,用户情 感等多种信息源,对在线新闻评论情绪进行预测的方法。
技术介绍
在线新闻服务作为主要的网络信息载体,已经成为人们生活中不可或缺的新闻信 息来源。在线新闻逐渐取代了报纸、广播、电视新闻等传统的新闻接收方式,以及时、全面、 便捷的特点深受广大网民的喜爱。越来越多的人养成了每天在网络上浏览新闻的习惯,从 在线新闻中实时了解新闻讯息,同时针对新闻事件或其他用户的观点,发表自己的评论,抒 发自己的主观情感。 情感预测(sentiment prediction)是情感分析研究中最重要的子任务之一,是指 对给定文本所蕴含的情感进行预测。情感预测问题通常采用分类的方法来解决,即给定一 个带有情感的文本,假设它蕴含的整体情感是唯一的一种,将该文本的整体情感划分到某 一种情感类别中,达到预测该文本情感的目的。利用分类方法解决的情感预测问题,又被称 为情感分类(sentiment classification)。情感分类与文本分类(text classification)都 是基于文本内容的分类问题,但文本分类的目标是识别文本的主题(topic),而情感分类是 判别文本所蕴含的情感信息。 情感分析方面的研究工作现在主要是基于情感类别标注数据的监督学习方法。基 于情感类别标注训练数据集,构建高性能情感分类器,来分析文本的情感类别。Pang等最 早提出利用监督学习方法来解决文本情感分类问题,其策略是选用多种特征选择方法,利 用朴素贝叶斯(naiVe Bayes)、最大 ...
【技术保护点】
一种融合多信息源的个性化在线新闻评论情绪预测方法,包括如下步骤:第1、基于单一信息源的在线新闻评论情绪预测第1.1、基于评论内容的情绪预测定义1:输入文本的特征向量的定义①.所有文档的标引词组成的空间为特征空间Ω={t1,t2,…,tn},ti,i=1,2,…,n,为在所有文档中互异的标引词,包括字、单词或词组,n为特征的个数;②.一个文档d在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量d={tx1,tx2,…,txn},txi表示文档d中第i个标引词ti的权重;③.本专利技术是将标引词在文档中出现的次数作为特征权重;定义2:评论文档的形式化定义给定一个用户新闻评论文档集合C,C={c(1),c(2),…,c(N)};定义3:新闻文档的形式化定义存在一个与评论文档集合C对应的在线新闻文档集合D,D={d(1),d(2),…,d(M)};定义4:情绪类别的形式化定义用户在阅读新闻d(j)∈D后对其中的新闻事件发表了自己的评论c(i)∈C,同时抒发了某种情绪,即本文研究所关注的新闻评论中的用户情绪;给定一个预定义的情绪类别标签(class label)集合E,E={e1,e2 ...
【技术特征摘要】
1. 一种融合多信息源的个性化在线新闻评论情绪预测方法,包括如下步骤: 第1、基于单一信息源的在线新闻评论情绪预测 第1. 1、基于评论内容的情绪预测 定义1 :输入文本的特征向量的定义 ① .所有文档的标引词组成的空间为特征空间Ω=Itpt2,…,?η}4,?= 1,2^··,η, 为在所有文档中互异的标引词,包括字、单词或词组,η为特征的个数; ②.一个文档d在特征空间Ω上用标引词组成的向量来表示,即输入文本的特征向量 d=ltxl,tx2,…,txn},txi表示文档d中第i个标引词&的权重; ③ .本发明是将标引词在文档中出现的次数作为特征权重; 定义2 :评论文档的形式化定义 给定一个用户新闻评论文档集合C,C= {c(1),c(2),…,c(N)}; 定义3 :新闻文档的形式化定义 存在一个与评论文档集合C对应的在线新闻文档集合D,D= {d(1),d(2),…,d(M)}; 定义4:情绪类别的形式化定义 用户在阅读新闻#0eD后对其中的新闻事件发表了自己的评论c(i)eC,同时抒发了 某种情绪,即本文研究所关注的新闻评论中的用户情绪; 给定一个预定义的情绪类别标签(classlabel)集合E,E=Ie^e2, 代表新 闻评论中可能表达情绪的类别标签,集合E即是该情绪分类问题的输出空间; 定义5 :评论特征向量的表示 选取新闻评论c(i)eC的一些特征构成特征向量xu> ^R来表示该评论, X0') = ,xy)表示评论c(i)的第j个特征; 所有特征向量存在的空间构成了该情绪分类问题的特征空间,同时也是该情绪分类问 题的输入空间; 定义6 :评论标注向量的表示 每个评论c(1)eC对应一个标注向量y(1)表示评论c(1)表达的情绪,/> =Of如果评论c(i>标注的情绪是ek类,则定义7 :训练集的形式化定义 整个训练集表示为T= {(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在输入空间和输出空间 上分别定义随机变量X和Y,所有的输入评论特征向量与输出情绪类别标签均看成是随机 变量X和Y的取值; 定义8 :基于评论内容的逻辑斯谪回归模型的定义 给定一个评论c及其特征向量X,根据多元逻辑斯谪回归模型,它被分到情绪ek类的条 件概率分布为由特征线性函数表示的软最大函数,其中,X= (X11X2, ...,xn, 1}eRn+1,COk = {(〇kl,COk2,…,C0kn,bk}eRn+1 为对于情绪ek 的权值向量参数; 定义9 :基于评论内容的逻辑斯谪回归模型优化目标函数定义 经验风险是训练数据集的平均损失,按照经验风险最小化求最优模型,即求解最优化 问题:该模型在定义8的基础上使用了负的极小化对数似然函数,其中N表示文档类型的数 目,K表示情绪类别的个数,λ彡〇是系数,用以权衡经验风险和正则化项; 第1. 2、基于用户情绪投票的情绪预测 对于一个新闻d,用户在阅读该新闻后可对其中的新闻事件发表评论以抒发情绪,也可 使用网站提供的用户情绪投票功能,在给定的候选情绪类别标签集合E=Ie1,e2,…,eK}中 选择与自己想要表达的情绪相同或相近的情绪类别标签; 定义10 :用户投票的形式化定义 将新闻的用户情绪投票信息作为针对该新闻发表的所有评论的元数据(metadata), 即每个评论c含有与其对应新闻相同的用户情绪投票信息,用P= (P1,P2,…PK}表示, Pk是用户对情绪ek的投票数目; 定义11 :评论表达情绪条件概率的定义 假设新闻评论中情绪的分布与用户情绪投票中各情绪的分布相同,给定一个评论c,可 用情绪所得票数占总票数的比例,作为该评论c表达情绪的条件概率,即第1. 3、基于新闻内容的情绪预测 定义12:标引词的形式化定义 选取新闻文本内容和评论文本内容的标引词,Ω=It1,t2,…,tm},h,i= 1,2, 为在所有新闻文档和评论文档中互异的标引词;每个标引词在文档中的权重构成该文档的 特征向量,特征向量存在的空间构成了该分类问题的特征空间,也是该分类问题的输入空 间; ...
【专利技术属性】
技术研发人员:张莹,俞力,王超,杨志帆,袁晓洁,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。