基于证据理论的中文微博可信度评估方法技术

技术编号:10231503 阅读:351 留言:0更新日期:2014-07-18 09:12
本发明专利技术属于信息检索与评估领域,具体涉及基于证据理论的中文微博可信度评估方法。本发明专利技术从中文微博的固有特点入手,兼顾了这些特点的可测量性和实际任务,系统地梳理了中文微博信息的可信度测量指标,并将其归属为文本信息、信息来源与信息传播三个高层维度。考虑到人类认知的模糊性本质,提出一个基于多维证据的微博可信度评估方法用于融合上述三个异构维度。与现有的仅针对网络文本或互连关系的单一特征评估方法比较,基于证据理论的中文微博可信度评估方法考虑更全面、合理,在同样的查询条件下,可以优选哪些来源可靠,传播广泛的信息。

【技术实现步骤摘要】
基于证据理论的中文微博可信度评估方法
基于证据理论的中文微博可信度评估方法属于信息检索与评估领域。
技术介绍
最近几年,社会媒体得到迅猛发展,特别是微博,如美国的推特(Twitter)、中国的新浪微博、腾讯微博等,已发展成为互联网上的巨擘。中国互联网络信息中心(CNNIC)于2012年7月发布的《第30次中国互联网络发展状况统计报告》显示,截至2012年6月底,我国微博用户数达到2.74亿,微博的渗透率已经过半,而且微博在手机端的增长幅度仍然明显,增速达到24.2%。根据中国互联网调查社区(http://h.cnnicresearch.cn/sv/result/sid/22253)2013年1月13日完成的关于“社会化媒体使用率的调查”结果显示,微博(73.46%)已经取代“即时聊天工具”(66.93%)、搜索引擎(61.64%)、官方网站(56.64%)成为大众接触最多的社会媒体。随着微博的蓬勃发展而带来的一大隐患,就是用户对微博内容的真实性和价值越来越难以判断。这主要是由微博内容的固有特点造成的。和其他社会媒体相似,微博的最大特点依然是媒体内容产生于用户(UGC,用户创造内容)和消费者(CGM,消费者产生媒体)。而且比起强调版面布置的博客来说,微博内容更简短、零碎,微博书写更随意、自由。正是由于微博内容的创造者自由度很大,没有编辑条款限制,使得微博上的信息质量差异很大。而且,由于信息的随便发布,群体的话语暴力,不负责任的非理性表达,也使得微博成为了众多网络谣言的发源地。因此,针对微博在信息书写、信息传播、社会网络分析等方面的固有特点,分析、评估微博内容、微博用户,并将其应用于微博信息综合或垂直搜索、微博知识发现等领域的研究,已经引起了国内外计算机科学、信息科学、传媒科学领域研究人员的关注和重视,成为微博研究领域的重要内容之一。由于时间因素,目前对微博质量的研究实例大多集中于推特(Twitter)分析,这些研究可以分为两类,一类是利用传统分类技术的定性分析,这类研究需要大量样本,获取的是非数值结论,无法用于定量评估;另一类是针对不同性能指标的一些定量算法,只是现有质量评估函数多数只关注信息本身或某一侧面,缺少系统、全面地分析和评估,更没有从模糊认知的角度进行度量。目前针对中文微博质量分析的研究多数集中于内容分析和特定主题提取,缺少专门针对质量进行定量评估的系统方法。
技术实现思路
本专利技术从中文微博的固有特点入手,兼顾了这些特点的可测量性和实际任务,系统地梳理了中文微博信息的可信度测量指标,并将其归属为文本信息、信息来源与信息传播三个高层维度,考虑到人类认知的模糊性本质,提出一个基于多维证据的微博可信度评估方法用于融合上述三个异构维度,具体流程如图1所示。与现有的仅针对网络文本或互连关系的单一特征评估方法比较,基于证据理论的中文微博可信度评估方法考虑更全面、合理,在同样的查询条件下,可以优选那些来源可靠,传播广泛的信息。本专利技术提供的中文微博可信度评估方法,具体步骤如下:步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测、正/负性词检测六项预处理工作,并统计相关数据;步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长度Slength和拼写错误Sspelling两个指标,由于考虑的和语气相关的三个因素分别是:图标Semoticons、重复标点Spunc以及正性词/负性词Sposi/neg,将语义因素归结到任务相关领域,信息本身的可信度测量不涉及,影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数Sreposts和用户评论数Scomments;采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,1]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min-max标准化,计算方法如下:其中v是需要标准化的值,min与max是某一影响因素得分的最小值与最大值,min'与max'是标准化区间的最小最大值;所述主观和客观综合可信度值的加权融合计算方法如下:由于客观因素更重要,设定λ=0.7,分别表示各客观影响因素和各主观影响因素的标准化取值,具体计算方式如下:第一个客观因素文本长度:Slength(post)=log(|post|),其中|post|是文本信息中包含的词个数;第二个客观因素拼写错误:其中n(error,post)表示文本信息中包含的拼写错误或不能识别的词的个数;第三个客观因素图标:其中n(emo,post)表示文本信息中包含的图标的个数;第四个客观因素重复标点:其中n(punc,post)表示文本信息中包含的问号,感叹号,省略号这三种重复符号的总数目;第五个客观因素正/负性词:其中n(pos/neg,post)表示文本信息中包含的正性词和负性词的总个数;第一个主观因素直接转贴数:Sreposts(post)=log(|reposts|),其中|reposts|是文本信息被转发的个数;第二个主观因素用户评论数:Scomments(post)=log(|comments|),其中|comments|是文本信息的评论个数;步骤3:信息来源的可信度测量,任何微博最初都是由人产生的,因此信息来源就是文本信息作者,微博用户可信度由他的客观日常行为和主观外部评价累积形成,可测量客观日常行为包括是否做过实名认证Φ,发布的文本信息总数Sposts,以及发布的高可信文本信息总数SHposts,而微博用户可测量外部评价包括追随者数目Sfellows,文本信息反馈情况Scomments,上述指标中,对作者影响最大的是是否实名认证,将实名认证这一指标定义为一个二值函数[0,1],信息总数和高可信信息总数是两个关联指标,作者可信度的加权综合融合方式计算方法如下:其中,waut、wext和wsub分别是认证因素、客观因素和主观因素的权重,为突出认证的重要性,权重比例设定waut:wext:wsub=5:3:2;是主观影响因素的min-max标准化取值,具体计算方式如下:第一个客观因素高质量信息数和信息总数的比值:其中post是文本信息,Cpost表示文本信息post的可信度,w是区别质量的最少阈值;第一个主观因素追随者总数:Sfellows(author)=logn(fellows,author),n(fellows,author)表示作者的追随者总数;第二个主观因素文本信息反馈情况:其中n(comm,post)表示文本信息post获得的评论数;步骤4:信息传播的可信度测量,影响信息传播可信度的因素包括两项,一是时效,二是传播媒介,将时效因素也归结到了任务相关领域,传播媒介对文本信息可信度的影响方式通过两种情况递增:一种是传播媒介中包含可信度高的名人;另外一种是传播媒介中节点数目庞大,这种提升趋向于一个确定的阈值,依据可信度递增规律,定义了用于具体计算传播本文档来自技高网
...
基于证据理论的中文微博可信度评估方法

【技术保护点】
基于证据理论的中文微博可信度评估方法,其特征在于步骤如下:步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测等预处理工作,并统计相关数据;步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长度Slength和拼写错误Sspelling两个指标,具体计算方法如表1所示,表1同时列出了本专利技术考虑的和语气相关的三个因素分别是:图标Semoticons、重复标点Spunc以及正性词/负性词Sposi/neg,本专利技术将语义因素归结到任务相关领域,信息本身的可信度测量不涉及;影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数Sreposts和用户评论数Scomments,具体计算方法如表1所示;本专利技术采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,1]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min‑max标准化,计算方法如下:v′=v-minmax-min×(max′-min′)]]>其中v是需要标准化的值,min与max是某一影响因素得分的最小值与最大值,min'与max'是标准化区间的最小最大值;所述主观和客观综合可信度值的加权融合计算方法如下:Cpost=λ[1nΣi=1nSiext(post)]+(1-λ)[1nΣi=1nSisub(post)]]]>由于客观因素更重要,本专利技术设定λ=0.7,分别表示表1中各客观影响因素和各主观影响因素的标准化取值;表1文本质量影响因素的计算方法步骤3:信息来源的可信度测量,任何微博最初都是由人产生的,因此信息来源就是文本信息作者,微博用户可信度由他的客观日常行为和主观外部评价累积形成,可测量客观日常行为包括是否做过实名认证Φ,发布的文本信息总数Sposts,以及发布的高可信文本信息总数SHposts,而微博用户可测量外部评价包括追随者数目Sfellows,文本信息反馈情况Scomments,上述指标中,对作者影响最大的是是否实名认证,本专利技术将实名认证这一指标定义为一个二值函数[0,1],信息总数和高可信信息总数是两个关联指标,表2列出了这些指标的具体计算方法,作者可信度的加权综合融合方式计算方法如下:Cauthor=waut×Φ+wext×SHpostsSposts+wsub×[1nΣi=1nSisub(author)]]]>其中是表2中主观影响因素的min‑max标准化取值,waut、wext和wsub分别是认证因素、客观因素和主观因素的权重,为突出认证的重要性本专利技术权重比例设定waut:wext:wsub=5:3:2;表2作者影响因素的计算方法步骤4:信息传播的可信度测量,影响信息传播可信度的因素包括两项,一是时效,二是传播媒介,本专利技术将时效因素也归结到了任务相关领域,传播媒介对文本信息可信度的影响方式通过两种情况递增:一种是传播媒价中包含可信度高的名人;另外一种是传播媒介中节点数目庞大,这种提升趋向于一个确定的阈值,依据可信度递增规律,本专利技术定义了用于具体计算传播媒介对微博文本可信度的影响,计算方法如下:Cptree=Σi=1nμi×Cauthor]]>其中Cauthoir是用户根据可信度值递减排序后得到的第i个传播者的可信度,μ<1是递减因子;步骤5:基于多维证据理论的可信度融合评估,本专利技术对三个维度可信度检测结果进行合成,得到综合微博可信度的过程将采用改进的D‑S证据理论方法对多个维度的基本概率分配函数进行合成,计算方法如下:m(φ)=0m(h)=Πi=1nmi(h)+kq(h)m(h‾)=1-m(h)m(Θ)=0]]>其中,辨识框架Θ={h,⫬h},]]>幂集2Θ={φ,{h},{⫬h},Θ},]]>φ表示不可能事件“微博信息既可信又不可信”,h表示“微博信息可信”,表示“微博信息不可信”,Θ表示“微博信息可信度无法评估”,k=1-Πi=1nmi(h)-Πi=1nmi(h‾),q(h)=1nΣi=1nmi(h).]]>...

【技术特征摘要】
1.基于证据理论的中文微博可信度评估方法,其特征在于步骤如下:步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测、正/负性词检测六项预处理工作,并统计相关数据;步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长度Slength和拼写错误Sspelling两个指标,由于考虑的和语气相关的三个因素分别是:图标Semoticons、重复标点Spunc以及正性词/负性词Sposi/neg,将语义因素归结到任务相关领域,信息本身的可信度测量不涉及,影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数Sreposts和用户评论数Scomments;采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,1]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min-max标准化,计算方法如下:其中v是需要标准化的值,min与max是某一影响因素得分的最小值与最大值,min'与max'是标准化区间的最小最大值;所述主观和客观综合可信度值的加权融合计算方法如下:由于客观因素更重要,设定λ=0.7,分别表示各客观影响因素和各主观影响因素的标准化取值,具体计算方式如下:第一个客观因素文本长度:Slength(post)=log(|post|),其中|post|是文本信息中包含的词个数;第二个客观因素拼写错误:其中n(error,post)表示文本信息中包含的拼写错误或不能识别的词的个数;第三个客观因素图标:其中n(emo,post)表示文本信息中包含的图标的个数;第四个客观因素重复标点:其中n(punc,post)表示文本信息中包含的问号,感叹号,省略号这三种重复符号的总数目;第五个客观因素正/负性词:其中n(pos/neg,post)表示文本信息中包含的正性词和负性词的总个数;第一个主观因素直接转贴数:Sreposts(post)=log(|reposts|),其中|reposts|是文本信息被转发的个数;第二个主观因素用户评论数:Scomments(post)=log(|comments|),其中|comments|是...

【专利技术属性】
技术研发人员:高明霞
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1