基于证据理论的中文微博可信度评估方法技术

技术编号：10231503 阅读：355 留言：0更新日期：2014-07-18 09:12

本发明专利技术属于信息检索与评估领域，具体涉及基于证据理论的中文微博可信度评估方法。本发明专利技术从中文微博的固有特点入手，兼顾了这些特点的可测量性和实际任务，系统地梳理了中文微博信息的可信度测量指标，并将其归属为文本信息、信息来源与信息传播三个高层维度。考虑到人类认知的模糊性本质，提出一个基于多维证据的微博可信度评估方法用于融合上述三个异构维度。与现有的仅针对网络文本或互连关系的单一特征评估方法比较，基于证据理论的中文微博可信度评估方法考虑更全面、合理，在同样的查询条件下，可以优选哪些来源可靠，传播广泛的信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于证据理论的中文微博可信度评估方法
基于证据理论的中文微博可信度评估方法属于信息检索与评估领域。
技术介绍
最近几年，社会媒体得到迅猛发展，特别是微博，如美国的推特(Twitter)、中国的新浪微博、腾讯微博等，已发展成为互联网上的巨擘。中国互联网络信息中心(CNNIC)于2012年7月发布的《第30次中国互联网络发展状况统计报告》显示，截至2012年6月底，我国微博用户数达到2.74亿，微博的渗透率已经过半，而且微博在手机端的增长幅度仍然明显，增速达到24.2％。根据中国互联网调查社区(http://h.cnnicresearch.cn/sv/result/sid/22253)2013年1月13日完成的关于“社会化媒体使用率的调查”结果显示，微博(73.46％)已经取代“即时聊天工具”(66.93％)、搜索引擎(61.64％)、官方网站(56.64％)成为大众接触最多的社会媒体。随着微博的蓬勃发展而带来的一大隐患，就是用户对微博内容的真实性和价值越来越难以判断。这主要是由微博内容的固有特点造成的。和其他社会媒体相似，微博的最大特点依然是媒体内容产生于用户(UGC，用户创造内容)和消费者(CGM，消费者产生媒体)。而且比起强调版面布置的博客来说，微博内容更简短、零碎，微博书写更随意、自由。正是由于微博内容的创造者自由度很大，没有编辑条款限制，使得微博上的信息质量差异很大。而且，由于信息的随便发布，群体的话语暴力，不负责任的非理性表达，也使得微博成为了众多网络谣言的发源地。因此，针对微博在信息书写、信息传播、社会网络分析等方面的固有特点，分析、评估微博内容...
基于证据理论的中文微博可信度评估方法

【技术保护点】
基于证据理论的中文微博可信度评估方法，其特征在于步骤如下：步骤1：预处理，将从各微博平台获取的Json格式微博，通过格式解析形成有效数据，然后借助现有的自然语言处理工具，对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测等预处理工作，并统计相关数据；步骤2：文本信息的可信度测量，信息本身的可信度可以从客观和主观两个方面入手考察，客观因素主要包括句法、语法、语气和语义四个层面，前两个层面，考虑了文本长度Slength和拼写错误Sspelling两个指标，具体计算方法如表1所示，表1同时列出了本专利技术考虑的和语气相关的三个因素分别是：图标Semoticons、重复标点Spunc以及正性词/负性词Sposi/neg，本专利技术将语义因素归结到任务相关领域，信息本身的可信度测量不涉及；影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法，通过分析主流中文微博平台数据，发现针对单个文本的可直接测量的主观因素有直接转贴数Sreposts和用户评论数Scomments，具体计算方法如表1所示；本专利技术采用均值模式来分别融合客观因素和主观因素，然后再通过一个...

【技术特征摘要】
1.基于证据理论的中文微博可信度评估方法，其特征在于步骤如下：步骤1：预处理，将从各微博平台获取的Json格式微博，通过格式解析形成有效数据，然后借助现有的自然语言处理工具，对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测、正/负性词检测六项预处理工作，并统计相关数据；步骤2：文本信息的可信度测量，信息本身的可信度可以从客观和主观两个方面入手考察，客观因素主要包括句法、语法、语气和语义四个层面，前两个层面，考虑了文本长度Slength和拼写错误Sspelling两个指标，由于考虑的和语气相关的三个因素分别是：图标Semoticons、重复标点Spunc以及正性词/负性词Sposi/neg，将语义因素归结到任务相关领域，信息本身的可信度测量不涉及,影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法，通过分析主流中文微博平台数据，发现针对单个文本的可直接测量的主观因素有直接转贴数Sreposts和用户评论数Scomments；采用均值模式来分别融合客观因素和主观因素，然后再通过一个介于[0，1]之间的权重λ来控制客观和主观因素的相对权重，将各个影响因素的得分进行min-max标准化，计算方法如下：其中v是需要标准化的值，min与max是某一影响因素得分的最小值与最大值，min'与max'是标准化区间的最小最大值；所述主观和客观综合可信度值的加权融合计算方法如下：由于客观因素更重要，设定λ＝0.7，分别表示各客观影响因素和各主观影响因素的标准化取值，具体计算方式如下：第一个客观因素文本长度：Slength(post)＝log(|post|),其中|post|是文本信息中包含的词个数；第二个客观因素拼写错误：其中n(error,post)表示文本信息中包含的拼写错误或不能识别的词的个数；第三个客观因素图标：其中n(emo,post)表示文本信息中包含的图标的个数；第四个客观因素重复标点：其中n(punc,post)表示文本信息中包含的问号，感叹号，省略号这三种重复符号的总数目；第五个客观因素正/负性词：其中n(pos/neg,post)表示文本信息中包含的正性词和负性词的总个数；第一个主观因素直接转贴数：Sreposts(post)＝log(|reposts|)，其中|reposts|是文本信息被转发的个数；第二个主观因素用户评论数：Scomments(post)＝log(|comments|)，其中|comments|是...

【专利技术属性】
技术研发人员：高明霞，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人