一种微博数据获取方法、装置及舆情分析方法制造方法及图纸

技术编号：12149889 阅读：91 留言：0更新日期：2015-10-03 10:36

本发明专利技术实施例公开了一种微博数据获取方法、装置及舆情分析方法，其中微博数据获取方法包括：采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台；基于关注-分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容；将所述微博内容存储到存储系统中。本发明专利技术实施例的技术方案能实时获取完整的微博数据，进一步可以获得及时、全面、准确的网络舆情信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用
，具体涉及。
技术介绍
随着web2.0时代的到来，微博的使用人群数量逐渐庞大，状态信息更新频繁、信息传播迅速，并且微博平台媒介用户占有率相对集中，因此基于微博数据的分析研宄是十分值得关注的研宄方向。微博有着广大的用户基础，舆情信息在微博平台快速的产生和传播，微博用户迅猛增长，基于微博数据的分析已经引起社会的广泛关注。为了有效地利用微博分析社会舆情，微博数据的获取显得尤为重要。例如新浪微博上活跃着大量的用户，每天产生近I亿的微博内容。微博用户分为普通用户和认证用户，认证用户中拥有众多粉丝、人气较高、具有一定号召力和影响力的名人又被称为意见领袖。他们发布或转发的微博更容易成为热点微博，实时获取意见领袖的微博数据是进行舆情分析的重要方法之一。目前获取意见领袖的微博数据主要有两种方式:一种方式是通过微博平台提供的第三方程序接口获取微博数据，该程序接口可以获得指定用户的微博，方便快速地批量获取需要的微博数据，但是微博平台都会限定微博数据的采集速率，分别在用户维度和IP维度限定微博数据的采集速率，鉴于该程序接口限制用户每个小时只能请求一定的次数，这样只能抓取有限的数据，而且接口升级以后，这个API接口已经无法获得除授权用户以外的其他微博用户的微博信息。微博平台的这些限制，导致获取数据有限，难以保障舆情分析的准确性。另一种方式是使用定向网络爬虫技术获取微博数据，首先将需要访问的意见领袖微博的URL形成URL列表，通过网络爬虫依次读取URL列表中的记录，获取意见领袖的个人简介和微博列表。网络爬虫通过周而复始地读取URL列表，完成...

【技术保护点】
一种微博数据获取方法，其特征在于，包括：采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台；基于关注‑分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容；将所述微博内容存储到存储系统中。

【技术特征摘要】

【专利技术属性】
技术研发人员：张玉清，李北格，周传锋，
申请(专利权)人：中国地质大学北京，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人