一种微博数据获取方法、装置及舆情分析方法制造方法及图纸

技术编号:12149889 阅读:80 留言:0更新日期:2015-10-03 10:36
本发明专利技术实施例公开了一种微博数据获取方法、装置及舆情分析方法,其中微博数据获取方法包括:采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台;基于关注-分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容;将所述微博内容存储到存储系统中。本发明专利技术实施例的技术方案能实时获取完整的微博数据,进一步可以获得及时、全面、准确的网络舆情信息。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,具体涉及。
技术介绍
随着web2.0时代的到来,微博的使用人群数量逐渐庞大,状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中,因此基于微博数据的分析研宄是十分值得关注的研宄方向。微博有着广大的用户基础,舆情信息在微博平台快速的产生和传播,微博用户迅猛增长,基于微博数据的分析已经引起社会的广泛关注。为了有效地利用微博分析社会舆情,微博数据的获取显得尤为重要。例如新浪微博上活跃着大量的用户,每天产生近I亿的微博内容。微博用户分为普通用户和认证用户,认证用户中拥有众多粉丝、人气较高、具有一定号召力和影响力的名人又被称为意见领袖。他们发布或转发的微博更容易成为热点微博,实时获取意见领袖的微博数据是进行舆情分析的重要方法之一。目前获取意见领袖的微博数据主要有两种方式:一种方式是通过微博平台提供的第三方程序接口获取微博数据,该程序接口可以获得指定用户的微博,方便快速地批量获取需要的微博数据,但是微博平台都会限定微博数据的采集速率,分别在用户维度和IP维度限定微博数据的采集速率,鉴于该程序接口限制用户每个小时只能请求一定的次数,这样只能抓取有限的数据,而且接口升级以后,这个API接口已经无法获得除授权用户以外的其他微博用户的微博信息。微博平台的这些限制,导致获取数据有限,难以保障舆情分析的准确性。另一种方式是使用定向网络爬虫技术获取微博数据,首先将需要访问的意见领袖微博的URL形成URL列表,通过网络爬虫依次读取URL列表中的记录,获取意见领袖的个人简介和微博列表。网络爬虫通过周而复始地读取URL列表,完成对于意见领袖所发微博数据的获取。这种方式虽然可以获得比较完整的数据,但是数据捕获的周期为读取整个URL列表的时间,因此难以实现实时舆情分析。而且频繁地访问不同意见领袖的微博页面,将面临被微博平台封号的危险,一旦账号被封,将无法再获取任何数据。
技术实现思路
有鉴于此,本专利技术实施例提供,通过实时获取完整的微博数据,以及时、全面地掌握网络舆情动态。本专利技术实施例采用以下技术方案:第一方面,本专利技术实施例提供了一种微博数据获取方法,包括:采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台;基于关注-分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容; 将所述微博内容存储到存储系统中。进一步地,所述至少一个微博账号分别关注不同属性的微博用户,或分别关注相同属性的不同微博用户。进一步地,所述组内关注好友的划分是依据关注好友发布微博内容的活跃程度确定。进一步地,其中所述关注好友按不同活跃度分为多个组,且获取微博内容包括按组进行获取微博内容。进一步地,所述微博数据获取方法还包括:利用微博API接口定时和/或定量添加微博好友关注列表。进一步地,所述微博数据获取方法还包括:设定间隔时间定时刷新关注好友消息列表,并只获取最新的微博消息列表。进一步地,获取微博内容包括:利用正则表达式匹配出所需要的数据,包括发布微博的用户名ID、昵称、每一条微博的ID、发布平台、评论数、转发数、参与数、发布时间和发布内容中的至少一个。进一步地,采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台的操作具体包括:向所述微博平台的服务器发送所述微博账号经过BASE64编码的用户名,请求预登录链接地址,接收所述微博平台服务器返回的用户登录信息;向所述微博平台的服务器发送所述微博账号经过RSA加密算法加密的用户名和密码,获得所述微博平台的服务器返回的登录成功的标志信息和登录地址;向所述微博平台的服务器请求登录地址,对所述微博平台的服务器返回的登录成功的会话COOKIE进行保存。当需要将所述微博账号登录到所述微博平台时,通过所述会话COOKIE直接登录到所述微博平台的服务器。第二方面,本专利技术实施例还提供了一种舆情数据分析方法,包括:通过如第一方面所述的方法获取微博数据;根据预定规则对获取的微博数据进行分析,获得包括舆情的分析结果。第三方面,本专利技术实施例还提供了一种微博数据获取装置,包括:微博登录模块,用于采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台;微博内容获取模块,用于基于关注-分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容;微博内容存储模块,用于将所述微博内容存储到存储系统中。本专利技术实施例提出的技术方案的有益技术效果是:本专利技术实施例通过采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台,基于关注-分组的方式分别接收微博账号的每个预先设定的组内关注好友所发布的微博内容,并存储到存储系统中,能实时获取完整的目标微博数据,能全面、准确地获取所需要的网络舆情信息。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施例的内容和这些附图获得其他的附图。图1是本专利技术具体实施例一所述的微博数据获取方法流程图;图2是本专利技术具体实施例二所述的微博数据获取方法流程图;图3是本专利技术具体实施例三所述的微博数据获取方法流程图;图4是本专利技术具体实施例四所述的微博数据获取方法流程图;图5是本专利技术具体实施例四所述的模拟登录过程交互流程图;图6是本专利技术具体实施例五所述的微博数据获取装置的结构框图;图7是本专利技术具体实施例六所述的微博数据获取装置的结构框图。【具体实施方式】为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图并通过【具体实施方式】来进一步说明本专利技术的技术方案。实施例一图1是本实施例所述的微博数据获取方法流程图,本实施例可适用于微博平台以外的第三方基于微博分析舆情的情况,该方法可以由配置于计算机的微博数据获取装置来执行,如图1所示,本实施例所述的微博数据获取方法包括:S101、采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台。本操作的目的在于控制计算机自动登陆到微博平台,以便于所述计算机自动获取微博内容。S102、基于关注-分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容。在将所述微博账号登录到微博平台之后,添加关注设定的微博用户时,可指定其所属的组别。由于微博平台对各次接收关注好友的微博消息有长度限制,如果某领域账号添加关注的意见领袖数目比较多,而未对这些关注的意见领袖进行分组,或者即使对这些意见领袖进行了分组但是没有分别对各个分组的组内的意见领袖分批接收微博内容,则会出现因为接收的微博内容的长度超出为该长度限制而导致某些微博内容接收不到的问题,因此,本实施例要求将微博账号的关注好友首先进行分组,然后分别接收各个分组组内关注好友所发布的微博内容,以使每次只接收一个分组的组内关注好友所发布的微博内容,降低各次获本文档来自技高网
...

【技术保护点】
一种微博数据获取方法,其特征在于,包括:采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台;基于关注‑分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容;将所述微博内容存储到存储系统中。

【技术特征摘要】

【专利技术属性】
技术研发人员:张玉清李北格周传锋
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1