基于大数据分析技术的微博转发可视化分析方法及系统技术方案

技术编号:13075194 阅读:65 留言:0更新日期:2016-03-30 10:49
本发明专利技术公开了一种基于大数据分析技术的微博转发可视化分析方法,包括:S1、获取源微博和所有转发微博,所述转发微博直接或间接转发所述源微博;S2、提取所述源微博和转发微博中的文本信息;S3、根据提取的文本信息得到所述源微博和所有转发微博的转发关系,所述转发关系包括所述转发微博之间的转发关系;S4、根据所述转发关系绘制可视化图形。本发明专利技术还公开了一种基于大数据分析技术的微博转发可视化分析系统。采用本发明专利技术的方案,将一个个单独存在的微博关联起来,使转发微博文本间的拓扑关系更加清晰,从而有效地提高微博转发关系的可视化,便于分析转发微博的内在关系。

【技术实现步骤摘要】

本专利技术设及微博大数据分析方法,尤其设及基于大数据分析技术的微博转发可视 化分析方法及系统。
技术介绍
微博是当前最流行的社交网络应用,不同于传统的互联网应用,其独特的媒体特 性赋予了用户更多的话语权,用户及时信息的接受者,也是信息的发布者和传播者,运也是 我们常说的自媒体,每当热点事件发生时,众多用户借助微博平台参与讨论,发表个人观 点,伴随事件持续发展,个人意见渐渐汇聚成群体观点,运是社会舆情的重要组成部分,所 W,对微博某一些事件的群体观点进行分析,是一件非常有意义的事情。 目前抓取新浪微博的数据一般有两种方式:一种方式是模拟登陆强行抓取HTML源 码,然后再对HTM1源码进行解析,提取其中的有价值的信息(用户相关信息,包括头像、性 另IJ、粉丝数、地域、标签、ID等等,所发微博的相关信息,包括微博正文、图片信屯、、被转发、被 评论等等)。第二种方式是利用新浪微博官方提供的API来直接请求数据,返回的数据格式 是JS0N,是一种纯数据的格式、里面囊括了所有的用户需要的数据。 W上两种方式相比,第二种方式拿数据的速度快、完整性高、稳定性强,但是申请 AP巧肖微复杂、而且不容易通过验证,现在仍然有很多应用使用的是第一种方式来抓取数 据。 但无论通过W上哪种方式拿到的数据都是一条一条的单独零散存在的,每一条数 据都是独立的一个个体,和其他的数据比没有什么关系,但是运表面看起来毫无关系的一 条条数据实际内部有着千丝万缕的联系,微博的转发是将多条消息文本串联成具有独立话 题信息的文本序列,沿着转发序列,旧话题结束,新话题开始,运样,话题之间的连接关系反 映了热点事件中的某个话题随着时间的一个演变过程,因此,如果需要全面了解一个话题, 既需要单纯的消息文本,也需要文本间的拓扑关系。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种基于大数据分析技术的微博转发可视 化分析方法,包括: S1、获取源微博和所有转发微博,所述转发微博直接或间接转发所述源微博;[000引S2、提取所述源微博和转发微博中的文本信息; S3、根据提取的文本信息得到所述源微博和所有转发微博的转发关系,所述转发 关系包括所述转发微博之间的转发关系; S4、根据所述转发关系绘制可视化图形。 进一步地,步骤S4中所述的根据所述转发关系绘制可视化图形包括:将转发微博 和与该条转发微博具有直接转发关系的源微博或转发微博用线段连接。 进一步地,所述步骤S3还包括:根据所述转发关系得到转发层次,统计对应每个转 发层次的转发微博数量。 进一步地,步骤S4还包括:根据所述转发层次和对应每个转发层次的转发微博数 量绘制可视化图形。 进一步地,步骤S2还包括:提取所述源微博和转发微博的用户属性,所述用户属性 包括实名用户、大粉丝和普通粉丝;步骤S3还包括:统计不同用户属性的用户对应的转发微 博数量。 相应地,本专利技术还提供了一种基于大数据分析技术的微博转发可视化分析系统, 包括: 获取模块,用于获取源微博和所有转发微博,所述转发微博直接或间接转发所述 源微博; 文本提取模块,用于提取所述源微博和转发微博中的文本信息; 分析模块,用于根据提取的文本信息得到所述源微博和所有转发微博的转发关 系,所述转发关系包括所述转发微博之间的转发关系; 可视化模块,用于根据所述转发关系绘制可视化图形。 进一步地,所述可视化模块中所述的根据所述转发关系绘制可视化图形包括:将 转发微博和与该条转发微博具有直接转发关系的源微博或转发微博用线段连接。进一步地,所述分析模块还包括:根据所述转发关系得到转发层次,统计对应每个 转发层次的转发微博数量。 进一步地,所述可视化模块还包括:根据所述转发层次和对应每个转发层次的转 发微博数量绘制可视化图形。 进一步地,所述文本提取模块还包括:提取所述源微博和转发微博的用户属性,所 述用户属性包括实名用户、大粉丝和普通粉丝;所述分析模块还包括:统计不同用户属性的 用户对应的转发微博数量。 本专利技术从源微博和所有转发微博中提取文本信息,并根据所述文本信息得到微博 的转发关系,所述转发关系还包括转发层次,最终通过转发关系绘制可视化图形,通过本发 明的方案,将一个个单独存在的微博关联起来,使转发微博文本间的拓扑关系更加清晰,从 而有效地提高微博转发关系的可视化,便于分析转发微博的内在关系。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施 例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅 仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可W根据运些附图获得其它附图。 图1是本专利技术实施例提供的基于大数据分析技术的微博转发可视化分析方法的系 统框图; 图2是利用本专利技术实施例提供的基于大数据分析技术的微博转发可视化分析方法 绘制的一个可视化图形; 图3是利用本专利技术实施例提供的基于大数据分析技术的微博转发可视化分析方法 绘制的另一个可视化图形; 图4是本专利技术实施例提供的基于大数据分析技术的微博转发可视化分析方法采用 的一个微博图片; 图5是采用本专利技术实施例提供的基于大数据分析技术的微博转发可视化分析方法 对上述微博图片分析得到的图片; 图6是本专利技术实施例中根据转发人性别比例做出的分析图形; 图7是本专利技术实施例中根据转发人地域分布做出的分析图形; 图8本专利技术实施例中是根据转发时间趋势做出的分析图形。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其 他实施例,都属于本专利技术保护的范围。[00对实施例: 请参见图1-图8,W数据源是标准JS0N数据源(通过weiboAPI返回的结果集)为例 对本专利技术的技术方案进行说明: 专利技术人通过分析大量的json样本,观察到能够找出运些单独存在的文本之间的联 系的唯一突破口就在于retweete^status中的text字段,也就是微博作者所发送的文本, 一般情况下是下述格式: 好看//柳青焊宪星:挺好看的,笑到流泪到笑中含泪//@西风邪:喜欢121//@神秘屯、 理学:微博,强烈33推荐关注@全球影视天地 通过分析运段文本,基本能够得到我们想要的全部信息:1.结构;2.具体的文本内 容。 上述文本中的//@相当于网络中的一个节点,一段文字靠//@分成多个小部分,越 靠右侧的就越接近事件源。运样的话,通过获取大量的转发微博文本,利用D3JS的API就可 W根据层级关系绘制出点线图。基于大数据分析技术的微博转发可视化分析方法包括W下步骤: S1、获取源微博和所有转发微博,所述转发微博直接或间接转发所述源微博; S2、提取所述源微博和转发微博中的文本信息; S3、根据提取的文本信息得到所述源微博和所有转发微博的转发关系,所述转发 关系包括所述转发微博之间的转发关系; S4、根据所述转发关系绘制可视化图形。 具体算法为: 1.先确定事件源点(源微博)的位置和下标,默认index = 0。1中拿出一条文本,下标;1(16本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105447144.html" title="基于大数据分析技术的微博转发可视化分析方法及系统原文来自X技术">基于大数据分析技术的微博转发可视化分析方法及系统</a>

【技术保护点】
基于大数据分析技术的微博转发可视化分析方法,其特征在于,包括:S1、获取源微博和所有转发微博,所述转发微博直接或间接转发所述源微博;S2、提取所述源微博和转发微博中的文本信息;S3、根据提取的文本信息得到所述源微博和所有转发微博的转发关系,所述转发关系包括所述转发微博之间的转发关系;S4、根据所述转发关系绘制可视化图形。

【技术特征摘要】

【专利技术属性】
技术研发人员:游世学刘俊康
申请(专利权)人:北京中科汇联科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1