一种社交媒体中热点微博数据的自适应取样方法技术

技术编号：13075207 阅读：118 留言：0更新日期：2016-03-30 10:49

本发明专利技术公开了一种社交媒体中热点微博数据的自适应取样方法，包括如下步骤：初步取样步骤：自动与社交媒体的数据接口建立通信，从社交媒体中获取一条以上微博数据；热点检测步骤：检测微博数据的属性，若微博转发量大于500次，则微博数据判定为热点微博数据，同时建立热点微博列表用于保存和监测热点微博数据；热点获取步骤：通过数据接口从社交媒体中获取热点微博列表中各热点微博数据的所有转发微博，构建热点微博数据的完整转发链。本发明专利技术可实时获取热点微博，能立即跟踪热点微博的转发，获取完整的热点微博转发链。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据库
，尤其涉及一种社交媒体中热点微博数据的自适应取样方法。
技术介绍
随着互联网的飞速发展，互联网变成了海量信息的载体，如何从送些数据中有挖掘出能被人们利用的信息变成了一个巨大的挑战。网络爬虫是一个能够自动爬取网页的程序，它是搜索引擎的一部分，从互联网爬取网页，为搜索引擎提供数据。传统爬虫指定若干个初始网页的U化开始抓取，在抓取网页的过程中，对所抓取网页进行初步解析，若发现当前页面上存在新的U化，就抽取出来并放入队列，直到程序满足结束条件停止。聚焦爬虫的爬取流程相对较为复杂，需要对网页进行解析，然后通过相关算法过滤掉与主题无关的链接，留下与主题有关的链接并将其放入URL队列中W等被待抓取。然后，将根据相关搜索算法从队列中选择要抓取的网页U化，W上步骤重复执行，直到程序满足结束条件停止。另外，系统将存储所有获取的网页数据，对其进行一定的分析和处理，并建立索引，W供将来的查询和检索；对于聚焦爬虫来说，送一过程所产生的分析结果还可W指引爬取程序爬取去定向爬取更有用的微博数据。相对于通用网络爬虫，聚焦爬虫也存在W下问题需要解决；对抓取目标的描述和定义无法做到足够准确；不能保证对网页或数据分析的准确性和过滤信息的无用性；对 U化的搜索策略还不够优秀，有待提升。网页分析算法与U化搜索策略的制订依据抓取目标的描述和定义。而对网页抓取行为W及搜索引擎所提供的服务形式依据对网页的分析算法和U化队列的排序算法。送两个部分的算法又是密不可分的。聚焦爬虫对抓取目标的描述可分为Η种；基于目标网页特征、基于目标数...

【技术保护点】
一种社交媒体中热点微博数据的自适应取样方法，其特征在于，包括如下步骤：初步取样步骤：自动与社交媒体的数据接口建立通信，从所述社交媒体中获取一条以上微博数据；热点检测步骤：检测所述微博数据的属性，若所述微博转发量大于500次，则所述微博数据判定为热点微博数据，同时建立热点微博列表用于保存和监测所述热点微博数据；热点获取步骤：通过所述数据接口从所述社交媒体中获取所述热点微博列表中各热点微博数据的所有转发微博，构建所述热点微博数据的完整转发链。

【技术特征摘要】

【专利技术属性】
技术研发人员：李叶，章群燕，夏帆，钱卫宁，周傲英，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人