本发明专利技术公开了一种社交媒体中热点微博数据的自适应取样方法,包括如下步骤:初步取样步骤:自动与社交媒体的数据接口建立通信,从社交媒体中获取一条以上微博数据;热点检测步骤:检测微博数据的属性,若微博转发量大于500次,则微博数据判定为热点微博数据,同时建立热点微博列表用于保存和监测热点微博数据;热点获取步骤:通过数据接口从社交媒体中获取热点微博列表中各热点微博数据的所有转发微博,构建热点微博数据的完整转发链。本发明专利技术可实时获取热点微博,能立即跟踪热点微博的转发,获取完整的热点微博转发链。
【技术实现步骤摘要】
本专利技术属于数据库
,尤其涉及一种社交媒体中热点微博数据的自适应取 样方法。
技术介绍
随着互联网的飞速发展,互联网变成了海量信息的载体,如何从送些数据中有挖 掘出能被人们利用的信息变成了一个巨大的挑战。网络爬虫是一个能够自动爬取网页的程 序,它是搜索引擎的一部分,从互联网爬取网页,为搜索引擎提供数据。传统爬虫指定若干 个初始网页的U化开始抓取,在抓取网页的过程中,对所抓取网页进行初步解析,若发现当 前页面上存在新的U化,就抽取出来并放入队列,直到程序满足结束条件停止。聚焦爬虫的 爬取流程相对较为复杂,需要对网页进行解析,然后通过相关算法过滤掉与主题无关的链 接,留下与主题有关的链接并将其放入URL队列中W等被待抓取。然后,将根据相关搜索算 法从队列中选择要抓取的网页U化,W上步骤重复执行,直到程序满足结束条件停止。另外, 系统将存储所有获取的网页数据,对其进行一定的分析和处理,并建立索引,W供将来的查 询和检索;对于聚焦爬虫来说,送一过程所产生的分析结果还可W指引爬取程序爬取去定 向爬取更有用的微博数据。 相对于通用网络爬虫,聚焦爬虫也存在W下问题需要解决;对抓取目标的描述和 定义无法做到足够准确;不能保证对网页或数据分析的准确性和过滤信息的无用性;对 U化的搜索策略还不够优秀,有待提升。 网页分析算法与U化搜索策略的制订依据抓取目标的描述和定义。而对网页抓取 行为W及搜索引擎所提供的服务形式依据对网页的分析算法和U化队列的排序算法。送两 个部分的算法又是密不可分的。 聚焦爬虫对抓取目标的描述可分为Η种;基于目标网页特征、基于目标数据模式 和基于领域概念。 基于目标网页特征爬虫的对象一般为网站和网页,对其数据进行抓取、存储并索 引。可W采取根据种子样本的获取方式,该方式可分为: (1)预先设定的初始抓取种子样本。 (2)预先设定的网页的分类目录和与分类目录对应的种子样本,如百度分类结构 等。 (3)通过分析用户的上网行为来确定的抓取目标样本,可W采取W下两种方法。分 别为;用户在浏览过程中主动标注过的抓取样本;通过分析用户日志来得到其访问模式W 及相关样本。 但是由于微博数据量庞大,且微博数据更新速度极快,现有爬虫技术因需要人为 设定和制定策略等因素,无法满足微博数据的高时效性要求。因此,亟需一种能够自适应爬 取微博中最有议论价值、受用户转发度极高的微博数据的系统。
技术实现思路
本专利技术提出了,包括如下步骤: 初步取样步骤:自动与社交媒体的数据接口建立通信,从所述社交媒体中获取一 条W上微博数据; 热点检测步骤:检测所述微博数据的属性,若所述微博转发量大于500次,则所 述微博数据判定为热点微博数据,同时建立热点微博列表用于保存和监测所述热点微博数 据; 热点获取步骤:通过所述数据接口从所述社交媒体中获取所述热点微博列表中各 热点微博数据的所有转发微博,构建所述热点微博数据的完整转发链。 本专利技术提出的所述社交媒体中热点微博数据的自适应取样方法中,所述初步取样 步骤中,自动与社交媒体的公共微博读取接口建立通信,实时获取所述社交媒体中的公共 微博数据。 本专利技术提出的所述社交媒体中热点微博数据的自适应取样方法中,通过重复控制 调用数据接口、改变爬取策略W及采用多线程爬取的方式调整对所述公共微博读取接口的 访问频次。 本专利技术提出的所述社交媒体中热点微博数据的自适应取样方法中,所述初步取样 步骤中,自动与社交媒体的用户微博读取接口建立通信,实时获取指定高活跃度用户发布 的微博数据。 本专利技术提出的所述社交媒体中热点微博数据的自适应取样方法中,建立用户监控 列表,所述用户监控列表用于记录并轮询高活跃度用户,当所述高活跃度用户发布微博数 据时,通过所述用户微博读取接口实时获取所述微博数据。 本专利技术提出的所述社交媒体中热点微博数据的自适应取样方法中,所述热点检测 步骤中,设定自动检测时间区间,当处于所述自动检测时间区间时,检测先前已获取的微博 数据的属性。 本专利技术提出的所述社交媒体中热点微博数据的自适应取样方法中,设定时间界 限,在所述热点微博列表中,若一条热点微博数据在所述时间界限内经检测未成为热点微 博数据或者已获取所有转微博的,所述热点微博数据从所述热点微博列表中被移出。 本专利技术提出的所述社交媒体中热点微博数据的自适应取样方法中,所述时间上限 为2天。 本专利技术的有益效果在于: 本专利技术自适应取样方法能够在第一时间获得最有用的热点微博数据。通过更新和 监控用户监控列表和热点微博列表,能够24小时自动运行,无需手动操作,并能够根据不 同的爬取任务自适应地调整访问频次,W达到较优的爬取效果。本专利技术可实时获取热点微 博,能立即跟踪热点微博的转发,获取完整的热点微博转发链。【附图说明】 图1是本专利技术社交媒体中热点微博数据的自适应取样方法的示意图。 图2是本专利技术实施例中模拟用户登录的示意图。 图3是本专利技术程序流程图。 图4是本专利技术实施例中热点微博取样数量的曲线图。 图5是热口微博转发链的可视化结果的示意图。【具体实施方式】 结合W下具体实施例和附图,对本专利技术作进一步的详细说明。实施本专利技术的过程、 条件、实验方法等,除W下专口提及的内容之外,均为本领域的普遍知识和公知常识,本发 明没有特别限制内容。 本专利技术社交媒体中热点微博数据的自适应取样方法主要包括如下步骤: 初步取样步骤:自动与社交媒体的数据接口建立通信,从社交媒体中获取一条W 上微博数据。本专利技术主要获取两种微博数据,分别为公共微博数据和指定高活跃度用户的 用户微博数据,送两种微博数据中含有热点微博数据的概率更高,W提高取样的效率。 热点检测步骤;检测微博数据的属性,所述微博转发量大于500次,则微博数据判 定为热点微博数据,同时建立热点微博列表用于保存和监测热点微博数据。参阅图1,当判 断为热点微博数据之后,在获取其转发微博的同时,亦将其存入热点微博列表中。 热点获取步骤:通过数据接口从社交媒体中获取热点微博列表中各热点微博数据 的所有转发微博。获取转发微博可分为两种启动方式,分为自动监测方式和时间触发方式。 参阅图1,自动监测方式即通过实时监测热点微博列表中是否产生新的转发微博,若产生则 实时获取,可快速建立完整的微博转发链构。而时间触发方式则通过计时,当时间达到自动 检测时间区间时,则对已获取的微博数据进行检测,W确认其中是否存在热点微博数据,若 存在,则立即调用数据接口 W构建热点微博数据的完整转发链。 关于热点微博列表的维护和更新,本专利技术设定了时间界限,在热点微博列表中,若 一条热点微博数据在时间界限内经检测未成为热点微博数据或者已获取所有转微博的,热 点微博数据从热点微博列表中被移出。该时间上限为2天。 W下结合实例对本专利技术自适应取样方法的各步骤做进一步说明。 (1)自动登录 大部分应用程序编程接口(Application Programming Inte;rface,API)的访问如 发表微博、获取私信,关注都需要用户身份。目前微博开放平台用户身份鉴权有〇Auth2. 0 和Basic OAuth(仅用于应用所属开发者调试接口)。0Auth2. 0较1. 0相比,整个授权验证 流程更简单、更安全,也是未来最主要的用户身份验证本文档来自技高网...
【技术保护点】
一种社交媒体中热点微博数据的自适应取样方法,其特征在于,包括如下步骤:初步取样步骤:自动与社交媒体的数据接口建立通信,从所述社交媒体中获取一条以上微博数据;热点检测步骤:检测所述微博数据的属性,若所述微博转发量大于500次,则所述微博数据判定为热点微博数据,同时建立热点微博列表用于保存和监测所述热点微博数据;热点获取步骤:通过所述数据接口从所述社交媒体中获取所述热点微博列表中各热点微博数据的所有转发微博,构建所述热点微博数据的完整转发链。
【技术特征摘要】
【专利技术属性】
技术研发人员:李叶,章群燕,夏帆,钱卫宁,周傲英,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。