网页视频抓取的方法及网页视频抓取的终端设备技术

技术编号:13631274 阅读:106 留言:0更新日期:2016-09-02 11:47
本发明专利技术实施例提供一种网页视频抓取的方法及终端设备设备。所述方法所述方法包括:收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;收集各个频道的视频的发布时间,建立视频更新的时间表;根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。本发明专利技术实施例提供的方案根据所述各个视频的抓取时间来抓取所述各个频道的视频,视频抓取的时效性高,而且在抓取网页视频时只在确定好的视频抓取时间去网页上抓取视频,该方案极大的节约了网络资源。

【技术实现步骤摘要】

本专利技术实施例涉及网络搜索
,尤其涉及一种网页视频抓取的方法及网页视频抓取的设备。
技术介绍
1994年基于WEB的搜索引擎出现以来,搜索引擎便得到了极大的发展。搜索引擎解决了海量互联网资源的快速定位和检索,在人们日常生活和工作中发挥了越来越大的作用。作为搜索引擎的重要一部分,网页信息抓取技术,即抓取技术的发展也是越来越成熟。在计算机领域,越来越多的网络抓取技术都以开源的方式提供给开发人员和企业应用。随着视频网站在国内的普及和蓬勃发展,人们的互联网生活几乎与视频网站已经密不可分。人们不仅十分喜欢视频这种直观的信息获取方式,而且爱浏览视频,并且很多人都亲自参与视频的拍摄和制作,并发布视频于视频站点与网友们共享和交流。随着互联网技术的发展,搜索引擎技术在其中扮演着越来越重要的角色。网络爬虫决定搜索引擎的数量来源,是搜索引擎系统的重要组成部分。YouTube是设立在美国的一个视频分享网站,该网站鼓励用户上传视频、观看视频及分享视频或短片,至今YouTube已经成为影音网站的翘楚。为丰富全网视频搜索的内容,对于YouTube上视频数据的抓取目前广泛采用定时轮询的方案。然而从现有YouTube中遍历几十万的频道,定时抓取视频数据资源耗费太太。具体到各个频道,不同的频道有不同的播放总数、视频总量及订阅数,而且不同的频道更新周期不同,由此,定时轮询存在着严重的时效性及资源浪费的问题。有鉴于此,本专利技术实施例有必要提供一种网页视频抓取的方法及网页视
频抓取的设备,可以实现在抓取网页视频时时效性高,而且在抓取网页视频时节约网络资源。
技术实现思路
专利技术实施例提供一种网页视频抓取的方法及一种网页视频抓取的设备,可以解决现有技术中在抓取网页视频时使用的定时轮询的方法存在严重的时效性差及资源浪费的的技术问题。本专利技术实施例提供一种网页视频抓取的方法,包括:终端设备收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表;所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;所述终端设备根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。本专利技术实施例提供一种网页视频抓取的终端设备,包括:记录单元,用于收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度,并收集各个频道的视频的发布时间,建立视频更新的时间表;评估单元,用于根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,并根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;视频抓取单元,用于按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。本专利技术实施例提供的一种网页视频抓取的方法及一种网页视频抓取的终端设备,针对用户的各个频道的热度和各个频道的视频的更新时间,计算各个视频的下次更新时间,并根据所述各个频道的视频的下次更新时间确定所
述各个频道视频的抓取时间,进而根据所述各个视频的抓取时间来抓取所述各个频道的视频,视频抓取的时效性高,而且不会存在现有技术的轮询的技术方案,本专利技术实施例所提供的方案在抓取网页视频时只在确定好的视频抓取时间去网页上抓取视频,该方案极大的节约了网络资源。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种网页视频抓取的方法实施例的流程图;图2为本专利技术一种网页视频抓取的终端设备实施例的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,本专利技术一种网页视频抓取的方法实施例示意图。本专利技术实施例提供一种网页视频抓取的方法包括:步骤11,终端设备收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;步骤13,所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表;步骤15,所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;步骤17,所述终端设备根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;步骤19,所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。本专利技术实施例提供的一种网页视频抓取的方法,针对发布视频的用户在视频网站的热度(即所述用户在所述频道的热度)和发布视频的用户在各个频道的视频的更新时间,计算各个视频的下次更新时间,并根据所述各个频道的视频的下次更新时间确定所述各个频道视频的抓取时间,进而根据所述各个视频的抓取时间来抓取所述各个频道的视频,视频抓取的时效性高,而且不会存在现有技术的轮询的技术方案,本专利技术实施例所提供的方案在抓取网页视频时只在确定好的视频抓取时间去网页上抓取视频,该方案极大的节约了网络资源。进一步地,根据本专利技术一种网页视频抓取的方法实施例所公开的技术方案,所述终端设备收集各个频道的相关信息包括:所述终端设备收集各个频道的视频数、订阅数和播放总数;则所述根据所述收集的各个频道的相关信息计算各个频道的热度包括所述终端设备根据所述收集的各个频道的视频数、订阅数和播放总数计算各个频道的热度。进一步地,根据本专利技术一种网页视频抓取的方法实施例所公开的技术方案,所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表,包括:所述终端设备收集各个频道的视频的发布时间,计算各个频道的视频每次更新的时间间隔和更新的时间段,建立所述视频更新的时间表。所述视频更新的时间表可以参考如下表1。表1频道发布时间娱乐2015年12月1日19:00新闻2015年12月3日9:00进一步地,根据本专利技术一种网页视频抓取的方法实施例所公开的技术方
案,所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,包括:所述终端设备根据所述各个频道的热度、所述视频每次更新的时间间隔和更新的时间段计算各个频道的视频下次更新时间。根据本专利技术也在网页视频抓取的方法实施例所公开的技术方案,所述各个频道的热度表示发布视频的用户在发布视频的网站的热度,即所述发布视频的用户在发布视频的网站受欢迎的程度,即热门程度,热度越高代表所述发布视频的用户在所述网站越是受欢迎。热度的计算可以通过多次试验进行验证,针对某频道对所述收集的视频数、订阅数和播放总数赋予不同的权重来计算各个频道的热度。例如,通过分析用户习惯,各个权重由高到低依次为:订阅数、播放总数和视频数。下面以一个比较热门的用户频道作为例子进行介绍。第一步:抓取其视频总数(video本文档来自技高网
...

【技术保护点】
一种网页视频抓取的方法,其特征在于,包括:终端设备收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表;所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;所述终端设备根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。

【技术特征摘要】
1.一种网页视频抓取的方法,其特征在于,包括:终端设备收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表;所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;所述终端设备根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。2.根据权利要求1所述的方法,其特征在于,进一步地,所述终端设备收集各个频道的相关信息包括:所述终端设备收集各个频道的视频数、订阅数和播放总数;所述根据所述收集的各个频道的相关信息计算各个频道的热度包括所述终端设备根据所述收集的各个频道的视频数、订阅数和播放总数,计算各个频道的热度。3.根据权利要求1所述的方法,其特征在于,进一步地,所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表,包括:所述终端设备收集各个频道的视频的发布时间,计算各个频道的视频每次更新的时间间隔和更新的时间段,建立所述视频更新的时间表。4.根据权利要求1-3任一权利要求所述的方法,其特征在于,进一步地,所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,包括:所述终端设备根据所述各个频道的热度、所述视频每次更新的时间间隔和更新的时间段计算各个频道的视频下次更新时间。5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:所述终端设备收集各个频道视频的视频的抓取时间,在所述视频更新的时间表记录所述视频的抓取时间;所述终端设备计算所述视频的发布时间与所述视频的抓取时间的间隔;则,所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,进一步包括:所述终端设备根据所述各个频道的热度、所述视频每次更新的时间间隔、更新的时间段及所述视频的发布时间与所述视频的抓取时间的间隔计算各个频道的视频下次更新时间。6.根据权利要求1-3和5任一权利要求所述的方法,其特征在于,进一步地,在所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括所述终端设备存储所述抓取的各个频道的视频的信息。7.根据权利要求4所述的方法,其特征在于,进一步地,在所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括所述终端设备存储所述抓取的各个频道的视频的信息。8.根据权利要求7所述的方法,其特征在于,进一步地,在所述终端设备存储所述抓取的各个频道的视频的信息之后,所述方法包括所述终端设备向用户推荐所述抓取的各个频道的视频。9.一种网页视频抓取的终...

【专利技术属性】
技术研发人员:赵锦城
申请(专利权)人:乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1