【技术实现步骤摘要】
本专利技术实施例涉及网络搜索
,尤其涉及一种网页视频抓取的方法及网页视频抓取的设备。
技术介绍
1994年基于WEB的搜索引擎出现以来,搜索引擎便得到了极大的发展。搜索引擎解决了海量互联网资源的快速定位和检索,在人们日常生活和工作中发挥了越来越大的作用。作为搜索引擎的重要一部分,网页信息抓取技术,即抓取技术的发展也是越来越成熟。在计算机领域,越来越多的网络抓取技术都以开源的方式提供给开发人员和企业应用。随着视频网站在国内的普及和蓬勃发展,人们的互联网生活几乎与视频网站已经密不可分。人们不仅十分喜欢视频这种直观的信息获取方式,而且爱浏览视频,并且很多人都亲自参与视频的拍摄和制作,并发布视频于视频站点与网友们共享和交流。随着互联网技术的发展,搜索引擎技术在其中扮演着越来越重要的角色。网络爬虫决定搜索引擎的数量来源,是搜索引擎系统的重要组成部分。YouTube是设立在美国的一个视频分享网站,该网站鼓励用户上传视频、观看视频及分享视频或短片,至今YouTube已经成为影音网站的翘楚。为丰富全网视频搜索的内容,对于YouTube上视频数据的抓取目前广泛采用定时轮询的方案。然而从现有YouTube中遍历几十万的频道,定时抓取视频数据资源耗费太太。具体到各个频道,不同的频道有不同的播放总数、视频总量及订阅数,而且不同的频道更新周期不同,由此,定时轮询存在着严重的时效性及资源浪费的问题。有鉴于此,本专利技术实施例有必要提供一种网页视频抓取的方法及网页视
频抓取的设备,可以实现在抓取网页视频时时效性高,而且在抓取网页视频时节约网络资源。
技术实现思路
本 ...
【技术保护点】
一种网页视频抓取的方法,其特征在于,包括:终端设备收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表;所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;所述终端设备根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。
【技术特征摘要】
1.一种网页视频抓取的方法,其特征在于,包括:终端设备收集各个频道的相关信息,根据所述收集的各个频道的相关信息计算各个频道的热度;所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表;所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间;所述终端设备根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间;所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。2.根据权利要求1所述的方法,其特征在于,进一步地,所述终端设备收集各个频道的相关信息包括:所述终端设备收集各个频道的视频数、订阅数和播放总数;所述根据所述收集的各个频道的相关信息计算各个频道的热度包括所述终端设备根据所述收集的各个频道的视频数、订阅数和播放总数,计算各个频道的热度。3.根据权利要求1所述的方法,其特征在于,进一步地,所述终端设备收集各个频道的视频的发布时间,建立视频更新的时间表,包括:所述终端设备收集各个频道的视频的发布时间,计算各个频道的视频每次更新的时间间隔和更新的时间段,建立所述视频更新的时间表。4.根据权利要求1-3任一权利要求所述的方法,其特征在于,进一步地,所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,包括:所述终端设备根据所述各个频道的热度、所述视频每次更新的时间间隔和更新的时间段计算各个频道的视频下次更新时间。5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:所述终端设备收集各个频道视频的视频的抓取时间,在所述视频更新的时间表记录所述视频的抓取时间;所述终端设备计算所述视频的发布时间与所述视频的抓取时间的间隔;则,所述终端设备根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间,进一步包括:所述终端设备根据所述各个频道的热度、所述视频每次更新的时间间隔、更新的时间段及所述视频的发布时间与所述视频的抓取时间的间隔计算各个频道的视频下次更新时间。6.根据权利要求1-3和5任一权利要求所述的方法,其特征在于,进一步地,在所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括所述终端设备存储所述抓取的各个频道的视频的信息。7.根据权利要求4所述的方法,其特征在于,进一步地,在所述终端设备按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频之后,所述方法包括所述终端设备存储所述抓取的各个频道的视频的信息。8.根据权利要求7所述的方法,其特征在于,进一步地,在所述终端设备存储所述抓取的各个频道的视频的信息之后,所述方法包括所述终端设备向用户推荐所述抓取的各个频道的视频。9.一种网页视频抓取的终...
【专利技术属性】
技术研发人员:赵锦城,
申请(专利权)人:乐视网信息技术北京股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。