网络资源获取方法及装置制造方法及图纸

技术编号:29936535 阅读:14 留言:0更新日期:2021-09-04 19:14
本发明专利技术公开了一种网络资源获取方法及装置,方法包括:获取用户输入的起始页面地址,对起始页面进行页面请求,得到对应的起始页面源码信息;对起始页面源码信息进行解析处理,提取二级页面地址集合;启动代理服务,创建浏览器代理依次请求二级页面地址集合中的二级页面地址,加载对应的二级页面;利用代理服务的har参数获取页面请求中的信息实体;对信息实体进行筛选处理,确实目标网络资源的下载地址,保存至地址队列中;重复上述操作,直至遍历二级页面地址集合中全部的二级页面地址;根据地址队列包含的目标网络资源的下载地址,下载对应的目标网络资源。能够批量下载外部动态的目标网络资源,无需如现有下载工具需满足各种限制,更灵活。更灵活。更灵活。

【技术实现步骤摘要】
网络资源获取方法及装置


[0001]本专利技术涉及网络资源获取领域,具体涉及一种网络资源获取方法及装置。

技术介绍

[0002]现有技术在获取网络资源时,可以通过如下几种方案:
[0003]一、例如采用迅雷等面向普通用户的下载工具。在下载文件时,由用户输入要下载网络资源如文件的准确网络地址进行提交,以完成下载。如果要完成多个文件的批量下载,可以采用如下载地址通配符的方式,批量生成下载链接,添加批量下载任务完成文件批量下载;
[0004]二、请求网站源码,设定特定的规则对网页元素进行分析筛选,从中获取所需要的页面元素内容,以及页面元素中包含的链接中的网络资源文件。这种方式可以获取到网页上的显示内容以及页面携带的各种类型的网络资源。
[0005]但现有技术存在如下缺陷:例如迅雷等面向普通用户的下载工具,大多只能用户手动下载单个网络资源,即使迅雷提供了批量任务下载功能,扩展性也有限,要批量下载网络资源时,这些网络资源的网络地址需要满足比较统一的字母表规律或者数字递增变化规律,如图1所示,若下载a.com下某100个网络资源,这些网络资源的网页路径统一,且网络资源自身的名称需符合规则,如数字递增规则,1.mp3,2.mp3,

,100.mp3,基于以上条件,才可以采用通配符方式匹配,如图1中通过URL过滤,设置网址为http://a.com/(*).mp3。对于不符合上述条件的多个网络资源,无法采用以上方法实现批量下载。对于一些网站对网络资源的名称进行处理,如编码处理等,也无法实现批量下载,只能采用手动添加下载任务一一下载的方式完成下载。请求网站源码时,需要对网页源码进行请求并分析页面元素来下载网页中展示的网络资源,这就限定了获取到的网站源码中必须包含展示的网络资源。但往往网站中还会包含动态的外部网络资源。动态外部资源是指用户可以在浏览器页面看到网络资源,但是不能直接下载网络资源,网页源码中不包含这类网络资源的链接地址。如用户可以在网站正常播放或者收听一段音频或者视频,但网站未提供对应网络资源的下载。对网站的页面源码中的元素进行分析,也没有搜索到相关的地址信息。对于这种类型的网络资源,获取网络资源的下载地址需要用户具备一定的专业技能基础,使用浏览器的开发者控制台工具获取网络资源地址,对用户的技术门槛要求较高。且由于网络资源的地址在对应的网络资源加载后才能由用户使用浏览器的开发者控制台工具一条一条的手动操作获取,其效率低下,无法及时满足用户需求。

技术实现思路

[0006]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网络资源获取方法及装置。
[0007]根据本专利技术的一个方面,提供了一种网络资源获取方法,其包括:
[0008]获取用户输入的起始页面地址,对起始页面进行页面请求,得到对应的起始页面
源码信息;
[0009]对起始页面源码信息进行解析处理,提取二级页面地址集合;二级页面地址集合包含至少一个二级页面地址;
[0010]启动代理服务,创建浏览器代理依次请求二级页面地址集合中的二级页面地址,加载对应的二级页面;利用代理服务的har参数获取页面请求中的信息实体;信息实体包含至少一个网络资源的下载地址;对信息实体进行筛选处理,确实目标网络资源的下载地址,保存至地址队列中;重复上述操作,直至遍历二级页面地址集合中全部的二级页面地址;
[0011]根据地址队列包含的目标网络资源的下载地址,下载对应的目标网络资源。
[0012]根据本专利技术的另一方面,提供了一种网络资源获取装置,其包括:
[0013]获取模块,适于获取用户输入的起始页面地址,对起始页面进行页面请求,得到对应的起始页面源码信息;
[0014]提取模块,适于根据用户选择的二级页面外部动态网络资源获取模式,对起始页面源码信息进行解析处理,提取二级页面地址集合;二级页面地址集合包含至少一个二级页面地址;
[0015]地址解析模块,适于启动代理服务,创建浏览器代理依次请求二级页面地址集合中的二级页面地址,加载对应的二级页面;利用代理服务的har参数获取页面请求中的信息实体;信息实体包含至少一个网络资源的下载地址;对信息实体进行筛选处理,确实目标网络资源的下载地址,保存至地址队列中;重复上述操作,直至遍历二级页面地址集合中全部的二级页面地址;
[0016]下载模块,适于根据地址队列包含的目标网络资源的下载地址,下载对应的目标网络资源。
[0017]根据本专利技术的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0018]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述网络资源获取方法对应的操作。
[0019]根据本专利技术的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述网络资源获取方法对应的操作。
[0020]根据本专利技术的网络资源获取方法及装置,能够批量处理未在起始页面包含的目标网络资源,且下载时,无需如现有下载工具需满足目标网络资源名称、下载地址命名规则的限制,下载更灵活。
[0021]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0022]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0023]图1示出了下载工具批量下载网络资源的页面示意图;
[0024]图2示出了根据本专利技术一个实施例的网络资源获取方法的流程图;
[0025]图3示出了用户下载目标网络资源的可视化界面示意图;
[0026]图4示出了单页面网络资源获取模式的起始页面示意图;
[0027]图5a示出了二级页面网络资源获取模式的起始页面示意图;
[0028]图5b示出了二级页面网络资源获取模式的二级页面示意图;
[0029]图6示出了根据本专利技术一个实施例的网络资源获取装置的功能框图;
[0030]图7示出了根据本专利技术一个实施例的一种电子设备的结构示意图。
具体实施方式
[0031]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0032]图2示出了根据本专利技术一个实施例的网络资源获取方法的流程图。如图1所示,网络资源获取方法具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络资源获取方法,其特征在于,方法包括:获取用户输入的起始页面地址,对起始页面进行页面请求,得到对应的起始页面源码信息;根据用户选择的二级页面外部动态网络资源获取模式,对所述起始页面源码信息进行解析处理,提取二级页面地址集合;所述二级页面地址集合包含至少一个二级页面地址;启动代理服务,创建浏览器代理依次请求所述二级页面地址集合中的二级页面地址,加载对应的二级页面;利用代理服务的har参数获取页面请求中的信息实体;所述信息实体包含至少一个网络资源的下载地址;对所述信息实体进行筛选处理,确实目标网络资源的下载地址,保存至地址队列中;重复上述操作,直至遍历所述所述二级页面地址集合中全部的二级页面地址;根据所述地址队列包含的目标网络资源的下载地址,下载对应的目标网络资源。2.根据权利要求1所述的方法,其特征在于,在所述获取用户输入的起始页面地址,对起始页面进行页面请求,得到对应的起始页面源码信息之后,所述方法还包括:根据用户输入的目标网络资源类型,对所述起始页面源码信息进行预分析处理,判断所述起始页面源码信息中是否包含与目标网络资源类型匹配的目标网络资源;若是,则确定目标网络资源的获取模式为单页面网络资源获取模式。3.根据权利要求2所述的方法,其特征在于,所述目标网络资源的获取模式为单页面网络资源获取模式;所述方法还包括:对所述起始页面源码信息进行解析处理,得到多个目标网络资源的下载地址,并保存至地址队列中。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据用户选择的二级页面网络资源获取模式,对起始页面源码信息进行解析处理,提取二级页面地址集合;针对所述二级页面地址集合中的任一二级页面地址,对该二级页面地址进行模拟页面请求,得到二级页面源码信息;解析所述二级页面源码信息,获取目标网络资源的下载地址,保存至地址队列中。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:从加载的二级页面地址中提取网络资源可视化名称。6.根据权...

【专利技术属性】
技术研发人员:何少华
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1