一种自动采集网络资源的方法技术

技术编号:33033031 阅读:28 留言:0更新日期:2022-04-15 09:10
本发明专利技术提供的一种自动采集网络资源的方法,通过输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据预配置信息,从第一节点树中查询是否包含预配置信息;若第一节点树中包含预配置信息,则从对应的初级节点中解析需获取资源的URL地址;通过URL地址,下载需获取资源;本发明专利技术能够针对不同的数字期刊资源构建相应的采集规则,将数字期刊的网页资源转化为节点树,直接从当前版面的节点树中获取所需资源的下载URL,从而能够对需获取的资源进行集中统一处理,直接将期刊网站上分散的资源以自动化的方式进行整编,有效地提高了网络资源的获取效率,同时降低了网络资源的获取难度。难度。难度。

【技术实现步骤摘要】
一种自动采集网络资源的方法


[0001]本专利技术涉及网络资源
,尤其涉及一种自动采集网络资源的方法。

技术介绍

[0002]互联网又称国际网络,是指网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络,即广域网、城域网、局域网及单机按照一定的通讯协议组成的国际计算机网络,将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果。
[0003]在互联网中具有多种类型的网络资源,是利用计算机系统通过通信设备传播和网络软件管理的信息资源,需要由用户根据需求进行筛选;用户评价和选择网络信息资源的标准包括:网络信息资源所涵盖的范围是否广泛,是否针对相关领域或专业;本网页制作的目的是什么,有何针对性,是否面对特定方向的用户;所提供的信息的广度、深度如何;包括哪些网络资源类型,是书目、索引、文摘,还是网络期刊或者网上图书等;
[0004]由于现有的网络资源的格式、质量、运行环境等参差不一,用户难以获取符合需求的网络资源,尤其针对不同的数字期刊资源,缺乏一种对用户需求的资源进行有效整编的方法,获取网络资源的效率较低。

技术实现思路

[0005]本专利技术提供一种自动采集网络资源的方法,用以解决上述现有技术中的缺陷。
[0006]本专利技术提供一种自动采集网络资源的方法,包括步骤:
[0007]输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;
[0008]解析对应网络资源的页面代码,获取第一节点树;
[0009]根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;
[0010]若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的URL地址;
[0011]通过所述URL地址,下载所述需获取资源。
[0012]优选的,所述预配置信息包括报刊名和报刊类型。
[0013]根据本专利技术提供的一种自动采集网络资源的方法,进一步包括步骤:
[0014]若根据所述预配置信息,从所述第一节点树中查询不到所述预配置信息;则输入需获取资源的报刊日期,根据所述报刊日期解析对应日期报刊的URL地址,将新的页面代码转化为第二节点树;
[0015]根据所述报刊日期解析所述第二节点树,解析所述需获取资源的URL地址,并下载所述需获取资源。
[0016]优选的,还包括步骤:
[0017]根据所述报刊名、报刊类型和所述报刊日期,生成所述报刊名和对应的报刊类型、对应的报刊日期的映射目录。
[0018]优选的,还包括步骤:
[0019]将所有同一报刊名的所有所述需获取资源整合生成一个报刊文件。
[0020]优选的,还包括步骤:
[0021]在下载过程中,实时显示同一报刊名下的所有所述需获取资源的下载进度。
[0022]另一方面,本专利技术还提供一种自动采集网络资源的系统,包括:信息单元、解析单元和下载单元;
[0023]其中,信息单元用于获取用户输入的待获取报刊的网络资源链接以及需获取资源的预配置信息;
[0024]解析单元用于根据用户输入的信息解析对应网络资源的页面代码,获取第一节点树;并根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的URL地址;
[0025]下载单元用于通过所述URL地址,下载所述需获取资源。
[0026]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述自动采集网络资源的方法的步骤。
[0027]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述自动采集网络资源的方法的步骤。
[0028]本专利技术提供的一种自动采集网络资源的方法,通过输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的URL地址;通过所述URL地址,下载所述需获取资源;本专利技术能够针对不同的数字期刊资源构建相应的采集规则,将数字期刊的网页资源转化为节点树直接从当前版面的节点树中获取所需资源的下载URL,从而能够对需获取的资源进行集中统一处理,直接将期刊网站上分散的资源以自动化的方式进行整编,有效地提高了网络资源的获取效率,同时降低了网络资源的获取难度。
附图说明
[0029]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1是本专利技术提供的自动采集网络资源的方法的流程示意图;
[0031]图2是本专利技术提供的自动采集网络资源的系统的结构示意图;
[0032]图3是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0033]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳
动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]需要说明的是本专利技术涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的本专利技术的实施例能够以除了在这里描述或图示的那些以外的顺序实施。
[0035]如图1所示,在一个实施例中,本专利技术提供的一种自动采集网络资源的方法,其特征在于,包括:
[0036]输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;
[0037]解析对应网络资源的页面代码,获取第一节点树;
[0038]根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;
[0039]若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的URL地址;
[0040]通过所述URL地址,下载所述需获取资源。
[0041]需要说明的是,在互联网中每一信息资源都有统一且唯一的地址,即URL(Uniform Resource Locator,统一资源定位器),它是互联网中的标准的统一资源定位标志,URL由三部分组成:资源类型、存放资源的主机域名、资源文件名;即可以通过URL获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动采集网络资源的方法,其特征在于,包括:输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的URL地址;通过所述URL地址,下载所述需获取资源。2.根据权利要求1所述的一种自动采集网络资源的方法,其特征在于,所述预配置信息包括报刊名和报刊类型。3.根据权利要求2所述的一种自动采集网络资源的方法,其特征在于,若从所述第一节点树中查询不到所述预配置信息,则输入需获取资源的报刊日期,根据所述报刊日期解析对应日期报刊的URL地址,将新的页面代码转化为第二节点树;根据所述报刊日期解析所述第二节点树,解析所述需获取资源的URL地址,并下载所述需获取资源。4.根据权利要求3所述的一种自动采集网络资源的方法,其特征在于,根据所述报刊名、报刊类型和所述报刊日期,生成所述报刊名和对应的报刊类型、对应的报刊日期的映射目录。5.根据权利要求4所述的一种自动采集网络资源...

【专利技术属性】
技术研发人员:谢文佳赵卫伟李泼郑文斌董绍进王志国曹巍吴文华
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1