一种自动采集网络资源的方法技术

技术编号：33033031 阅读：28 留言：0更新日期：2022-04-15 09:10

本发明专利技术提供的一种自动采集网络资源的方法，通过输入待获取报刊的网络资源链接，输入需获取资源的预配置信息；解析对应网络资源的页面代码，获取第一节点树；根据预配置信息，从第一节点树中查询是否包含预配置信息；若第一节点树中包含预配置信息，则从对应的初级节点中解析需获取资源的URL地址；通过URL地址，下载需获取资源；本发明专利技术能够针对不同的数字期刊资源构建相应的采集规则，将数字期刊的网页资源转化为节点树，直接从当前版面的节点树中获取所需资源的下载URL，从而能够对需获取的资源进行集中统一处理，直接将期刊网站上分散的资源以自动化的方式进行整编，有效地提高了网络资源的获取效率，同时降低了网络资源的获取难度。难度。难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动采集网络资源的方法

[0001]本专利技术涉及网络资源
，尤其涉及一种自动采集网络资源的方法。

技术介绍

[0002]互联网又称国际网络，是指网络与网络之间所串连成的庞大网络，这些网络以一组通用的协议相连，形成逻辑上的单一巨大国际网络，即广域网、城域网、局域网及单机按照一定的通讯协议组成的国际计算机网络，将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果。
[0003]在互联网中具有多种类型的网络资源，是利用计算机系统通过通信设备传播和网络软件管理的信息资源，需要由用户根据需求进行筛选；用户评价和选择网络信息资源的标准包括：网络信息资源所涵盖的范围是否广泛，是否针对相关领域或专业；本网页制作的目的是什么，有何针对性，是否面对特定方向的用户；所提供的信息的广度、深度如何；包括哪些网络资源类型，是书目、索引、文摘，还是网络期刊或者网上图书等；
[0004]由于现有的网络资源的格式、质量、运行环境等参差不一，用户难以获取符合需求的网络资源，尤其针对不同的数字期刊资源，缺乏一种对用户需求的资源进行有效整编的方法，获取网络资源的效率较低。

技术实现思路

[0005]本专利技术提供一种自动采集网络资源的方法，用以解决上述现有技术中的缺陷。
[0006]本专利技术提供一种自动采集网络资源的方法，包括步骤：
[0007]输入待获取报刊的网络资源链接，输入需获取资源的预配置信息；
[0008]解析对应网络资源的页面代码，...

【技术保护点】

【技术特征摘要】
1.一种自动采集网络资源的方法，其特征在于，包括：输入待获取报刊的网络资源链接，输入需获取资源的预配置信息；解析对应网络资源的页面代码，获取第一节点树；根据所述预配置信息，从所述第一节点树中查询是否包含所述预配置信息；若所述第一节点树中包含所述预配置信息，则从对应的初级节点中解析所述需获取资源的URL地址；通过所述URL地址，下载所述需获取资源。2.根据权利要求1所述的一种自动采集网络资源的方法，其特征在于，所述预配置信息包括报刊名和报刊类型。3.根据权利要求2所述的一种自动采集网络资源的方法，其特征在于，若从所述第一节点树中查询不到所述预配置信息，则输入需获取资源的报刊日期，根据所述报刊日期解析对应日期报刊的URL地址，将新的页面代码转化为第二节点树；根据所述报刊日期解析所述第二节点树，解析所述需获取资源的URL地址，并下载所述需获取资源。4.根据权利要求3所述的一种自动采集网络资源的方法，其特征在于，根据所述报刊名、报刊类型和所述报刊日期，生成所述报刊名和对应的报刊类型、对应的报刊日期的映射目录。5.根据权利要求4所述的一种自动采集网络资源...

【专利技术属性】
技术研发人员：谢文佳，赵卫伟，李泼，郑文斌，董绍进，王志国，曹巍，吴文华，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人