一种数据爬取的方法及系统技术方案

技术编号:35597772 阅读:15 留言:0更新日期:2022-11-16 15:17
本发明专利技术涉及一种数据爬取的方法,包括:配置数据爬取参数;获取数据爬取参数;根据数据爬取参数中的URL地址,查询URL地址对应的数据爬取权限;若存在URL地址具有数据爬取权限,则从具有数据爬取权限的URL地址上爬取数据,获得初始数据;若初始数据与爬取数据的提取方式匹配,则将初始数据存入数据库;对存入数据库的初始数据进行分类汇总,形成汇总表数据,并保存到数据库;将汇总表数据按照选择的模板导出。当需要爬取多个URL上的数据时,只需配置一次数据爬取参数,简化了配置流程;当需要导出数据时,可以在多个模板中选择用户所需模板,从而导出用户所需格式的数据;解决了现有数据爬取工具配置繁琐且导出数据格式单一的问题。爬取工具配置繁琐且导出数据格式单一的问题。爬取工具配置繁琐且导出数据格式单一的问题。

【技术实现步骤摘要】
一种数据爬取的方法及系统


[0001]本专利技术涉及网络测试
,具体涉及一种数据爬取的方法及系统。

技术介绍

[0002]在网络测试
,在获取网络数据时,经常会用到抓包工具。
[0003]抓包工具是拦截查看网络数据包内容的软件;抓包工具由于其可以对数据通信过程中的所有lP报文实施捕获并进行逐层拆包分析,一直是传统固网数通维护工作中惯常用的故障排查工具,业内流行的抓包软件有很多:Wireshark、SnifferPro、Snoop以及Tcpdump等;各抓包软件除了在操作界面、应用平台稍有差别外,其他功能大致相似。
[0004]现有的抓包工具,在爬取数据的过程中,需要多次配置,比较繁琐;在导出数据时,能够选择的模板类型较少,导出的数据格式单一,不能满足复杂场景的需求。

技术实现思路

[0005]本专利技术的目的在于提供一种数据爬取的方法及系统,解决现有数据爬取工具配置繁琐且导出数据格式单一的问题。
[0006]根据本专利技术实施例的第一方面,提供一种数据爬取的方法,应用于,包括:
[0007]配置数据爬取参数,所述数据爬取参数包括多个URL地址、爬取数据的提取方式;
[0008]获取数据爬取参数;
[0009]根据数据爬取参数中的URL地址,查询URL地址对应的数据爬取权限,获得查询结果;
[0010]对查询结果进行判断,若存在URL地址具有数据爬取权限,则进行下一步操作,若所有URL地址都不具有数据爬取权限,则结束所有操作;
[0011]从具有数据爬取权限的URL地址上爬取数据,获得初始数据;
[0012]对初始数据进行第一次判断,若初始数据与爬取数据的提取方式匹配,则将初始数据存入数据库,若初始数据与爬取数据的提取方式不匹配,则将初始数据丢弃;
[0013]对存入数据库的初始数据进行分类汇总,形成汇总表数据,并保存到数据库;
[0014]将汇总表数据按照选择的模板导出。
[0015]优选地,所述数据爬取的方法,还包括:
[0016]对初始数据进行第一次判断之后,对初始数据进行第二次判断,若需要对初始数据进行深入解析,则根据初始数据中的二次URL地址再次爬取数据,若不需要对初始数据进行深入解析,则进行下一步操作。
[0017]优选地,
[0018]所述数据爬取参数还包括:是否多级获取;
[0019]所述配置数据爬取参数,在这个过程中,还去校验必填参数是否为空,如果必填参数为空,则结束所有操作;
[0020]必填参数包括URL地址。
[0021]优选地,所述获取数据爬取参数,包括:返回结果为HTML时,支持xpath语句和正则表达式语句;
[0022]返回结果为json语句时,支持json提取。
[0023]优选地,所述查询URL地址对应的数据爬取权限,具体为:
[0024]在robots.txt文档中查询URL地址对应的数据爬取权限。
[0025]优选地,所述若存在URL地址具有数据爬取权限,具体为:
[0026]所有URL地址都具有数据爬取权限;
[0027]部分URL地址具有数据爬取权限。
[0028]根据本专利技术实施例的第二方面,提供一种数据爬取的系统,包括:
[0029]配置模块,配置数据爬取参数,所述数据爬取参数包括多个URL地址、爬取数据的提取方式;
[0030]获取模块,获取数据爬取参数;
[0031]查询模块,根据数据爬取参数中的URL地址,查询URL地址对应的数据爬取权限,获得查询结果;
[0032]权限判断模块,对查询结果进行判断,若存在URL地址具有数据爬取权限,则进行下一步操作,若所有URL地址都不具有数据爬取权限,则结束所有操作;
[0033]爬取模块,从具有数据爬取权限的URL地址上爬取数据,获得初始数据;
[0034]第一判断模块,对初始数据进行第一次判断,若初始数据与爬取数据的提取方式匹配,则将初始数据存入数据库,若初始数据与爬取数据的提取方式不匹配,则将初始数据丢弃;
[0035]汇总模块,对存入数据库的初始数据进行分类汇总,形成汇总表数据,并保存到数据库;
[0036]导出模块,将汇总表数据按照选择的模板导出。
[0037]优选地,所述数据爬取的系统,还包括:
[0038]第二判断模块,在第一判断模块对初始数据进行第一次判断之后,第二判断模块对初始数据进行第二次判断,若需要对初始数据进行深入解析,则根据初始数据中的二次URL地址再次爬取数据,若不需要对初始数据进行深入解析,则进行下一步操作。
[0039]本专利技术的实施例提供的技术方案可以包括以下有益效果:
[0040]通过配置数据爬取参数,进而查询URL地址的数据爬取权限,最终获得初始数据;将与提取方式匹配的初始数据存入数据库,分类汇总后按照选择的模板导出;当需要爬取多个URL上的数据时,只需配置一次数据爬取参数,简化了配置流程;当需要导出数据时,可以在多个模板中选择用户所需模板,从而导出用户所需格式的数据;解决了现有数据爬取工具配置繁琐且导出数据格式单一的问题。
[0041]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0042]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0043]图1是根据一示例性实施例示出的一种数据爬取的方法的示意流程图;
[0044]图2是根据另一示例性实施例示出的一种数据爬取的方法的示意流程图;
[0045]图3是根据一示例性实施例示出的一种数据爬取的系统的示意框图。
具体实施方式
[0046]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。
[0047]图1是根据一示例性实施例示出的一种数据爬取的方法的示意流程图,如图1所示,该方法包括:
[0048]配置数据爬取参数,所述数据爬取参数包括多个URL地址、爬取数据的提取方式;
[0049]获取数据爬取参数;
[0050]根据数据爬取参数中的URL地址,查询URL地址对应的数据爬取权限,获得查询结果;
[0051]对查询结果进行判断,若存在URL地址具有数据爬取权限,则进行下一步操作,若所有URL地址都不具有数据爬取权限,则结束所有操作;
[0052]从具有数据爬取权限的URL地址上爬取数据,获得初始数据;
[0053]对初始数据进行第一次判断,若初始数据与爬取数据的提取方式匹配,则将初始数据存入数据库,若本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据爬取的方法,其特征在于,包括:配置数据爬取参数,所述数据爬取参数包括多个URL地址、爬取数据的提取方式;获取数据爬取参数;根据数据爬取参数中的URL地址,查询URL地址对应的数据爬取权限,获得查询结果;对查询结果进行判断,若存在URL地址具有数据爬取权限,则进行下一步操作,若所有URL地址都不具有数据爬取权限,则结束所有操作;从具有数据爬取权限的URL地址上爬取数据,获得初始数据;对初始数据进行第一次判断,若初始数据与爬取数据的提取方式匹配,则将初始数据存入数据库,若初始数据与爬取数据的提取方式不匹配,则将初始数据丢弃;对存入数据库的初始数据进行分类汇总,形成汇总表数据,并保存到数据库;将汇总表数据按照选择的模板导出。2.根据权利要求1所述的方法,其特征在于,还包括:对初始数据进行第一次判断之后,对初始数据进行第二次判断,若需要对初始数据进行深入解析,则根据初始数据中的二次URL地址再次爬取数据,若不需要对初始数据进行深入解析,则进行下一步操作。3.根据权利要求2所述的方法,其特征在于,所述数据爬取参数还包括:是否多级获取;所述配置数据爬取参数,在这个过程中,还去校验必填参数是否为空,如果必填参数为空,则结束所有操作;必填参数包括URL地址。4.根据权利要求3所述的方法,其特征在于,所述获取数据爬取参数,包括:返回结果为HTML时,支持xpath语句和正则表达式语句;返回结果为json语句时,支持json提取。5.根据权利要求4所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:谷森张元飞
申请(专利权)人:上海中通吉网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1