本发明专利技术公开了一种基于深网爬虫的高效数据采集方法及系统,包括:利用已知名称作为关键词进行初步搜索采样,获取对应编号信息和编号规则;将所有编号信息按照编号规则分组后并按升序排列,两两编号信息建立一个数据间隔;基于编号信息按照数据间隔从小到大的顺序进行遍历搜索,获取数据全集。本发明专利技术所公开的技术方案可以适用于多种行业信息的数据抓取,包括但不限于:企业工商信息、图书信息、商品信息、审判文书等。利用本发明专利技术所述的技术方案对于行业性网站进行深网数据抓取,不仅能够准确获取相关数据全集,更重要的是能够在较短时间内完成大量有效数据的采集。
【技术实现步骤摘要】
本专利技术涉及网络数据采集
,尤其涉及一种基于深网爬虫的高效数据采集方法及系统,能够应用于企业工商信息、图书信息、商品信息、审判文书等数据的抓取。
技术介绍
深层网的概念是相对于表层网来定义的,指的是那些不能被普通搜索引擎所获取的内容。而藏于深层网中的数据数量非常庞大,但是传统的搜索引擎忽略了这些高质量并隐藏在搜索表单后的数据。因此,设计一个能够获取深层网络数据的引擎是当务之急,对于这些高质量数据的利用能够带来意想不到的效果。但是,由于深层网中的数据隐藏在各种搜索界面后面,无法直接通过超链接来访问,它们必须要通过使用一些关键词查询才可以看到。因此,深层网的数据爬取要比表层网的数据爬取更复杂些,它在访问并解析出URL后,还需要继续分析该页面是否包含有深层网入口的表单。针对企业工商信息搜索、图书搜索、商品搜索或者审判文书本身的深层网络性质,传统的数据全集信息搜索存在诸多的限制。目前,现有的利用深网爬虫技术获取上述全集的方法包括:一是利用相关名称作为关键词获取全集信息,这种方式的缺点是:由于不一定得知所有待采集信息的名称,因此基本无法获取全集,并且处理效率较低;一是利用相关编号信息一一遍历搜索的方式获取全集信息,这种方式的缺点是:因为编号信息的不连续的特性(如:预留空位、信息废弃、尚未启动等)使得采集输出不稳定、不高效,无法达到高效采集的目的。
技术实现思路
传统的行业性网站的数据全集的采集方法存在较多局限性,一是无法准确获取数据全集,存在数据遗漏;二是如果采用一一遍历的采样手段,不仅浪费系统资源,并且采集时间较长,效率不高。针对上述技术问题,本专利技术公开了一种基于深网爬虫的高效数据采集方法及系统,通过已知名称进行搜索,从而采样得到相对应的编号信息,各编号信息形成多个数据间隔,先对数据间隔较小的区间依据编号信息进行一一遍历搜索,从而可以在较短时间内完成大部分有效数据的采集工作,最终完成整体数据全集的采集工作,进而保证采集完整无遗漏。本专利技术首先公开了一种基于深网爬虫的高效数据采集方法,包括:利用已知名称作为关键词进行初步搜索采样,获取对应编号信息和编号规则;其中,所述编号信息为遵循一定编号规则并能够一一遍历的编码数据;将所有编号信息按编号规则分组并按升序排列,两两编号信息建立一个数据间隔;基于编号信息按照数据间隔从小到大的顺序进行遍历搜索。进一步地,还包括:在已知编号信息最大值的基础上作指定数量的递增操作得到新编号信息,当所述新编号信息的采集结果为空,并且所述指定数量大于设定增量时,则停止递增操作。进一步地,所述基于编号信息按照数据间隔从小到大的顺序进行遍历搜索,具体为:设置间隔阈值,当两个采集失败的编号信息的间隔小于等于所述间隔阈值时,则放弃该两编号信息之间的遍历搜索。更进一步地:参考各分组既有数据分布规律,调整各分组数据采集策略。上述方法中,利用预设数量的采样终端同时进行遍历搜索,获取数据全集。本专利技术同时公开了一种基于深网爬虫的高效数据采集系统,包括;初步采样模块,用于利用已知名称作为关键词进行初步搜索采样,获取对应编号信息和编号规则;其中,所述编号信息为遵循一定编号规则并能够一一遍历的编码数据;间隔生成模块,用于将所有编号信息按编号规则分组并按升序排列,两两编号信息建立一个数据间隔;数据获取模块,用于基于编号信息按照数据间隔从小到大的顺序进行遍历搜索。进一步地,还包括:端点探测模块,用于在已知编号信息最大值的基础上作指定数量的递增操作得到新编号信息,当所述新编号信息的采集结果为空,并且所述指定数量大于设定增量时,则停止递增操作。进一步地,所述数据获取模块,具体用于:设置间隔阈值,当两个采集失败的编号信息的间隔小于等于所述间隔阈值时,则放弃该两编号信息之间的遍历搜索。更进一步地,还包括:策略调整模块,用于参考各分组既有数据分布规律,调整各分组数据采集策略。上述系统中,利用预设数量的采样终端同时进行遍历搜索,获取数据全集。综上所述,本专利技术公开了一种基于深网爬虫的高效数据采集方法及系统,通过预先获取的名称作为关键词进行搜索,获取这些名称对应的编号信息和编号规则,将这些编号信息按照编号规则分类后,在进行升序排列,两两编号信息之间形成一个个数据间隔;按照数据间隔从小到大排序,并从最小数据间隔开始基于编号信息作为关键词输入一一遍历搜索。有益效果:本专利技术所公开技术方案,不仅能够完成相关数据全集的采集,而且能够实现在较短时间内完成大部分有效数据的收集工作,从而压缩采集时间提高效率,并且通过设置间隔阈值等手段及时放弃数据分布稀疏的数据间隔间的数据采样,进一步缩短数据采集时间,提高采集效率。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种基于深网爬虫的高效数据采集方法实施例流程图;图2为本专利技术提供的一种基于深网爬虫的企业工商信息采集方法实施例流程图;图3为本专利技术提供的一种基于深网爬虫的高效数据采集系统实施例结构示意图。具体实施方式本专利技术提供了一种基于深网爬虫的高效数据采集方法及系统实施例,为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术方案作进一步详细的说明:如图1所示,本专利技术首先提供了一种基于深网爬虫的高效数据采集方法实施例,包括:S101利用已知名称作为关键词进行初步搜索采样,获取对应编号信息和编号规则;其中,所述编号信息为遵循一定编号规则并能够一一遍历的编码数据;其中,所述编号信息并不一定是自然数,很多情况下是类似于SZ-NS-0001(意思是:深圳-南山-0001)的复合结构;S102将所有编号信息按编号规则分组并按升序排列,两两编号信息建立一个数据间隔;其中,首先按照编号规则分组,因为只有依据相同编号规则下的编号信息才能够进行有效排序;例如:‘SZ-NS’(深圳-南山)、‘SZ-LH’(深圳-罗湖)是两个不同的分组,每个分组内部依据相同的编号规则;S103基于编号信息按照数据间隔从小到大的顺序进行遍历搜索。其中,由于数据间隔小的两编号信息间的数据密度普遍较大,因此先采集该部分数据将提高采集效率。优选地,还包括:在已知编号信息最大值的基础上作指定数量的递增操作得到新编号信息,当所述新编号信息的采集结果为空,并且所述指定数量大于设定增量时,则停止递增操作。其中,进行升序排列后的最右端编号信息则为当前编号信息最大值,通过多次递增操作将得到新编号信息,利用新编号信息进行搜索,并判断采集结果,从而不断试探获取该数据全集的右侧端点值。优选地,所述基于编号信息按照数据间隔从小到大的顺序进行遍历搜索,具体为:设置间隔阈值,当两个采集失败的编号信息的间隔小于等于所述间隔阈值时,则放弃该两编号信息之间的遍历搜索。即及时放弃数据稀疏的数据间隔之间的数据采集,避免拖慢采集速度进而影响整体数据的采集效率。相应的,本专利技术实施例中所述的“遍历搜索”过程如下(假定之前的间隔排序的处理方式记作X):对于已知有效的编号信息:5 200 500 本文档来自技高网...
【技术保护点】
一种基于深网爬虫的高效数据采集方法,其特征在于,包括:利用已知名称作为关键词进行初步搜索采样,获取对应编号信息和编号规则;其中,所述编号信息为遵循一定编号规则并能够一一遍历的编码数据;将所有编号信息按编号规则分组并按升序排列,两两编号信息建立一个数据间隔;基于编号信息按照数据间隔从小到大的顺序进行遍历搜索。
【技术特征摘要】
1.一种基于深网爬虫的高效数据采集方法,其特征在于,包括:利用已知名称作为关键词进行初步搜索采样,获取对应编号信息和编号规则;其中,所述编号信息为遵循一定编号规则并能够一一遍历的编码数据;将所有编号信息按编号规则分组并按升序排列,两两编号信息建立一个数据间隔;基于编号信息按照数据间隔从小到大的顺序进行遍历搜索。2.如权利要求1所述的方法,其特征在于,还包括:在已知编号信息最大值的基础上作指定数量的递增操作得到新编号信息,当所述新编号信息的采集结果为空,并且所述指定数量大于设定增量时,则停止递增操作。3.如权利要求1所述的方法,其特征在于,所述基于编号信息按照数据间隔从小到大的顺序进行遍历搜索,具体为:设置间隔阈值,当两个采集失败的编号信息的间隔小于等于所述间隔阈值时,则放弃该两编号信息之间的遍历搜索。4.如权利要求2或3所述的方法,其特征在于,还包括:参考各分组既有数据分布规律,调整各分组数据采集策略。5.如权利要求4所述的方法,其特征在于,利用预设数量的采样终端同时进行遍历搜索,获取数据全集。6.一种基于深网爬虫的高效数...
【专利技术属性】
技术研发人员:张军,贾西贝,钟志强,
申请(专利权)人:深圳市华傲数据技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。