一种基于深网爬虫的高效数据采集方法及系统技术方案

技术编号：13955768 阅读：42 留言：0更新日期：2016-11-02 12:31

本发明专利技术公开了一种基于深网爬虫的高效数据采集方法及系统，包括：利用已知名称作为关键词进行初步搜索采样，获取对应编号信息和编号规则；将所有编号信息按照编号规则分组后并按升序排列，两两编号信息建立一个数据间隔；基于编号信息按照数据间隔从小到大的顺序进行遍历搜索，获取数据全集。本发明专利技术所公开的技术方案可以适用于多种行业信息的数据抓取，包括但不限于：企业工商信息、图书信息、商品信息、审判文书等。利用本发明专利技术所述的技术方案对于行业性网站进行深网数据抓取，不仅能够准确获取相关数据全集，更重要的是能够在较短时间内完成大量有效数据的采集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络数据采集
，尤其涉及一种基于深网爬虫的高效数据采集方法及系统，能够应用于企业工商信息、图书信息、商品信息、审判文书等数据的抓取。
技术介绍
深层网的概念是相对于表层网来定义的，指的是那些不能被普通搜索引擎所获取的内容。而藏于深层网中的数据数量非常庞大，但是传统的搜索引擎忽略了这些高质量并隐藏在搜索表单后的数据。因此，设计一个能够获取深层网络数据的引擎是当务之急，对于这些高质量数据的利用能够带来意想不到的效果。但是，由于深层网中的数据隐藏在各种搜索界面后面，无法直接通过超链接来访问，它们必须要通过使用一些关键词查询才可以看到。因此，深层网的数据爬取要比表层网的数据爬取更复杂些，它在访问并解析出URL后，还需要继续分析该页面是否包含有深层网入口的表单。针对企业工商信息搜索、图书搜索、商品搜索或者审判文书本身的深层网络性质，传统的数据全集信息搜索存在诸多的限制。目前，现有的利用深网爬虫技术获取上述全集的方法包括：一是利用相关名称作为关键词获取全集信息，这种方式的缺点是：由于不一定得知所有待采集信息的名称，因此基本无法获取全集，并且处理效率较低；一是利用相关编号信息一一遍历搜索的方式获取全集信息，这种方式的缺点是：因为编号信息的不连续的特性(如：预留空位、信息废弃、尚未启动等)使得采集输出不稳定、不高效，无法达到高效采集的目的。
技术实现思路
传统的行业性网站的数据全集的采集方法存在较多局限性，一是无法准确获取数据全集，存在数据遗漏；二是如果采用一一遍历的采样手段，不仅浪费系统资源，并且采集时间较长，效率不高。针对上述技术问题，本专利技术公开...

【技术保护点】
一种基于深网爬虫的高效数据采集方法，其特征在于，包括：利用已知名称作为关键词进行初步搜索采样，获取对应编号信息和编号规则；其中，所述编号信息为遵循一定编号规则并能够一一遍历的编码数据；将所有编号信息按编号规则分组并按升序排列，两两编号信息建立一个数据间隔；基于编号信息按照数据间隔从小到大的顺序进行遍历搜索。

【技术特征摘要】
1.一种基于深网爬虫的高效数据采集方法，其特征在于，包括：利用已知名称作为关键词进行初步搜索采样，获取对应编号信息和编号规则；其中，所述编号信息为遵循一定编号规则并能够一一遍历的编码数据；将所有编号信息按编号规则分组并按升序排列，两两编号信息建立一个数据间隔；基于编号信息按照数据间隔从小到大的顺序进行遍历搜索。2.如权利要求1所述的方法，其特征在于，还包括：在已知编号信息最大值的基础上作指定数量的递增操作得到新编号信息，当所述新编号信息的采集结果为空，并且所述指定数量大于设定增量时，则停止递增操作。3.如权利要求1所述的方法，其特征在于，所述基于编号信息按照数据间隔从小到大的顺序进行遍历搜索，具体为：设置间隔阈值，当两个采集失败的编号信息的间隔小于等于所述间隔阈值时，则放弃该两编号信息之间的遍历搜索。4.如权利要求2或3所述的方法，其特征在于，还包括：参考各分组既有数据分布规律，调整各分组数据采集策略。5.如权利要求4所述的方法，其特征在于，利用预设数量的采样终端同时进行遍历搜索，获取数据全集。6.一种基于深网爬虫的高效数...

【专利技术属性】
技术研发人员：张军，贾西贝，钟志强，
申请(专利权)人：深圳市华傲数据技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人