一种数据爬取方法及系统技术方案

技术编号：13674618 阅读：59 留言：0更新日期：2016-09-07 23:58

本发明专利技术公开了一种数据爬取方法及系统，包括：从url队列中获取目标网址，并获取目标网址的源代码；将目标网址的源代码存入html队列，并根据预定爬取规则，从目标网址的源代码中解析出目标网址的最终数据；判断目标网址的源代码是否存在url网址；若存在，则从目标网址的源代码中提取url网址，并存入url队列。可见，在本实施例中，通过url队列存储的预存网址获取源代码，并将从源代码中提取的url网址继续放入url队列，最终通过html队列获取源代码中的最终数据，这种通过浏览器访问的形式，直接绕过这些防爬手段，能获取到指定的信息，不仅能快速的爬取数据，还能降低爬取成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据爬取
，更具体地说，涉及一种数据爬取方法及系统。
技术介绍
在Web前端开发的日常工作中，常常需要从互联网上收集大量的信息。如果用人工来完成，会消耗大量的人力和时间，因此更好的方法就是编写爬虫脚本来帮助我们完成信息的收集。爬虫程序会一直向服务器发送http请求，服务器就需要接收这些请求，并做相应的处理，最后返回数据。但是，爬虫也可以用这个原理，对服务器进行恶意的攻击，使用多个程序同时向同一台服务器发送http请求，导致服务器忙于处理，从而降低服务器性能，影响服务器的稳定性。因此，一些服务器就会使用一些措施来防止他们的内容被爬虫程序访问。一般的防爬虫网页上的使用的防爬方式可能不止一种，因此如果想要爬取该网页上的内容，就需要对网站的防爬虫手段进行具体分析，然后再在代码中写出相应的解决方法。如果网页采取了很多种的方式防止爬虫，那么使爬虫程序变得十分复杂，直接增加了爬虫的成本。因此，如何爬取数据是本领域技术人员需要解决的问题。
技术实现思路
本专利技术的目的在于提供一种数据爬取方法及系统，以实现低成本的爬取数据。为实现上述目的，本专利技术实施例提供了如下技术方案：一种数据爬取方法，包括：从url队列中获取目标网址，并获取所述目标网址的源代码；其中，所述url队列中存储的网址至少包括：预存网址，和/或，从源代码中提取的url网址；将所述目标网址的源代码存入html队列，并根据预定爬取规则，从所述目标网址的源代码中解析出所述目标网址的最终数据；判断所述目标网址的源代码是否存在url网址；若存在，则从所述目标网址的源代码中提取url网址，并存入所述...

【技术保护点】
一种数据爬取方法，其特征在于，包括：从url队列中获取目标网址，并获取所述目标网址的源代码；其中，所述url队列中存储的网址至少包括：预存网址，和/或，从源代码中提取的url网址；将所述目标网址的源代码存入html队列，并根据预定爬取规则，从所述目标网址的源代码中解析出所述目标网址的最终数据；判断所述目标网址的源代码是否存在url网址；若存在，则从所述目标网址的源代码中提取url网址，并存入所述url队列。

【技术特征摘要】
1.一种数据爬取方法，其特征在于，包括：从url队列中获取目标网址，并获取所述目标网址的源代码；其中，所述url队列中存储的网址至少包括：预存网址，和/或，从源代码中提取的url网址；将所述目标网址的源代码存入html队列，并根据预定爬取规则，从所述目标网址的源代码中解析出所述目标网址的最终数据；判断所述目标网址的源代码是否存在url网址；若存在，则从所述目标网址的源代码中提取url网址，并存入所述url队列。2.根据权利要求1所述的数据爬取方法，其特征在于，判断所述目标网址的源代码是否存在url网址，包括：判断所述目标网址的源代码中，是否存在满足预设网址规则的url网址。3.根据权利要求2所述的数据爬取方法，其特征在于，所述从url队列中获取目标网址之前，包括：接收预存网址设置指令，并根据所述预存网址设置指令对所述url队列中的预存网址进行设置。4.根据权利要求3所述的数据爬取方法，其特征在于，所述从url队列中获取目标网址之前，包括：接收线程数设置指令；其中，所述线程数设置指令至少包括：url运行线程数，和/或，html运行线程数。5.一种数据爬取系统，其特征在于，包括：目标网址获取模块，...

【专利技术属性】
技术研发人员：祝奔，
申请(专利权)人：珠海迈科智能科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人