基于正则表达式的URL过滤方法技术

技术编号：12834118 阅读：145 留言：0更新日期：2016-02-07 19:36

公开了基于正则表达式的URL过滤方法。该方法包括：步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；步骤2，展示所述第一URL所对应的页面文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；步骤3，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；步骤4，将所述一个或多个第三URL加入抓取队列。

全部详细技术资料下载

【技术实现步骤摘要】

：本专利技术涉及网络信息处理
，具体地说是一种利用爬虫程序通过用户自定义网络爬虫抓取获得网络抓取方案的方法。
技术介绍
：随着互联网技术的发展，搜索引擎已经成为人们获取信息的重要方式。现有的搜索引擎都是基于通称为网络爬虫（Crawler)的技术实现。网络爬虫抓取时，难以删选自己想要的有价值的信息，抓取的网页内有镀铬URL链接，如果通过网页源代码来判断该链接是否是目录页或详细页比较困难。爬虫工作原理是搜索引擎定期执行网络爬虫程序，从作为搜索树根的指定初始URL列表开始访问这些URL定位的网页资源，获取网页信息，包括标题、描述HTML网页文档属性的Meta标签等，并从这些信息中提取关键词，添加到搜索时用的数据库中，以及从这些信息中提取指向网页资源的URL并将这些新提取的URL作为起点开始新一轮的访问处理，通过这种访问处理的循环得到一个定期更新的综合性的搜索数据库，当用户向搜索引擎提供关键字后，搜索引擎通过检索搜索数据库，按排名规则向用户返回搜索成果，完成一次搜索过程。目前网络爬虫程序大都基于页面结构实现数据的获取，通过获取网页文档，将网页文档解析成DOM树形式，根据DOM树的规则，HTML文档中的所有元素都用节点来表示，根据DOM树构建抽取规则，进行数据抽取，在数据抽取过程中，由于网页信息源的异构性，为了不损失抽取精度，需要针对每个网站都构造相应的抽取规则，这样爬虫程序的覆盖率很低，极大的限制了网络资源获取的可能性；基于DOM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率，但是在数据抽取过程中会依...

【技术保护点】
一种URL过滤方法，包括：步骤1，获取要抓取的第一URL，抓取第一URL所对应的页面；步骤2，展示所述第一URL所对应的页面文本内容与多个第二URL，并提示用户输入URL过滤规则与文本过滤规则；步骤3，响应于用户提交了URL过滤规则，应用所述URL过滤规则过滤多个第二URL得到一个或多个第三URL；步骤4，将所述一个或多个第三URL加入抓取队列。

【技术特征摘要】

【专利技术属性】
技术研发人员：孙燕群，
申请(专利权)人：孙燕群，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人