定时多任务网页数据抓取系统及方法技术方案

技术编号:10681209 阅读:268 留言:0更新日期:2014-11-26 13:49
本发明专利技术涉及计算机及互联网领域中的数据采集技术,一种定时多任务网页数据抓取系统及方法,解决传统技术中数据抓取技术存在的问题。在本发明专利技术中,系统启动时开启定时器计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。本发明专利技术适用于多网站数据同时抓取。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及计算机及互联网领域中的数据采集技术,一种,解决传统技术中数据抓取技术存在的问题。在本专利技术中,系统启动时开启定时器计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。本专利技术适用于多网站数据同时抓取。【专利说明】
本专利技术涉及计算机及互联网领域中的数据采集技术,具体涉及一种。
技术介绍
网页数据抓取是指将非结构化的信息从网站中抓取出来保存到结构化的数据库中的技术。目前对于网络数据抓取技术都是采用即时抓取即时使用,即:服务器抓取到数据并经过解析处理后立刻给用户响应。 上述方式对于抓取数据量小、网速快的情况下能带给用户一种及时性的体验。但对于网络数据量庞大、需抓取多个不同网站数据时会导致响应时间很长,甚至出现连接服务器超时的情况。
技术实现思路
本专利技术所要解决的技术问题是:提出一种,解决传统技术中数据抓取技术存在的问题。 本专利技术解决上述技术问题所采用的技术方案是: 定时多任务网页数据抓取系统,包括: 定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务; 数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据; 本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。 具体的,所述待抓取网站的信息包括:待抓取网站的名称、内容。 具体的,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。 具体的,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。 此外,本专利技术的另一目的,还在于提出一种定时多任务网页数据抓取方法,其包括以下步骤: a.定时多任务网页数据抓取系统启动过程中加载配置文件中的定时器配置,同时启动定时器; b.当定时器计时达到配置的抓取网页数据的执行时间时,触发数据抓取任务; c.数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据; d.本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。 具体的,步骤a中,所述配置文件中的定时器配置包括抓取网页数据的执行时间。 具体的,步骤c中,所述待抓取网站的信息包括:待抓取网站的名称、内容。 具体的,步骤c中,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。 具体的,步骤c中,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。 本专利技术的有益效果是:可以将数据抓取任务通过定时器设置到服务器空闲时,可以避开服务器抓取数据所浪费的时间;同时采用多线程技术增加服务器资源的利用率,将数据提前抓取到本地服务器的数据库中,待用户需要数据时,直接从本地服务器的数据库中查询,提高服务器的响应时间,提升用户体验。 【专利附图】【附图说明】 图1为本专利技术中的定时多任务网页数据抓取方法流程图。 【具体实施方式】 本专利技术旨在提出一种,解决传统技术中数据抓取技术存在的对于网络数据量庞大、需抓取多个不同网站数据时会导致响应时间很长,甚至出现连接服务器超时的情况的问题,本专利技术的技术核心在于:将数据抓取任务通过定时器设置到服务器空闲时,并同时对于待抓取数据的每个网站开启与之对应的单独线程。 在具体实施上,本专利技术中的定时多任务网页数据抓取系统包括: 定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;这里所述的“配置的抓取网页数据的执行时间”来源于系统在启动时加载配置文件中的定时器配置; 数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;即开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。 本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。 下面结合附图对本专利技术的技术方案作进一步的描述: 如图1所示,本专利技术中的定时多任务网页数据抓取方法包括: 服务器启动定时多任务网页数据抓取系统,系统启动过程中加载配置文件中的定时器配置(该配置包含网页数据抓取的执行时间),同时启动定时器。当定时器执行到网页数据抓取模块指定的时间时,定时器开启线程并在该线程中触发数据抓取模块。此时抓取模块初始化抓取数据的基本信息:待抓取的网站名称、内容等。完成后系统根据不同的网站名称开启对应的线程并在线程中启动数据抓取、解析、匹配本地数据库中的数据、保存到本地数据库功能。一个网站的数据抓取并处理完毕后,该线程执行结束,当被开启的所有线程执行结束后,数据抓取功能模块执行完成。系统接着等待下一次定时器触发操作。【权利要求】1.定时多任务网页数据抓取系统,其特征在于,包括: 定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务; 数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据; 本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。2.如权利要求1所述的定时多任务网页数据抓取系统,其特征在于,所述待抓取网站的信息包括:待抓取网站的名称、内容。3.如权利要求1所述的定时多任务网页数据抓取系统,其特征在于,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。4.如权利要求1-3任意一项所述的定时多任务网页数据抓取系统,其特征在于,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。5.定时多任务网页数据抓取方法,其特征在于,包括以下步骤: a.定时多任务网页数据抓取系统启动过程中加载配置文件中的定时器配置,同时启动定时器; b.当定时器计时达到配置的抓取网页数据的执行时间时,触发数据抓取任务; c.数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据; d.本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。6.如权利要求5所述的定时多任务网页数据抓取方法,其特征在于,步骤a中,所述配置文件中的定时器配置包括抓取网页数据的执行时间。7.如权利要求5所述的定时多任务网页数据抓取方法,其特征在本文档来自技高网...

【技术保护点】
定时多任务网页数据抓取系统,其特征在于,包括:定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。

【技术特征摘要】

【专利技术属性】
技术研发人员:冉茂强
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1