一种基于云平台的网站信息采集系统技术方案

技术编号:29489717 阅读:13 留言:0更新日期:2021-07-30 19:01
本发明专利技术提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;所述任务管理模块用于生成网站信息采集任务;所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;所述数据管理模块用于将所述网站数据存储至云计算存储服务器,对云计算存储服务器中存储的网站数据进行管理。本发明专利技术通过代理服务器来对目标网站进行网站信息的获取,实现对所述网站中的数据的下载。用于实现任务管理模块的客户端并不会受到网站的反爬虫机制的影响,能够灵活地使用不同的代理服务器进行网站信息的采集,有效地提高了网站信息采集的成功率。

【技术实现步骤摘要】
一种基于云平台的网站信息采集系统
本专利技术涉及信息采集领域,尤其涉及一种基于云平台的网站信息采集系统。
技术介绍
现有技术中,对网站信息的获取一般通过爬虫技术来实现。然而,为了防止爬虫的访问连接占用正常的访问带宽,很多网站都设置了反爬虫机制,如果采用单一的客户端来爬取网站的信息,容易被反爬虫机制识别,从而导致对网站的信息采集失败。
技术实现思路
鉴于上述问题,本专利技术的目的在于提供一种基于云平台的网站信息采集系统。本专利技术提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。优选地,所述任务管理模块包括权限控制单元和任务管理单元;所述权限控制单元用于对使用所述任务管理单元的人员进行身份验证,判断所述人员是否具有使用所述任务管理单元的权限,若是,则向所述人员开放使用所述任务管理单元的权限,若否,则禁止所述人员使用所述任务管理单元;所述任务管理单元用于通过身份验证的人员新建立网站信息采集任务。优选地,所述任务管理单元还用于对已存在的网站信息采集任务进行管理,具体包括:删除已存在的网站信息采集任务、对已存在的网站信息采集任务进行修改。优选地,所述网站信息采集任务包括需要进行信息采集的网站的网址、需要进行信息采集的网站的登录信息和使用所述代理服务器的身份验证公钥进行加密的身份验证信息。优选地,所述代理服务器在对所述网站信息采集任务进行处理,生成爬虫任务之前,还包括:使用所述身份验证公钥对应的身份验证私钥对所述身份验证信息进行解密,获取身份验证识别码;将所述身份验证信息中包含的身份验证识别码与所述代理服务器预存的身份验证识别码进行对比,判断两者是否一致,若是,则对所述网站信息采集任务进行处理,生成爬虫任务,若否,则不对所述网站信息采集任务进行处理。优选地,所述基于所述网站信息采集任务生成爬虫任务,包括:使用所述代理服务器对所述网址进行访问,下载所述网址对应的网页数据;判断所述网页数据中是否存统一资源定位符,若是,则分别获取每一个所述统一资源定位符对应的网址,基于所述网址生成爬虫任务。优选地,所述爬虫任务包括所述统一资源定位符对应的网址和对所述统一资源定位符对应的网址进行数据下载的时间间隔。优选地,所述数据管理模块包括设置在云计算服务器上的数据管理单元和存储单元;所述数据管理单元用于将所述网站数据存发送至所述存储单元;所述存储单元用于对所述网站数据进行存储。与现有技术相比,本专利技术的优点在于:本专利技术通过代理服务器来对目标网站进行网站信息的获取,实现对所述网站中的数据的下载。由于使用的是代理的方式,本申请用于实现任务管理模块的客户端并不会受到网站的反爬虫机制的影响,能够灵活地使用不同的代理服务器进行网站信息的采集,有效地提高了网站信息采集的成功率。附图说明利用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。图1,为本专利技术一种基于云平台的网站信息采集系统的一种示例性实施例图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。如图1所示的一种实施例,本专利技术提供了一种基于云平台的网站信息采集系统,包括任务管理模块、代理服务模块和数据管理模块;所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。对网站信息采集任务的管理和网站信息采集任务的管理的执行分开,有利于灵活地选用不同的代理服务器来执行网站信息采集任务,避免单一的客户端被反爬虫机制识别后影响网页下载的效率。在一种实施方式中,所述任务管理模块包括权限控制单元和任务管理单元;所述权限控制单元用于对使用所述任务管理单元的人员进行身份验证,判断所述人员是否具有使用所述任务管理单元的权限,若是,则向所述人员开放使用所述任务管理单元的权限,若否,则禁止所述人员使用所述任务管理单元;所述任务管理单元用于通过身份验证的人员新建立网站信息采集任务。在一种实施方式中,所述任务管理模块包括输入单元和判断单元;所述输入单元用于所述人员输入所述任务管理单元的使用账号和使用密码;所述判断单元用于判断所述使用账号和所述使用密码是否正确,若是,则判定所述人员具有使用所述任务管理单元的权限;若否,则判定所述人员不具有使用所述任务管理单元的权限。在另一种实施方式中,所述任务管理模块包括拍摄单元、图像处理单元和权限判断单元;所述拍摄单元用于获取所述人员的脸部图像;所述图像处理单元用于对所述脸部图像进行图像识别处理,获取所述脸部图像中包含的特征信息;所述权限判断单元用于将所述图像处理单元获取的特征信息与任务管理模块中预存的所有具有使用所述任务管理单元的权限的人员的脸部图像的特征信息进行匹配,若匹配成功,则判定所述人员具有使用所述任务管理单元的权限;若匹配失败,则判定所述人员不具有使用所述任务管理单元的权限。在一种实施方式中,所述对所述脸部图像进行图像识别处理,获取所述脸部图像中包含的特征信息,包括:对所述脸部图像进行灰度化处理,获得灰度化图像;对所述脸部图像进行差异度计算,获得差异图像;对所述灰度化图像进行边缘检测,获得边缘图像;对所述灰度化图像进行降噪处理,获得降噪图像;对所述降噪图像进行图像分割处理,获取前景图像;基于所述差异图像、所述前景图像和所述边缘图像生成目标图像;采用预设的特征信息采集算法获取所述目标图像中包含的特征信息。本专利技术上述实施例,通过差异图像、前景图像和边缘图像生成目标图像,然后再提取目标图像中包含的特征信息,极大地提升了特征信息的准确性。现有技术中,一般是对灰度图像进行降噪后,直接提取降噪图像的特征信息。但是由于降噪是一个使得图像中的有效信息减少的过程,因此,获得的特征信息并不够准确。而本文档来自技高网...

【技术保护点】
1.一种基于云平台的网站信息采集系统,其特征在于,包括任务管理模块、代理服务模块和数据管理模块;/n所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;/n所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;/n所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。/n

【技术特征摘要】
1.一种基于云平台的网站信息采集系统,其特征在于,包括任务管理模块、代理服务模块和数据管理模块;
所述任务管理模块用于生成网站信息采集任务,并将所述网站信息采集任务发送至所述代理服务模块;
所述代理服务模块用于通过代理服务器对所述网站信息采集任务进行处理,生成爬虫任务,以及用通过代理服务器实现所述爬虫任务,获得网站数据;
所述数据管理模块用于将所述网站数据存储至云计算存储服务器,以及用于对云计算存储服务器中存储的网站数据进行管理。


2.根据权利要求1所述的一种基于云平台的网站信息采集系统,其特征在于,所述任务管理模块包括权限控制单元和任务管理单元;
所述权限控制单元用于对使用所述任务管理单元的人员进行身份验证,判断所述人员是否具有使用所述任务管理单元的权限,若是,则向所述人员开放使用所述任务管理单元的权限,若否,则禁止所述人员使用所述任务管理单元;
所述任务管理单元用于通过身份验证的人员新建立网站信息采集任务。


3.根据权利要求2所述的一种基于云平台的网站信息采集系统,其特征在于,所述任务管理单元还用于对已存在的网站信息采集任务进行管理,具体包括:
删除已存在的网站信息采集任务、对已存在的网站信息采集任务进行修改。


4.根据权利要求3所述的一种基于云平台的网站信息采集系统,其特征在于,所述网站信息采集任务包括需要进行信息采集的网站的网址、需要进行信息采集的网站的登录信息和使用所述代理服务器的...

【专利技术属性】
技术研发人员:项超
申请(专利权)人:上海慧洲信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1