【技术实现步骤摘要】
本专利技术涉及互联网领域,尤其是一种基于互联网的数据信息传输和采集系统。
技术介绍
随着互联网的发展,大数据采集和挖掘技术也在不断发展。因此,如何准确、高效、完整地从互联网中获取海量数据,就成为大数据技术群中的一项重要技术点。为了获取互联网中的数据,通常是结合爬行技术,试图下载目标网站所有的网页的HTML源码,理论上这样确实能够保证下载内容的完整性。然而,在具体实践中,如果直接在客户端使用HTTP/HTTPS协议下载目标网站的HTML源码会出现以下问题:部分目标网站使用ajax技术,并通过JavaScript将数据灌入页面中,由于不同网站的ajax方式均不同,需要额外分析XHR数据流;部分目标网站通过登录身份验证等外围手段对网站数据进行保护,因此需要对登录过程进行逆向分析和模拟,由于涉及加解密的JS通常经过了代码混淆,逆向分析的难度很大;直接对目标网站进行HTTP请求时,无法控制缓存Cache,经常会出现重复下载的情况,造成了资源的极大浪费。
技术实现思路
针对上述现有技术中存在的不足,本专利技术的目的在于提供一种基于互联网的数据信息传输和采集系统。为达到上述目的,本专利技术采用的技术方案是:一种基于互联网的数据信息传输和采集系统,包括数据信息中心、互联网模块、数据传输模块、数据
采集模块、数据处理模块和数据库组,所述互联模块通过数据采集模块与数据信息中心连接,所述数据信息中心通过数据传输模块与数据处理模块连接,所述数据处理模块与数据库组连接,所述数据处理模块包括内容提取、网页批量下载和自动分类,所述数据库组包括全文数据库、关系型数据库和指定 ...
【技术保护点】
一种基于互联网的数据信息传输和采集系统,其特征在于:包括数据信息中心、互联网模块、数据传输模块、数据采集模块、数据处理模块和数据库组,所述互联模块通过数据采集模块与数据信息中心连接,所述数据信息中心通过数据传输模块与数据处理模块连接,所述数据处理模块与数据库组连接,所述数据处理模块包括内容提取、网页批量下载和自动分类,所述数据库组包括全文数据库、关系型数据库和指定文件夹。
【技术特征摘要】
1.一种基于互联网的数据信息传输和采集系统,其特征在于:包括数据信息中心、互联网模块、数据传输模块、数据采集模块、数据处理模块和数据库组,所述互联模块通过数据采集模块与数据信息中心连接,所述数据信息中心通过数据传输模块与数据处理模块连接,所述数据处理模块与数据库组连接,所述数据处理模块包括内容提取、网页批量下载和自动分类,所述数据库组包括全文数据库、关系型数据库和指定文件夹。2.根据权利要求1所述的一种基于互联网的数据信息传输和采集系统,其特征在于:所述数据采集模块包括控制平台、配置芯片、指示灯、复位模块、子板扩展插槽、时...
【专利技术属性】
技术研发人员:陶军,
申请(专利权)人:全球电气资源深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。