基于虚浏览器下载的互联网大数据采集系统技术方案

技术编号：13161740 阅读：47 留言：0更新日期：2016-05-10 08:59

一种基于虚浏览器下载的互联网大数据采集系统，由顶至下，包括由虚浏览器层、负载均衡层和HTTP代理层；其中虚浏览器层为系统的顶层，由虚浏览器集群构成，发出HTTP请求；负载均衡层为系统的中间层，虚浏览器层通过负载均衡层连接HTTP代理层；HTTP代理层为系统的底层，依HTTP请求返回HTTP响应。过使用虚浏览器作为下载客户端，利用虚浏览器的网页渲染和脚本解析引擎，可以直接获取到JavaScript脚本在Dom上执行、渲染后的结果。负载均衡层提高了系统的效率，保证了系统的鲁棒性。而由于系统中的HTTP代理服务和虚浏览器处于同一子网，能够极大避免外部带宽开销和下载耗时开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息采集的
，具体说是一种基于虚浏览器下载的互联网大数据采集系统。
技术介绍
随着互联网的发展，大数据采集和挖掘技术也在不断发展。因此，如何准确、高效、完整地从互联网中获取海量数据，就成为大数据技术群中的一项重要技术点。为了获取互联网中的数据，通常是结合爬行技术，试图下载目标网站所有的网页的HTML源码，理论上这样确实能够保证下载内容的完整性。然而，在具体实践中，如果直接在客户端使用HTTP/HTTPS协议下载目标网站的HTML源码会出现以下问题:部分目标网站使用ajax技术，并通过JavaScript将数据灌入页面中，由于不同网站的ajax方式均不同，需要额外分析XHR数据流;部分目标网站通过登录身份验证等外围手段对网站数据进行保护，因此需要对登录过程进行逆向分析和模拟，由于涉及加解密的JS通常经过了代码混淆，逆向分析的难度很大;直接对目标网站进行HTTP请求时，无法控制缓存Cache，经常会出现一个url重复下载的情况，造成了资源的极大浪费。上述三条原因直接导致了目前互联网数据采集性能不足，采集效率难以满足数据的膨胀率，直接导致数据结果的滞后和数据内容的缺失。
技术实现思路
本专利技术要解决的技术问题是提供一种基于虚浏览器下载的互联网大数据采集系统。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的基于虚浏览器下载的互联网大数据采集系统，由顶至下，包括由虚浏览器层、负载均衡层和HTTP代理层;其中虚浏览器层为系统的顶层，由虚浏览器集群构成，发出HTTP请求;负载均衡层为系统的中间层，虚浏览器...

【技术保护点】
一种基于虚浏览器下载的互联网大数据采集系统，其特征在于：由顶至下，包括由虚浏览器层、负载均衡层和HTTP代理层；其中虚浏览器层为系统的顶层，由虚浏览器集群构成，发出HTTP请求；负载均衡层为系统的中间层，虚浏览器层通过负载均衡层连接HTTP代理层；HTTP代理层为系统的底层，依HTTP请求返回HTTP响应。

【技术特征摘要】

【专利技术属性】
技术研发人员：李天与，杨伟锋，
申请(专利权)人：天津海量信息技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人