本发明专利技术提供了一种web数据采集方法和系统。所述系统包括数据提供装置以及数据采集装置,其中数据提供装置用于收集web数据;数据采集装置包括:负载检测模块,用于检测数据提供装置的负载情况,并判断负载是否超过阈值,是则等待一定时间再重新检测数据提供装置的负载情况;否则通知数据采集模块对数据提供装置的web数据进行采集;数据采集模块,用于对存储在数据提供装置中的web数据进行采集,并将采集到的web数据存入数据库中;数据分析处理模块,用于对数据库中存储的web数据进行处理。根据本发明专利技术的实施例公开的web数据采集方法和系统,能够实现以简单的结构来准确高效地进行web数据采集,同时,避免网页前端压力过大的情况。
【技术实现步骤摘要】
一种web数据采集方法和系统
本专利技术涉及计算机数据处理
,特别是一种web数据采集方法和系统。
技术介绍
目前,互联网技术飞速发展,信息呈现出爆炸性的增长,web数据分析具有了非常重大的意义。通过对网页中大量的非结构化的数据进行分析,可以得到有价值的报表等,提供给网站运营人员和管理人员,供他们做决策和运营。其中,Web数据例如包括:PV(pageview,页面浏览量)日志,点击(或者称事件)日志,效果日志(包括登录,订单等)等数据。为了对web数据进行分析,首先要进行web数据的采集。目前用于web数据采集的方法主要有:方法一:网络爬虫。按照一定的规则,从一个或若干初始网页的URL开始,获得初始网页上的URL,在以网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足一定条件,系统停止采集网页。网络爬虫能全面地采集互联网数据,但是数据采集周期长,并且采集的数据不精准,采集的数据大多包含导航条、广告信息、版权信息以及调查问卷等“噪音”内容,需要对采集回来的网页文件进行网页去噪等一系列的处理。方法二:镜像端口,将交换机的一个或几个端口的数据包复制到一个指定的端口,通过分析仪连接镜像端口接受数据。因为将交换机的多端口流量镜像到一个端口上,可引起缓存过载及丢包现象,并且大多数据镜像端口会过滤掉不规则的数据包。方法三:分路器TAP,将分路器TAP插入到半/全双工的10/100/1000M网络链路中,可以使这条链路的全部数据信息复制到分析仪。分路器能保证数据100%的捕获而没有丢包,但是需额外费用购买分路TAP,并且一次只能查看一条链路。方法四:脚本语言。将一段特殊的脚本语言嵌入到web的前端页面中按照一定的采集参数规范表,记录用户的各种行为,并将该记录存入后端服务器的数据库。但是如果采集的数据变化时,就需要修改前端的代码;而且如果后端服务器发生宕机,前端页面也可能不知道而继续采集,浪费了采集时间并降低了采集效率。此外,由于在特定的web生产环境下,网页前端往往会承载海量用户访问。而数据采集行为都会在不同程度上增加网页前端的压力情况。所以根据目前的web数据采集方法,则存在使网页前端压力过大的可能性。因此,需要一种web数据采集方法和系统,实现以简单的结构来准确高效地进行web数据采集,同时,避免网页前端压力过大的情况。
技术实现思路
本专利技术的目的是提供一种web数据采集方法和系统。根据本专利技术的一个方面,提供了一种web数据采集系统,包括数据提供装置以及数据采集装置,其中所述数据提供装置用于收集web数据,包括数据存储模块,该数据存储模块用于存储web数据;所述数据采集装置用于对数据提供装置的负载进行分析,并对存储于所述数据提供装置的所述web数据进行采集和分析处理,包括:负载检测模块、数据采集模块、数据库以及数据分析处理模块;其中所述负载检测模块,用于检测所述数据提供装置的负载情况,并判断负载是否超过阈值,是则等待一定时间再重新检测所述数据提供装置的负载情况;否则通知所述数据采集模块对所述数据提供装置的所述web数据进行采集;所述数据采集模块,用于对存储在所述数据提供装置中的所述web数据进行采集,并将采集到的web数据存入数据库中;以及所述数据分析处理模块,用于对所述数据库中存储的所述web数据进行处理。优选地,所述数据提供装置是以下装置中的任意一个:网页前端服务器、网页前端服务器的一部分、与网页前端服务器有线或者无线连接的装置、或者为与后台服务器有线或者无线连接的装置;优选地,所述数据存储模块将所述web数据存储至非持久性存储单元。优选地,所述数据提供装置包括数据计数模块,所述数据计数模块用于记录规定时间内的web数据量。优选地,所述数据采集模块通过特定的URL进行数据采集。优选地,所述数据提供装置被设置为:若识别到特定的URL,则所述数据提供装置对所述web数据进行归拢,以供所述数据采集装置采集。根据本专利技术的另一方面,提供了一种使用上述任一系统进行web数据采集的方法,所述方法包括如下步骤:a)检测所述数据提供端的负载;b)判断所述负载是否超过阈值,是则进入步骤c;否则进入步骤d;c)等待规定时间,并返回步骤a重新检测所述数据提供端的负载;d)对所述数据提供端的web数据进行采集;e)对所述采集到的web数据进行处理。根据本专利技术的实施例公开的web数据采集方法和系统,能够实现以简单的结构来准确高效地进行web数据采集,同时,避免网页前端压力过大的情况。附图说明参考随附的附图,本专利技术更多的目的、功能和优点将通过本专利技术实施方式的如下描述得以阐明,其中:图1示意性示出了根据本专利技术的一个实施例的web数据采集的系统框图。图2示意性示出了根据本专利技术的一个实施例的web数据采集的方法流程图。具体实施方式通过参考示范性实施例,本专利技术的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本专利技术并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本专利技术的具体细节。在下文中,将参考附图描述本专利技术的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。图1示意性示出了根据本专利技术的一个实施例的web数据采集的系统框图。如图1所示,根据本专利技术的一个实施例的web数据采集的系统100包括数据提供装置110以及数据采集装置120。其中,数据提供装置110至少包括数据存储模块111,数据提供装置110优选还包括数据计数模块112。数据采集装置120包括负载检测模块121、数据采集模块122、数据库123,以及数据分析处理模块124。数据提供装置110用于收集web数据。例如可以为一种网页前端服务器、网页前端服务器的一部分、与网页前端服务器有线或者无线连接的装置、或者与后台服务器有线或者无线连接的装置。在数据提供装置110中,数据存储模块111用于存储web数据。特别地,根据本专利技术的实施方式,数据存储模块111中的web数据并不由数据提供装置110主动提供给数据采集装置120,而是供数据采集装置120主动采集。优选地,数据存储模块111可以将该web数据存储至非持久性存储单元,以降低成本,提高数据访问速度。所述非持久性存储单元可设置于数据存储模块111中或设置于数据存储模块111外。数据提供装置110优选还包括数据计数模块112,数据计数模块112用于记录规定时间内的web数据量,该web数据可以位于数据存储模块111中。当数据采集装置120对数据提供装置110的数据进行采集时,优选地,可以采集由数据计数模块112记录的规定时间内的web数据。数据采集装置120,用于根据基于数据提供装置110的负载状况的采集策略,对数据提供装置110的数据存储模块111中存储的web数据进行采集并进行分析处理操作。具体地,数据采集装置120包括以下子模块:负载检测模块121,用于检测数据提供装置110的负载情况,并判断负载是否超过阈值,是则等待预先确定的一段时间再重新检测数据提供装置110的负载情况;否则通知数据采集模块122对数据提供装置110中存储的数据进行采集。其中,判断负载情况的方法例如,登录到数据提供装置110,用linux本身的本文档来自技高网...
【技术保护点】
一种web数据采集系统,包括数据提供装置以及数据采集装置,其中所述数据提供装置用于收集web数据,包括数据存储模块,所述数据存储模块用于存储web数据;所述数据采集装置用于对数据提供装置的负载进行分析,并对存储于所述数据提供装置的所述web数据进行采集和分析处理,包括:负载检测模块、数据采集模块、数据库以及数据分析处理模块;其中所述负载检测模块,用于检测所述数据提供装置的负载情况,并判断负载是否超过阈值,是则等待一定时间再重新检测所述数据提供装置的负载情况;否则通知所述数据采集模块对所述数据提供装置的所述web数据进行采集;所述数据采集模块,用于对存储在所述数据提供装置中的所述web数据进行采集,并将采集到的web数据存入数据库中;以及所述数据分析处理模块,用于对所述数据库中存储的所述web数据进行处理。
【技术特征摘要】
1.一种web数据采集系统,包括数据提供装置以及数据采集装置,其中所述数据提供装置用于收集web数据,包括数据存储模块,所述数据存储模块用于存储web数据;所述数据存储模块将所述web数据存储至非持久性存储单元,所述非持久性存储单元设置于所述数据存储模块中或设置于所述数据存储模块外;所述数据采集装置用于对数据提供装置的负载进行分析,并对存储于所述数据提供装置的所述web数据进行采集和分析处理,包括:负载检测模块、数据采集模块、数据库以及数据分析处理模块;其中所述负载检测模块,用于检测所述数据提供装置的负载情况,并判断负载是否超过阈值,是则等待一定时间再重新检测所述数据提供装置的负载情况;否则通知所述数据采集模块对所述数据提供装置的所述web数据进行采集;所述数据采集模块,用于对存储在所述数据提供装置中的所述web数据进行采集,并将采集到的web数据存入数据库中,所述数据采集模块通过特定的URL进行数据采集,每次采集历史累加的全部数据;所述数据提供装置被设置为:数据提供装置每次对URL进行识别,若识别到特定的URL,则所述数据提...
【专利技术属性】
技术研发人员:赵建华,谢刚,
申请(专利权)人:五八同城信息技术有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。