网站访问日志的预处理方法、装置及系统制造方法及图纸

技术编号：9696917 阅读：143 留言：0更新日期：2014-02-21 05:24

本发明专利技术公开了一种网站访问日志的预处理方法、装置及系统。其中，该方法包括：从集群服务器中读取原始日志；对原始日志进行合并和排序得到中间日志流；将中间日志流分割得到预处理日志。采用本发明专利技术，解决了现有技术中多次读写操作使得网站访问日志文件的预处理耗时长，导致日志处理的速度慢、效率低的问题，实现了单次读写完成对日志数据的预处理，减少了处理时间和处理的中间文件，从而提高了日志的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
网站访问日志的预处理方法、装置及系统
本专利技术涉及数据处理领域，具体而言，涉及一种网站访问日志的预处理方法、装置及系统。
技术介绍
随着互联网的发展，上网人数不断的增加，网站的访问量不断的上升，单台服务器已经无法满足大量的网站访问量，常见的做法是采用负载均衡集群，通过一个或者多个前端负载均衡器，将工作负载分发到后端的一组服务器上，后端服务器收到请求并记录日志。随着访问量不断的上升，日志文件的大小不断的膨胀，但是对应的日志文件的处理时间要求却并没有降低。因此，如何提高日志文件的处理效率，成为本领域必须面临的问题。最早的日志处理方法是直接读取原始日志文件，然后对原始日志文件中的数据进行分析，这样效率很低，因为每次不同的分析都要重新读取所有的原始日志。目前常用的日志处理方法包括预处理和后续统计分析两部分，其中预处理部分是所有后续统计分析所共用的，通常包括分割、合并和排序三个主要过程。其中，分割的需求是因为后续可能只针对某种特殊标识的日志进行统计分析；合并的需求是因为原始日志分布在多个集群服务器，需要统一分析；排序的需求是因为需要分析事件发生的先后顺序以及因果关系。这三种需求是非常普遍的，现有的做法是:首先在计算机集群上将原始日志按照某种相同标识(譬如用户标识)划分为多个标识文件；之后在日志处理服务器上，读取集群服务器上的标识文件，将相同标识的标识文件合并为一个文件作为目标文件；最后，按照时间对目标文件中日志信息进行排序，生成预处理后的日志文件。现有技术对日志文件的分割、合并以及排序的过程都是孤立的，在此过程中生成了标识文件、目标文件等中间文件，导致了多...
网站访问日志的预处理方法、装置及系统

【技术保护点】
一种网站访问日志的预处理方法，其特征在于，包括：从集群服务器中读取原始日志；对所述原始日志进行合并和排序得到中间日志流；将所述中间日志流分割得到预处理日志。

【技术特征摘要】
1.一种网站访问日志的预处理方法，其特征在于，包括: 从集群服务器中读取原始日志；对所述原始日志进行合并和排序得到中间日志流；将所述中间日志流分割得到预处理日志。2.根据权利要求1所述的预处理方法，其特征在于，从集群服务器中读取原始日志的步骤包括: 以数据流方式按行从所述集群服务器中并行读取所述原始日志；将并行读取到的所有日志数据保存在日志集中。3.根据权利要求2所述的预处理方法，其特征在于，对所述原始日志进行合并和排序得到中间日志流的步骤包括: 将所述日志集中的所述日志数据排序得到数据序列；输出所述数据序列中时间最早的所述日志数据；将从来源服务器读取的所述时间最早的所述日志数据的下一条日志数据补入所述数据序列；返回执行输出所述数据序列中时间最早的所述日志数据的步骤，直至将所述日志数据输出完毕，得到所述中间日志流；其中，将所述时间最早的所述日志数据的数据来源的服务器作为所述来源服务器。4.根据权利要求3所述的预处理方法，其特征在于，将从来源服务器读取的所述时间最早的所述日志数据的下一条日志数据补入所述数据序列的步骤还包括: 在将所述来源服务器中的所述日志数据读取完毕之后，关闭所述来源服务器的日志流。5.根据权利要求1至4中任意一项所述的预处理方法，其特征在于，将所述中间日志流分割得到预处理日志的步骤包括: 获取所述中间日志流中的用户标识；按照所述用户标识对所述中间日志流进行分割得到所述预处理日志。6.一种网站访问日志的预处理装置，其特征在于，包括: 第一读取模块，用于从集群服务器中读取原始日志；合并排序模块，用于对所述原始日志进行合并和排序得到中间日志流；分割模块，用于将所述中间日志流分割得到预处理日志。7.根据权利要求6所述的预处理装置，其特征在于，所述第一读取模块包括: 并行读取模块，用于以数据流方式按行从所述集群服务器中并行读取所述原始日志；保存模块，用于将并行读取到的所有日志数据保存在日志集中。8.根据权利要求7所述的预处理装置，其特征在于，所述合...

【专利技术属性】
技术研发人员：何恺铎，饶峰云，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人