本发明专利技术公开了一种大数据量数据处理方法及系统,以解决大数据量数据无法在规定时间内处理造成处理延时,最后造成系统崩溃的问题。所述方法包括:根据原始文件命名规则分配服务器,将原始文件拆分为小文件;针对拆分后的每个小文件,根据小文件命名规则再次分配服务器,对拆分后的小文件进行处理。本发明专利技术可以部署多台服务器同时对大数据量文件进行拆分和处理,极大地提升了系统的处理能力,保证系统在规定时间内对文件处理完毕。而且,所述系统具有非常好的扩展性,当文件越来越大或者是越来越多的时候,通过新增服务器就可以满足需求,即可以线性扩展,而不需要购买更高级的服务器,也不需要重新部署以前已经运行的服务器。
【技术实现步骤摘要】
本专利技术涉及数据处理技术,特别是涉及一种大数据量数据处理方法及系统。
技术介绍
在很多应用场景中,经常会有如下的数据处理过程发送方将某些数据以 一定的格式保存在一个文件中,然后将文件发送给接收方,接收方接收到文件 之后对文件中的内容进行解析,并进行相应的逻辑处理。在上述数据处理过程中,如果文件不是很大,而且接收方对处理时间又没 有很高的要求,则此时可以用单台服务器或单线程进行处理。这种情况下,系 统仍会运行正常,但接收方处理这些文件数据的时间可能较长。但是,如果文 件很大或者文件数量很多,而接收方对处理时间又有很高的要求,例如接收方要求对于发送方传输过来的文件数据必须在1分钟内(或者更短时间内)处理 完毕。此时,单台服务器或单线程的处理系统就不能满足需求。很多情况下,发送方到接收方的文件数据是定时传送的,比如5分钟一次, 而接收方能够容忍的数据最大延时是有限制的,此时如果接收方对传送的数据 在间隔期内处理不完,就会形成恶性循环,上个周期内的数据还未处理完毕, 新的数据又传送过来,这样接收方的数据延时就会越来越多,最后出现系统崩溃。在很多大型应用中,都会出现这种大数据量的数据处理需求,例如在教育 行业学校需要逐级向教育局上报学生数据,大型网站日志的处理,两个系统间 的数据同步,等等。因此,需要提供一种能够在规定时间内处理大数据量数据 的方法,緩解数据的延时处理。
技术实现思路
本专利技术所要解决的技术问题是提供一种大数据量数据处理方法及系统,以 解决大数据量数据无法在规定时间内处理造成处理延时,最后造成系统崩溃的 问题。为解决上述技术问题,根据本专利技术提供的具体实施例,本专利技术公开了以下技术方案一种大数据量数据处理方法,包括根据原始文件命名规则分配服务器,将原始文件拆分为小文件;针对拆分后的每个小文件,根据小文件命名规则再次分配服务器,对拆分 后的小文件进行处理。其中,根据原始文件命名规则或小文件命名规则分配服务器的步骤包括 解析文件名,获取原始文件序列号;计算原始文件序列号%待分配服务器 总数+l;其中,%表示取模运算;根据所述计算结果值分配服务器。其中,根据原始文件命名规则或小文件命名规则分配服务器的步骤包括 配置每台服务器处理的数据类型;解析文件名,获取文件中存储的数据类型; 根据所述配置,分配与所述文件中存储的数据类型相对应的服务器。其中,根据小文件命名规则分配服务器的步骤包括解析文件名,获取拆 分后的小文件序列号;计算小文件序列号%待分配服务器总数+l;其中, %表示取模运算;根据所述计算结果值分配服务器。优选的,将原始文件拆分为小文件之后,还包括将拆分后的小文件保存 到磁盘。优选的,所述方法还包括对拆分和处理失败的操作进行重试;其中,对 拆分出错的操作重试一次,对处理失败的操作重试多次。优选的,所述方法还包括将所有待拆分和待处理的文件存放在不同的目 录下。其中,所述待拆分文件目录下的数据流程包括将原始文件存放到待拆 分的原始文件存放目录,,;根据原始文件命名规则分配服务器之后,将待拆分 文件存放到拆分文件时的临时目录;对待拆分文件进行拆分,将拆分成功的 原始文件备份到完全拆分成功的原始文件存放目录,并将拆分后的小文件保 存到分割之后的小文件存放目录;将重试失败的原始文件备份到拆分文件 时出错的原始文件存放目录。其中,所述待处理文件目录下的数据流程包括根据小文件命名规则再次 分配服务器之后,将分割之后的小文件存放目录下的待处理小文件存放到处理小文件时的临时目录;对待处理小文件进行处理,将处理成功的小文件 备份到完全处理成功的小文件存放目录,将进行重试的小文件备份到有部 分记录未成功处理的小文件存放目录,并将重试失败的小文件备份到经过重 试之后还无法处理的小文件存放目录。一种大数据量数据处理系统,包括多台服务器,每台服务器包括预处理单元,用于根据原始文件命名规则,判断待拆分的原始文件是否属 于自己处理,如果是,则触发拆分单元;并根据拆分后的小文件命名规则,再 次判断待处理的小文件是否属于自己处理,如果是,则触发处理单元。拆分单元,用于将原始文件拆分为小文件;处理单元,用于对拆分后的小文件进行处理。其中,所述预处理单元通过文件名中的原始文件序列号判断待拆分的原始 文件是否属于自己处理,并通过文件名中的原始文件序列号或拆分后的小文件 序列号判断待处理的小文件是否属于自己处理。其中,所述预处理单元通过文件中存储的数据类型,判断待拆分的原始文 件或待处理的小文件是否属于自己处理时,每台服务器还包括配置单元,用于 配置自己处理的lt据类型。优选的,每台服务器还包括存储单元,用于将拆分后的小文件保存到磁盘。优选的,所述存储单元采用目录结构,将所有待拆分和待处理的文件存放 在不同的目录下。优选的,每台服务器还包括重试单元,用于对拆分和处理失败的操作进 行重试;其中,对拆分出错的操作重试一次,对处理失败的梯:作重试多次。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果 首先,本专利技术提供了 一种针对大文件进行并发或分布式处理的方法和系 统,通过并发策略的控制,可以部署多台服务器同时对大数据量文件进行拆分 和处理,极大地提升了系统的处理能力,保证系统在规定时间内对文件处理完 毕。而且,这种通过文件命名规则分配服务器来拆分和处理文件的并发策略, 保证只有一台服务器可以对原始文件进行拆分,对于拆分之后的每个小文件,也只能有一台服务器对其进行处理,从而避免资源竟争。其次,本专利技术提供了两种并发策略, 一种是根据文件名中的原始文件序列 号分配服务器,这种策略在文件数较多的情况下可以保持各台服务器的均衡性;另一种是配置每台服务器能够处理的数据类型,将待处理文件按照数据类 型分配合适的服务器,这种策略在新增服务器的情况下只需修改配置表即可, 具有良好的扩展性。根据实际应用需求,本专利技术可以将两种并发策略结合使用, 因此,本专利技术所述系统能够最大限度地平衡各台服务器的繁忙程度;而且,具 有非常好的扩展性,当文件越来越大或者是越来越多的时候,通过新增服务器 就可以满足需求,即可以线性扩展,而不需要购买更高级的服务器,也不需要 重新部署以前已经运行的服务器。再次,为了降低扫描文件带来的磁盘10 (Input/Output,输入/输出)压力, 可以将各个待拆分和待处理的文件放在不同的目录中,然后对目录中所有文件进行緩存,对緩存中的文件处理完毕之后再去读取新的文件。 附图说明图1是本专利技术实施例所述一种大数据量数据处理方法流程图2是本专利技术实施例中目录结构下的文件拆分流程图3是本专利技术实施例中目录结构下的文件处理流程图4是本专利技术实施例所述一种大数据量数据处理系统的逻辑结构图5是图4所示系统中每台服务器的内部逻辑结构图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术提供了 一种针对大文件进行并发或分布式处理的方法和系统,通过 文件命名规则分配服务器的并发策略,可以部署多台服务器同时对大数据量文 件进行拆分和处理,极大地提升了系统的处理能力,保证系统在规定时间内对 大数据量文件处理完毕。举例说明发送方每隔2分钟按照一定的格式生成多种类别(比如商品、 订单;单个类别的数据本文档来自技高网...
【技术保护点】
一种大数据量数据处理方法,其特征在于,包括: 根据原始文件命名规则分配服务器,将原始文件拆分为小文件; 针对拆分后的每个小文件,根据小文件命名规则再次分配服务器,对拆分后的小文件进行处理。
【技术特征摘要】
1、一种大数据量数据处理方法,其特征在于,包括根据原始文件命名规则分配服务器,将原始文件拆分为小文件;针对拆分后的每个小文件,根据小文件命名规则再次分配服务器,对拆分后的小文件进行处理。2、 根据权利要求1所述的方法,其特征在于,根据原始文件命名规则或 小文件命名规则分配服务器的步骤包括解析文件名,获取原始文件序列号;计算原始文件序列号%待分配服务器总数+l;其中,%表示取模运算; 才艮据所述计算结果值分配服务器。3、 根据权利要求1所述的方法,其特征在于,根据原始文件命名规则或 小文件命名规则分配服务器的步骤包括配置每台服务器处理的数据类型; 解析文件名,获取文件中存储的数据类型;根据所述配置,分配与所述文件中存储的数据类型相对应的服务器。4、 根据权利要求1所述的方法,其特征在于,根据小文件命名规则分配 服务器的步骤包括解析文件名,获^U斥分后的小文件序列号;计算小文件序列号%待分配服务器总数+l;其中,%表示取模运算; 根据所述计算结果值分配服务器。5、 根据权利要求1所述的方法,其特征在于,将原始文件拆分为小文件 之后,还包括将拆分后的d 、文件保存到磁盘。6、 根据权利要求1所述的方法,其特征在于,还包括 对拆分和处理失败的操作进行重试;其中,对拆分出错的操作重试一次,对处理失败的揚:作重试多次。7、 根据权利要求1所述的方法,其特征在于,还包括将所有待拆分和 待处理的文件存放在不同的目录下。8、 根据权利要求7所述的方法,其特征在于,所述待拆分文件目录下的数据流程包括将原始文件存放到待拆分的原始文件存放目录;.根据原始文件命名规则分配服务器之后,将待拆分文件存放到拆分文件 时的临时目录;对待拆分文件进行拆分,将拆分成功的原始文件备份到完全拆分成功的 原始文件存放目录,并将拆分后的小文件保存到分割之后的小文件存放目 录;将重试失败的原始文件备份到拆分文件时出错的...
【专利技术属性】
技术研发人员:唐益鹏,洪文其,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:VG[英属维尔京群岛]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。