一种大数据量数据处理方法及系统技术方案

技术编号：4261399 阅读：423 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种大数据量数据处理方法及系统，以解决大数据量数据无法在规定时间内处理造成处理延时，最后造成系统崩溃的问题。所述方法包括：根据原始文件命名规则分配服务器，将原始文件拆分为小文件；针对拆分后的每个小文件，根据小文件命名规则再次分配服务器，对拆分后的小文件进行处理。本发明专利技术可以部署多台服务器同时对大数据量文件进行拆分和处理，极大地提升了系统的处理能力，保证系统在规定时间内对文件处理完毕。而且，所述系统具有非常好的扩展性，当文件越来越大或者是越来越多的时候，通过新增服务器就可以满足需求，即可以线性扩展，而不需要购买更高级的服务器，也不需要重新部署以前已经运行的服务器。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理技术，特别是涉及一种大数据量数据处理方法及系统。
技术介绍
在很多应用场景中，经常会有如下的数据处理过程发送方将某些数据以一定的格式保存在一个文件中，然后将文件发送给接收方，接收方接收到文件之后对文件中的内容进行解析，并进行相应的逻辑处理。在上述数据处理过程中，如果文件不是很大，而且接收方对处理时间又没有很高的要求，则此时可以用单台服务器或单线程进行处理。这种情况下，系统仍会运行正常，但接收方处理这些文件数据的时间可能较长。但是，如果文件很大或者文件数量很多，而接收方对处理时间又有很高的要求，例如接收方要求对于发送方传输过来的文件数据必须在1分钟内(或者更短时间内)处理完毕。此时，单台服务器或单线程的处理系统就不能满足需求。很多情况下，发送方到接收方的文件数据是定时传送的，比如5分钟一次，而接收方能够容忍的数据最大延时是有限制的，此时如果接收方对传送的数据在间隔期内处理不完，就会形成恶性循环，上个周期内的数据还未处理完毕，新的数据又传送过来，这样接收方的数据延时就会越来越多，最后出现系统崩溃。在很多大型应用中，都会出现这种大数据量的数据处理需求，例如在教育行业学校需要逐级向教育局上报学生数据，大型网站日志的处理，两个系统间的数据同步，等等。因此，需要提供一种能够在规定时间内处理大数据量数据的方法，緩解数据的延时处理。
技术实现思路
本专利技术所要解决的技术问题是提供一种大数据量数据处理方法及系统，以解决大数据量数据无法在规定时间内处理造成处理延时，最后造成系统崩溃的问题。为解决上述技术问题，根据本专利技术提供...

【技术保护点】
一种大数据量数据处理方法，其特征在于，包括：　根据原始文件命名规则分配服务器，将原始文件拆分为小文件；　针对拆分后的每个小文件，根据小文件命名规则再次分配服务器，对拆分后的小文件进行处理。

【技术特征摘要】
1、一种大数据量数据处理方法，其特征在于，包括根据原始文件命名规则分配服务器，将原始文件拆分为小文件；针对拆分后的每个小文件，根据小文件命名规则再次分配服务器，对拆分后的小文件进行处理。2、根据权利要求1所述的方法，其特征在于，根据原始文件命名规则或小文件命名规则分配服务器的步骤包括解析文件名，获取原始文件序列号；计算原始文件序列号％待分配服务器总数+l;其中，％表示取模运算；才艮据所述计算结果值分配服务器。3、根据权利要求1所述的方法，其特征在于，根据原始文件命名规则或小文件命名规则分配服务器的步骤包括配置每台服务器处理的数据类型；解析文件名，获取文件中存储的数据类型；根据所述配置，分配与所述文件中存储的数据类型相对应的服务器。4、根据权利要求1所述的方法，其特征在于，根据小文件命名规则分配服务器的步骤包括解析文件名，获^U斥分后的小文件序列号；计算小文件序列号％待分配服务器总数+l;其中，％表示取模运算；根据所述计算结果值分配服务器。5、根据权利要求1所述的方法，其特征在于，将原始文件拆分为小文件之后，还包括将拆分后的d 、文件保存到磁盘。6、根据权利要求1所述的方法，其特征在于，还包括对拆分和处理失败的操作进行重试；其中，对拆分出错的操作重试一次，对处理失败的揚:作重试多次。7、根据权利要求1所述的方法，其特征在于，还包括将所有待拆分和待处理的文件存放在不同的目录下。8、根据权利要求7所述的方法，其特征在于，所述待拆分文件目录下的数据流程包括将原始文件存放到待拆分的原始文件存放目录；.根据原始文件命名规则分配服务器之后，将待拆分文件存放到拆分文件时的临时目录；对待拆分文件进行拆分，将拆分成功的原始文件备份到完全拆分成功的原始文件存放目录，并将拆分后的小文件保存到分割之后的小文件存放目录；将重试失败的原始文件备份到拆分文件时出错的...

【专利技术属性】
技术研发人员：唐益鹏，洪文其，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：VG[英属维尔京群岛]

全部详细技术资料下载我是这个专利的主人