一种千万级数据分片处理方法和装置制造方法及图纸

技术编号：31088393 阅读：14 留言：0更新日期：2021-12-01 12:47

本发明专利技术涉及一种千万级数据分片处理方法和装置。其方法部分主要包括：将分片机计算功能和业务处理功能解耦，并由分片机主动进行分片数据抢占任务；分片机根据自身性能实时申请分片数据；将每一台分片机申请所得的数据分为多个线程并行处理；最后一台处理完的分片机进行后置处理工作。本发明专利技术可以在不影响业务Service节点的情况下通过扩容分片机集群来大幅提高处理效率，且分片方法与业务解耦，在某些业务节点宕机时仍可保证数据正常处理。些业务节点宕机时仍可保证数据正常处理。些业务节点宕机时仍可保证数据正常处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种千万级数据分片处理方法和装置

[0001]本专利技术涉及大数据处理时的分片算法
，特别是涉及一种千万级数据分片处理方法和装置。

技术介绍

[0002]早期的软件系统大部分是服务于公司内部业务需求，系统使用者也大多是公司内部人员在操作，传统的软件架构也基本能满足日常需求。但随着公司规模的不断扩大，软件的开发逐渐由统一集成开始往微服务方向发展，部署方式也由单一节点转变为多节点集群模式，这样除了带来系统的复杂度，同时随时间的推进也会产生越来越多的数据量。
[0003]随着近几年互联网的快速发展，实现信息互通后，对于软件系统的功能要求以及处理能力要求越来越高。尤其在很多互联网公司，从传统的企业服务逐步转向为个人服务，这样客户的数量基本成几何倍数增长，同时带来对客户数据的维护也会逐日递增。由于是面向客户服务，一旦系统问题导致数据错误或服务体验感差，影响的用户群体范围大，进而可能引发大量的客户投诉，甚至会流失大量的客户群体，给企业带来的名誉以及经济损失不可估量。
[0004]由于客户流量的不断增大，对应的服务系统表数据量很容易就达到千万级甚至上亿级。在处理海量数据时(如给1000万用户推送服务信息)，业界目前处理方式通常采用分片调度模式，调度作业由Job机制触发，请求分别下发到所有业务Service(服务)节点的服务器，下发请求时针对不同服务器分配不同的分片参数，每个业务Service节点的服务器在拿到分片参数时，去查询自己所需要处理的分片域数据，进而在本节点服务器处理。此方式下的分片处理与业务...

【技术保护点】

【技术特征摘要】
1.一种千万级数据分片处理方法，其特征在于，包括：将分片机计算功能和业务处理功能解耦，并由分片机主动进行分片数据抢占任务；分片机根据自身性能实时申请分片数据；将每一台分片机申请所得的数据分为多个线程并行处理；最后一台处理完的分片机进行后置处理工作。2.根据权利要求1所述的千万级数据分片处理方法，其特征在于，所述将分片机计算功能和业务处理功能解耦，并由分片机主动进行分片数据抢占任务具体包括：随机一台分片机接收到业务处理请求；该分片机处理完前置工作后通知Zookeeper进行请求广播；所有分片机监听到广播后，同时开始主动抢占分片数据。3.根据权利要求2所述的千万级数据分片处理方法，其特征在于，在抢占分片数据过程中，若分片机宕机重启后，会进行自动检测且继续加入任务集群。4.根据权利要求2所述的千万级数据分片处理方法，其特征在于，所述前置工作具体包括白名单测试、设定本次处理数据的起止位置、任务加锁以及记录相关任务信息。5.根据权利要求1所述的千万级数据分片处理方法，其特征在于，所述分片机根据自身性能实时申请分片数据具体包括：将所有分片机进行编号；确定每台分片机自身的处理效率；分片机根据自身处理效率向redis申请相对应的分片数据。6.根据权利要求4所述的千万级数据分片处理方法，其特征在于，所述分片机的处理效率表示为：分片数据(x)＝n*cpu，其中，x表示分片域数据大小，n表示单cpu批处理大小，cpu...

【专利技术属性】
技术研发人员：门国强，吴亚松，杨雄辉，张天浩，李吉发，
申请(专利权)人：烽火通信科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人