【技术实现步骤摘要】
本申请涉及数据处理设备的数据处理
,尤其涉及一种多进程处理方法、装置和系统。
技术介绍
随着互联网业务的普及,用户数据的增长,网络中的设备处理几百G或T的数据是比较常见的。为了能够适应巨量数据的处理任务,目前业界通常采用分布式多进程处理巨量数据。如图1为现有的分布式多进程处理技术的一种处理示意图;参见图1,其中,用竖虚线来划分不同的机器,所述竖虚线划分出的每一个区域就是一台机器上的部署情况,如区域101为第一台机器上的部署情况,区域102为第二台机器上的部署情况。每一台机器可以启动多个进程,如图1每一台机器对应的区域中,所述矩形框内每个小块分别对应一个进程,每台机器还配置有配置文件,配置文件内包括启动的进程个数,每个进程处理的数据文件的配置信息等,所述配置信息需要包括每个进程对应的文件名和路径信息。在数据处理过程中,启动的进程需要从所述配置文件中读取该进程对应的文件名和路径,并到该路径下读取该数据文件的数据并对数据进行相应业务的处理,然后导入到本地或远程机器的内存提供给对外服务的互联网应用程序。但是,现有技术在导入少数文件的情况下是适用的,而在导入大量文件的情况下,会存在以下缺点:(1)由于数据文件不一样,配置文件不一样,需要编辑每行配置文件。如果同时有100台机器处理,每台机器启动10个进程,需要有1000行数据进行编辑,编辑量过大,人工成本高。(2)在实际的运营过程中,常 ...
【技术保护点】
一种多进程处理方法,其特征在于,包括:为本地的数据文件编号;输入每个进程需处理的数据文件个数M;获取本地的数据文件总数N;根据所述N与所述M的取模结果确定需要启动的进程数k;启动k个进程,为每个进程分配至多M个数据文件编号;所述进程根据所分配的数据文件编号加载对应的数据文件进行处理。
【技术特征摘要】
1.一种多进程处理方法,其特征在于,包括:
为本地的数据文件编号;
输入每个进程需处理的数据文件个数M;
获取本地的数据文件总数N;
根据所述N与所述M的取模结果确定需要启动的进程数k;
启动k个进程,为每个进程分配至多M个数据文件编号;
所述进程根据所分配的数据文件编号加载对应的数据文件进行处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N与所述M
的取模结果确定需要启动的进程数k,具体包括:
进行取模运算:N%M;
如果N%M等于0,则所述k为:N除以M得到的商的整数部分;
如果N%M不等于0,则所述k为:N除以M得到的商的整数部分,再加
上1。
3.根据权利要求1所述的方法,其特征在于,所述为每个进程分配至多M
个数据文件编号,具体为:按照所述本地的数据文件的编号,从第一个进程开
始,每个进程依次分配至多M个数据文件编号,直到分配完本地所有的数据文
件编号为止。
4.根据权利要求3所述的方法,其特征在于,
所述为本地的数据文件编号,具体为:对本地的数据文件从0开始编号;
所述从第一个进程开始,每个进程依次分配至多M个数据文件编号,直到
分配完本地所有的数据文件编号为止,具体包括:
设置所启动的进程编号,设p表示所启动的进程的编号,p=0,1,…,k-1,则:
若(p+1)×M–1小于最后一个数据文件编号,则编号为p的进程对应
分配的数据文件编号为:从第p×M到第(p+1)×M–1;
若(p+1)×M–1大于等于最后一个数据文件编号,则编号为p的进程
\t对应分配的数据文件编号为:从第p×M到最后一个数据文件编号。
5.根据权利要求1至4任一项所述的方法,其特征在于,
所述进程根据所分配的数据文件编号加载对应的数据文件进行处理,具体
包括:
所述进程根据所分配的数据文件编号读取该数据文件对应的路径地址;
所述进程从所述路径地址读取对应数据文件的数据,进行加载处理。
6.根据权利要求1所述的方法,其特征在于,在具有二台以上计算设备的
处理系统中,针对每台计算设备分别执行本多...
【专利技术属性】
技术研发人员:邢玉东,
申请(专利权)人:腾讯科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。