数据处理系统和方法技术方案

技术编号：12621540 阅读：59 留言：0更新日期：2015-12-30 19:15

本发明专利技术涉及数据处理系统和方法。对数据进行处理的方法包括：通过特征提取对所述数据进行结构化；以及通过多个映射任务和多个化简任务对结构化后的数据进行并行处理，其中所述并行处理包括将所述多个映射任务和多个化简任务中的至少一个任务处理的数据复制到多个计算设备上，每个计算设备只对复制数据的一部分进行处理。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例一般地涉及数据处理的系统和方法。本公开的实施例尤其涉及用于在MapReduce环境（例如，Apache?Hadoop!)中处理数据的系统和方法。
技术介绍
随着诸如云计算、社交媒体、电子商务和物联网等趋势的广泛兴起，大量数据随之产生。大数据是来自方方面面，可以是生活中的购物交易，也可以是工业上的生产制造；从社交网络媒体信息，到在线视频图像资料；从企业的信息管理系统，到政府部门的电子政务，都有着大量的数据产生。例如，当今，成万上亿计的网络传感器被嵌入到现实世界的各种设备中，如移动电话、智能电表、汽车和工业机器中，用来感知、创造并交换数据，无处不在的传感网络带来了无处不在的数据。可是，当前的数据技术和算法大部分都是针对单机数据处理的，不能满足日益增长的数据处理需求。
技术实现思路
本专利技术目的是解决上述问题中的一个或多个。根据一个方面，本专利技术提出一种用于对数据进行处理的方法，包括：通过特征提取对所述数据进行结构化；以及通过多个映射任务和多个化简任务对结构化后的数据进行并行处理，其中所述多个映射任务和多个化简任务中的至少一个任务处理的数据被复制到多个计算设备上，每个计算设备只对复制数据的一部分进行处理。【附图说明】从下面结合附图对本专利技术的【具体实施方式】的描述中可以更好地理解本专利技术，其中：图1示出根据本专利技术的一个示例性实施例的数据处理方法的流程图；图2示出用于实现本公开中描述的方法的一个实例计算设备。【具体实施方式】下面将详细描述本专利技术各个方面的特征和示例性实施例。下面的...

【技术保护点】
一种用于对数据进行处理的方法，包括：通过特征提取对所述数据进行结构化；以及通过多个映射任务和多个化简任务对结构化后的数据进行并行处理，其中所述并行处理包括将所述多个映射任务和多个化简任务中的至少一个任务处理的数据复制到多个计算设备上，每个计算设备只对复制数据的一部分进行处理。

【技术特征摘要】

【专利技术属性】
技术研发人员：洪晓健，王宝，边苏涛，
申请(专利权)人：北京畅游天下网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人