本发明专利技术提供一种分布式数据处理方法及其系统,涉及数据处理技术领域,包括从目标区域中收集待处理初始数据集,对待处理初始数据集进行分布式地预处理,得到第一数据集;通过空间分区树SPT对目标区域进行动态递归划分,并将第一数据集中的数据点分配至划分后的各子区域并标记,得到带有空间分区标识的第二数据集;接收实时数据流,并根据空间坐标将实时数据流动态融入第二数据集中,得到第三数据集;基于空间分区标识定位数据点在空间分区树SPT中的位置,并将处于同一子区域的第三数据集中数据点分配至同一数据处理节点上;在各个数据处理节点上,并行执行数据处理任务,随后将得到的初始结果进行聚合,以形成最终结果。
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种分布式数据处理方法及其系统。
技术介绍
1、随着信息技术的飞速发展和大数据时代的到来,分布式数据处理技术逐渐成为处理海量数据、提高数据处理效率的重要手段。特别是在地理信息系统(gis)、物联网(iot)、智慧城市等领域,数据不仅量大且通常带有空间属性,即数据点与特定的地理位置相关联。这类数据的处理和分析对实时性、准确性和可扩展性提出了更高要求,传统的数据处理方法在面对大规模空间数据时,往往面临处理速度慢、资源消耗大、实时性差等挑战。
2、因此,有必要提供一种分布式数据处理方法及其系统解决上述技术问题。
技术实现思路
1、为解决上述技术问题,本专利技术提供一种分布式数据处理方法及其系统,结合了分布式计算框架spark和空间分区技术的优势,通过动态递归划分目标区域、实时融入实时数据流、基于空间分区标识的数据点定位与节点分配,以及并行执行数据处理任务和结果聚合等步骤,实现了对大规模空间数据的高效、实时处理。
2、本专利技术提供了一种分布式数据处理方法,所述处理方法包括以下步骤:
3、从目标区域中收集待处理初始数据集,并利用分布式计算框架spark对待处理初始数据集进行分布式地预处理,得到第一数据集,其中所述第一数据集包括多个数据点;
4、通过空间分区树spt对所述目标区域进行动态递归划分,并将所述第一数据集中的数据点分配至划分后的各子区域,同时添加空间分区标识,得到带有空间分区标识的第二数据集;
<
p>5、接收实时数据流,并根据空间坐标将所述实时数据流动态融入所述第二数据集中,得到第三数据集;6、基于所述空间分区标识定位数据点在空间分区树spt中的位置,并根据定位的位置将处于同一子区域的所述第三数据集中数据点分配至同一数据处理节点上;
7、在各个数据处理节点上,通过分布式计算框架spark并行执行数据处理任务,随后将得到的初始结果进行聚合,以形成最终结果。
8、优选的,所述从目标区域中收集待处理初始数据集,并利用分布式计算框架spark对待处理初始数据集进行分布式地预处理,得到第一数据集,包括:
9、通过数据采集组件从所述目标区域中收集待处理初始数据集,其中所述待处理初始数据集包含与目标区域相关的多种类型数据;
10、在分布式计算框架spark的环境下,将待处理初始数据集分割成多个数据块,并在spark的多个计算节点上执行预处理操作,以得到预处理后的第一数据集。
11、优选的,所述通过空间分区树spt对所述目标区域进行动态递归划分,并将所述第一数据集中的数据点分配至划分后的各子区域,同时添加空间分区标识,得到带有空间分区标识的第二数据集,包括:
12、构建空间分区树spt,并根据预设的划分规则通过构建的空间分区树spt将所述目标区域细分为细粒度更小的子区域,直到满足划分停止条件;
13、遍历第一数据集中的每个数据点,根据每个数据点的空间坐标将其逐一分配至在空间分区树spt中定位的子区域中;
14、在分配时,为每个分配至子区域的数据点添加空间分区标识,其中所述空间分区标识唯一且明确地表示数据点所属的子区域,并与空间分区树spt中的叶子节点建立关联,以得到带有空间分区标识的第二数据集。
15、优选的,所述接收实时数据流,并根据空间坐标将所述实时数据流动态融入所述第二数据集中,得到第三数据集,包括:
16、实时捕获与目标区域相关的实时数据流,其中所述实时数据流包含动态变化的空间坐标;
17、对捕获的实时数据流进行预处理,以确保所述实时数据流与第二数据集中的数据格式一致且空间坐标准确;
18、根据预处理后的实时数据流中每个数据点的空间坐标,在空间分区树spt中定位其所属的子区域;
19、将定位后的实时数据流的每个数据点动态地插入到所述第二数据集中对应子区域的数据点集合中,同时更新空间分区树spt中关联叶子节点的数据记录,以得到融合实时数据流的第三数据集。
20、优选的,所述基于所述空间分区标识定位数据点在空间分区树spt中的位置,并根据定位的位置将处于同一子区域的所述第三数据集中数据点分配至同一数据处理节点上,包括:
21、遍历第三数据集中的每个数据点,读取其附带的空间分区标识;
22、利用读取的空间分区标识,在空间分区树spt中定位数据点所属的子区域,并确定处于同一子区域的数据点集合;
23、依据预构建的数据分配映射表,将处于同一子区域的数据点集合整体分配至对应的数据处理节点上,以确保同一子区域内的数据点在同一节点上进行处理,其中所述数据分配映射表记录每个子区域与对应数据处理节点的映射关系。
24、优选的,所述在各个数据处理节点上,通过分布式计算框架spark并行执行数据处理任务,随后将得到的初始结果进行聚合,以形成最终结果,包括:
25、在每个分配有数据点的数据处理节点上,启动分布式计算框架spark的执行环境;
26、根据数据处理任务的需求,编写并部署相应的spark作业,其中每个spark作业被设计为能够处理分配给该节点的数据点集合;
27、并行执行多个spark作业,并在每个spark作业完成后,收集输出的初始结果;
28、通过spark的聚合机制将来自不同数据处理节点的初始结果进行合并和整合,以形成全局一致的最终结果。
29、本专利技术还提供了一种分布式数据处理系统,用于执行一种分布式数据处理方法,所述处理系统包括:
30、数据预处理模块,用于从目标区域中收集待处理初始数据集,并利用分布式计算框架spark对待处理初始数据集进行分布式地预处理,得到第一数据集,其中所述第一数据集包括多个数据点;
31、数据分配模块,用于通过空间分区树spt对所述目标区域进行动态递归划分,并将所述第一数据集中的数据点分配至划分后的各子区域,同时添加空间分区标识,得到带有空间分区标识的第二数据集;
32、实时数据融合模块,用于接收实时数据流,并根据空间坐标将所述实时数据流动态融入所述第二数据集中,得到第三数据集;
33、节点分配模块,用于基于所述空间分区标识定位数据点在空间分区树spt中的位置,并根据定位的位置将处于同一子区域的所述第三数据集中数据点分配至同一数据处理节点上;
34、结果聚合模块,用于在各个数据处理节点上,通过分布式计算框架spark并行执行数据处理任务,随后将得到的初始结果进行聚合,以形成最终结果。
35、与相关技术相比较,本专利技术提供的一种分布式数据处理方法及其系统具有如下有益效果:
36、本专利技术首先从目标区域中收集待处理的初始数据集,并利用分布式计算框架spark进行分布式预处理。这一步骤旨在将原始数据转换为适合后续处理和分析的格式,同时利用spark的分布式计算能力提高处本文档来自技高网
...
【技术保护点】
1.一种分布式数据处理方法,其特征在于,所述处理方法包括以下步骤:
2.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述从目标区域中收集待处理初始数据集,并利用分布式计算框架Spark对待处理初始数据集进行分布式地预处理,得到第一数据集,包括:
3.根据权利要求2所述的一种分布式数据处理方法,其特征在于,所述通过空间分区树SPT对所述目标区域进行动态递归划分,并将所述第一数据集中的数据点分配至划分后的各子区域,同时添加空间分区标识,得到带有空间分区标识的第二数据集,包括:
4.根据权利要求3所述的一种分布式数据处理方法,其特征在于,所述接收实时数据流,并根据空间坐标将所述实时数据流动态融入所述第二数据集中,得到第三数据集,包括:
5.根据权利要求4所述的一种分布式数据处理方法,其特征在于,所述基于所述空间分区标识定位数据点在空间分区树SPT中的位置,并根据定位的位置将处于同一子区域的所述第三数据集中数据点分配至同一数据处理节点上,包括:
6.根据权利要求5所述的一种分布式数据处理方法,其特征在于,所述在各个数据处理节点上,通过分布式计算框架Spark并行执行数据处理任务,随后将得到的初始结果进行聚合,以形成最终结果,包括:
7.一种分布式数据处理系统,用于执行如权利要求1至6任意一项所述的一种分布式数据处理方法,其特征在于,所述处理系统包括:
...
【技术特征摘要】
1.一种分布式数据处理方法,其特征在于,所述处理方法包括以下步骤:
2.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述从目标区域中收集待处理初始数据集,并利用分布式计算框架spark对待处理初始数据集进行分布式地预处理,得到第一数据集,包括:
3.根据权利要求2所述的一种分布式数据处理方法,其特征在于,所述通过空间分区树spt对所述目标区域进行动态递归划分,并将所述第一数据集中的数据点分配至划分后的各子区域,同时添加空间分区标识,得到带有空间分区标识的第二数据集,包括:
4.根据权利要求3所述的一种分布式数据处理方法,其特征在于,所述接收实时数据流,并根据空间坐标将...
【专利技术属性】
技术研发人员:刘佳,李万灿,李万豪,窦军华,成薇,巫家敏,李万博,杨瞿瑞,
申请(专利权)人:成都梵辰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。