基于spark平台的空间数据并行计算系统及其方法技术方案

技术编号：14120303 阅读：93 留言：0更新日期：2016-12-08 12:45

本发明专利技术公开了一种基于spark平台的空间数据并行计算系统及其方法，该系统用于移动通话数据的并行计算，包括索引和存储层，其配置为在spark集群中读取并存储待处理的空间数据集，空间数据集内存储的空间数据为移动通话数据；对所述待处理的空间数据集建立空间索引；查询操作层，其配置为接收API层的空间操作请求，响应空间操作请求，根据空间索引来实现对所述待处理的空间数据集中移动通话数据的空间操作，并将空间操作后的结果反馈至API层；API层，其被配置为通通过空间操作接口接收输入的空间操作请求并传送至查询操作层；接收查询操作层中对空间数据进行空间操作后的结果并输出。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及移动通信数据业务
，尤其涉及一种基于spark平台的空间数据并行计算系统及其方法。
技术介绍
随着信息技术的深入发展，移动电话，车载网络等各种设备不断的产生着大量的空间数据。空间数据集通常是超大容量的，远超过单台机器的计算能力。因此，我们需要一个云计算框架去存储和计算大规模空间数据。通常我们都是使用Hadoop或者spark等平台来辅助处理大型数据集。一方面，类似于SpatialHadoop和Hadoop-GIS都是通过扩展Hadoop来支持空间数据并行处理。然而，由于Hadoop的磁盘级计算的特点，这些系统在处理复杂和交互的工作方面表现很差。而另一方面，Apache Spark是一个快速的，通用的大规模数据处理引擎。在支持进行大型集群内存计算的RDD的帮助下，Spark在交互查询和迭代计算方面表现的比Hadoop好100倍以上。GeoSpark是Spark扩展里最先进的空间数据处理系统，其通过扩展弹性分布式数据集(RDDS)来支持空间数据。SpatialSpark在Spark上实现空间连接(Spatial Join)。移动通信数据业务技术中，以下几点限制了GeoSpark和SpatialSpark在空间数据处理上的性能：(1)GeoSpark和SpatialSpark都是根据区域来分布空间数据，该方法会将相同区域的空间数据分布到相同的机器上。这样在处理范围查询时就会有一个不可避免的问题——负载不均衡。在将数据集分布到机器中后，每台计算机都会建立一个本地索引，四叉树或者R树。当要将范围查询从查询发起的机器广播到其余每台机器上时，只有查...
基于spark平台的空间数据并行计算系统及其方法

【技术保护点】
一种基于spark平台的空间数据并行计算系统，该系统用于移动通话数据的并行计算，其特征在于，该系统包括从底层到顶层三个层次：索引和存储层，其配置为在spark集群中读取并存储待处理的空间数据集，所述空间数据集内存储的空间数据为移动通话数据，移动通话数据的位置信息是相应移动通信基站的位置；根据移动通信基站的位置，得到移动通信基站覆盖范围的Voronoi图；结合Z Curve Hashing分区法与基于Voronoi图的密度分割法对所述待处理的空间数据集建立空间索引；查询操作层，其配置为接收API层的空间操作请求，响应空间操作请求并将空间数据的空间操作转化为RDD文件操作，进而根据空间索引来实现对所述待处理的空间数据集中移动通话数据的空间操作，并将空间操作后的结果反馈至API层；API层，其被配置为通过扩展SparkSQL来提供一个类SQL API来支持规则的空间数据关系和空间数据类型，且通过空间操作接口接收输入的空间操作请求并传送至查询操作层；所述API层还被配置为接收查询操作层中对空间数据进行空间操作后的结果并输出。

【技术特征摘要】
1.一种基于spark平台的空间数据并行计算系统，该系统用于移动通话数据的并行计算，其特征在于，该系统包括从底层到顶层三个层次：索引和存储层，其配置为在spark集群中读取并存储待处理的空间数据集，所述空间数据集内存储的空间数据为移动通话数据，移动通话数据的位置信息是相应移动通信基站的位置；根据移动通信基站的位置，得到移动通信基站覆盖范围的Voronoi图；结合Z Curve Hashing分区法与基于Voronoi图的密度分割法对所述待处理的空间数据集建立空间索引；查询操作层，其配置为接收API层的空间操作请求，响应空间操作请求并将空间数据的空间操作转化为RDD文件操作，进而根据空间索引来实现对所述待处理的空间数据集中移动通话数据的空间操作，并将空间操作后的结果反馈至API层；API层，其被配置为通过扩展SparkSQL来提供一个类SQL API来支持规则的空间数据关系和空间数据类型，且通过空间操作接口接收输入的空间操作请求并传送至查询操作层；所述API层还被配置为接收查询操作层中对空间数据进行空间操作后的结果并输出。2.如权利要求1所述的一种基于spark平台的空间数据并行计算系统，其特征在于，所述空间数据类型还包括用户自定义空间数据类型。3.如权利要求1所述的一种基于spark平台的空间数据并行计算系统，其特征在于，所述空间数据关系包括还包括用户自定义空间数据关系。4.如权利要求1所述的一种基于spark平台的空间数据并行计算系统，其特征在于，所述查询操作层中的空间操作包括范围查询和空间连接。5.一种如权利要求1-4任一所述的基于spark平台的空间数据并行计算系统的工作方法，该方法用于对移动通话数据的并行计算，其特征在于，包括：在配置有空间数据并行计算系统的spark集群中，读取并存储待处理的空间数据集，其中，空间数据集内存储的空间数据为移动通话数据，移动通话数据的位置信息是相应移动通信基站的位置；根据移动通信基站的位置，得到移动通信基站覆盖范围的Voronoi图；结合Z Curve Hashing分区法与基于Voronoi图的密度分割法对所述待处理的空间数据集建立空间索引；通过扩展SparkSQL来提供一个类SQL API来支持规...

【专利技术属性】
技术研发人员：杨伯宇，王海林，鲁宗飞，郭山清，许信顺，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人