一种基于数据湖的空间大数据处理系统及方法,涉及空间大数据处理技术领域。在该系统中,所述系统包括:获取模块、数据入湖模块以及数据湖解析模块;所述获取模块,用于获取不同数据源中多种类型空间大数据;所述数据入湖模块,用于将所述不同数据源中所述多种类型空间大数据储存至数据湖;所述数据湖解析模块,用于分别解析所述多种类型空间大数据,得到各类型空间大数据对应的结构化数据;所述数据湖解析模块,还用于将多种所述结构化数据储存至第一Delta表。实施本申请提供的技术方案,可以实现空间大数据的统一存储。现空间大数据的统一存储。现空间大数据的统一存储。
【技术实现步骤摘要】
一种基于数据湖的空间大数据处理系统及方法
[0001]本申请涉及空间大数据处理
,具体涉及一种基于数据湖的空间大数据处理系统及方法。
技术介绍
[0002]随着科技的发展,世界经济数字化转型正处在高速发展的道路上,空间大数据作为驱动科技创新发展的关键要素,其经济价值与战略价值愈发凸显,但与之对应的挑战也日益严峻。
[0003]现如今,空间大数据治理面临着如空间大数据来源复杂性,空间大数据种类复杂性,空间大数据存储占用大,空间大数据分析计算量大等等诸多难题。传统的空间大数据处理方案需要根据空间大数据的类型分别存储在不同的文件系统和数据库中,其无法实现空间大数据的统一存储。因此,如何解决空间大数据的统一存储成为亟需解决的问题。
[0004]因此,亟需一种基于数据湖的空间大数据处理系统及方法来解决当前技术存在的问题。
技术实现思路
[0005]本申请提供了一种基于数据湖的空间大数据处理系统及方法,可以实现空间大数据的统一存储。
[0006]第一方面,本申请提供了一种基于数据湖的空间大数据处理系统,所述系统包括:获取模块、数据入湖模块以及数据湖解析模块;所述获取模块,用于获取不同数据源中多种类型空间大数据;所述数据入湖模块,用于将所述不同数据源中所述多种类型空间大数据储存至数据湖;所述数据湖解析模块,用于分别解析所述多种类型空间大数据,得到各类型空间大数据对应的结构化数据;所述数据湖解析模块,还用于将多种所述结构化数据储存至第一Delta表。
[0007]通过采用上述技术方案,数据湖入湖模块可以实现将不同数据源中多种类型空间大数据进行存储,从而使得大量的空间大数据入湖方式更加简易;并通过数据湖解析模块将多种类型空间大数据进行解析,得到各类型空间大数据对应的结构化数据,从而统一各类型空间大数据的数据结构;数据湖解析模块再将多种结构化数据储存至第一Delta表,可以使得各类型空间大数据统一存储,进而提高了各类型空间大数据的存储效率。
[0008]可选的,所述不同数据源包括:文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源;所述数据入湖模块包括:文件数据源入湖子模块、API入湖子模块、数据库入湖子模块以及手动文件上传子模块;所述文件数据源入湖子模块,用于通过Input抽象接口获取所述文件型服务器数据源中所述多种类型空间大数据的数据流,并通过Output抽象接口将所述文件型服务器数据源中所述多种类型空间大数据的数据流储存至所述数据湖;所述API入湖子模块,用于调用所述API服务器数据源的HTTP请求,并将请求得到的所述API服务器数据源中所述多种类型空间大数据储存至所述数据湖;所述数据
库入湖子模块,用于通过JDBC将所述数据库类型数据源中所述多种类型空间大数据储存至所述数据湖;所述手动文件上传子模块,用于提供文件上传入口,并通过所述文件上传入口获取用户储存至所述数据湖中的将文件类型数据源中所述多种类型空间大数据。
[0009]可选的,所述多种类型空间大数据包括半结构化的JSON格式数据、结构化的SHP数据、结构化的GDB数据、非结构化的影像数据以及非结构化的图片数据;所述数据湖解析模块包括:JSON数据解析子模块、SHP数据解析子模块、GDB数据解析子模块、影像数据解析子模块以及图片数据解析子模块;所述JSON数据解析子模块,用于基于JsonPath和JsonJolt将所述半结构化的JSON格式数据转化成结构化数据;所述SHP数据解析子模块,用于基于Apache Sedona引擎的ShapefileReader.readToGeometryRDD方法,将所述结构化的SHP数据转换为二维表数据;所述GDB数据解析子模块,用于基于GDB规范,对所述结构化的GDB数据解析得到二维表数据;所述影像数据解析子模块,用于提取所述非结构化的影像数据的元数据信息,并将所述元数据信息整合为二维表数据集合;所述图片数据解析子模块,用于根据所述非结构化的图片数据生成二维表数据。
[0010]可选的,所述系统还包括:数据湖分析模块;所述数据湖分析模块,用于采用预设方法对所述第一Delta表进行分析,得到分析结果;所述分析结果包括第二Delta表。
[0011]可选的,所述数据湖分析模块包括数据湖计算子模块和数据湖数据分配子模块;所述数据湖计算子模块,用于基于Spark框架和Apache Sedona引擎定义多种算子规范,根据所述多种算子规范,对所述第一Delta表进行分析;所述数据湖数据分配子模块,用于根据所述多种算子规范,将所述第一Delta表中的部分所述结构化数据分配至所述第二Delta表。
[0012]通过采用上述技术方案,数据湖分析模块中的数据湖计算子模块基于Spark框架和Apache Sedona引擎定义多种算子规范,并根据所述多种算子规范,对所述第一Delta表进行分析,从而使得各类型空间大数据能够被统一分析处理,进而有效地增加了分析处理各类型空间大数据的效率。
[0013]可选的,所述系统还包括:数据湖管理模块;所述数据湖管理模块,用于管理所述数据湖中的所述不同数据源中所述多种类型空间大数据,以使用户查找和预览所述不同数据源中所述多种类型空间大数据。
[0014]可选的,所述数据湖管理模块包括元数据管理子模块和空间大数据预览子模块;所述元数据管理子模块,用于根据所述多种类型空间大数据类型,提取对应类型的所述多种类型空间大数据的多种元数据信息,并将所述多种元数据信息储存于数据库中;所述空间大数据预览子模块,用于预览所述二维表数据;所述空间大数据预览子模块,还用于基于trino组件,预览所述数据库类型数据源中所述多种类型空间大数据;所述空间大数据预览子模块,还用于基于Apache Sedona引擎的Viz组件,生成所述多种类型空间大数据的空间渲染图。
[0015]通过采用上述技术方案,通过数据湖管理模块中的元数据管理子模块和空间大数据预览子模块,通过直接预览二维表数据,通过trino组件预览数据库类型数据源中多种类型空间大数据以及通过Apache Sedona引擎的Viz组件,生成所述多种类型空间大数据的空间渲染图,可以提供用户多种多样的空间大数据预览方式。
[0016]可选的,所述数据湖计算子模块,还用于在将所述第一Delta表中的所述多种所述
结构化数据加载至内存之后,对所述第一Delta表进行分析。
[0017]在本申请的第二方面提供了一种基于数据湖的空间大数据处理方法,所述方法包括:获取不同数据源中多种类型空间大数据;将所述不同数据源中所述多种类型空间大数据储存至数据湖;解析所述多种类型空间大数据,得到多种结构化数据;将多种所述结构化数据储存至第一Delta表。
[0018]可选的,所述方法还包括:采用预设方法对所述第一Delta表进行分析,得到分析结果;所述分析结果包括第二Delta表。
[0019]综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于数据湖的空间大数据处理系统,其特征在于,所述系统包括:获取模块(1)、数据入湖模块(2)以及数据湖解析模块(3);所述获取模块(1),用于获取不同数据源中多种类型空间大数据;所述数据入湖模块(2),用于将所述不同数据源中所述多种类型空间大数据储存至数据湖;所述数据湖解析模块(3),用于分别解析所述多种类型空间大数据,得到各类型空间大数据对应的结构化数据;所述数据湖解析模块(3),还用于将多种所述结构化数据储存至第一Delta表。2.根据权利要求1所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述不同数据源包括:文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源;所述数据入湖模块(2)包括:文件数据源入湖子模块(21)、API入湖子模块(22)、数据库入湖子模块(23)以及手动文件上传子模块(24);所述文件数据源入湖子模块(21),用于通过Input抽象接口获取所述文件型服务器数据源中所述多种类型空间大数据的数据流,并通过Output抽象接口将所述文件型服务器数据源中所述多种类型空间大数据的数据流储存至所述数据湖;所述API入湖子模块(22),用于调用所述API服务器数据源的HTTP请求,并将请求得到的所述API服务器数据源中所述多种类型空间大数据储存至所述数据湖;所述数据库入湖子模块(23),用于通过JDBC将所述数据库类型数据源中所述多种类型空间大数据储存至所述数据湖;所述手动文件上传子模块(24),用于提供文件上传入口,并通过所述文件上传入口获取用户储存至所述数据湖中的将文件类型数据源中所述多种类型空间大数据。3.根据权利要求1所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述多种类型空间大数据包括半结构化的JSON格式数据、结构化的SHP数据、结构化的GDB数据、非结构化的影像数据以及非结构化的图片数据;所述数据湖解析模块(3)包括:JSON数据解析子模块(31)、SHP数据解析子模块(32)、GDB数据解析子模块(33)、影像数据解析子模块(34)以及图片数据解析子模块(35);所述JSON数据解析子模块(31),用于基于JsonPath和JsonJolt将所述半结构化的JSON格式数据转化成结构化数据;所述SHP数据解析子模块(32),用于基于Apache Sedona引擎的ShapefileReader.readToGeometryRDD方法,将所述结构化的SHP数据转换为二维表数据;所述GDB数据解析子模块(33),用于基于GDB规范,对所述结构化的GDB数据解析得到二维表数据;所述影像数据解析子模块(34),用于提取所述非结构化的影像数据的元数据信息,并将所述元数据信息整合为二维表数...
【专利技术属性】
技术研发人员:黄超,赵慧慧,陈梦月,张康,刘欣,
申请(专利权)人:北京捷泰云际信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。