一种基于集群Pod调度结合数据湖的数据优化方法技术

技术编号:36095872 阅读:21 留言:0更新日期:2022-12-24 11:14
本发明专利技术公开了一种基于集群Pod调度结合数据湖的数据优化方法,包括以下步骤:S11、搭建分布式数据池和分布式集群并进行数据整理;S12、进行类型数据池数据与Pod绑定及pod调度过程中的数据分析和处理。该方法主要是通过在中央服务器部署中央初始数据池,在分布式网络各地方核心Node(节点)部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理,解决现有k8s集群Pod调度后数据分析效率不高,非集群业务过渡到Kubernetes时数据迁移工作量大的问题。Kubernetes时数据迁移工作量大的问题。Kubernetes时数据迁移工作量大的问题。

【技术实现步骤摘要】
一种基于集群Pod调度结合数据湖的数据优化方法


[0001]本专利技术属于大数据与AI
,具体涉及一种基于集群Pod调度结合数据湖的数据优化方法。

技术介绍

[0002]随着科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集不再是问题,如今的技术问题是面对如此众多的数据,我们怎样才能找到其内在规律。数据湖架构是面向多数据源的信息存储,包括物联网在内,大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户,但数据湖架构可不仅仅是一个巨大的磁盘而已,数据湖的数据持久性和安全是需要优先考虑的因素,很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除,这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本,所以我们需要对数据进行优化。
[0003]针对数据分析处理及优化,现有技术已有相关报道。
[0004]如中国专利技术专利CN202010809326.4,公开了一种基于数据湖的异构数据源集成方法及装置,其方法包括如下步骤:a、根据用户调用写数据接口的信息,确定本次写请求的操作标示、数据、时间戳,其中操作标示包含追加、更新、删除三种类型,时间戳为写请求达到的时间,将以上信息追加写入到数据湖中的一个特定文件内;b、将上一步写入到特定文件内的数据,结合操作标示及时间戳做数据合并处理,得到最终的结果数据。本专利技术解决了现有数据湖数据集成技术,无法支持数据更新操作,不能将数据湖的数据和原始数据保持一致,不能有效解决大数据集群大量小文件导致查询性能低效等问题。
[0005]又如中国专利技术专利CN202210189508.5,公开了一种基于对象存储的数据湖文件系统,包括本地文件存储组件、文件管理组件和本地元数据存储组件,其中,文件管理组件包括操作事务管理组件和文件版本管理组件;本地文件存储组件受文件管理组件控制,本地文件存储组件负责把业务数据存储对象文件保存到本地,并调用本地元数据存储组件保存业务数据目标对象对应的元数据;操作事务管理组件用来控制整个本地文件存储组件事务的生命周期,在事务提交、回滚操作过程中联动文件版本管理组件。本专利技术使组件应用方不用意识到底层文件系统原理即可达到缓存的效果,使用户不必关心数据治理细节,只关注上层用户接口就能提升数据治理效果和精度,降低了数据应用难度,提升了数据应用灵活性。
[0006]但是现有技术数据分析量大,效率不高,数据比对成本高。

技术实现思路

[0007]本专利技术针对现有技术的不足,提供一种基于集群Pod调度结合数据湖的数据优化方法。本专利技术主要是通过在中央服务器部署中央初始数据池,在分布式网络各地方核心
Node(节点)部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理,解决现有Kubernetes集群Pod调度后数据分析效率不高,非集群业务过渡到Kubernetes时数据迁移工作量大的问题。
[0008]为了实现上述目的,本专利技术采用了以下技术方案:
[0009]一种基于集群Pod调度结合数据湖的数据优化方法,包括以下步骤:
[0010]S11、搭建分布式数据池和分布式集群并进行数据整理;
[0011]S12、进行类型数据池数据与Pod绑定及pod调度过程中的数据分析处理及优化。
[0012]本专利技术的进一步说明,所述步骤S11包括以下步骤:
[0013]S111、在中央服务器部署中央初始数据池和基于Kubernetes的中央集群,所述中央集群产生的数据存储在中央初始数据池;同时创建对存储数据进行分类存储的多种类型数据池,并在各地方Node创建用于存放当地pod产生的数据的对应的多种类型数据仓储罐;
[0014]S112、在分布式网络各地方核心Node部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,并进行初步整理,将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池,其余数据按照数据类型放入不同类型数据池的数据仓储罐;
[0015]S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池,同时捕捉到采集数据对应的元数据,采集数据关联的元数据、元过程数据、和采集数据与Pod关联的元数据及元过程数据三方关系映射为元数据标识一起传递给对应类型数据池进行处理。
[0016]所述初始数据池用于充当数据的存放单元,并根据数据特征进行整理,为下一步数据进入不同类型数据池做准备;所述Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用;所述价值不大的数据包括数据波动不大且重复大量的数据,从价值分析角度判断价值不大,例如监控采集正常的数据;所述三种类型数据池用于获取来自中央初始数据池整理过的数据,并对存储的数据进行分类存储;所述三种类型数据仓储罐存放当地pod产生的数据。
[0017]本专利技术的进一步说明,所述步骤S12 pod调度过程中的数据分析处理包括两种pod数据分析情况,具体为:
[0018]S121、当Pod调度到新Node,Pod产生新的业务数据,需要将Pod调度前和调度后的数据进行分析时;
[0019]S122、当部分业务没有整合到集群内,集群外业务数据需要与调度过来的Pod整合时。
[0020]本专利技术的进一步说明,所述pod数据分析情况1)的处理方法具体包括以下步骤:
[0021]S1211、分析收到的元数据标识格式;
[0022]S1212、获取每条数据关联的元数据并进行统一声明;
[0023]S1213、对Pod调度前和调度后的数据进行跨数据池的分析及运算。
[0024]所述Pod数据分析及运算相当于在多个不同数据池的数据仓储罐之间进行数据分析及运算;所述对每条数据关联的元数据进行统一声明后可以跨数据池进行分析及运算,不需要数据池里的Pod数据随着Pod调度而进行转移,并且当Pod查询调度前后的数据一起进行分析运算也避免了数据库数据迁移造成数据存放在不同数据库表需要聚合再分析的
繁琐运算导致效率低的问题。
[0025]本专利技术的进一步说明,所述pod数据分析情况2)的处理方法具体包括以下步骤:
[0026]S1221、新建地方核心Node部署的中央初始数据池对应的特殊数据仓储罐;
[0027]S1222、将要整合的集群外业务数据单独放入特殊数据仓储罐中,得到特殊数据;
[0028]S1223、特殊数据与一起迁移过来的与Pod关联的元数据、元过程数据及三方关系映射为元数据标识。
[0029]所述特殊数据专门指所有非本地数据,跨地方数据有关联运算需求的数据,或者集群外业本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集群Pod调度结合数据湖的数据优化方法,其特征在于包括以下步骤:S11、搭建分布式数据池和分布式集群并进行数据整理;S12、进行类型数据池数据与Pod绑定和pod调度过程中的数据分析处理及优化。2.根据权利要求1所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述步骤S11包括以下步骤:S111、在中央服务器部署中央初始数据池和基于Kubernetes的中央集群,所述中央集群产生的数据存储在中央初始数据池;同时创建对存储数据进行分类存储的多种类型数据池,并在各地方Node创建用于存放当地pod产生的数据的对应的多种类型数据仓储罐;S112、在分布式网络各地方核心Node部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,并进行初步整理,将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池,其余数据按照数据类型放入不同类型数据池的数据仓储罐;S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池,同时捕捉到采集数据对应的元数据,采集数据关联的元数据、元过程数据、和采集数据与Pod关联的元数据及元过程数据三方关系映射为元数据标识一起传递给对应类型数据池进行处理。3.根据权利要求2所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述步骤S12 pod调度过程中的数据分析处理包括两种pod数据分析情况,具体为:S121、当Pod调度到新Node,Pod产生新的业务数据,需要将Pod调度前和调度后的数据进行分析时;S122、当部分业务没有整合到集群内,集群外业务数据需要与调度过来的Pod整合时。4.根据权利要求3所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述pod数据分析情况S121的处理方法具体包括以下步骤:S1211、分析收到的元数据标识格式;S1212、获取每条数据关联的元数据并进行统一声明;S1213、对Pod调度前和调度后的数据进行跨数据池的分析及运算。5.根据权利要求3所述的基于集群Pod调度结合数据湖的数据...

【专利技术属性】
技术研发人员:唐继哲陆克伦
申请(专利权)人:广西壮族自治区公众信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1