【技术实现步骤摘要】
一种电网数据ETL的优化方法及设备
[0001]本专利技术涉及数据处理
,特别是涉及一种电网数据ETL的优化方法及设备。
技术介绍
[0002]ETL,是英文Extract
‑
Transform
‑
LoaD的缩写,用来描述将数据从来源端经过抽取 (extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
[0003]通常情况下,现有对数据进行ETL的手段都是将数据集中到一个服务器中进行数据的ETL过程,也即设定专属的服务器来进行ETL,但是,在不久的将来,服务器之间的能力差异其实越来越接近;那么这个时候,原本设定专属服务器进行ETL的思路就会产生不必要的效率上的制约。
[0004]例如对于电网数据,其一般来源多、信息异构、数量庞大、属性繁多,对于每一片区域,都会有一个下游的服务器作为数据上报端,收集该区域的数据,当需要对所有数据其进行ETL时,就需要每个下游的数据上报端都将数据上报到一个专属的服务器中来进行ETL,但随着技术的发展,下游的数据上报端服务器的能力会越来越趋近专属服务器,甚至两者没有区别,而且对于某项业务,有时某个下游的服务器还会收集到大部分的数据,此时若还需要将其数据上报给专属服务器处理,反而浪费网络资源,且降低效率。
[0005]鉴于此,如何克服现有技术所存在的缺陷,解决设定专属服务器来进行ETL会降低效率、浪费网络资源的问题,是本
待解决的难题。
技术实现思路
r/>[0006]针对现有技术的以上缺陷或改进需求,本专利技术提供一种电网数据ETL的优化方法及设备,该方法设定多个用于进行ETL处理的ETL处理服务器以及一个用于调度的ETL调度服务器,ETL调度服务器以业务为单位,根据ETL处理服务器中包含的各个业务数据量的大小来决定由哪个ETL处理服务器处理相应业务,这样可以优化网络数据的同步,提升数据转移效率,节约网络资源。
[0007]本专利技术实施例采用如下技术方案:第一方面,本专利技术提供了一种电网数据ETL的优化方法,包括:设定ETL调度服务器以及多个用于进行ETL处理的ETL处理服务器;各个ETL处理服务器在即将进行ETL处理时,向ETL调度服务器发送自身待处理的ETL数据清单,所述ETL数据清单上记录有不同业务的任务目录以及各项业务的数据量的百分比; ETL调度服务器根据所述ETL数据清单上记录的各项业务的数据量的百分比来确定对各项业务进行ETL处理的ETL处理服务器;各个ETL处理服务器将相应业务的数据转移至ETL调度服务器确定的对相应业务进行ETL 处理的ETL处理服务器,以进行ETL处理。
[0008]进一步的,所述ETL数据清单上记录的各项业务的数据量的百分比,具体包括:本地服务器所拥有的各项业务的数据量相对于历史进行ETL处理过的该项业务的数据总量的
百分比。
[0009]进一步的,所述ETL调度服务器根据所述ETL数据清单上记录的各项业务的数据量的百分比来确定对各项业务进行ETL处理的ETL处理服务器,具体包括:ETL调度服务器获取到各个ETL处理服务器发送的ETL数据清单后,对比各个ETL数据清单上记录的各项业务的数据量的百分比,选出每项业务的数据量所占百分比最高的ETL数据清单,将选出的ETL数据清单对应的ETL处理服务器设置为对相应业务进行ETL处理的ETL 处理服务器。
[0010]进一步的,在根据所述ETL数据清单上记录的各项业务的数据量的百分比来确定对某项业务进行ETL处理的ETL处理服务器时,需至少有一个ETL数据清单的该项业务的数据量所占百分比超过预设的占比阈值,否则不对该项业务进行数据转移以及ETL处理。
[0011]进一步的,所述各个ETL处理服务器将相应业务的数据转移至ETL调度服务器确定的对相应业务进行ETL处理的ETL处理服务器,以进行ETL处理,具体包括:各个ETL处理服务器均从ETL调度服务器处获取对相应业务进行ETL处理的ETL处理服务器与相应业务之间的对照表;若自身是对相应业务进行ETL处理的ETL处理服务器,则保留自身的相应业务数据;若自身不是对相应业务进行ETL处理的ETL处理服务器,则将自身的相应业务数据转移至对该相应业务进行ETL处理的ETL处理服务器;数据转移完成后,需要对相应业务进行ETL处理的ETL处理服务器对相应业务进行ETL处理。
[0012]进一步的,所述ETL调度服务器设定有调度周期,在同一个调度周期内,所述ETL 调度服务器只确定一次对相应业务进行ETL处理的ETL处理服务器。
[0013]进一步的,在同一个调度周期内,若某项业务已确定对其进行ETL处理的ETL处理服务器,则其它ETL处理服务器对接收该项业务的后续数据进行重定向,使该项业务的后续数据直接传递到对该项业务进行ETL处理的ETL处理服务器。
[0014]进一步的,各个ETL处理服务器的ETL处理设定为每隔一定周期进行处理,或数据总量达到一定内存就进行处理。
[0015]进一步的,所述ETL调度服务器为所述ETL处理服务器中的一个或网络中任一个涉及 ETL处理能力的服务器。
[0016]另一方面,本专利技术提供了一种电网数据ETL的优化设备,具体为:包括至少一个处理器和存储器,至少一个处理器和存储器之间通过数据总线连接,存储器存储能被至少一个处理器执行的指令,指令在被处理器执行后,用于完成第一方面中的电网数据ETL的优化方法。
[0017]与现有技术相比,本专利技术的有益效果在于:设定多个用于进行ETL处理的ETL处理服务器以及一个用于调度的ETL调度服务器,ETL调度服务器以业务为单位,根据ETL处理服务器中包含的各个业务数据量的大小来决定由哪个ETL处理服务器处理相应业务,这样可以优化网络数据的同步,提升数据转移效率,节约网络资源。另外,ETL调度服务器还设置有调度周期,在一个调度周期内,确定过对某项业务进行ETL处理的ETL处理服务器后,该项业务后续的数据直接上报给该ETL处理服务器,避免已经完成一轮数据转移以后,后面的数据
还会分散到不同的ETL处理服务器上。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术实施例1提供的一种电网数据ETL的优化方法流程图;图2为本专利技术实施例1提供的步骤400具体流程图;图3为本专利技术实施例2提供的第一种场景示意图;图4为本专利技术实施例2提供的ETL优化步骤示意图;图5为本专利技术实施例3提供的第二种场景示意图;图6为本专利技术实施例4提供的数据转移之后,ETL处理之前的方法流程图;图7为本专利技术实施例5提供的一种电网数据ETL的优化设备结构示意图。
具体实施方式
[0020]本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种电网数据ETL的优化方法,其特征在于,包括:设定ETL调度服务器以及多个用于进行ETL处理的ETL处理服务器;各个ETL处理服务器在即将进行ETL处理时,向ETL调度服务器发送自身待处理的ETL数据清单,所述ETL数据清单上记录有不同业务的任务目录以及各项业务的数据量的百分比;ETL调度服务器根据所述ETL数据清单上记录的各项业务的数据量的百分比来确定对各项业务进行ETL处理的ETL处理服务器;各个ETL处理服务器将相应业务的数据转移至ETL调度服务器确定的对相应业务进行ETL处理的ETL处理服务器,以进行ETL处理。2.根据权利要求1所述的一种电网数据ETL的优化方法,其特征在于,所述ETL数据清单上记录的各项业务的数据量的百分比,具体包括:本地服务器所拥有的各项业务的数据量相对于历史进行ETL处理过的该项业务的数据总量的百分比。3.根据权利要求2所述的一种电网数据ETL的优化方法,其特征在于,所述ETL调度服务器根据所述ETL数据清单上记录的各项业务的数据量的百分比来确定对各项业务进行ETL处理的ETL处理服务器具体包括:ETL调度服务器获取到各个ETL处理服务器发送的ETL数据清单后,对比各个ETL数据清单上记录的各项业务的数据量的百分比,选出每项业务的数据量所占百分比最高的ETL数据清单,将选出的ETL数据清单对应的ETL处理服务器设置为对相应业务进行ETL处理的ETL处理服务器。4.根据权利要求3所述的一种电网数据ETL的优化方法,其特征在于,在根据所述ETL数据清单上记录的各项业务的数据量的百分比来确定对某项业务进行ETL处理的ETL处理服务器时,需至少有一个ETL数据清单的该项业务的数据量所占百分比超过预设的占比阈值,否则不对该项业务进行数据转移以及ETL处理;其中,预设的占比阈值设置为20%
‑
40%。5.根据权利要求1所述的一种电网数据ETL的优化方法,其特征在于,所述各个ETL处理服务器将相应业务的数据转移至ETL调度服务器确定的对相应业务进行ETL处理的ETL处理服务器,以进行ETL处理,具体包括:各个ETL处理服务器均从ETL调度服务器处获取对相应业务进行ETL处理的ETL处理服务器与相应业务之间的对照表;若自身是对相应业务进行ETL处理的ETL处理服务器,则保留自身的相应业务数据;若自身不是对相应业务进行ETL处理的ETL处理服务器,则将自身的相应业务数据转移至...
【专利技术属性】
技术研发人员:章晓锘,方磊,孔飘红,张静,卢敏,钱建国,裘雨音,由甲川,刘华蕾,李嘉茜,
申请(专利权)人:国网浙江省电力有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。