用于实时数据ETL系统的记忆式调度方法,ETL调度主程序按照预先设定的顺序执行某个任务,执行的时候把lscycle最近成功数据周期、curcycle当前处理数据周期、endcycle处理截止数据周期等由调度引擎记忆下来的关键信息传给被调程序,被调程序执行完成之后,由调度引擎记录并保存更新后的调度信息;在数据重抽中,通过记忆式调度方法自动对其中的某些任务和某些周期进行自动重抽;记忆式调度方法(有状态调度方法)解决了传统ETL调度程序无状态的特点,简化了被调程序的任务,通过记忆状态使得被调程序可以专注于自己的业务逻辑,为实时数据ETL领域赢得了大量的开发时间,大大提高了项目实施的效率。
【技术实现步骤摘要】
本技术专利技术方案应用于实时数据ETL系统的调度,采用记忆式调度方法(有状态调 度方法)用于解决实时数据ETL系统中被调程序疲于处理调度信息的问题,从而使得被 调程序可以专注于自身的业务逻辑。二
技术介绍
ETL (Extraction—Transformation-Loading)即数据抽取、转换和力n载。ETL负责 将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取到临时中间层后进 行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析的数据。目前现 有的ETL调度方法都是非记忆、无状态的调度方法,如采用固定时间点进行调度(固定 周期),比如每天晚上23:00执行某个程序,两次调度之间在调度层面没有任何关联,任 务状态的判断和时间周期的选择完全由被调程序的程序逻辑自行完成,这样既增加了被 调程序的负担,又无法使被调程序专注于自己的业务逻辑。现有ETL调度方法的特点如下>周期闭环抽取问题目前的ETL调度方法都是非记忆和无状态的,只能解决固定 时间点(固定周期)的ETL抽取问题,时无法解决ETL系统中的时间戳抽取(周 期闭环)问题。>数据重抽问题目前的ETL调度方法无法有效解决自动进行数据重抽的问题。 >调度时间滞后的任务追赶问题ETL任务由于某种原因被暂停或执行失败而在时间上滞后预定计划,在该任务重新恢复正常运行时,不能自动根据时间周期的特点进行ETL任务的自动追赶。 >自我评估问题目前的ETL调度程序没有根据ETL的特点进行自我运行情况的评估。三
技术实现思路
本专利技术目的是解决传统ETL调度方法存在的问题,通过采用记忆式、有状态的调度 方法,调度引擎能够记住每个任务每次运行的时间周期、状态、历时,从而可以在调度 层面优化调度策略,提高调度性能,使得被调程序专注于自己的业务逻辑,从而解决周 期闭环抽取问题、数据重抽问题、调度时间滞后的任务追赶问题和自我评估问题。本专利技术技术方案是用于实时数据ETL系统的记忆式调度方法,ETL调度主程序按照 预先设定的顺序执行某个任务,执行的时候把lscycle最近成功数据周期、curcycle当 前处理数据周期、endcycle处理截止数据周期等由调度引擎记忆下来的关键信息传给被 调程序,被调程序执行完成之后,由调度引擎记录并保存更新后的调度信息;在数据重 抽中,通过记忆式调度方法自动对其中的某些任务和某些周期进行自动重抽; > ETL数据分类根据ETL数据的变化特点,分成固定周期数据和周期闭环数据 -4固定周期是指在分析周期内数据是静止的数据;4周期闭环指抽取特定周期内数据是变化的、取最后一次变化的记录;该周期是不固定的,其时间范围为上次执行抽取的时间到本次执行抽取发生的时 间;>记忆式调度方法^假定调度流程Wfl,任务BlEwfl,则 Wfl的状态=(wstate状态、lscycle最近成功数据周期、 endcycle处理截止数据周期、 curcycle当前处理数据周期) Bl的状态包括=(bstate状态、succnum成功运行次数、 succtotal成功运行总历时、 succavg成功运行平均历时} 4周期闭环的记忆式调度方法-某个周期闭环数据集A, A的起始抽取时间是O),每隔TO分钟抽取一次,则 数据集A的抽取时间集=e、 endcycle等由调度引擎记忆 下来的关键信息传给被调程序,被调程序执行完成之后,由调度引擎记录并保存更新后 的调度信息。由于调度引擎针对实时ETL的特点进行了记忆式、有状态的调度,所以使 得被调程序可以更关注于自己的业务逻辑。实施例之一国内某电信公司实施ETL抽取,抽取的范围包括用户资料和话单数据, 用户资料15分钟抽取一次,属于周期闭环的抽取模式;话单数据一天抽取一次,属于 固定周期的抽取模式。>首先部署调度引擎,并配置调度流程、任务; >调度引擎根据配置周期性的执行以下任务4 ETL调度引擎每隔15分钟把lscycle、 curcycle、 cndcycle传给被调程序进行业务逻辑的处理,同时由调度引擎记录相关的调度信息。 4 ETL调度引擎每隔'天把lscycle、 curcycle、 endcycle传给被调程序进行 业务逻辑的处理,同时由调度引擎记录相关的调度信息。权利要求1、用于实时数据ETL系统的记忆式调度方法,其特征是ETL调度主程序按照预先设定的顺序执行某个任务,执行的时候把lscycle最近成功数据周期、curcycle当前处理数据周期、endcycle处理截止数据周期等由调度引擎记忆下来的关键信息传给被调程序,被调程序执行完成之后,由调度引擎记录并保存更新后的调度信息;在数据重抽中,通过记忆式调度方法自动对其中的某些任务和某些周期进行自动重抽; id="icf0001" file="A2009100281040002C1.tif" wi="2" he="3" top= "71" left = "28" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>ETL数据分类根据ETL数据的变化特点,分成固定周期数据和周期闭环数据 id="icf0002" file="A2009100281040002C2.tif" wi="3" he="3" top= "84" left = "35" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>固定周期是指在分析周期内数据是静止的数据; id="icf0003" file="A2009100281040002C3.tif" wi="3" he="3" top= "91" left = "35" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>周期闭环指抽取特定周期内数据是变化的、取最后一次变化的记录;该周期是不固定的,其时间范围为上次执行抽取的时间到本次执行抽取发生的时间; id="icf0004" file="A2009100281040002C4.tif" wi="2" he="3" top= "112" left = "28" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>记忆式调度方法 id="icf0005" file="A2009100281040002C5.tif" wi="3" he="3" top= "118" left = "35" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>假定调度流程Wf1,任务B1∈wf1,则Wf1的状态={wstate状态、lscycle最近成功数据周期、endcycle处理截止数据周期、curcycle当前本文档来自技高网...
【技术保护点】
用于实时数据ETL系统的记忆式调度方法,其特征是: ETL调度主程序按照预先设定的顺序执行某个任务,执行的时候把lscycle最近成功数据周期、curcycle当前处理数据周期、endcycle处理截止数据周期等由调度引擎记忆下来的关 键信息传给被调程序,被调程序执行完成之后,由调度引擎记录并保存更新后的调度信息;在数据重抽中,通过记忆式调度方法自动对其中的某些任务和某些周期进行自动重抽; *ETL数据分类: 根据ETL数据的变化特点,分成固定周期数据和周期闭 环数据: *固定周期:是指在分析周期内数据是静止的数据; *周期闭环:指抽取特定周期内数据是变化的、取最后一次变化的记录;该周期是不固定的,其时间范围为上次执行抽取的时间到本次执行抽取发生的时间; *记忆式调度方法: *假定调度流程Wf1,任务B1∈wf1,则 Wf1的状态={wstate状态、 lscycle最近成功数据周期、 endcycle处理截止数据周期、 curcycle当前处理数据周期} B1的状态包括={bs tate状态、 succnum成功运行次数、 succtotal成功运行总历时、 succavg成功运行平均历时} *周期闭环的记忆式调度方法: 某个周期闭环数据集A,A的起始抽取时间是Φ,每隔T0分钟抽取一次 ,则数据集A的抽取时间集=[Φ,Φ1)+[Φ1,Φ2)+[Φ2,Φ3)+…+[Φn-1,Φn)+… 其中,“[Φn”表示≥Φn,“Φn+1)”表示<Φn+1 Φn表示每隔T0分钟去抽取数据集A的当时的时间点,一般情况下等于Φ+T 0*n(n从1开始,表示从Φ开始之后的第n个T0分钟); 因此,对于周期闭环当中的某个[Φn,Φn+1): lscycle=[Φn-2,Φn-1) curcycle=[Φn-1,Φn) endcycle=[Φn-1, Φn) 这几个关键性的信息被调度引擎记忆下来,从而不需要被调程序进行处理,由调度引擎自动告诉被调程序执行以下时间序列的任务: [Φn-1,Φn) 同时,wstate、bstate、succnum、succtotal、suc cavg也被调度引擎记忆下来; *固定周期的记忆式调度 对于固定周期的数据ETL调度,假定数据集B,B的起始抽取周期是∏,每隔...
【技术特征摘要】
【专利技术属性】
技术研发人员:常维,余志刚,刘国祥,卞国震,张峰,刘树权,沈鹏程,兰清,
申请(专利权)人:南京联创科技股份有限公司,
类型:发明
国别省市:84[中国|南京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。