处理用于数据库修改的数据的方法与系统技术方案

技术编号:9410739 阅读:115 留言:0更新日期:2013-12-05 07:41
本发明专利技术涉及处理用于数据库修改的数据的方法与系统,包括:接收数据集;执行包括多个连续作业的处理链,以将所述数据集变换成变换的数据;关于所述变换的数据来修改生成数据库。并且还包括设定目标处理时间以便执行连续作业的步骤,在第一个作业启动之前,应用初始配置作为当前配置,所述当前配置为连续作业中的每一个定义并行化等级,在第一个作业之后的至少另一个作业启动之前,当实际的剩余处理时间在可以接受的剩余处理时间范围之外时,应用更改过的配置作为新的当前配置,所述新的当前配置为处理链中剩余的每个作业来定义更改过的并行化等级,所述更改过的配置与当前配置不同。本发明专利技术应用于将大量数据整合到数据库中。

【技术实现步骤摘要】
【国外来华专利技术】处理用于数据库修改的数据的方法与系统
本专利技术涉及数据处理领域,尤其是当大量及数量可变的数据需要在数据库中变换和加载的时候。
技术介绍
由于数据库在70年代引入并开始大量采用,因此数据库已经在各个领域当中大量扩散,这些领域包括工程、科学、商业和商务应用。它们的尺寸可以在从由单个个人在个人计算机上使用的小型数据库(例如用来跟踪个人财务),到由各种机构、公司和商业组织设立的用于支持其活动的大型和超大型的数据库的范围内变化。在完全互连的世界当中,那些大型数据库通常(即使不是总是这样)可以让众多位于远处的终端用户访问,来查询可以通过数据库获得的任何信息。在航空业内,这种超大型数据库的例子是保留航空公司票价连同约束其使用的规则的数据库。票价数据库主要是由一些全球性的全球分销系统(GDS)设立的,这些GDS向旅游业的从业者(包括传统的旅行社和各种各样的所有其它在线旅行服务提供方),提供旅行服务。那些大型数据库通常必须以一天24小时/一周7天的模式运行,以便维持从不休止的全球性业务,同时它们还需要持续地获取由数以百计的大大小小的航空公司发布的新票价。每天都要接收大量要整合到数据库中的航空票价数据。所接收到的数据在文件个数、量(从0条到数百万条记录)和功能内容(票价、规则、路线…)方面是变化的和不可预测的,而且它们不是以与其提供方相对应的方式来归档的。当前的趋势是增加每次发送的量和频率两者。例如,ATPCo(代表航空运价发布公司,历史票价提供方)宣布了他们在2010年每小时进行发送,而不是像以前那样一天发送10次,这比其之前的发送频率的两倍还要多。票价定义通常由几个组成部分组成,包括票价(具有票价数额的一般数据)、规则(其规定可适用于该票价的标准)和路线(一般是一次旅途从起点到目的地可能经过的中间城市的有序列表)。新票价定义通常由提供方以文件的形式提供,在稍后将存储在数据库中的新票价可以被生成系统获得的加载阶段之前,该文件需要由计算机系统进行处理,举例来说,该生成系统是计算机化的预定系统的一部分,所述预定系统从返回关于旅行解决方案的信息的角度,处理例如旅行者或旅行社的终端用户的请求。用于处理将在数据库中加载的新票价定义的当前技术涉及固定的计算机资源。这种资源通常过大,以尽可能经常地考虑在旅游公司(一般是航空公司)和计算机服务提供商(例如GDS)之间的服务等级协议(SLA)中所设定的最大处理时间;但是在票价归档的峰值时段的情况下,甚至不能满足SLA;于是发出警告,需要立即采取行动。因此,需要改进的技术来处理要在数据库中加载的数据,以便优化在每种情况下的资源消耗,甚至是待处理的数据量大比例地变化的情况。
技术实现思路
根据本专利技术的实施例,克服了上述及其它问题中的至少一些,而且还实现了其它的优点。在其一方面,示例性实施例提供了处理用于数据库修改的数据的方法与系统,包括:接收数据集;执行包括多个连续作业的处理链,以将所述数据集变换成变换的数据;关于所述变换的数据来修改生成数据库,并且还包括以下步骤:设定目标处理时间,以便执行连续的作业,应用初始配置作为当前配置,所述当前配置为连续作业中的每一个定义并行化等级,在第一个作业之后的至少另一个作业启动之前,当实际的剩余处理时间在可以接受的剩余处理时间范围之外时,应用更改过的配置作为新的当前配置,所述新的当前配置为处理链中剩余的每个作业定义更改过的并行化等级,所述更改过的配置与当前配置不同。本专利技术的一个目标是当检测到处理链的时间损失(leeway)时采取必需的动作。在本专利技术的另一方面,示例性实施例提供了处理用于数据库修改的数据的系统,包括配置成执行所述方法的装置。在另一方面,示例性实施例提供了存储在非暂时性计算机可读存储器介质中并且包括适于执行所述方法的指令的计算机程序产品。附图说明现在将参考附图具体描述本专利技术,以便示出优选实施例。图1示出了一种计算机化的体系结构,其中可以在优选实施例中实现本专利技术。图2示出了用于启动作业并且将计算资源分配给作业的步骤的一种实施例。图3示出了可以在本专利技术的某些方面中处理的处理流程的一种实施例。图4是可以在本专利技术的某些实施例中处理的并行流程的示意图。图5绘出了在其中解决作业的依赖性的本专利技术的另一方面。图6a至6i是说明用于针对作业的并行化等级定义配置的优选实施例的几个表格。具体实施方式本专利技术可以利用计算机硬件与软件的方式来实现。它可以包括发生数据处理的服务器侧。所述服务器侧(其可以包括单个或多个计算机设备)优选地经由网络资源与至少一个远程设备通信,所述远端设备例如(但不限于)管理员的台式计算机和/或数据提供方设备和/或任何其它用户设备。下面提供了几个术语的定义:-“作业”,在这里指至少一个由计算机装置执行的数据处理步骤的组。为了说明,作业可以涉及或者包括:格式转换、语法检查、文件提取和利用从文件提取出的数据来进行的表格更新、...-“数据集”,可以是将在同一处理链中处理的数据实体的任意组。在票价处理的情况下,每个票价定义一般都分成几个组成部分(在这里称为数据实体),这些组成部分的每一个都可以(非排他地)是票价、票价规则或路线。票价对应于票价定义的一般数据,包括其名字和货币值。票价规则通常被称为记录(记录1、记录2…),而且每个都专用于可适用于票价的某种标准的规定(季节性、旅行者分类、特殊服务…)。通常不在单个文件中提供新票价定义的所有数据。实际上,几个新票价定义常常同时提供而且它们的数据跨多个文件分布,所述多个文件的每一个都专用于数据实体的一个分类或特定分类(例如记录1或者记录3或者票价…的分类)。在这种应用中,“数据集”一般是对于多个票价定义而同时接收到(通常是在同一文件中)的同一类的数据实体组,-“处理链”,在这里指为给定数据实体而连续执行的多个作业;处理链将通常涉及由多个数据实体组成的数据集。在这种情况下,这些作业对于至少一个数据实体是连续的,但是作业不是总需要在对于至少一些数据实体而开始下一个作业之前,对于该数据集的所有实体是已完成的,-“非暂时性计算机可读存储器介质”,在这里指用于存储程序指令的任何存储装置,而且包括所有种类的存储器,例如随机存取存储器或者只读存储器等,-“数据库”,在这里包括适于大量数据的存储和检索的任何数据储存库;“生成数据库”在这里指可以由生成设施访问的数据库,该生成设施例如旨在对终端用户设备的搜索请求作出应答的搜索引擎。根据优选实施例对应于本专利技术各方面的某些特征将在下面介绍,并且随后将具体描述:-在第一个作业之后所有其它作业启动之前,当实际的剩余处理时间在可以接受的剩余处理时间范围之外时,应用更改过的配置作为新的当前配置,该新的当前配置为处理链中剩余的每个作业定义更改过的并行化等级,所述更改过的配置与当前配置不同;-可以接受的剩余处理时间范围优选地定义为低于和/或超过目标处理时间的既定比例的时间范围;-初始配置和更改过的配置基于包括历史数据和约束数据的信息来确定;-历史数据包括关于用于与所述数据集相同类型的数据集的处理链的先前执行的信息;-对于几个数据量的范围创建配置表格的步骤包括配置定义区,该配置定义区包括规定要应用于每个作业的多个并行实例的至少一个配置定义;-当实际的剩余处理时间低于可以接受的剩余处理时间范围本文档来自技高网
...
处理用于数据库修改的数据的方法与系统

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2011.06.28 EP 11305822.6;2011.07.08 US 13/178,9571.一种处理用于数据库修改的数据的方法,包括:接收第一数据集,执行包括多个连续作业的处理链,以便将所述第一数据集变换成变换的数据,关于所述变换的数据修改生成数据库,设定目标处理时间以便执行连续作业,在启动连续作业之前,应用为连续作业中的每一个定义第一数量的并行实例的第一配置,和如果在处理链中未完成的连续作业的实际的剩余处理时间在与目标处理时间相关的可接受的剩余处理时间范围之外时,应用第二配置,所述第二配置为处理链中未完成的连续作业中的每一个定义第二数量的并行实例,所述第二配置中用于处理链中未完成的连续作业中的至少一个的第二数量的并行实例与第一配置中的第一数量的并行实例不同,其中所述第一配置与所述第二配置基于包括历史数据和约束数据的信息来确定,并且所述历史数据包括关于与所述第一数据集相同类型的数据集的处理链的先前执行的信息。2.如权利要求1所述的方法,其中所述可接受的剩余处理时间范围被定义为低于目标处理时间的既定比例的时间范围。3.如权利要求1所述的方法,包括创建配置表的步骤,所述配置表对于若干数据量范围包括配置定义区,所述配置定义区包括每一个都规定要应用于每个作业的多个并行实例的多个配置;其中所述第一配置在所述多个配置中。4.如权利要求1所述的方法,其中如果实际的剩余处理时间低于可接受的剩余处理时间范围时,应用第二配置,并且要应用到剩余作业的第二数量的并行实例高于要应用到剩余作业的第一数量的并行实例。5.如权利要求3所述的方法,其中如果实际的剩余处理时间高于可接受的剩余处理时间范围时,应用第二配置,并且要应用到剩余作业的第二数量的并行实例低于要应用到剩余作业的第一数量的并行实例。6.如权利要求1所述的方法,包括:-接收至少另一个数据集,-检测所述另一个数据集的处理链的至少一个依附作业,所述依附作业依赖于所述数据集的处理链的至少一个给定作业,-在完成所述一个给定作业之后调度所述依附作业的启动。7.如权利要求1所述的方法,其中第一数据集包括每一个都描述旅行产品的票价定义的一个组成部分的数据实体。8.如权利要求7所述的方法,其中所...

【专利技术属性】
技术研发人员:R·朱立恩V·莫罗M·贝克尔
申请(专利权)人:阿玛得斯两合公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1