本发明专利技术公开了一种数据分级存储方法、装置及系统。其中该方法包括:从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;根据所述数据表的热度对所述数据表进行分级存储。本发明专利技术通过根据数据表在ETL调度表中获的使用频率及在缓冲池中的出现频率计算数据表的热度,使得对数据表的评价更加准确,分级存储也更精确,符合数据表的实际情况,提高系统性能。不同于传统的按时间片进行数据分割,同一数据表中的数据跨多种型号存储,按数据表使热度差异的情况在各种性能存储上数据,减少了每日数据大量迁移的工作量,提升系统性能的使用率。
【技术实现步骤摘要】
本专利技术涉及一种业务支撑技术,尤其涉及一种数据分级存储方法、装置及系统。
技术介绍
分级存储是当今数据仓库项目中被普遍采用的存储高效利用策略,它的主要意图在于:在不降低效率的同时,兼顾能耗的投入及产出的消费比,是最具优秀性价比的存储策略。分级存储的提出是基于一种高效率、低成本的思想,追求的是最高的性价比投入产出。在经营分析系统中,引入分级存储技术的优点在于:1、降低总体存储成本:不经常访问的数据驻留在较低成本的存储设备中,可综合发挥高性能存储设备的性能优势和低价格存储设备的成本优势;2、优化性能:高频访问数据和有快速访问响应要求的数据存入内存存储设备中,可改善系统性能。3、改善数据可用性:将原来部分归档数据存入低性能存储设备中,可保证在线数据的可用性。对于分级存储的落地方案,在数据仓库系统建设中并不是一个固定的解决方案,各局点的分级存储策略在当前需要解决的问题、实施方法、技术方案上各有差异。分级存储在海量级数据的经营分析系统中大致存在如下几种解决方案:一、多实例化,实例间数据迁移购置较廉价的硬件设备搭建一个新的应用集群,创新新的实例。将在线数据存放在当前高性能应用集群上,近线数据从高性能存储导入低性能存储。该方案的优点是实施简单,对原先系统的影响也最小,但缺点也最多:不同实例之间,海量数据的迁移本身就是一种巨大的开销,这个问题由于DB2数据迁移工具速度缓慢变得相当突出,且随着数据量的增长,不同实例间的数据导入、导出对系统的压力日益增大;不同实例之间的数据无法同时共享访问,在应用上无法进行关联访问,历史比对分析无法实现,不同实例之间的数据其实被割裂了 ;多个实例之间会带来数据冗余;实例数量增加,维护成本上升。目前大都认为多实例化是分级存储的一种低效率的解决方法。二、同实例内数据按时间片分割,按时间片进行迁移该方案是将不同性能存储并入到同一个数据库实例中,由于数据表本身可以跨表空间,同一张数据表的数据存放按照时间片进行跨表空间分割。近几个月的数据放入高性能存储,过期数据放入低性能存储,每日将高性能存储的数据迁移至低性能存储上。该方案最大的问题是不同类型间的数据迁移带来巨大的I/o开销,快速增加的事务日志开销、独占锁对系统的日常生产都有很大的影响,需要兼顾诸多迁移工程和日常任务,增加了系统设计的复杂度;再次,将哪些数据归为在线数据、近线数据,按时间维度一刀切的做法是过于主观。三、同实例内的按业务进行分布这种方案其实是对上述方案的一种改进,比较相似。基于对数据仓库中数据结构的了解,按业务将数据划分为若干主题,每种业务主题的数据定义为高使用频率和低利用频率。高使用频率的数据存放高效存储,低使用频率存放低性能存储。该方案的基本思想是依经验将数据按热度进行分类,按热度选择存储类型,以匹配数据热度与之对应的存储。该方案在数据热度的评估上缺乏客观的依据,如何评估数据热度,依据的是业务经验和对系统的熟悉程度,这虽然在某些情况下是正确的,但实际上缺少定量、可供计算的依据,对结果的执行情况往往也缺少评价的依据。现有技术中,分级存储在数据仓库项目实施中存在的技术缺陷有以下几点:(I)牺牲硬件效率、带来数据冗余;(2)增加系统的复杂度,带来巨大的数据迁移,进而浪费整个系统的系统;(3)全凭业务经验和主观判断来进行决断,对于分级存储实施的结果也缺少客观的测算依据。
技术实现思路
本专利技术的目的在于,提供一种数据分级存储方法、装置及系统,以客观的测算为依据,分级存储更加准确,提高系统的性能。为实现上述目的,根据本专利技术的一个方面,提供一种数据表分级存储方法,包括:从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;根据所述数据表的热度对所述数据表进行分级存储。优选地,该方法还包括:获取所述数据表的更新频率;进一步根据所述数据表的更新频率对所述数据进行分级存储。更优地,所述数据表中包含多个周期的数据,该方法还包括:获取数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值;进一步根据所述数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值对所述数据表进行分级存储。具体地,所述根据所述数据表的使用频率和出现频率计算所述数据表的热度包括:根据预设的权重对所述数据表的使用频率和出现频率进行加权计算,得到所述数据表的热度。更优地,该方法还包括:根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值;根据所述数据表的迁移值将所述数据表在高性能存储装置和低性能存储装置之间迁移。具体地,所述根据所述数据表的迁移值将所述数据表迁移至高性能存储装置或低性能存储装置包括:将所述数据表按照迁移值进行排序,根据所述高性能存储装置和低性能存储装置的存储容量比值,选择需要迁移到高性能存储装置或低性能存储装置的数据表。为实现上述目的,根据本专利技术的另一个方面,提供一种数据表评价装置,其特征在于,包括:第一获取模块,用于从ETL调度表中获取数据表的使用频率;第二获取模块,用于从缓冲池中获取所述数据表的出现频率;热度计算模块,用于根据所述数据表的使用频率和出现频率计算所述数据表的热度。该装置还包括:第三获取模块,用于获取所述数据表的更新频率;和/或第四获取模块,用于获取数据表的空间占用值;和/或第五获取模块,用于获取所述数据表中当前周期数据的空间占用值;迁移值计算模块,用于根据预设的权值对所述数据表的热度、数据表的更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值。为实现上述目的,根据本专利技术的另一个方面,提供一种数据分级存储系统,其特征在于,包括:高性能存储装置、低性能存储装置、数据表评价装置和存储控制装置,其中,所述数据表评价装置,用于从ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;所述存储控制装置,用于根据所述数据表的热度选择需要迁移到高性能存储装置和低性能存储装置中的数据表;所述高性能存储装置和低性能存储装置,用于存储数据表。其中,所述数据表评价装置,用于获取所述数据表的更新频率、所述数据表的空间占用值和/或所述数据表中当前周期数据的空间占用值;根据预设的权值对所述数据表的热度、更新频率、数据表空间占用值和数据表中当前周期数据的空间占用值中至少两个参数进行加权计算,得到所述数据表的迁移值;所述存储控制装置,用于根据所述迁移值选择需要迁移到高性能存储装置和低性能存储装置中的数据表。本专利技术的数据分级存储方法、装置及系统,通过根据数据表在ETL调度表中获的使用频率及在缓冲池中的出现频率计算数据表的热度,使得对数据表的评价更加准确,分级存储也更精确,符合数据表的实际情况,提高系统性能。不同于传统的按时间片进行数据分割,同一数据表中的数据跨多种型号存储,按数据表使热度差异的情况在各种性能存储上数据,减少了每日数据大量迁移的工作量,提升系统性能的使用率。另外,进一步根据数据表更新频率、数据表的空间占用值和数据表中每个周期数据的空间占用值等参数计算数据表本文档来自技高网...
【技术保护点】
一种数据表分级存储方法,其特征在于,包括:从抽取转换加载ETL调度表中获取数据表的使用频率,从缓冲池中获取所述数据表的出现频率;根据所述数据表的使用频率和出现频率计算所述数据表的热度;根据所述数据表的热度对所述数据表进行分级存储。
【技术特征摘要】
【专利技术属性】
技术研发人员:易剑光,霍绍博,蒋瑞文,曹健,王海通,王娜,姚春芬,岳瑞,杨洁,
申请(专利权)人:中国移动通信集团河北有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。