当前位置: 首页 > 专利查询>暨南大学专利>正文

一种数据仓库优化管理系统技术方案

技术编号:36208721 阅读:21 留言:0更新日期:2023-01-04 12:04
本发明专利技术公开了一种数据仓库优化管理系统,通过在系统中设置数据分析模块、数据仓库构建模块和数据仓库优化模块,对业务系统输入数据的采集、转换和加载载的ETL操作,分布式ETL计算将未处理的大数据及切分为若干个大小相等的小数据集,采用多个计算节点同时计算各个小数据集,能有效的使用多个计算机的运算能力,解决ETL过程耗时长的问题,提高了数据更新速率,通过粗略粒度估算待建的数据仓库数据量级来确定合适的系统数据粒度,根据估算的数据量级规模确定不同的数据粒度策略,根据使用的数据粒度确定表的分割策略,从而有效实现数据仓库的性能优化,提高数据质量且可信度高,将ETL的错误给数据仓库后续数据的处理的风险降到最低。最低。最低。

【技术实现步骤摘要】
一种数据仓库优化管理系统


[0001]本专利技术属于数据仓库
,尤其涉及一种数据仓库优化管理系统。

技术介绍

[0002]互联网的普及使得商业、工业和教育等领域进入了新的发展阶段,但与其相对的也产生了大量的数据,随着移动互联网时代的来临,人们在各种APP上花费的时间也越来越多,因此产生了海量的用户行为数据。数据采集和存储技术的不断进步也是的企业能获取到的数据量不断增大,而传统数据库并不能满足海量数据分析查询的性能需求,因此产生了数据仓库技术,数据仓库具有面向主题、不可更新、数据集成、随时间变化四个主要特点,数据仓库不仅能存储数据,还能对数据进行分析,并对外输出有价值的分析结果。数据仓库本身的数据量及其查询的复杂性,决定了数据仓库的性能是个重要的应用指标,实际应用中,数据仓库的性能主要存在以下问题:数据质量不高,分析结果可信度不高;数据仓库查询响应速度慢;需求的不可预期性导致数据仓库可用性差。因此,有必要对数据仓库性能进行合理优化,以更好实现数据存取和海量数据分析。

技术实现思路

[0003]有鉴于此,本专利技术提供了一种提供系统访问效率、提升数据仓库使用率和增强数据仓库性能的数据仓库优化管理系统,来解决上述存在的技术问题,具体采用以下技术方案来实现。
[0004]本专利技术提供了一种数据仓库优化管理系统,包括:
[0005]数据分析模块,用于对业务系统数据进行响应和整合形成基础数据层、中间数据层和数据集市层,基础数据层将采集到的数据同步到数据仓库中,对结构化数据进行增量或全量同步,对非结构化数据进行结构化处理,并将数据存储到分布式文件系统中,中间数据层用于存放明细事实数据、维表数据和公共指标汇总数据,其中维度数据单独建设得到维表数据,明细数据根据基础数据层的数据加工生成,公共指标汇总数据根据维表数据和明细事实数据加工生成,数据集市层用于存放个性化的统计指标,根据基础数据层和中间数据层的数据加工生成;
[0006]数据仓库构建模块,用于将业务系统中的数据经过抽取、清洗转换加载到数据分析模块得到数据仓库,其中,数据抽取单元确定数据源,数据转换单元对不完整数据、有错误数据和重复数据进行处理,并对数据进行格式、内容上的转换,数据抽取单元和数据转换单元属于数据仓库构建模块;
[0007]数据仓库优化模块,用于粗略估算待建的数据仓库的数据量级以确定系统数据粒度,根据估算的数据量级确定不同数据粒度策略,根据使用的数据粒度确定数据仓库中的表的分割策略得到与各业务数据系统对应的数据仓库关系表。
[0008]作为上述技术方案的进一步改进,对数据仓库数量级进行估算的过程,包括:
[0009]预设在概念模型中表的个数为N,计算每个表i(0≤i≤N的大小S
i
和其主关键字大
小K
i
,再估算每张表i在单位时间内最大记录数D
max
和最小记录数D
min
,并通过如下表达式计算出数据仓库的粗略数据量范围:
[0010]其中T表示数据存在周期,数据仓库中存放综合性数据的周期为5~10年,α是估计因数据索引和冗余而导致数据规模增大的冗余因子,α取值为1.2~2,单位时间内,表i的最大记录数可根据行业、机构具体数据情况进行估算。
[0011]作为上述技术方案的进一步改进,根据估算的数据量级确定不同数据粒度策略,包括:
[0012]若数据规模小于或等于预设阈值,则使用单一的数据粒度直接进行细节数据存储,周期性地在存储的细节数据上进行数据综合;
[0013]若数据规模大于预设阈值时,则使用双重的粒度,数据仓库保留近期的细节数据,到达行业、机构的数据保留周期时,导出最大时间差的数据到磁盘,以优化数据仓库的存储空间。
[0014]作为上述技术方案的进一步改进,表的分割策略按照时间进行表的分割,在每张表上增加合适的时间字段,将表按确定的数据粒度和分割策略的进行调整或定义新表。
[0015]作为上述技术方案的进一步改进,数据抽取单元的抽取方式包括数据的全量抽取和增量抽取,全量抽取为在数据仓库初建立完成时,业务系统中已存在数据,将业务系统中的数据全部提取到构建好的数据仓库中,以保证数据仓库中的数据是完整的;增量抽取为若数据仓库中已存在部分业务系统中的数据,将数据仓库中没有的部分数据抽取,记录上次抽取的上限,在业务系统中具有插入记录的时间和更新时间,利用该数据记录或记录自增主键进行记录。
[0016]作为上述技术方案的进一步改进,数据分析模块采用计算业务概念的相似度并判定相似度大于预设相似度时,则进行数据融合,并将业务概念的关系也进行融合,业务概念相似度计算的过程包括:
[0017]将业务概念进行分词,分词后进行句法分析的词性标注,结合词料库的词向量模型计算文本相似度;
[0018]使用优化训练模型将单词表达为相应的矢量形式,通过构建的单词矢量空间中计算矢量角度的余弦值来计算单词的相似度,其中在语义注释后的词料库中,带注释的业务概念包含多个词性,词性为短语时直接计算相似度,词性为长文本时将带标签的业务概念转换为修饰词加中心词的形式,将长文本之间的相似度转换为两个中心词与两个修饰短语之间的相似度。
[0019]作为上述技术方案的进一步改进,在计算文本的相似度时,以中心词为核心并使用修饰词组作为参考,预设标注的文本T,使用H表示它的中心词,使用M(T)={m1,m2...m
n
},则标注后的业务概念可用二元组的表达式为(H,M(T)),通过β值在整个计算中调整中心词相似度的权重;
[0020]计算文本T1和T2的相似度的表达式为Sim(T1,T2)=Sim(H1,H2)*[β+(1

β)*Sim(M(T1),M(T2))],其中H1和H2是T1和T2的中心词,M(T1)和M(T2)是T1和T2的修饰词,Sim(H1,H2)的计算是通过优化训练模型计算得到,β表示中心词相似度的权重。
[0021]作为上述技术方案的进一步改进,在计算修饰短语的相似度时,若两个长文本存在一个修饰语,则类似于中心词相似度的计算,即通过单词向量角度的预先估算相似度;
[0022]若两个长文本中存在多个修饰语,结合加权该短语元素之间的向地性,预设M(T1)有一个词和M(T2)有J个词,则构建表达式为M(T1)和M(T2)之间的相似度可通过可通过若I>J,则I/J修改为J/I。
[0023]作为上述技术方案的进一步改进,数据仓库优化模块包括数据加载单元,数据加载单元的执行过程包括:
[0024]创建原始数据仓库表的第一临时表,第一临时表的内容为空且没有主键外键,根据第一临时表对数据进行持续集成,执行一个打包例程,该例程将使用临时表中的记录更新原始数据仓库模式表,并重新创建没有内容的第一临时表以重建原始表的索引。
[0025]作为上述技术方案的进一步改进,数据仓库优化模块包括数据更新单元,数据更新单元的执行过程包括:
[0026本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据仓库优化管理系统,其特征在于,包括:数据分析模块,用于对业务系统数据进行响应和整合形成基础数据层、中间数据层和数据集市层,基础数据层将采集到的数据同步到数据仓库中,对结构化数据进行增量或全量同步,对非结构化数据进行结构化处理,并将数据存储到分布式文件系统中,中间数据层用于存放明细事实数据、维表数据和公共指标汇总数据,其中维度数据单独建设得到维表数据,明细数据根据基础数据层的数据加工生成,公共指标汇总数据根据维表数据和明细事实数据加工生成,数据集市层用于存放个性化的统计指标,根据基础数据层和中间数据层的数据加工生成;数据仓库构建模块,用于将业务系统中的数据经过抽取、清洗转换加载到数据分析模块得到数据仓库,其中,数据抽取单元确定数据源,数据转换单元对不完整数据、有错误数据和重复数据进行处理,并对数据进行格式、内容上的转换,数据抽取单元和数据转换单元属于数据仓库构建模块;数据仓库优化模块,用于粗略估算待建的数据仓库的数据量级以确定系统数据粒度,根据估算的数据量级确定不同数据粒度策略,根据使用的数据粒度确定数据仓库中的表的分割策略得到与各业务数据系统对应的数据仓库关系表。2.根据权利要求1所述的数据仓库优化管理系统,其特征在于,对数据仓库数量级进行估算的过程,包括:预设在概念模型中表的个数为N,计算每个表i(0≤i≤N)的大小S
i
和其主关键字大小K
i
,再估算每张表i在单位时间内最大记录数D
max
和最小记录数D
min
,并通过如下表达式计算出数据仓库的粗略数据量范围:其中T表示数据存在周期,数据仓库中存放综合性数据的周期为5~10年,α是估计因数据索引和冗余而导致数据规模增大的冗余因子,α取值为1.2~2,单位时间内,表i的最大记录数可根据行业、机构具体数据情况进行估算。3.根据权利要求1所述的数据仓库优化管理系统,其特征在于,根据估算的数据量级确定不同数据粒度策略,包括:若数据规模小于或等于预设阈值,则使用单一的数据粒度直接进行细节数据存储,周期性地在存储的细节数据上进行数据综合;若数据规模大于预设阈值时,则使用双重的粒度,数据仓库保留近期的细节数据,到达行业、机构的数据保留周期时,导出最大时间差的数据到磁盘,以优化数据仓库的存储空间。4.根据权利要求3所述的数据仓库优化管理系统,其特征在于,表的分割策略按照时间进行表的分割,在每张表上增加合适的时间字段,将表按确定的数据粒度和分割策略的进行调整或定义新表。5.根据权利要求1所述的数据仓库优化管理系统,其特征在于,数据抽取单元的抽取方式包括数据的全量抽取和增量抽取,全量抽取为在数据仓库初建立完成时,业务系统中已存在数据,将业务系统中的数据全部提取到构建好的数据仓库中,以保证数据仓库中的数据是完整的;增量抽取为若数据仓库中已存在部分业务系统中的数据,将数据仓库中没有
的部分数据抽取,...

【专利技术属性】
技术研发人员:徐慧倩潘定
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1