一种数据仓库模型优化方法、装置、设备及存储介质制造方法及图纸

技术编号:37181674 阅读:12 留言:0更新日期:2023-04-20 22:47
本发明专利技术涉及数据仓库模型优化方法、装置、设备及存储介质,属于数据处理技术领域。本发明专利技术包括:获取数据仓库模型中所有指标的文本数据,所述文本数据包括表和字段;对所述文本数据进行特征提取,得到相应的文本特征;对所述文本特征进行解析,并根据解析结果,对数据仓库模型中的指标进行热度标签标注;根据标注的热度标签,将所述数据仓库模型中无效或低频访问的指标进行裁剪。通过本发明专利技术,有助于解决现有对数据仓库模型的优化技术中,主要是依靠人工通过查看调度平台中的代码对指标逻辑进行梳理,并通过人工对各类指标的使用情况进行评估,造成的大量时间和人力资源的浪费的问题。造成的大量时间和人力资源的浪费的问题。造成的大量时间和人力资源的浪费的问题。

【技术实现步骤摘要】
一种数据仓库模型优化方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,具体涉及数据仓库模型优化方法、装置、设备及存储介质。

技术介绍

[0002]随着快递行业的高速发展,业务领域不断拓展,各类数据都呈现几何级曲线增长。早期为了迅速响应业务、分析、应用等各方面需求而采取的“烟囱式”开发方式,将各类源系统数据同步到数据仓库,并创建了很多模型,目前大数据平台存储着上万张表,无论是计算还是存储都消耗着巨大的资源。
[0003]早期的大数据平台受限于计算引擎数据处理能力,从基础表到模型再到应用的血缘关系只能建立在调度层级,而无法渗透到指标层级,不能有效评估各类指标的使用情况,进而无法对指标进行裁剪,导致指标冗余,大量的废弃表和字段仍然存储在数据仓库模型中,造成计算资源与存储资源的浪费。
[0004]现有对数据仓库模型的优化技术中,主要是依靠人工通过查看调度平台中的代码对指标逻辑进行梳理,并通过人工对各类指标的使用情况进行评估,造成了大量时间和人力资源的浪费。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种数据仓库模型优化方法、装置、设备及存储介质,以解决现有对数据仓库模型的优化技术中,主要是依靠人工通过查看调度平台中的代码对指标逻辑进行梳理,并通过人工对各类指标的使用情况进行评估,造成的大量时间和人力资源的浪费的问题。
[0006]根据本专利技术实施例的第一方面,提供一种数据仓库模型优化方法,包括:
[0007]获取数据仓库模型中所有指标的文本数据,所述文本数据包括表和字段;
[0008]对所述文本数据进行特征提取,得到相应的文本特征;
[0009]对所述文本特征进行解析,并根据解析结果,对数据仓库模型中的指标进行热度标签标注;
[0010]根据标注的热度标签,将所述数据仓库模型中无效或低频访问的指标进行裁剪。
[0011]优选地,所述对所述文本数据进行特征提取,包括:
[0012]对表和字段相关的调度平台中的SQL程序文本、查询平台中的SQL日志文本和元数据管理平台中的用户行为数据进行特征提取,得到表和字段相应的文本特征。
[0013]优选地,对所述文本特征进行解析,包括:
[0014]对所述表的文本特征进行解析,得到所述表的解析结果;
[0015]对所述字段的文本特征进行解析,得到所述字段的解析结果。
[0016]优选地,对所述表的文本特征进行解析,包括:
[0017]根据所述调度平台中的SQL程序文本的文本特征,通过自然语言处理模型对所述
数据仓库模型中的表的调用情况进行解析,得到对应的调用解析结果;
[0018]根据所述查询平台中的SQL日志文本的文本特征,通过自然语言处理模型对所述数据仓库模型中的表的查询情况进行解析,得到对应的查询解析结果;
[0019]根据所述元数据管理平台中的用户行为数据的文本特征,对所述数据仓库模型中的表的访问情况进行解析,得到对应的访问解析结果;
[0020]对所述对应的调用解析结果、查询解析结果、访问解析结果进行加权计算,得到所述表的解析结果。
[0021]优选地,对所述字段的文本特征进行解析,包括:
[0022]根据所述数据仓库模型中的表的调用情况,对各字段间的血缘关系进行分析,得到所述数据仓库模型中的字段的调用情况;
[0023]通过自然语言处理模型对所述数据仓库模型中的字段的调用情况进行解析,得到对应的调用解析结果;
[0024]根据所述查询平台中的SQL日志文本的文本特征,对所述数据仓库模型中的字段的查询情况进行解析,得到对应的查询解析结果;
[0025]对所述对应的调用解析结果和查询解析结果进行加权计算,得到所述字段的解析结果。
[0026]优选地,所述根据解析结果,对数据仓库模型中的指标进行热度标签标注,包括:
[0027]根据所述解析结果,对数据仓库模型中的表和字段分别进行分类,得到分类结果;
[0028]根据所述分类结果,为数据仓库模型中的所有表和字段标注热度标签,所述热度标签的标签值包括热、温、常、凉、冷和冰。
[0029]优选地,上述方法,还包括:
[0030]根据表和字段的调用情况,判断数据仓库中是否存在调用该指标的模型,若存在,则不需要创建新的模型;若不存在,则需要创建关于该表和字段的模型。
[0031]根据本专利技术实施例的第二方面,提供一种数据仓库模型优化装置,包括:
[0032]数据获取模块,用于获取数据仓库模型中所有指标的文本数据,所述文本数据包括表和字段;
[0033]特征提取模块,用于对所述文本数据进行特征提取,得到相应的文本特征;
[0034]自然语言处理模型,用于对所述文本特征进行解析,并根据解析结果,对数据仓库模型中的指标进行热度标签标注;
[0035]模型优化模块,用于根据标注的热度标签,将所述数据仓库模型中无效或低频访问的指标进行裁剪。
[0036]根据本专利技术实施例的第三方面,提供一种数据仓库模型优化设备,包括:
[0037]存储器,其上存储有可执行程序;
[0038]处理器,用于执行所述存储器中的所述可执行程序,以实上述任一项所述方法的步骤。
[0039]根据本专利技术实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行上述任一项所述方法的步骤。
[0040]本专利技术的实施例提供的技术方案可以包括以下有益效果:
[0041]通过自然语言处理模型分别对数据仓库模型中的表和字段进行解析,得到对应的解析结果;根据解析结果,对数据仓库模型中的表和字段进行热度标签标注,无需人工操作,能快速评估模型中指标的使用情况,再根据热度标签对数据仓库模型进行优化,裁剪无效或者低频访问的指标,及时释放废弃指标占据的存储空间,节省大量的时间和人力资源。
[0042]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0043]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0044]图1是根据一示例性实施例示出的一种数据仓库模型优化方法的流程图;
[0045]图2是根据一示例性实施例示出的一种数据仓库模型优化装置的框图示意图。
具体实施方式
[0046]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。
[0047]本专利技术提供了一种数据仓库模型优化方法,参见图1,图1是根据一示例性实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据仓库模型优化方法,其特征在于,包括:获取数据仓库模型中所有指标的文本数据,所述文本数据包括表和字段;对所述文本数据进行特征提取,得到相应的文本特征;对所述文本特征进行解析,并根据解析结果,对数据仓库模型中的指标进行热度标签标注;根据标注的热度标签,将所述数据仓库模型中无效或低频访问的指标进行裁剪。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行特征提取,包括:对表和字段相关的调度平台中的SQL程序文本、查询平台中的SQL日志文本和元数据管理平台中的用户行为数据进行特征提取,得到表和字段相应的文本特征。3.根据权利要求2所述的方法,其特征在于,对所述文本特征进行解析,包括:对所述表的文本特征进行解析,得到所述表的解析结果;对所述字段的文本特征进行解析,得到所述字段的解析结果。4.根据权利要求3所述的方法,其特征在于,所述对所述表的文本特征进行解析,包括:根据所述调度平台中的SQL程序文本的文本特征,通过自然语言处理模型对所述数据仓库模型中的表的调用情况进行解析,得到对应的调用解析结果;根据所述查询平台中的SQL日志文本的文本特征,通过自然语言处理模型对所述数据仓库模型中的表的查询情况进行解析,得到对应的查询解析结果;根据所述元数据管理平台中的用户行为数据的文本特征,对所述数据仓库模型中的表的访问情况进行解析,得到对应的访问解析结果;对所述对应的调用解析结果、查询解析结果、访问解析结果进行加权计算,得到所述表的解析结果。5.根据权利要求4所述的方法,其特征在于,所述对所述字段的文本特征进行解析,包括:根据所述数据仓库模型中的表的调用情况,对各字段间的血缘关系进行分析,得到所述数据仓库模型中的字段的调用情况;通过自然语言处理模型对所述数据仓库模...

【专利技术属性】
技术研发人员:郭青松
申请(专利权)人:上海中通吉网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1