本公开涉及零代码获取最佳维度关联的方法和系统。自动进行表关联的方法包括:基于数据仓库中的全部维度及其之间的相似度,为所述数据仓库建立维度关联模型;以及基于用户输入,使用所述维度关联模型输出所述数据仓库中的关联数据表。的关联数据表。的关联数据表。
【技术实现步骤摘要】
零代码获取最佳维度关联的方法和系统
[0001]本公开总体上涉及大数据领域,更具体地涉及零代码获取最佳维度关联的方法和系统。
技术介绍
[0002]在结构化数据应用过程中都需要进行表关联,表关联都不可避免的需要维度关联操作。例如,现有全国各地区2019年的汽车产量表,为统计2019年汽车行业各省份的总产量,需要在数仓中,查找出“省份”维表。通过关联全国各地区的产量表和全国省份信息表(维度表)计算获得各省份的总产量模型。
[0003]目前在表关联过程中,维度及关联路径的确定,基本上都是基于业务模型调研从而确定关联维度。由于数年的累积,数仓中的模型非常的多,少的集市可达到上千上万个模型,多的有几十万甚至几百万个模型,BI建模过程中超过一半的时间花费在查找关联维度上。与此同时,由于数仓维护及建模人员的流动问题,数仓中有些表的字段名或其描述出现变动,导致很多时候开发人员无法准确定位到这些维度及维度表。
[0004]因此,现有技术中存在对于针对数据仓库零代码(即,自动地)获取最佳维度关联的技术。
技术实现思路
[0005]在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0006]根据本公开的一个方面,提供一种自动进行表关联的方法,包括:基于数据仓库中的全部维度及其之间的相似度,为所述数据仓库建立维度关联模型;以及基于用户输入,使用所述维度关联模型输出所述数据仓库中的关联数据表。
[0007]根据本公开的另一个方面,提供一种自动进行表关联的电子设备,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器上的指令,以执行以根据本公开的上述方面所述的方法。
[0008]根据本公开的又一个方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。
附图说明
[0009]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0010]参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
[0011]图1示出了根据本公开一个实施例的自动进行表关联的示例过程的流程图;
[0012]图2示出了根据本公开一个实施例的自动进行表关联的另一个示例过程的流程图;
[0013]图3示出了根据本公开一个实施例的表维度的关联路径的示例性示意图;
[0014]图4示出了可以实现根据本公开的实施例的计算设备的示例性配置。
具体实施方式
[0015]参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
[0016]现有国内外的对标产品,例如阿里dataphin、京东easymodel等,需要用户写脚本调研指标、维度对应的来源表,并人为判断最佳维度关联关系表,无法做到全程零代码开发数据模型。而本专利技术正是针对此技术问题,提出一种零代码获取最佳维度关联关系的方法和系统,通过该系统,只需用户输入初始表,根据推荐选择特征和维度,无需调研,BI建模人员零代码便可快速检索出最佳维度关联关系。能够节省大量的人力成本,降低建模难度。
[0017]本专利技术人认识到现有技术中存在的上述问题,提出了本技术方案,以实现(1)不需要用户调研,自动获取全数据仓库的维度及对应的维表信息,(2)全程零代码,用户不需要花费大量时间调研,仅需选择指标和维度便能自动生成最优关联关系。
[0018]通过使用本专利技术,用户只需要输入初始表,根据本专利技术的系统以秒级速度分类得到维度和指标字段,推荐给用户,用户只需要按照业务需求进行勾选,不需要人工判断是字段是维度还是指标,从而避免了人为判断所带来的误差。一般而言,指标是指要分析的对象,诸如销售收入、销售毛利、采购成本、人均产出等数值类型的指标。维度是指看数据的角度,从哪个角度去看这个数据指标,诸如2019年北京地区华为手机的销售量,销售量是要分析的一个指标,维度是指时间维度、地区维度和产品维度。
[0019]具体地,本专利技术人提出了一种自动进行表关联的方法和系统,包括:基于数据仓库中的全部维度及其之间的相似度,为所述数据仓库建立维度关联模型;以及基于用户输入,使用所述维度关联模型输出所述数据仓库中的关联数据表。为了实现零代码获取最佳维度关联,该方法和系统还可以包括以下步骤中的一个或多个:全数据仓库中的维度提取;维度字段名称相似度的度量以及维度字段内容相似度的计算;基于维度相似度构建图计算模型获取关联路径;通过维度粒度判断模块筛选关联维度;最后通过最佳关联路径回归模型输出最佳关联路径。通过本技术方案,只需用户输入初始表,根据推荐选择指标和维度,BI建模人员零代码便可快速检索出最佳维度关联关系。能够节省大量的人力成本,降低建模难度。
[0020]图1示出了根据本公开一个实施例的自动进行表关联的处理100的示意图。
[0021]在步骤101,基于数据仓库中的全部维度及其之间的相似度,为所述数据仓库建立维度关联模型。
[0022]为了获得优选的关联路径,建立维度关联模型的步骤可以包括:从所述数据仓库中提取全部维度,计算所提取的维度的字段名称及对应字段内容的相似度,基于维度的相似度构建图模型以获取所述图模型中维度的关联路径。
[0023]为了获得优选的关联路径,建立维度关联模型的步骤还可以包括:基于不同的维度粒度筛选关联维度,及基于筛选所得的关联维度来获得所述图模型中维度的关联路径。
[0024]在步骤102,基于用户输入,使用所述维度关联模型输出所述数据仓库中的关联数据表。
[0025]所述用户输入包括初始表、用户偏好的关联粒度和用户选择的维度。根据用户输入,本专利技术可以从数据仓库中以用户选择的关联粒度,检索并输出具有关联路径上的各个维度的各个数据表。
[0026]图2示出了根据本公开一个实施例的自动进行表关联的另一个示例过程的流程图。得注意的是,以下描述包括了大量的不必要的细节,本领域技术人员可以根据需要对这些细节进行取舍。
[0027]1、数据采集和处理
[0028]①
采集全数据仓库中的表及元数据、SQL脚本;
[0029]②
解析表结构结合其元数据,提取本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种自动进行表关联的方法,包括:基于数据仓库中的全部维度及其之间的相似度,为所述数据仓库建立维度关联模型;以及基于用户输入,使用所述维度关联模型输出所述数据仓库中的关联数据表。2.根据权利要求1所述的方法,其中建立维度关联模型包括:从所述数据仓库中提取全部维度;计算所提取的维度的字段名称及对应字段内容的相似度;基于维度的相似度构建图模型以获取所述图模型中维度的关联路径。3.根据权利要求2所述的方法,还包括:基于不同的维度粒度筛选关联维度;及基于筛选所得的关联维度...
【专利技术属性】
技术研发人员:郭枝虾,王学敏,梁宝林,孟维业,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。