System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据处理,具体而言,涉及一种数据中台的数据重构方法。
技术介绍
1、随着数据中台的广泛应用,数据中台之中的各类数据形态不断增加、聚集。从数据湖到数据池,再到各类数据主题,最终形成数据集市;在这一过程中,一份源数据会根据数据来源、数据格式以及数据的使用目的的不同,经过多个不同步骤的预处理和加工。当源数据经多种加工步骤成为主题型数据时,即有了更加明确的业务分析属性,从而拥有了可估量的使用价值;其中,数据主题是指在数据分析和数据挖掘中,对数据进行分类和组织的一种方式;它是根据数据的特征、属性或内容将数据划分为不同的主题;但因数据中台是一种数据存储密集型软件平台,在最终形成可用于分析场景的数据形态时,中间过程数据通常会增加5~10倍,如果不能有效的管理和处理这些数据,平台的资源消耗、运行效能都会大受影响。
2、对于已形成主题的数据,由于与应用层分析任务关系紧密,贸然地进行清理处理非常容易影响上层数据应用的稳定性和可用性。因此,相关研究者已经考虑到需要识别低价值数据主题,但是如何保障数据主题存储不发生信息丢失的情况下,精简低价值数据并对剩余数据进行重构仍然是当下需要解决的问题。
技术实现思路
1、本专利技术的目的在于提供一种数据中台的数据重构方法,以解决如何在保障数据主题存储不发生信息丢失的情况下,实现精简低价值数据并对剩余数据进行重构的技术问题。
2、本专利技术的实施例通过以下技术方案实现:
3、提供一种数据中台的数据重构方法,包括如下步骤
4、判断数据主题模型重构列表中的待处理字段是否为目标商品字典型参数数据;若是,则在待处理字段所属数据主题中的各子表中获取同名字段,并在所属数据主题中创建第一辅助表,将待处理字段在所属数据主题中的各子表中的历史数据做并归去重处理,并按自增顺序存储到所述第一辅助表;
5、若否,则在待处理字段所属数据主题中的各子表中,读取字段数据并将重复的字段标记为重组字段、重复的数据值标记重组数据,再创建第二辅助表以及主键字段,并将待处理字段和所述重组字段作为所述第二辅助表主键字段之后的数据存储字段,再将原子表中存在的待处理字段和所述重组字段的值之间的关系组合数据迁移到所述第二辅助表中,并将原子表中的非首个重组字段和待处理字段从表结构中删除;
6、删除数据中台缓存中涉及所述待处理字段的所有子表的缓存数据;并基于所述第一辅助表和第二辅助表对数据的调用读取进行重构。
7、进一步的,在判断所述数据主题模型重构列表中的待处理字段是否为目标商品字典型参数数据之前,还包括:对数据主题进行预处理,获取具有待重构字段数据的数据主题模型重构列表。
8、进一步的,所述对数据主题进行预处理,获取具有待重构字段数据的数据主题模型重构列表包括:
9、获取数据主题的主题名、子表、字段以及热度信息;所述热度信息包括热度区间以及热度区间中的字段热度值;
10、基于所述字段热度值筛选第一待删除数据;
11、基于所述热度信息获取总热度区间的字段热度值变化值以及字段热度值稳定率,并基于所述字段热度值变化值和字段热度值稳定率筛选第二待删除数据;
12、剔除所述第一待删除数据和第二待删除数据获取待重构字段数据,并将所述待重构字段数据纳入数据主题模型重构列表。
13、进一步的,所述字段热度值变化值的获取如下式:
14、
15、其中,m为字段被识别的总热度区间数,为在第n个后的热度区间较其前一个热度区间的字段热度值变化值,n=(1,2,3,…,m-1)。
16、进一步的,所述字段热度值稳定率的获取如下式:
17、
18、其中,和分别表示m-1个字段热度值变化值的绝对值的最大值和最小值,表示字段所有热度区间的平均字段热度值的绝对变化值。
19、进一步的,所述基于所述字段热度值变化值和字段热度值稳定率筛选第二待删除数据的条件具体为:
20、当字段的所述字段热度值变化值小于0,且所述字段热度值稳定率大于第一预设值又小于0时,将该字段及其历史数据作为第二待删除数据。
21、进一步的,所述剔除所述第一待删除数据和第二待删除数据获取待重构字段数据还包括:
22、剔除不进行重构的数据,所述不进行重构的数据的判断条件为:
23、当字段的所述字段热度值变化值大于0,且所述字段热度值稳定率大于第二预设值时,则保留该字段的结构和数据作为不进行重构的数据。
24、进一步的,在构建所述第一辅助表和第二辅助表的过程中所处理的数据为数据主题的副本数据。
25、进一步的,所述基于所述第一辅助表和第二辅助表对数据的调用读取进行重构中,修改点在数据中台的处理步骤为数据装载过程,所述数据装载过程的修改具体包括:
26、a.获取数据主题的所有子表,并识别具有重构记录的表作为待扩展表,同时载入所述第一辅助表和第二辅助表;
27、b.根据所述第一辅助表或第二辅助表,对所述待扩展表进行数据字段扩增,并将扩增后的待扩展表保存为数据临时服务表;
28、c.修改数据装载过程中的表数据读取参数,重定向到所述数据临时服务表;
29、d.重复执行b和c,直到所有待扩展表的数据临时服务表都被创建和重定向;
30、e.继续执行数据装载过程的表数据读取参数操作;
31、f.清空所述数据临时服务表。
32、进一步的,所述基于所述第一辅助表和第二辅助表对数据的调用读取进行重构之后还包括,对有字段经过重构的数据主题进行可用性测试。
33、本专利技术实施例的技术方案至少具有如下优点和有益效果:
34、在保障数据主题存储不发生信息丢失的情况下,精简低价值数据并对剩余数据进行重构;同时可结合目标平台数据类型的特点,使得在数据处理的重构环节,能根据数据的不同进行分别处理,增加了数据场景的针对性和可用性。
本文档来自技高网...【技术保护点】
1.一种数据中台的数据重构方法,其特征在于,包括如下步骤:
2.如权利要求1所述的数据中台的数据重构方法,其特征在于,在判断所述数据主题模型重构列表中的待处理字段是否为目标商品字典型参数数据之前,还包括:对数据主题进行预处理,获取具有待重构字段数据的数据主题模型重构列表。
3.如权利要求2所述的数据中台的数据重构方法,其特征在于,所述对数据主题进行预处理,获取具有待重构字段数据的数据主题模型重构列表包括:
4.如权利要求3所述的数据中台的数据重构方法,其特征在于,所述字段热度值变化值的获取如下式:
5.如权利要求4所述的数据中台的数据重构方法,其特征在于,所述字段热度值稳定率的获取如下式:
6.如权利要求3所述的数据中台的数据重构方法,其特征在于,所述基于所述字段热度值变化值和字段热度值稳定率筛选第二待删除数据的条件具体为:
7.如权利要求3所述的数据中台的数据重构方法,其特征在于,所述剔除所述第一待删除数据和第二待删除数据获取待重构字段数据还包括:
8.如权利要求1所述的数据中台的数据重构方法,
9.如权利要求1所述的数据中台的数据重构方法,其特征在于,所述基于所述第一辅助表和第二辅助表对数据的调用读取进行重构中,修改点在数据中台的处理步骤为数据装载过程,所述数据装载过程的修改具体包括:
10.如权利要求1所述的数据中台的数据重构方法,其特征在于,所述基于所述第一辅助表和第二辅助表对数据的调用读取进行重构之后还包括,对有字段经过重构的数据主题进行可用性测试。
...【技术特征摘要】
1.一种数据中台的数据重构方法,其特征在于,包括如下步骤:
2.如权利要求1所述的数据中台的数据重构方法,其特征在于,在判断所述数据主题模型重构列表中的待处理字段是否为目标商品字典型参数数据之前,还包括:对数据主题进行预处理,获取具有待重构字段数据的数据主题模型重构列表。
3.如权利要求2所述的数据中台的数据重构方法,其特征在于,所述对数据主题进行预处理,获取具有待重构字段数据的数据主题模型重构列表包括:
4.如权利要求3所述的数据中台的数据重构方法,其特征在于,所述字段热度值变化值的获取如下式:
5.如权利要求4所述的数据中台的数据重构方法,其特征在于,所述字段热度值稳定率的获取如下式:
6.如权利要求3所述的数据中台的数据重构方法,其特征在于,所述基于所述字段热度值...
【专利技术属性】
技术研发人员:杨艳丽,王晓云,耿永玲,宁志刚,孙贞,蒋雪苹,关宇晗,武继龙,
申请(专利权)人:国能北京商务网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。