多表拼接方法和多表拼接装置制造方法及图纸

技术编号:27314409 阅读:26 留言:0更新日期:2021-02-10 09:43
公开了一种多表拼接方法和多表拼接装置,其中,多表拼接方法包括:获取主表以及与主表关联的至少一个副表;获取主表与每个副表之间的表关系;对于至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表,以及对该对应的构造表进行特征选择处理,得到对应的特征筛选表;将至少一个副表分别对应的特征筛选表与主表拼接,得到宽表。利用本公开的技术方案,执行多表拼接可得到数据量减小的构造表,进而可提高后续数据分析的效率。后续数据分析的效率。后续数据分析的效率。

【技术实现步骤摘要】
多表拼接方法和多表拼接装置


[0001]本公开涉及计算机
,更具体地讲,涉及多表拼接方法和多表拼接装置。

技术介绍

[0002]在现阶段涉及大数据的相关应用中,通常需要借助人工智能模型对大数据进行分析。而在利用人工智能模型分析大数据的过程中,需要涉及大量表格数据操作,其中,多表拼接是所述表格数据操作中不可缺少的一个环节,具体地,所述多表拼接是指将分散的表聚合在一起,通过所述多表拼接后,可以将多个表的业务信息汇集在一张表中,便于后续的分析应用。
[0003]但是在相关技术中,经过所述多表拼接后得到的宽表中往往存在数据量太大的问题,不利于后续的数据分析。

技术实现思路

[0004]本公开提供了多表拼接方法和多表拼接装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
[0005]根据本公开示例性实施例的一个方面,提供一种多表拼接方法,其中,所述多表拼接方法包括:获取主表以及与所述主表关联的至少一个副表;获取主表与每个副表之间的表关系;对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表,以及对该对应的构造表进行特征选择处理,得到对应的特征筛选表;将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
[0006]可选地,所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。
[0007]可选地,在所述对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤之前,所述多表拼接方法还包括:对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。
[0008]可选地,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表的步骤包括:以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;对于该副表中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。
[0009]可选地,对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表的步骤包括:判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,在所述主表和该副表之间的连接键的对应关系为一对
一的情况下,确定该副表本身即为该副表对应的构造表;在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。
[0010]可选地,所述对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征的步骤包括:对于每个连接键,在该副表中找到该连接键对应的所有的一行或多行数据;对于所述一行或多行数据中的每个离散型数据列,统计每种离散取值的出现次数,得到该连接键对应的至少一个第一聚合特征;对于所述一行或多行数据中的每个连续型数据列,统计至少一个数理统计值,得到该连接键对应的至少一个第二聚合特征。
[0011]可选地,所述对该对应的构造表进行特征选择处理,得到对应的特征筛选表的步骤包括:基于所述连接键将所述主表的标签列拼接至该对应的构造表中,并以该对应的构造表中的标签列作为数据标签列,以连接键列为样本标识列,以标签列和连接键列以外的各列作为样本特征列,得到第一数据集;基于第一数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分;打乱该对应的构造表中的标签列的顺序,得到第二数据集;基于第二数据集,按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第二特征重要性评分;计算该对应的构造表中的各样本特征列各自的第一特征重要性评分和第二特征重要性评分的差值,并按照差值大小进行排序;从该对应的构造表中,删除所述差值小于预设值的各样本特征列,得到特征筛选表。
[0012]可选地,该方法在所述按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分的步骤之前,还包括:将该对应的构造表中的字符串型变量转换为数值型变量。
[0013]可选地,该方法在所述按照预设的特征重要性计算方法,得到该对应的构造表中的各样本特征列的第一特征重要性评分的步骤之前,还包括:在该对应的构造表中存在时间列的情况下,分解所述时间列,得到多个关于时间的数值列。
[0014]根据本公开示例性实施例的另一个方面,提供一种多表拼接装置,其中,所述多表拼接装置包括:获取单元,被配置为:获取主表以及与所述主表关联的至少一个副表,以及获取主表与每个副表之间的表关系;预处理单元,被配置为:对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表;选择单元,被配置为:对该对应的构造表进行特征选择处理,得到对应的特征筛选表;拼接单元,被配置为:将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。
[0015]可选地,所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。
[0016]可选地,预处理单元被配置为:对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。
[0017]可选地,预处理单元被配置为:以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;对于该副表
中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。
[0018]可选地,预处理单元被配置为:判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,在所述主表和该副表之间的连接键的对应关系为一对一的情况下,确定该副表本身即为该副表对应的构造表;在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。
[0019]可选地,预处理单元被配置为:对于每个连接键,在该副表中找到该连接键对应的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多表拼接方法,其特征在于,所述多表拼接方法包括:获取主表以及与所述主表关联的至少一个副表;获取主表与每个副表之间的表关系;对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表,以及对该对应的构造表进行特征选择处理,得到对应的特征筛选表;将所述至少一个副表分别对应的特征筛选表与所述主表拼接,得到宽表。2.根据权利要求1所述的多表拼接方法,其特征在于,所述表关系包括连接键和表连接关系,其中,所述表连接关系为所述主表与每个副表之间的连接键的对应关系,包括一对一或者一对多。3.根据权利要求2所述的多表拼接方法,其特征在于,在所述对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤之前,所述多表拼接方法还包括:对于所述至少一个副表中的每个副表,在所述主表和该副表都包括时间列的情况下,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表;基于过滤后的副表,执行所述在对于所述至少一个副表中的每个副表,基于主表与该副表之间的表连接关系,对该副表进行预处理,得到对应的构造表的步骤。4.根据权利要求3所述的多表拼接方法,其特征在于,基于所述主表和该副表之间时间列的时间关系,对该副表进行数据过滤,得到过滤后的副表的步骤包括:以所述主表的时间列作为主时间列,以该副表的时间列作为副时间列,基于所述连接键将主表中的所述主时间列拼接至该副表;对于该副表中的每一行,判断副时间列与主时间列中对应时间的大小关系,在确定副时间列中的时间大于主时间列中的时间时,删除该行数据,最终得到过滤后的副表。5.根据权利要求2所述的多表拼接方法,其特征在于,对于所述至少一个副表中的每个副表,基于主表与该副表之间的表关系,对该副表进行预处理,得到对应的构造表的步骤包括:判断所述主表和该副表之间的连接键的对应关系为一对一还是一对多,在所述主表和该副表之间的连接键的对应关系为一对一的情况下,确定该副表本身即为该副表对应的构造表;在所述主表和该副表之间的连接键的对应关系为一对多的情况下,对该副表中的对应同一连接键的数据进行聚合,得到对应每个连接键的聚合特征;基于所述连接键拼接每个聚合特征,得到该副表对应的构造表。6.根据权利要求5所述的多表拼接...

【专利技术属性】
技术研发人员:蔡恒兴钟润兴罗远飞涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1