表连接操作的处理方法和装置制造方法及图纸

技术编号:31229381 阅读:14 留言:0更新日期:2021-12-08 09:58
本发明专利技术公开了一种表连接操作的处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取第一数据表及第二数据表,第一数据表及第二数据表分别包含第一字段及第二字段,第一字段及第二字段为待连接字段;根据第一数据表中的第一字段及第二数据表中的第二字段,确定第一数据表及第二数据表的数据交集;根据数据交集,对第一数据表进行过滤处理,以获得第一过滤表;根据数据交集,对第二数据表进行过滤处理,以获得第二过滤表;对第一过滤表及第二过滤表进行连接操作,以确定第一数据表及第二数据表的连接操作结果。该实施方式能够减少表连接过程中对内存及网络资源的消耗。的消耗。的消耗。

【技术实现步骤摘要】
表连接操作的处理方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种表连接操作的处理方法和装置。

技术介绍

[0002]二维表格模型用于将数据组织为多张由行和列组成的表。存储表时,可以采用逐行或逐列的方式进行存储。在表存储后,可对表执行连接操作。在表中的数据量较大的情况下,两表的连接操作往往会造成服务器的内存溢出或者网络资源消耗过多等问题。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种表连接操作的处理方法和装置,能够减少表连接过程中对服务器内存及网络资源的消耗。
[0004]第一方面,本专利技术实施例提供了一种表连接操作的处理方法,包括:
[0005]获取第一数据表及第二数据表,所述第一数据表包含第一字段,所述第一字段为所述第一数据表的待连接字段,所述第二数据表包含第二字段,所述第二字段为所述第二数据表中与所述第一字段对应的待连接字段;
[0006]根据所述第一数据表中的第一字段及所述第二数据表中的第二字段,确定所述第一数据表及所述第二数据表的数据交集;
[0007]根据所述数据交集,对所述第一数据表进行过滤处理,以获得第一过滤表;
[0008]根据所述数据交集,对所述第二数据表进行过滤处理,以获得第二过滤表;
[0009]对所述第一过滤表及所述第二过滤表进行连接操作,以确定所述第一数据表及所述第二数据表的连接操作结果。
[0010]可选地,所述根据所述第一数据表中的第一字段及所述第二数据表中的第二字段,确定所述第一数据表及所述第二数据表的数据交集,包括:
[0011]从所述第一数据表中,提取各记录中所述第一字段的取值,得到第一数据集;
[0012]从所述第二数据表中,提取各记录中所述第二字段的取值,得到第二数据集;
[0013]确定所述第一数据集及所述第二数据集之间的交集,并将确定的交集作为所述数据交集。
[0014]可选地,所述从所述第一数据表中,提取各记录中所述第一字段的数据,得到第一数据集之后,还包括:
[0015]对所述第一数据集进行清洗处理;
[0016]从所述第二数据表中,提取各记录中所述第二字段的数据,得到第二数据集之后,还包括:
[0017]对所述第二数据集进行清洗处理;
[0018]所述确定所述第一数据集及所述第二数据集之间的交集,包括:
[0019]确定处理后的第一数据集及处理后的第二数据集之间的交集。
[0020]可选地,所述确定所述第一数据集及所述第二数据集之间的交集,包括:
[0021]确定多个哈希函数;
[0022]根据布隆过滤算法,利用所述多个哈希函数,将所述第一数据集转化为第一比特数组;
[0023]根据布隆过滤算法,利用所述多个哈希函数,将所述第二数据集转化为第二比特数组;
[0024]对所述第一比特数组及所述第二比特数组进行相与操作。
[0025]可选地,所述根据所述数据交集,对所述第一数据表进行过滤处理,以获得第一过滤表,包括:
[0026]针对所述第一数据表中的每条记录:确定所述记录中的第一字段的第一取值;判断所述数据交集中是否存在所述第一取值的对应值;若是,则将所述记录保存至所述第一过滤表中。
[0027]可选地,所述判断所述数据交集中是否存在所述第一取值的对应值,包括:
[0028]利用所述多个哈希函数,计算所述第一取值对应的多个第一哈希值;
[0029]确定所述多个第一哈希值在所述数据交集中的多个对应位置;
[0030]若所述数据交集在每个所述对应位置上的值都为1,则判断所述数据交集中存在所述第一取值的对应值。
[0031]可选地,所述根据所述数据交集,对所述第二数据表进行过滤处理,以获得第二过滤表,包括:
[0032]针对所述第二数据表中的每条记录,确定所述记录中的第二字段的第二取值;判断所述数据交集中是否存在所述第二字段的第二取值;若是,则将所述记录保存至所述第二过滤表中。
[0033]可选地,所述判断所述数据交集中是否存在所述第二取值的对应值,包括:
[0034]利用所述多个哈希函数,计算所述第二取值对应的多个第二哈希值;
[0035]确定所述多个第二哈希值在所述数据交集中的多个对应位置;
[0036]若所述数据交集在每个所述对应位置上的值都为1,则判断所述数据交集中存在所述第二取值的对应值。
[0037]可选地,所述对所述第一过滤表及所述第二过滤表进行连接操作,包括:
[0038]确定所述第一过滤表所在的多个节点,所述第一过滤表的数据量大于所述第二过滤表的数据量;
[0039]将所述第二过滤表发送至所述多个节点;
[0040]分别在各所述节点上,对所述第一过滤表及所述第二过滤表进行连接操作。
[0041]第二方面,本专利技术实施例提供了一种表连接操作的处理装置,包括:
[0042]表获取模块,用于获取第一数据表及第二数据表,所述第一数据表包含第一字段,所述第一字段为所述第一数据表的待连接字段,所述第二数据表包含第二字段,所述第二字段为所述第二数据表中与所述第一字段对应的待连接字段;
[0043]交集确定模块,用于根据所述第一数据表中的第一字段及所述第二数据表中的第二字段,确定所述第一数据表及所述第二数据表的数据交集;
[0044]第一过滤模块,用于根据所述数据交集,对所述第一数据表进行过滤处理,以获得第一过滤表;
[0045]第二过滤模块,用于根据所述数据交集,对所述第二数据表进行过滤处理,以获得第二过滤表;
[0046]连接操作模块,用于对所述第一过滤表及所述第二过滤表进行连接操作,以确定所述第一数据表及所述第二数据表的连接操作结果。
[0047]第三方面,本专利技术实施例提供了一种电子设备,包括:
[0048]一个或多个处理器;
[0049]存储装置,用于存储一个或多个程序,
[0050]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
[0051]第四方面,本专利技术实施例提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
[0052]上述专利技术中的一个实施例具有如下优点或有益效果:根据第一数据表及第二数据表中的待连接字段,生成两表的数据交集,该数据交集表征了两表的待连接字段取值的交集。通过该数据交集分别对两表进行过滤,以去除两表中对于连接操作没有影响的无效记录,进而减小过滤后两表的数据量。通过对过滤后的两表进行连接操作,替代直接以原始两表进行连接操作,能够减少连接过程中所需的服务器内存及网络资源的消耗。
[0053]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0054]附图用于更好地理解本专利技术,不构成对本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表连接操作的处理方法,其特征在于,包括:获取第一数据表及第二数据表,所述第一数据表包含第一字段,所述第一字段为所述第一数据表的待连接字段,所述第二数据表包含第二字段,所述第二字段为所述第二数据表中与所述第一字段对应的待连接字段;根据所述第一数据表中的第一字段及所述第二数据表中的第二字段,确定所述第一数据表及所述第二数据表的数据交集;根据所述数据交集,对所述第一数据表进行过滤处理,以获得第一过滤表;根据所述数据交集,对所述第二数据表进行过滤处理,以获得第二过滤表;对所述第一过滤表及所述第二过滤表进行连接操作,以确定所述第一数据表及所述第二数据表的连接操作结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据表中的第一字段及所述第二数据表中的第二字段,确定所述第一数据表及所述第二数据表的数据交集,包括:从所述第一数据表中,提取各记录中所述第一字段的取值,得到第一数据集;从所述第二数据表中,提取各记录中所述第二字段的取值,得到第二数据集;确定所述第一数据集及所述第二数据集之间的交集,并将确定的交集作为所述数据交集。3.根据权利要求2所述的方法,其特征在于,所述从所述第一数据表中,提取各记录中所述第一字段的数据,得到第一数据集之后,还包括:对所述第一数据集进行清洗处理;从所述第二数据表中,提取各记录中所述第二字段的数据,得到第二数据集之后,还包括:对所述第二数据集进行清洗处理;所述确定所述第一数据集及所述第二数据集之间的交集,包括:确定处理后的第一数据集及处理后的第二数据集之间的交集。4.根据权利要求2所述的方法,其特征在于,所述确定所述第一数据集及所述第二数据集之间的交集,包括:确定多个哈希函数;根据布隆过滤算法,利用所述多个哈希函数,将所述第一数据集转化为第一比特数组;根据布隆过滤算法,利用所述多个哈希函数,将所述第二数据集转化为第二比特数组;对所述第一比特数组及所述第二比特数组进行相与操作。5.根据权利要求4所述的方法,其特征在于,所述根据所述数据交集,对所述第一数据表进行过滤处理,以获得第一过滤表,包括:针对所述第一数据表中的每条记录:确定所述记录中的第一字段的第一取值;判断所述数据交集中是否存在所述第一取值的对应值;若是,则将所述记录保存至所述第一过滤表中。6.根据权利要求5所述的方法,其特征在于,所述判断所述数据交集中是否存在所述第一取值的对应值,包括:利用所述多个哈希函数,计算所述第一取值对应的多个第一哈希值;确...

【专利技术属性】
技术研发人员:蒲海洋陈伯梁
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1