一种数据拼接方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28489551 阅读:18 留言:0更新日期:2021-05-19 22:08
本申请公开了一种数据拼接方法、装置、电子设备和存储介质,涉及大数据处理技术领域。具体实现方案为:从至少两个数据分桶中为待拼接的目标数据选择目标分桶;将所述目标数据分发到所述目标分桶的未拼接数据中,以指示所述目标分桶在监测到拼接触发事件时,对所述未拼接数据进行拼接;其中所述拼接触发事件根据所述目标分桶中的未拼接数据和已拼接数据生成。本申请实施例由于目标分桶中的未拼接数据和已拼接数据是动态变化的,而根据未拼接数据和已拼接数据的数量生成拼接触发事件,可到达动态调整拼接时间间隔的目的,也即可自适应调整数据拼接频率,由此既保证了数据的时效性,还能减少整个拼接过程中计算资源的消耗,提升计算效率。算效率。算效率。

【技术实现步骤摘要】
一种数据拼接方法、装置、电子设备和存储介质


[0001]本申请实施例涉及互联网
,尤其涉及大数据处理
,具体涉及了一种数据拼接方法、装置、电子设备和存储介质。

技术介绍

[0002]数据拼接是指两种以上的不同数据,由于业务上关联,通过某些同类属性的关键字值合并为一份数据。
[0003]目前主要通过批处理任务或者实时任务进行数据拼接。批处理任务时效性差,并且由于定时批量读取数据,导致部分数据未被拼接,即拼接精度较低。实时任务由于数据库容量的限制,无法处理较长一段时间窗口或者海量数据的拼接。并且,流式数据源源不断的到达,在到达时间存在长尾效应的情况下,为了保证拼接精度,批量任务和实时任务都尽可能拉大数据拼接等待时间窗口,然而拉大数据拼接等待时间窗口后,实际只有少量数据参与拼接,耗费计算资源,降低拼接时效性。

技术实现思路

[0004]本申请实施例公开一种数据拼接方法、装置、电子设备和介质,以解决现有技术中进行数据拼接时存在的无法有效实现拼接精度、计算效率和拼接时效性之间的均衡优化的技术问题。
[0005]第一方面,本申请实施例公开了一种数据拼接方法,包括:
[0006]从至少两个数据分桶中为待拼接的目标数据选择目标分桶;
[0007]将所述目标数据分发到所述目标分桶的未拼接数据中,以指示所述目标分桶在监测到拼接触发事件时,对所述未拼接数据进行拼接;其中所述拼接触发事件根据所述目标分桶中的未拼接数据和已拼接数据生成。
[0008]上述申请中的一个实施例具有如下优点或有益效果:由于目标分桶中的未拼接数据和已拼接数据是动态变化的,而根据未拼接数据和已拼接数据的数量关系生成拼接触发事件,可达到动态调整拼接时间间隔的目的,即自适应调整数据拼接频率,由此既保证了数据的时效性,还能减少整个拼接过程中计算资源的消耗,提升计算效率。
[0009]另外,根据本申请上述实施例的数据拼接方法,还可以具有如下附加的技术特征:
[0010]可选的,从至少两个数据分桶中为待拼接的目标数据选择目标分桶,包括:
[0011]根据待拼接的目标数据的分桶关键字值,确定所述目标数据的拼接方式;
[0012]若所述目标数据的拼接方式为批量拼接,则将所述分桶关键字值与候选分桶关键字和候选分桶之间的关联关系进行匹配,以得到所述目标分桶。
[0013]上述申请中的一个实施例具有如下优点或有益效果:根据不同的分桶关键字值,选择不同的拼接方式进行数据拼接,可提升数据拼接的效率,而且在确定数据的拼接方式为批量拼接时,根据候选分桶关键字和候选分桶之间的关联关系,可将数据快速分发到对应分桶进行拼接,以此提升拼接效率。
[0014]可选的,确定所述目标数据的拼接方式之后,还包括:
[0015]若所述目标数据的拼接方式为实时拼接,则调用流式拼接服务将所述目标数据拼接入库。
[0016]上述申请中的一个实施例具有如下优点或有益效果:通过实时拼接方式来拼接目标数据,可保证拼接时效性并提升拼接效率。
[0017]可选的,所述拼接触发事件根据数据拼接精度、所述目标分桶中的未拼接数据和已拼接数据生成。
[0018]可选的,所述方法还包括若任一数据分桶满足如下条件,则生成该数据分桶的拼接触发事件:
[0019]v
e
/(v
e
+v
b
)=1-α
[0020]其中v
e
为该数据分桶的未拼接数据量、v
b
为该数据分桶的已拼接数据量,α为所述数据拼接精度。
[0021]上述申请中的一个实施例具有如下优点或有益效果:在给定数据拼接精度的基础上,根据目标分桶中的未拼接数据和已拼接数据生成拼接触发事件,可到达动态调整拼接时间间隔的目的,也即自适应调整数据拼接频率,由此既保证了数据的时效性,还能减少整个拼接过程中计算资源的消耗,提升计算效率。
[0022]可选的,所述数据分桶的大小根据最小拼接时间窗口和计算资源确定。
[0023]上述申请中的一个实施例具有如下优点或有益效果:根据最小拼接时间窗口和计算资源确定分桶的大小,可以避免分桶内的数据超过桶得的最大数据容量,造成部分数据超时未处理,进而影响拼接时效性。
[0024]可选的,所述数据分桶中的数据量随等待时间增长而收敛。
[0025]上述申请中的一个实施例具有如下优点或有益效果:根据数据分桶中的数据量随等待时间增长而收敛这一特性,可准确的确定分桶关键字和分桶之间的关联关系。
[0026]第二方面,本申请实施例公开了一种数据拼接装置,包括:
[0027]选择模块,用于从至少两个数据分桶中为待拼接的目标数据选择目标分桶;
[0028]分发拼接模块,用于将所述目标数据分发到所述目标分桶的未拼接数据中,以指示所述目标分桶在监测到拼接触发事件时,对所述未拼接数据进行拼接;其中所述拼接触发事件根据所述目标分桶中的未拼接数据和已拼接数据生成。
[0029]第三方面,本申请实施例还提供了一种电子设备,包括:
[0030]至少一个处理器;以及
[0031]与所述至少一个处理器通信连接的存储器;其中,
[0032]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意实施例所述的数据拼接方法。
[0033]第四方面,本本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意实施例所述的数据拼接方法。
[0034]上述申请中的一个实施例具有如下优点或有益效果:根据不同的分桶关键字值,选择不同的拼接方式(实时拼接或批量拼接)进行数据拼接,可提升数据拼接的效率,而且
在确定数据的拼接方式为批量拼接时,根据候选分桶关键字和候选分桶之间的关联关系,可将数据快速分发到对应分桶进行拼接,在拼接过程中,根据未拼接数据和已拼接数据的数量关系生成拼接触发事件,可到达动态调整拼接时间间隔的目的,也即自适应调整数据拼接频率,由此既保证了数据的时效性,还能减少整个拼接过程中计算资源的消耗,提升计算效率。
[0035]上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
[0036]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0037]图1是根据本申请实施例的数据拼接方法的流程示意图;
[0038]图2a是根据本申请实施例的另一数据拼接方法的流程示意图;
[0039]图2b是根据本申请实施例的数据拼接的整体架构示意图;
[0040]图3是根据本申请实施例的数据拼接装置的结构示意图;
[0041]图4是用来实现本申请实施例的数据拼接方法的电子设备的框图。
具体实施方式
[0042]以下结合附图对本申请的示范性实施例做出说明,其中包括本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据拼接方法,其特征在于,包括:从至少两个数据分桶中为待拼接的目标数据选择目标分桶;将所述目标数据分发到所述目标分桶的未拼接数据中,以指示所述目标分桶在监测到拼接触发事件时,对所述未拼接数据进行拼接;其中所述拼接触发事件根据所述目标分桶中的未拼接数据和已拼接数据生成。2.根据权利要求1所述的方法,其特征在于,从至少两个数据分桶中为待拼接的目标数据选择目标分桶,包括:根据待拼接的目标数据的分桶关键字值,确定所述目标数据的拼接方式;若所述目标数据的拼接方式为批量拼接,则将所述分桶关键字值与候选分桶关键字和候选分桶之间的关联关系进行匹配,以得到所述目标分桶。3.根据权利要求2所述的方法,其特征在于,确定所述目标数据的拼接方式之后,还包括:若所述目标数据的拼接方式为实时拼接,则调用流式拼接服务将所述目标数据拼接入库。4.根据权利要求1所述的方法,其特征在于,所述拼接触发事件根据数据拼接精度、所述目标分桶中的未拼接数据和已拼接数据生成。5.根据权利要求4所述的方法,其特征在于,所述方法还包括若任一数据分桶满足如下条件,则生成该数据分桶的拼接触发事件:v
e
/(v
e
+v
b
)=1-α其中v
e
为该数据分桶的未拼接数据量、v
b
为该数据分桶的已拼接数据量,α为所述数据拼接精度。6.根据权利要求1所述的方法,其特征在于,所述数据分桶的大小根据最小拼接时间窗口和计算资源确定。7.根据权利要求1所述的方法,其特征在于,所述数据分桶中的数据量随等待时间增长而收敛。8.一种数据拼接装置,其特征在于,包括:选择模块,用于从至少两个数据分桶中为待拼接的目标数据选择目标分桶;分发拼接模块,用于将所述目标数据分发到所述目标分桶的未拼接数据中,以指示所述目标分桶在监测到拼接触发事件时,对所述未拼接数据进行拼接;其中...

【专利技术属性】
技术研发人员:唐潜朱建新秦首科姜振张晓雨郭玲杨雷
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1