文件处理方法、装置、设备及存储介质制造方法及图纸

技术编号:36352314 阅读:48 留言:0更新日期:2023-01-14 18:08
本发明专利技术实施例提供一种文件处理方法、装置、设备及存储介质,该方法包括:确定待处理的文件以及针对所述文件待执行的多个操作,其中,所述文件包括多组数据,每一操作用于输出对应的结果文件;依次执行所述多个操作,得到复合分布式数据集合,所述复合分布式数据集合为包括多个元素的元组,所述多个元素分别对应多个操作的处理结果;其中,所述多个操作中,存在至少一个操作,在执行该操作时使用所述元组中的至少一个元素;根据得到的复合分布式数据集合,输出各个操作对应的结果文件。本发明专利技术实施例降低了文件处理过程中的计算量,优化了文件的处理流程,从而提高了文件处理的效率,提升了系统对文件数据分析的性能。升了系统对文件数据分析的性能。升了系统对文件数据分析的性能。

【技术实现步骤摘要】
文件处理方法、装置、设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种文件处理方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的不断发展和广泛应用,用户的数量及业务类型的呈现爆炸式增长,在应用大数据技术时,需要对文件进行不同操作的处理,得到不同的结果,以满足不同业务的需求。
[0003]现有技术中,当需要对同一个文件进行多种类型的处理操作时,存在处理效率较低的问题。

技术实现思路

[0004]本专利技术实施例提供一种文件处理方法、装置、设备及存储介质,以提高文件处理效率。
[0005]第一方面,本专利技术实施例提供一种文件处理方法,包括:
[0006]确定待处理的文件以及针对所述文件待执行的多个操作,其中,所述文件包括多组数据,每一操作用于输出对应的结果文件;
[0007]依次执行所述多个操作,得到复合分布式数据集合,所述复合分布式数据集合为包括多个元素的元组,所述多个元素分别对应多个操作的处理结果;其中,所述多个操作中,存在至少一个操作,在执行该操作时使用所述元组中的至少一个元素;
[0008]根据得到的复合分布式数据集合,输出各个操作对应的结果文件。
[0009]可选的,依次执行所述多个操作,得到复合分布式数据集合,包括:
[0010]根据至少部分操作对应的公共处理步骤,对所述待处理的文件进行处理,得到复合分布式数据集合,所述复合分布式数据集合包括公共处理步骤对应的元素,用于存储公共处理结果;/>[0011]根据所述公共处理结果,通过依次执行所述多个操作,更新所述复合分布式数据集合。
[0012]可选的,根据所述公共处理结果,通过依次执行所述多个操作,更新所述复合分布式数据集合,包括:
[0013]针对每一操作执行如下步骤:
[0014]若所述操作可使用当前复合分布式数据集合中的元素,则在可使用的元素的基础上执行所述操作,生成对应的操作结果,并根据所述操作结果更新复合分布式数据集合,更新后的复合分布式数据集合包括:公共处理步骤对应的元素,和/或,已执行的各个操作对应的元素;
[0015]在满足预设条件时,删除所述复合分布式数据集合中公共处理步骤对应的元素。
[0016]可选的,所述预设条件包括下述至少一项:所述操作之后的其他操作不需要使用
公共处理结果;所述操作为所述多个操作中的最后一个操作。
[0017]可选的,根据所述至少部分操作对应的公共处理步骤,对所述待处理的文件进行处理,得到复合分布式数据集合,包括:
[0018]对所述待处理的文件中的多组数据进行转码操作,得到复合分布式数据集合;
[0019]相应的,根据所述公共处理结果,通过依次执行所述多个操作,更新所述复合分布式数据集合,包括:
[0020]根据所述复合分布式数据集合,对转码后的多组数据进行数据清洗处理,并更新复合分布式数据集合,更新后的复合分布式数据集合包括数据清洗操作对应的元素;
[0021]根据所述数据清洗操作对应的元素,对数据清洗后的多组数据执行时间拉链操作,并更新复合分布式数据集合,更新后的复合分布式数据集合包括数据清洗操作对应的元素、时间拉链操作对应的元素;
[0022]根据所述数据清洗操作对应的元素,对数据清洗后的多组数据执行统计操作,并更新复合分布式数据集合,更新后的复合分布式数据集合包括数据清洗操作对应的元素、时间拉链操作对应的元素以及统计操作对应的元素。
[0023]可选的,根据得到的复合分布式数据集合,输出各个操作对应的结果文件,包括:
[0024]在所述多个操作完成后,缓存所述复合分布式数据集合;
[0025]根据缓存的复合分布式数据集合中的各个元素,依次输出各个操作对应的结果文件,所述结果文件用于存储对应操作得到的处理结果。
[0026]可选的,所述方法还包括:根据待处理的文件,生成对应的初始分布式数据集合;
[0027]相应的,依次执行所述多个操作,得到复合分布式数据集合,包括:根据所述初始分布式数据集合,依次执行所述多个操作,得到复合分布式数据集合。
[0028]第二方面,本专利技术实施例提供一种文件处理装置,所述装置包括:
[0029]确定模块,用于确定待处理的文件以及针对所述文件待执行的多个操作,其中,所述文件包括多组数据,每一操作用于输出对应的结果文件;
[0030]执行模块,用于依次执行所述多个操作,得到复合分布式数据集合,所述复合分布式数据集合为包括多个元素的元组,所述多个元素分别对应多个操作的处理结果;其中,所述多个操作中,存在至少一个操作,在执行该操作时使用所述元组中的至少一个元素;
[0031]输出模块,用于根据得到的复合分布式数据集合,输出各个操作对应的结果文件。
[0032]第三方面,本专利技术实施例提供一种电子设备,包括:存储器和至少一个处理器;
[0033]所述存储器存储计算机执行指令;
[0034]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面所述文件处理方法。
[0035]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面所述文件处理方法。
[0036]本专利技术实施例提供的文件处理方法、装置、设备及存储介质,在需要对待处理的文件进行多种操作处理时,只需要读取一次待处理文件,构建包括多个元素的分布式数据集合,协助实现多种操作的处理流程,不同操作之间的处理结果可以复用,降低了文件处理过程中的计算量,优化了文件的处理流程,从而提高了文件处理的效率,提升了系统对文件数
据分析的性能。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0038]图1为本专利技术实施例提供的一种应用场景图;
[0039]图2为本专利技术实施例提供的一种文件处理方法的流程示意图;
[0040]图3为本专利技术实施例提供的另一种文件处理方法的流程示意图;
[0041]图4为本专利技术实施例提供的一种文件处理装置的结构框图;
[0042]图5为本专利技术实施例提供的一种电子设备的结构框图。
具体实施方式
[0043]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[004本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文件处理方法,其特征在于,包括:确定待处理的文件以及针对所述文件待执行的多个操作,其中,所述文件包括多组数据,每一操作用于输出对应的结果文件;依次执行所述多个操作,得到复合分布式数据集合,所述复合分布式数据集合为包括多个元素的元组,所述多个元素分别对应多个操作的处理结果;其中,所述多个操作中,存在至少一个操作,在执行该操作时使用所述元组中的至少一个元素;根据得到的复合分布式数据集合,输出各个操作对应的结果文件。2.根据权利要求1所述的方法,其特征在于,依次执行所述多个操作,得到复合分布式数据集合,包括:根据至少部分操作对应的公共处理步骤,对所述待处理的文件进行处理,得到复合分布式数据集合,所述复合分布式数据集合包括公共处理步骤对应的元素,用于存储公共处理结果;根据所述公共处理结果,通过依次执行所述多个操作,更新所述复合分布式数据集合。3.根据权利要求2所述的方法,其特征在于,根据所述公共处理结果,通过依次执行所述多个操作,更新所述复合分布式数据集合,包括:针对每一操作执行如下步骤:若所述操作可使用当前复合分布式数据集合中的元素,则在可使用的元素的基础上执行所述操作,生成对应的操作结果,并根据所述操作结果更新复合分布式数据集合,更新后的复合分布式数据集合包括:公共处理步骤对应的元素,和/或,已执行的各个操作对应的元素;在满足预设条件时,删除所述复合分布式数据集合中公共处理步骤对应的元素。4.根据权利要求3所述的方法,其特征在于,所述预设条件包括下述至少一项:所述操作之后的其他操作不需要使用公共处理结果;所述操作为所述多个操作中的最后一个操作。5.根据权利要求2所述的方法,其特征在于,根据至少部分操作对应的公共处理步骤,对所述待处理的文件进行处理,得到复合分布式数据集合,包括:对所述待处理的文件中的多组数据进行转码操作,得到复合分布式数据集合;相应的,根据所述公共处理结果,通过依次执行所述多个操作,更新所述复合分布式数据集合,包括:根据所述复合分布式数据集合,对转码后的多组数据进行数据清洗处理,并更新复合分布式数据集合,更新后的复合分布式数据集合包括数据清洗操作对应的元素;根据所述数据清洗操作对应的元素,对数据清洗后...

【专利技术属性】
技术研发人员:吕虎王宏亮杨红强
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1