The embodiment of the invention provides a file parsing method and device, which divides the files into at least two file fragments so as to parse at least two files fragments which are divided at the same time. Thus the parallel parsing through this way, improve the parsing speed of the file, solves the technical problem of file parsing slower, especially the large amount of data in the file case, to ensure the completion of the analytical document before the preset time point, in the financial business this kind of timeliness scenario, to avoid the file analysis did not complete the follow-up business stagnation caused economic losses.
【技术实现步骤摘要】
文件解析方法和装置
本专利技术涉及信息技术,尤其涉及一种文件解析方法和装置。
技术介绍
在接收到文件之后,需要首先对文件进行解析,以确保文件的准确性,同时确保文件在后续处理中的可识别性,从而便于后续对文件进行下一步处理。在解析过程中,可以具体针对文件中的内容或格式进行一系列的扫描、校验等操作。例如:对于金融业务,在从外部公司获取记录有金融数据的文件时,为了保证下一步数据处理的准确性,在对这些金融数据进行数据处理之前,需要确保文件的格式和字段内容的准确性,因此,要对从外部公司所获取到的文件进行解析。在解析通过后,再继续执行相应的数据处理过程。目前,大多采用单一进程对所获取到的文件进行解析,在文件的数据量较大的情况下,解析的速度较慢,从而不能保证在预设时间点之前完成对文件的解析,在金融业务这类时效性要求较高的场景下,会导致后续业务停滞进而带来较为严重的损失。
技术实现思路
本专利技术提供一种文件解析方法和装置,用于解决现有技术中,文件解析速度较慢的技术问题。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供了一种文件解析方法,包括:将文件划分为至少两个文件片段;并行对所述至少两个文件片段进行解析。第二方面,提供了一种文件解析装置,包括:划分模块,用于将文件划分为至少两个文件片段;解析模块,用于并行对所述至少两个文件片段进行解析。本专利技术实施例提供的文件解析方法和装置,通过将文件划分为至少两个文件片段,从而并行对所划分得到的至少两个文件片段进行解析。从而通过这种并行解析的方式,提高了文件的解析速度,解决了文件解析速度较慢的技术问题,尤其是在文件的数 ...
【技术保护点】
一种文件解析方法,其特征在于,包括:将文件划分为至少两个文件片段;并行对所述至少两个文件片段进行解析。
【技术特征摘要】
1.一种文件解析方法,其特征在于,包括:将文件划分为至少两个文件片段;并行对所述至少两个文件片段进行解析。2.根据权利要求1所述的文件解析方法,其特征在于,所述将文件划分为至少两个文件片段包括:根据预设数据量,对所述文件进行划分,以得到符合所述预设数据量的文件片段;和/或,根据预设数量,对所述文件进行划分,以得到符合所述预设数量的文件片段。3.根据权利要求1所述的文件解析方法,其特征在于,所述将文件划分为至少两个文件片段包括:根据所述文件的类型确定所述文件的最小划分单元;采用所述最小划分单元对所述文件进行划分。4.根据权利要求1-3任一项所述的文件解析方法,其特征在于,所述并行对所述至少两个文件片段进行解析包括:根据各文件片段在所述文件中的位置,生成各解析任务;将各解析任务调度到至少两个进程中的对应进程;由所述至少两个进程并行执行调度获得的解析任务。5.根据权利要求4所述的文件解析方法,其特征在于,所述由至少两个进程并行执行调度获得的解析任务包括:针对每一个进程,根据调度获得的解析任务中所记录的位置,从所述文件中读取得到对应的文件片段;对所读取到的文件片段进行解析。6.根据权利要求5所述的文件解析方法,其特征在于,所述解析任务用于对所述文件片段进行校验操作,所述对所读取到的文件片段进行解析包括:根据对所述进程所预先配置的校验规则,对所读取到的文件片段进行校验。7.根据权利要求1-3任一项所述的文件解析方法,其特征在于,所述将文件划分为至少两个文件片段之前,还包括:对所述文件进行扫描操作,以确定所述文件已成功接收。8.根据权利要求1-3任一项所述的文件解析方法,其特征在于,所述并行对所述至少两个文件片段进行解析之后,还包括:当所述至少两个文件片段中的至少一个解析失败时,确定所述文件解析失败;定位解析失败的文件片段在所述文件中的位置。9.一种文件解析...
【专利技术属性】
技术研发人员:毛启明,王啸,曾宪玺,吴笑笑,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。