电子表格文件解析方法、装置和计算机可读存储介质制造方法及图纸

技术编号:29009968 阅读:19 留言:0更新日期:2021-06-26 05:09
本申请涉及一种电子表格文件解析方法、装置、计算机可读存储介质和计算机设备,所述方法包括:以数据表开始标签作为所提取的目标可扩展标记语言文件的匹配起始点,对匹配起始点后的目标可扩展标记语言文件进行识别。在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到行开始标签和行结束标签之间的分割数据块,并绘制分割数据块的数据视图。以行结束标签作为更新的匹配起始点,重复生成分割数据块直至识别到预设的数据表结束标签。本申请通过重复执行生成分割数据块的步骤,确定出多个分割数据块,边拆分数据块边绘制数据视图绘制,无需同时全部解析整个电子表格文件,提高电子表格文件的解析效率。件的解析效率。件的解析效率。

【技术实现步骤摘要】
电子表格文件解析方法、装置和计算机可读存储介质


[0001]本申请涉及计算机
,特别是涉及一种电子表格文件解析方法、装置、计算机可读存储介质和计算机设备。

技术介绍

[0002]随着计算机技术的发展以及在人们工作及生活的普遍应用,越来越多的企业采用更贴合公司业务的业务系统。在业务系统中,多使用各式各样的文档来实现信息收集或数据统计等。其中,电子表格文件使用频率尤为频繁,所生成的文件数量也随时间增长。
[0003]在后续工作进程中,由于业务需求,时常需要对电子表格文件进行解析,并读取电子表格文件中的数据。由于电子表格文件是由一系列的可扩展标记语言文件组成的压缩包,则文件的解析工作就是解析压缩包里的可扩展标记语言文件。
[0004]传统上多利用DOM方式以及SAX方式来解析可扩展标记语言文件。其中,SAX解析方式通过逐行扫描文档,一边扫描一边解析,可以在解析文档的任意时刻停止解析,但操作较为复杂,需要占据较多内存来实现同时扫描和解析。而DOM解析方式可实现在任何时候访问可扩展标记语言文档中的任何一部分数据,但由于将整个可扩展标记语言文件转换为了树存放在内存中,随着文件的数量的大量增长,且当文件结构较大或者数据较复杂时,这种方式需要消耗大量内存以及解析时间,导致文件解析效率较低。

技术实现思路

[0005]基于此,有必要针对传统的文件解析方式消耗较大内存和解析时间的问题,提供一种电子表格文件解析方法、装置、计算机可读存储介质和计算机设备。
[0006]一种电子表格文件解析方法,包括:
[0007]提取待解析的电子表格文件的目标可扩展标记语言文件;
[0008]根据预设的数据表开始标签,对所述目标可扩展标记语言文件进行扫描,当识别到所述数据表开始标签时,以所述数据表开始标签作为匹配起始点;
[0009]对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块;
[0010]绘制所述分割数据块的数据视图;
[0011]以所述行结束标签作为更新的匹配起始点;
[0012]返回所述对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块的步骤,直到识别到预设的数据表结束标签。
[0013]一种电子表格文件解析装置,所述装置包括:
[0014]目标可扩展标记语言文件提取模块,用于提取待解析的电子表格文件的目标可扩
展标记语言文件;
[0015]扫描模块,用于根据预设的数据表开始标签,对所述目标可扩展标记语言文件进行扫描,当识别到所述数据表开始标签时,以所述数据表开始标签作为匹配起始点;
[0016]分割数据块生成模块,用于对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块;
[0017]数据视图绘制模块,用于绘制所述分割数据块的数据视图;
[0018]匹配起始点更新模块,用于以所述行结束标签作为更新的匹配起始点;
[0019]分割数据块生成模块,还用于对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块,直到识别到预设的数据表结束标签。
[0020]一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行时实现以下步骤:
[0021]提取待解析的电子表格文件的目标可扩展标记语言文件;
[0022]根据预设的数据表开始标签,对所述目标可扩展标记语言文件进行扫描,当识别到所述数据表开始标签时,以所述数据表开始标签作为匹配起始点;
[0023]对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块;
[0024]绘制所述分割数据块的数据视图;
[0025]以所述行结束标签作为更新的匹配起始点;
[0026]返回所述对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块的步骤,直到识别到预设的数据表结束标签。
[0027]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
[0028]提取待解析的电子表格文件的目标可扩展标记语言文件;
[0029]根据预设的数据表开始标签,对所述目标可扩展标记语言文件进行扫描,当识别到所述数据表开始标签时,以所述数据表开始标签作为匹配起始点;
[0030]对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块;
[0031]绘制所述分割数据块的数据视图;
[0032]以所述行结束标签作为更新的匹配起始点;
[0033]返回所述对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块的步骤,直到识别到预设的数据
表结束标签。
[0034]上述电子表格文件解析方法、装置、计算机可读存储介质和计算机设备,通过提取待解析的电子表格文件的目标可扩展标记语言文件,并根据预设的数据表开始标签对目标可扩展标记语言文件进行扫描,并以识别到的数据表开始标签作为匹配起始点,对匹配起始点后的目标可扩展标记语言文件进行识别。在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到行开始标签和行结束标签之间的分割数据块,并绘制分割数据块的数据视图。实现了边得到分割数据块,边绘制数据视图的功能,且通过重复执行生成分割数据块的步骤,可确定出数据表文件的多个分割数据块。由于通过对多个分割数据块分别进行数据视图绘制,无需按照传统的方式同时全部解析整个电子表格文件,降低了解析消耗时间,减少了资源占用,进一步提高了电子表格文件的解析效率。
附图说明
[0035]图1为一个实施例中电子表格文件解析方法的应用环境图;
[0036]图2为一个实施例中电子表格文件解析方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子表格文件解析方法,包括:提取待解析的电子表格文件的目标可扩展标记语言文件;根据预设的数据表开始标签,对所述目标可扩展标记语言文件进行扫描,当识别到所述数据表开始标签时,以所述数据表开始标签作为匹配起始点;对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块;绘制所述分割数据块的数据视图;以所述行结束标签作为更新的匹配起始点;返回所述对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块的步骤,直到识别到预设的数据表结束标签。2.根据权利要求1所述的方法,其特征在于,所述对所述匹配起始点后的所述目标可扩展标记语言文件进行识别,在识别到预设的行开始标签后,跳过预设大小的数据块继续识别,当识别到预设的行结束标签时,得到所述行开始标签和所述行结束标签之间的分割数据块,包括:以预设的行开始标签对所述匹配起始点后的所述目标可扩展标记语言文件进行字符串匹配;当匹配到预设的行开始标签时,跳过预设大小的数据块后,继续以预设的行结束标签对所述目标可扩展标记语言文件进行字符串匹配;当匹配到所述行结束标签时,得到所述行开始标签与所述行结束标签之间的分割数据块。3.根据权利要求1所述的方法,其特征在于,所述提取待解析的电子表格文件的目标可扩展标记语言文件,包括:获取待解析的电子表格文件,并对所述电子表格文件进行解压缩操作,根据预设可扩展标记语言文件标识,提取与所述预设可扩展标记语言文件标识对应的解压缩后的目标可扩展标记语言文件。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据预设的数据表开始标签扫描所述目标可扩展标记语言文件,以所述数据表开始标签作为匹配起始点,包括:获取预设的数据表开始标签;扫描所述目标可扩展标记语言文件,基于所述预设的数据表开始标签,对所述目标可扩展标记语言文件进行字符串匹配,当匹配到对应的数据表开始标签时,将所述数据表开始标签作为匹配起始点。5.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:识别所述目标可扩展标记语言文件的文件开始标签,并提取所述...

【专利技术属性】
技术研发人员:金鑫薛平安
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1