System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种表格处理方法及装置。
技术介绍
1、随着多媒体技术和终端设备的不断发展,各种电子文档的使用逐渐普及开来,人们对电子文档的使用率不断提高,其中,对pdf文档的使用率也越来越高。较为特殊的是对于pdf文档,人们有时候需要将pdf文档转换成word、excel、ppt等文档,以便于对word、excel、ppt等文档进行编辑。
2、相关技术中,pdf文档中一般存在表格,这些表格并没有被完整地描述出来,例如某些表格的行和列没有框和线进行区分。如此直接将pdf文档转换成word、excel、ppt等文档,word、excel、ppt等文档中的表格依然没有被完整地描述出来,将对用户后期编辑word、excel、ppt等文档造成大量困扰,降低了用户体验。
技术实现思路
1、为了解决上述直接将pdf文档转换成word、excel、ppt等文档,word、excel、ppt等文档中的表格依然没有被完整地描述出来,将对用户后期编辑word、excel、ppt等文档造成大量困扰,降低了用户体验的技术问题,本专利技术实施例提供了一种表格处理方法、装置、电子设备及存储介质。具体技术方案如下:
2、在本专利技术实施例的第一方面,首先提供了一种表格处理方法,所述方法包括:
3、获取目标文档,并识别所述目标文档中的待细化表格区域;
4、将所述待细化表格区域划分为至少一个表格区域,并确定所述表格区域的细化策略;
5、基于所
6、在一个可选的实施方式中,所述将所述待细化表格区域划分为至少一个表格区域,包括:
7、确定所述待细化表格区域中头部和尾部的处理策略;
8、根据所述处理策略对所述头部和所述尾部进行处理,得到第一表格区域;
9、将所述第一表格区域划分为至少一个表格区域。
10、在一个可选的实施方式中,所述将所述第一表格区域划分为至少一个表格区域,包括:
11、通过所述第一表格区域中目标图像,将所述第一表格区域划分为至少一个第二表格区域;
12、针对任一所述第二表格区域,通过所述第二表格区域中背景区域,将所述第二表格区域划分为至少一个第三表格区域;
13、针对任一所述第三表格区域,通过所述第三表格区域中存在的目标单元行,将所述第三表格区域划分为至少一个第四表格区域;
14、针对任一所述第四表格区域,通过所述第四表格区域中目标元素,将所述第四表格区域划分为至少一个第五表格区域;
15、所述确定所述表格区域的细化策略,包括:
16、确定所述第五表格区域的细化策略;
17、所述基于所述细化策略对所述表格区域进行细化处理,所述细化处理用于区分所述表格区域中表格的边框,包括:
18、基于所述第五表格区域的细化策略对所述第五表格区域进行细化处理,所述细化处理用于区分所述第五表格区域中表格的边框。
19、在一个可选的实施方式中,所述确定所述待细化表格区域中头部和尾部的处理策略,包括:
20、获取所述待细化表格区域中头部包含的头部文本,根据所述头部文本确定所述待细化表格区域中头部和尾部的处理策略;
21、或者,
22、确定所述头部中水平方向上任一相邻目标元素之间的第一间距,以及所述待细化表格区域尾部中水平方向上任一相邻目标元素之间的第二间距;
23、确定所述待细化表格区域除所述头部和所述尾部的中间区域中水平方向上任一相邻目标元素之间的第三间距;
24、根据所述第一间距、所述第二间距、所述第三间距,确定所述待细化表格区域中头部和尾部的处理策略。
25、在一个可选的实施方式中,所述根据所述头部文本确定所述待细化表格区域中头部和尾部的处理策略,包括:
26、在所述头部文本包含预设关键字的情况下,确定所述待细化表格区域中头部和尾部的过滤策略;
27、所述根据所述第一间距、所述第二间距、所述第三间距,确定所述待细化表格区域中头部和尾部的处理策略,包括:
28、统计所述第一间距的第一个数、所述第二间距的第二个数、所述第三间距的第三个数;
29、在所述第三个数为n倍的所述第一个数的情况下,或者,在所述第一间距的平均间距宽度大于m倍的所述第三间距的平均间距宽度的情况下,确定所述头部的过滤策略,所述n、m为正整数;
30、在所述第三个数为l倍的所述第二个数,且所述第二间距的平均间距宽度大于k倍的所述第三间距的平均间距宽度的情况下,确定所述尾部的过滤策略,所述k、l为正整数。
31、在一个可选的实施方式中,所述通过所述第一表格区域中目标图像,将所述第一表格区域划分为至少一个第二表格区域,包括:
32、确定所述第一表格区域中目标图像所占据的单元格中水平方向上任一相邻目标元素之间的第四间距,以及所述目标图像所占据的单元格中垂直方向上任一相邻目标元素之间的第五间距;
33、确定所述目标图像所占据的单元格的左侧单元格中垂直方向上任一相邻目标元素之间的第六间距,以及所述目标图像所占据的单元格的右侧单元格中垂直方向上任一相邻目标元素之间的第七间距;
34、确定所述目标图像所占据的单元格的上侧单元格中水平方向上任一相邻目标元素之间的第八间距,以及所述目标图像所占据的单元格的下侧单元格中水平方向上任一相邻目标元素之间的第九间距;
35、通过所述第四间距、所述第八间距、所述第九间距、所述第五间距、所述第六间距、所述第七间距,将所述第一表格区域划分为至少一个第二表格区域。
36、在一个可选的实施方式中,所述通过所述第四间距、所述第八间距、所述第九间距、所述第五间距、所述第六间距、所述第七间距,将所述第一表格区域划分为至少一个第二表格区域,包括:
37、通过所述第四间距、所述第八间距、所述第九间距、所述第五间距、所述第六间距、所述第七间距,设置第一有效位以及第二有效位;
38、通过所述第一有效位以及所述第二有效位的设置情况,将所述第一表格区域划分为至少一个第二表格区域。
39、在一个可选的实施方式中,所述通过所述第四间距、所述第八间距、所述第九间距、所述第五间距、所述第六间距、所述第七间距,设置第一有效位以及第二有效位,包括:
40、统计所述第四间距的第四个数、所述第八间距的第八个数、所述第九间距的第九个数、所述第五间距的第五个数、所述第六间距的第六个数、所述第七间距的第七个数;
41、在所述第四个数与所述第八个数的比值小于第一预设百分比阈值,且所述第四个数与所述第九个数的比值小于第二预设百分比阈值的情况下,将第一有效位设置为第一阈值;
42、在所述第四个数与所述第八个数的比值未小于第一预设百分比阈值本文档来自技高网...
【技术保护点】
1.一种表格处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述待细化表格区域划分为至少一个表格区域,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述第一表格区域划分为至少一个表格区域,包括:
4.根据权利要求2所述的方法,其特征在于,所述确定所述待细化表格区域中头部和尾部的处理策略,包括:
5.根据权利要求3所述的方法,其特征在于,所述通过所述第一表格区域中目标图像,将所述第一表格区域划分为至少一个第二表格区域,包括:
6.根据权利要求3所述的方法,其特征在于,所述通过所述第二表格区域中背景区域,将所述第二表格区域划分为至少一个第三表格区域,包括:
7.根据权利要求3所述的方法,其特征在于,所述通过所述第三表格区域中存在的目标单元行,将所述第三表格区域划分为至少一个第四表格区域,包括:
8.根据权利要求3所述的方法,其特征在于,所述通过所述第四表格区域中目标元素,将所述第四表格区域划分为至少一个第五表格区域,包括:
9.根据权利要求3
10.一种表格处理装置,其特征在于,所述装置包括:
...【技术特征摘要】
1.一种表格处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述待细化表格区域划分为至少一个表格区域,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述第一表格区域划分为至少一个表格区域,包括:
4.根据权利要求2所述的方法,其特征在于,所述确定所述待细化表格区域中头部和尾部的处理策略,包括:
5.根据权利要求3所述的方法,其特征在于,所述通过所述第一表格区域中目标图像,将所述第一表格区域划分为至少一个第二表格区域,包括:
6.根据权利要求3所述的方...
【专利技术属性】
技术研发人员:邓潇,
申请(专利权)人:珠海金山办公软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。