System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档处理方法、电子设备及程序产品技术_技高网

文档处理方法、电子设备及程序产品技术

技术编号:44167311 阅读:5 留言:0更新日期:2025-01-29 10:41
本公开提供了一种文档处理方法、电子设备及程序产品。本公开的文档处理方法包括:获取多个最小外接矩形,最小外接矩形为待处理文档的一个或多个字符的最小外接矩形;对相邻最小外接矩形之间的间距进行分析,得到待处理文档的横向间距阈值和/或纵向间距阈值;获取多个矩形簇,每个矩形簇包括的相邻最小外接矩形之间的横向间距小于横向间距阈值和/或纵向间距小于纵向间距阈值;将每个矩形簇对应的文档区域作为一个页面以对待处理文档进行分页。

【技术实现步骤摘要】

本公开涉及图像处理等,本公开尤其涉及一种文档处理方法、电子设备及程序产品


技术介绍

1、文档分页是信息管理和数据展示领域的一个重要概念,指在处理和管理文档时,将其内容划分为多个页面的过程。分页技术在文档处理、出版排版、数字文档管理等领域中具有广泛应用。随着大数据时代的到来,数据量呈现爆炸式增长,分页技术的重要性愈发凸显。

2、传统的分页方法通常由排版人员手动完成,即排版人员根据文档内容和设计要求,将内容分配到不同的页面上。

3、然而,在处理大量文档时,人工分页非常耗时,效率较低。


技术实现思路

1、为了解决上述技术问题中的至少一个,本公开提供了一种文档处理方法、电子设备及程序产品。

2、根据本公开的一个方面,提供了一种文档处理方法,包括:

3、获取多个最小外接矩形,所述最小外接矩形为待处理文档的一个或多个字符的最小外接矩形;

4、对相邻最小外接矩形之间的间距进行分析,得到所述待处理文档的横向间距阈值和/或纵向间距阈值;

5、获取多个矩形簇,每个矩形簇包括的相邻最小外接矩形之间的横向间距小于所述横向间距阈值和/或纵向间距小于所述纵向间距阈值;

6、将每个矩形簇对应的文档区域作为一个页面以对所述待处理文档进行分页。

7、根据本公开的至少一个实施方式的文档处理方法,在所述对所述待处理文档进行分页后,还包括:

8、分别对分页得到的多个页面进行内容处理,得到所述待处理文档的内容。p>

9、根据本公开的至少一个实施方式的文档处理方法,所述分别对分页得到的多个页面进行内容处理,得到所述待处理文档的内容,包括:

10、分别对所述多个页面进行文字识别,得到所述多个页面的页面内容;

11、根据所述多个页面的页面内容对所述多个页面进行排序,得到排序结果;

12、根据所述排序结果组织所述页面内容,得到所述待处理文档的内容。

13、根据本公开的至少一个实施方式的文档处理方法,所述获取多个最小外接矩形,包括:

14、获取所述待处理文档中文本的倾斜角度;

15、根据所述倾斜角度对所述待处理文档进行旋转校正,得到校正文档;

16、根据所述校正文档获取所述多个最小外接矩形。

17、根据本公开的至少一个实施方式的文档处理方法,所述获取多个最小外接矩形,包括:

18、对所述待处理文档进行连通组件分析,得到多个连通区域;以及

19、根据所述多个连通区域的边界获取所述多个最小外接矩形。

20、根据本公开的至少一个实施方式的文档处理方法,所述获取多个矩形簇,包括:

21、对所述多个最小外接矩形进行腐蚀和/或膨胀处理,得到多个处理后矩形;

22、根据多个处理后矩形获取多个矩形簇。

23、根据本公开的至少一个实施方式的文档处理方法,所述将每个矩形簇对应的文档区域作为一个页面以对所述待处理文档进行分页,包括:

24、分别获取每个矩形簇对应的最小外包矩形;

25、将每个最小外包矩形对应的文档区域作为一个页面以对所述待处理文档进行分页。

26、根据本公开的至少一个实施方式的文档处理方法,所述将每个最小外包矩形对应的文档区域作为一个页面以对所述待处理文档进行分页,包括:

27、获取多个最小外包矩形共同的上边界、下边界、左边界和右边界;

28、将所述上边界和下边界之间矩形簇的第一数量作为横向分割数:将所述左边界和右边界之间矩形簇的第二数量作为纵向分割数;

29、根据所述横向分割数和所述纵向分割数将每个最小外包矩形对应的文档区域作为一个页面以对所述待处理文档进行分页。

30、根据本公开的另一方面,提供了一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行本公开任一个实施方式的文档处理方法。

31、根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开任一个实施方式的文档处理方法。

本文档来自技高网...

【技术保护点】

1.一种文档处理方法,其特征在于,包括:

2.根据权利要求1所述的文档处理方法,其特征在于,在所述对所述待处理文档进行分页后,还包括:

3.根据权利要求2所述的文档处理方法,其特征在于,所述分别对分页得到的多个页面进行内容处理,得到所述待处理文档的内容,包括:

4.根据权利要求1至3中任意一项所述的文档处理方法,其特征在于,所述获取多个最小外接矩形,包括:

5.根据权利要求1至3中任意一项所述的文档处理方法,其特征在于,所述获取多个最小外接矩形,包括:

6.根据权利要求1至3中任意一项所述的文档处理方法,其特征在于,所述获取多个矩形簇,包括:

7.根据权利要求1至3中任意一项所述的文档处理方法,其特征在于,所述将每个矩形簇对应的文档区域作为一个页面以对所述待处理文档进行分页,包括:

8.根据权利要求7所述的文档处理方法,其特征在于,所述将每个最小外包矩形对应的文档区域作为一个页面以对所述待处理文档进行分页,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的文档处理方法。

...

【技术特征摘要】

1.一种文档处理方法,其特征在于,包括:

2.根据权利要求1所述的文档处理方法,其特征在于,在所述对所述待处理文档进行分页后,还包括:

3.根据权利要求2所述的文档处理方法,其特征在于,所述分别对分页得到的多个页面进行内容处理,得到所述待处理文档的内容,包括:

4.根据权利要求1至3中任意一项所述的文档处理方法,其特征在于,所述获取多个最小外接矩形,包括:

5.根据权利要求1至3中任意一项所述的文档处理方法,其特征在于,所述获取多个最小外接矩形,包括:

6.根据权利要求1至3中任意一项...

【专利技术属性】
技术研发人员:刘云龙李宝
申请(专利权)人:贝壳找房北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1