System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

文档处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:45026632 阅读:1 留言:0更新日期:2025-04-18 17:07
本申请涉及一种文档处理方法、装置、电子设备及存储介质,所述方法包括:确定待排版的原始文档中段落的要素类型;根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,得到所述原始文档的重排版文档。由此能够提高文档重排版的质量,得到符合预期的重排版文档。

【技术实现步骤摘要】

本申请涉及计算机领域,尤其涉及一种文档处理方法、装置、电子设备及存储介质


技术介绍

1、随着信息化办公的普及,文档的电子化编辑与排版已成为日常工作中不可或缺的一部分。

2、原始文档往往包含多种类型的段落,如标题、正文、列表、引用、图片说明等,每种段落类型在排版时都有其特定的格式要求和属性设置。然而,在实际操作中,原始文档中经常存在段落属性设置不当或冗余的情况,这些不规范的属性可能与预期的排版样式相冲突,或者在后续的重排版过程中引起格式混乱,进而影响文档的整体美观性和可读性。


技术实现思路

1、本申请提供了一种文档处理方法、装置、电子设备及存储介质,以解决传统的文档重排版方法难以应对原始文档中复杂多变的段落属性问题,从而很容易出现排版错误的技术问题。

2、第一方面,本申请提供了一种文档处理方法,所述方法包括:

3、确定待排版的原始文档中段落的要素类型;

4、根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,得到所述原始文档的重排版文档。

5、在一可能的实施方式中,所述根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,包括:

6、对所述原始文档中的段落进行逐段遍历;

7、针对当前遍历到的段落,在根据设定的第一清洗规则以及所述段落在所述原始文档中的段落属性,确定对所述段落进行段落属性清洗处理的情况下,对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性;

8、所述方法还包括:

9、针对当前遍历到的段落,在根据设定的第一清洗规则以及所述段落在所述原始文档中的段落属性,确定不对所述段落进行段落属性清洗处理的情况下,根据所述段落的要素类型,对所述段落重新设置段落属性。

10、在一可能的实施方式中,所述根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,包括:

11、根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,根据所述段落的要素类型,对清洗处理后的段落设置所述段落的要素类型对应的样式属性。

12、在一可能的实施方式中,所述方法还包括:

13、确定目标格式属性;

14、根据所述目标格式属性对被设置样式属性后的段落进行格式属性的设置。

15、在一可能的实施方式中,所述确定目标格式属性,包括:

16、获取与所述段落的要素类型对应的格式属性作为目标格式属性。

17、在一可能的实施方式中,所述确定目标格式属性,包括:

18、获取所述段落在所述原始文档中被设置的格式属性作为目标格式属性。

19、在一可能的实施方式中,所述确定目标格式属性,包括:

20、获取所述段落在所述原始文档中被设置的样式属性,将所述样式属性中定义的格式属性作为目标格式属性。

21、在一可能的实施方式中,在所述根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性之后,还包括:

22、将重新设置段落属性后的原始文档作为中间排版文档,根据设定的第二清洗规则对所述中间排版文档中的段落进行排版优化处理,将排版优化处理后的原始文档作为所述原始文档的重排版文档。

23、在一可能的实施方式中,所述根据设定的第二清洗规则对所述中间排版文档中的段落进行排版优化处理,包括:

24、根据设定的第二清洗规则,从所述中间排版文档中识别出排版冗余元素;

25、在所述中间排版文档中,删除所述排版冗余元素。

26、在一可能的实施方式中,所述方法还包括:

27、从所述中间排版文档中识别出与分段或分页相关的错误排版样式;

28、对所述错误排版样式进行纠正处理。

29、在一可能的实施方式中,所述确定待排版的原始文档中段落的要素类型,包括:

30、创建待排版的原始文档的副本文档,按照设定的预处理方式对所述副本文档进行预处理,得到预处理后文档;

31、利用所述预处理后文档和文档要素识别模型,得到所述预处理后文档中段落的模型识别结果,所述模型识别结果包括段落的要素类型;

32、基于所述原始文档和所述预处理后文档之间的段落映射关系,以及所述预处理后文档中段落的模型识别结果,确定所述原始文档中段落的模型识别结果。

33、在一可能的实施方式中,所述利用所述预处理后文档和文档要素识别模型,得到所述预处理后文档中段落的模型识别结果,包括:

34、从所述预处理后文档的段落中识别出冗余内容;

35、利用文档要素识别模型对所述预处理后文档中的非冗余内容进行文档识别,得到所述非冗余内容中段落的模型识别结果,所述非冗余内容是指所述预处理后文档中除所述冗余内容以外的其他内容;

36、根据所述非冗余内容中段落的模型识别结果和所述冗余内容,确定所述预处理后文档中段落的模型识别结果。

37、在一可能的实施方式中,在所述从所述预处理后文档的段落中识别出冗余内容之前,还包括:

38、按照设定的分片规则,将所述预处理后文档分割为多个文档分片;

39、针对所述多个文档分片,执行所述从所述预处理后文档的段落中识别出冗余内容及之后的步骤。

40、第二方面,本申请提供了一种文档处理装置,所述装置包括:

41、要素类型确定模块,用于确定待排版的原始文档中段落的要素类型;

42、重排版模块,用于根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,得到所述原始文档的重排版文档。

43、在一可能的实施方式中,所述重排版模块,具体用于:

44、对所述原始文档中的段落进行逐段遍历;

45、针对当前遍历到的段落,在根据设定的第一清洗规则以及所述段落在所述原始文档中的段落属性,确定对所述段落进行段落属性清洗处理的情况下,对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性;

46、针对当前遍历到的段落,在根据设定的第一清洗规则以及所述段落在所述原始文档中的段落属性,确定不对所述段落进行段落属性清洗处理的情况下,根据所述段落的要素类型,对所述段落重新设置段落属性。

47、在一可能的实施方式中,所述重排版模块,包括:

48、样式设置单元,用于根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,根据所述段落的要素类型,对清洗处理后的段落设置所述段落的要素类型对本文档来自技高网...

【技术保护点】

1.一种文档处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述确定目标格式属性,包括:

6.根据权利要求4所述的方法,其特征在于,所述确定目标格式属性,包括:

7.根据权利要求4所述的方法,其特征在于,所述确定目标格式属性,包括:

8.根据权利要求1所述的方法,其特征在于,在所述根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性之后,还包括:

9.根据权利要求8所述的方法,其特征在于,所述根据设定的第二清洗规则对所述中间排版文档中的段落进行排版优化处理,包括:

10.根据权利要求8所述的方法,其特征在于,所述方法还包括:

11.根据权利要求1至10任一项所述的方法,其特征在于,所述确定待排版的原始文档中段落的要素类型,包括:

12.根据权利要求11所述的方法,其特征在于,所述利用所述预处理后文档和文档要素识别模型,得到所述预处理后文档中段落的模型识别结果,包括:

13.根据权利要求12所述的方法,其特征在于,在所述从所述预处理后文档的段落中识别出冗余内容之前,还包括:

14.一种文档处理装置,其特征在于,所述装置包括:

15.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的文档处理程序,以实现权利要求1-13中任一项所述的文档处理方法。

16.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1-13中任一项所述的文档处理方法。

...

【技术特征摘要】

1.一种文档处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据设定的第一清洗规则对所述原始文档中的段落进行段落属性清洗处理,并根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述确定目标格式属性,包括:

6.根据权利要求4所述的方法,其特征在于,所述确定目标格式属性,包括:

7.根据权利要求4所述的方法,其特征在于,所述确定目标格式属性,包括:

8.根据权利要求1所述的方法,其特征在于,在所述根据所述段落的要素类型,对清洗处理后的段落重新设置段落属性之后,还包括:

9.根据权利要求8所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:王涛陈彩虹陈少芬张钰肖吉星
申请(专利权)人:珠海金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1