System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档排版方法、装置、电子设备及存储介质制造方法及图纸_技高网

文档排版方法、装置、电子设备及存储介质制造方法及图纸

技术编号:43364990 阅读:3 留言:0更新日期:2024-11-19 17:47
本申请涉及一种文档排版方法、装置、电子设备及存储介质,所述方法包括:获取待排版文档,并基于预训练的大语言模型识别所述待排版文档中与至少一个待识别段落一一对应的目标排版元素;针对任一所述待识别段落,确定所述待识别段落的所述目标排版元素对应的目标排版样式;将所述目标排版样式应用于所述待识别段落,完成所述待排版文档的排版。如此基于预训练的大语言模型自动识别待排版文档中与至少一个待识别段落一一对应的目标排版元素,来完成待排版文档的排版,无需人工编写规则,可以适配各种写作格式的文档,从而提高识别效果,提高泛化性能。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种文档排版方法、装置、电子设备及存储介质


技术介绍

1、目前,对于文档(例如论文文档),通过预先制定好的大量规则,识别文档中各个段落对应的元素(例如各个章节的标题、摘要、关键词、参考文献、各个级别的目录等),来实现对文档的排版。

2、然而,这种方式需要大量人工编写规则,十分繁琐,并且编写的规则也无法适配各种写作格式的文档,具有识别效果较差,泛化性能较差等缺点。


技术实现思路

1、为了解决上述这种方式需要大量人工编写规则,十分繁琐,并且编写的规则也无法适配各种写作格式的文档,具有识别效果较差,泛化性能较差等缺点的技术问题,本申请实施例提供了一种文档排版方法、装置、电子设备及存储介质。具体技术方案如下:

2、在本申请实施例的第一方面,首先提供了一种文档排版方法,所述方法包括:

3、获取待排版文档,并基于预训练的大语言模型识别所述待排版文档中与至少一个待识别段落一一对应的目标排版元素;

4、针对任一所述待识别段落,确定所述待识别段落的所述目标排版元素对应的目标排版样式;

5、将所述目标排版样式应用于所述待识别段落,完成所述待排版文档的排版。

6、在一个可选的实施方式中,所述基于预训练的大语言模型识别所述待排版文档中与至少一个待识别段落一一对应的目标排版元素,包括:

7、提取所述待排版文档中的至少一个待识别段落,并获取与至少一个所述待识别段落一一对应的段落标识、文本内容及初始排版样式;

8、基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别与至少一个所述待识别段落一一对应的目标排版元素。

9、在一个可选的实施方式中,所述基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别与至少一个所述待识别段落一一对应的目标排版元素,包括:

10、按照预设的段落切割规则,按序将至少一个所述待识别段落切割为至少一个段落组;

11、针对任一所述段落组,执行以下处理:

12、确定所述段落组中的至少一个目标待识别段落;

13、查找所述段落组中的与至少一个所述目标待识别段落一一对应的所述段落标识、所述文本内容及所述初始排版样式;

14、基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素。

15、在一个可选的实施方式中,所述基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

16、按照预设的文本内容截取规则,截取所述段落组中的与至少一个所述目标待识别段落一一对应的所述文本内容的部分文本内容;

17、基于预训练的大语言模型,根据所述段落标识、所述部分文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素。

18、在一个可选的实施方式中,所述基于预训练的大语言模型,根据所述段落标识、所述部分文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

19、根据所述段落标识、所述部分文本内容及所述初始排版样式,构建预训练的大语言模型的目标指令;

20、将所述目标指令输入至所述预训练的大语言模型,得到所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素。

21、在一个可选的实施方式中,所述目标指令为第一指令,所述第一指令包括第一指令说明、第一输入和第一输出;

22、所述根据所述段落标识、所述部分文本内容及所述初始排版样式,构建预训练的大语言模型的目标指令,包括:

23、将所述段落标识、所述部分文本内容及所述初始排版样式进行拼接,得到所述第一输入中的第一输入值;

24、其中,属于同一所述目标待识别段落的所述段落标识、所述部分文本内容及所述初始排版样式拼接在一起;

25、将所述第一输出中的第一输出值设置为空白,由所述第一指令说明、所述第一输入以及所述第一输出构成预训练的大语言模型的第一指令。

26、在一个可选的实施方式中,所述将所述目标指令输入至所述预训练的大语言模型,得到所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

27、将所述第一指令输入至所述预训练的大语言模型,得到所述预训练的大语言模型输出的第一结果;

28、其中,所述第一结果中包括至少一个第一排版元素,以及针对任一所述第一排版元素,所述第一排版元素对应的所述段落标识;

29、针对所述第一结果中的任一所述段落标识,从所述段落组的至少一个所述目标待识别段落中,查找所述段落标识对应的所述目标待识别段落;

30、将所述段落标识对应的所述第一排版元素,确定为所述段落标识对应的所述目标待识别段落的目标排版元素。

31、在一个可选的实施方式中,所述目标指令为第二指令,所述第二指令包括第二指令说明、第二输入和第二输出;

32、所述根据所述段落标识、所述部分文本内容及所述初始排版样式,构建预训练的大语言模型的目标指令,包括:

33、从所述段落组的至少一个所述目标待识别段落中,筛选出至少一个目标段落;

34、将与至少一个所述目标段落一一对应的所述段落标识、所述部分文本内容及所述初始排版样式进行拼接,得到所述第二输入中的第二输入值;

35、其中,属于同一所述目标段落的所述段落标识、所述部分文本内容及所述初始排版样式拼接在一起;

36、将所述第二输出中的第二输出值设置为空白,由所述第二指令说明、所述第二输入以及所述第二输出构成预训练的大语言模型的第二指令。

37、在一个可选的实施方式中,所述将所述目标指令输入至所述预训练的大语言模型,得到所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

38、将所述第二指令输入至所述预训练的大语言模型,得到所述预训练的大语言模型输出的第二结果;

39、其中,所述第二结果中包括至少一个第二排版元素,以及针对所述第二排版元素,所述第二排版元素对应的所述段落标识;

40、针对所述第二结果中的任一所述段落标识,从至少一个所述目标段落中,查找所述段落标识对应的所述目标段落;

41、将所述段落标识对应的所述第二排版元素,确定为所述段落标识对应的所述目标段落的目标排版元素。

42、在一个可选的实施方式中,所述从所述段落组的至少一个所述目标待识别段落中,筛选出至少一个目标段落,包括:

43、根据所述段落标识、所述部分文本内容及所述初始排版样式,构建预训练的大语言模型的第三指令;本文档来自技高网...

【技术保护点】

1.一种文档排版方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于预训练的大语言模型识别所述待排版文档中与至少一个待识别段落一一对应的目标排版元素,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别与至少一个所述待识别段落一一对应的目标排版元素,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于预训练的大语言模型,根据所述段落标识、所述部分文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

6.根据权利要求5所述的方法,其特征在于,所述目标指令为第一指令,所述第一指令包括第一指令说明、第一输入和第一输出;

7.根据权利要求6所述的方法,其特征在于,所述将所述目标指令输入至所述预训练的大语言模型,得到所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

8.根据权利要求5所述的方法,其特征在于,所述目标指令为第二指令,所述第二指令包括第二指令说明、第二输入和第二输出;

9.根据权利要求8所述的方法,其特征在于,所述将所述目标指令输入至所述预训练的大语言模型,得到所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

10.根据权利要求8所述的方法,其特征在于,所述从所述段落组的至少一个所述目标待识别段落中,筛选出至少一个目标段落,包括:

11.根据权利要求10所述的方法,其特征在于,所述第三指令包括第三指令说明、第三输入、第三输出;

12.根据权利要求10所述的方法,其特征在于,所述将所述第三指令输入至所述预训练的大语言模型,筛选出所述段落组的至少一个所述目标待识别段落中的至少一个目标段落,包括:

13.根据权利要求1所述的方法,其特征在于,所述基于预训练的大语言模型识别所述待排版文档中与至少一个待识别段落一一对应的目标排版元素,包括:

14.根据权利要求1所述的方法,其特征在于,所述确定所述待识别段落的所述目标排版元素对应的目标排版样式,包括:

15.根据权利要求5所述的方法,其特征在于,在执行所述方法之前,还包括:

16.一种文档排版装置,其特征在于,所述装置包括:

17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

18.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-15中任一所述的方法。

...

【技术特征摘要】

1.一种文档排版方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于预训练的大语言模型识别所述待排版文档中与至少一个待识别段落一一对应的目标排版元素,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别与至少一个所述待识别段落一一对应的目标排版元素,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于预训练的大语言模型,根据所述段落标识、所述文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于预训练的大语言模型,根据所述段落标识、所述部分文本内容及所述初始排版样式,识别所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

6.根据权利要求5所述的方法,其特征在于,所述目标指令为第一指令,所述第一指令包括第一指令说明、第一输入和第一输出;

7.根据权利要求6所述的方法,其特征在于,所述将所述目标指令输入至所述预训练的大语言模型,得到所述段落组中的与至少一个所述目标待识别段落一一对应的目标排版元素,包括:

8.根据权利要求5所述的方法,其特征在于,所述目标指令为第二指令,所述第二指令包括第二指令说明、第二输入和第二输出;

9.根据权利...

【专利技术属性】
技术研发人员:马骏腾潘云嵩谢泽宇
申请(专利权)人:珠海金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1