System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档摘要生成方法、计算机设备、存储介质和程序产品技术_技高网

文档摘要生成方法、计算机设备、存储介质和程序产品技术

技术编号:42058057 阅读:17 留言:0更新日期:2024-07-16 23:36
本申请涉及一种文档摘要生成方法、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:读取文档中的文本内容;对文本内容进行分块和筛选,得到多个目标文本块;每个目标文本块设置有对应的关注强度;针对每个目标文本块,根据目标文本块的关注强度确定目标文本块的摘要字数;通过预设大语言模型,基于多个目标文本块、每个目标文本块的摘要字数、以及用于指示摘要生成的提示词进行多轮摘要处理,输出文档对应的摘要结果。采用本方法能够根据文档中各文本块的关注强度确定对应的摘要字数,能够保证重要程度高的文本块中的内容更多地保留下来,基于文本块的关注强度对不同类型的文档进行个性化处理,提升了生成的摘要的质量。

【技术实现步骤摘要】

本申请涉及计算机,特别是涉及一种文档摘要生成方法、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、目前文档摘要生成方式中,主要针对整体文档进行统一的分片、内容提取等操作。不同文档的侧重点存在区别,由于传统方式对各类型的文档没有提出个性化的处理方式,缺乏对文档特定类型或需求类别的考虑,导致生成的摘要的质量低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种文档摘要生成方法、计算机设备、计算机可读存储介质和计算机程序产品,能够提升生成的摘要的质量。

2、第一方面,本申请提供了一种文档摘要生成方法,包括:

3、读取文档中的文本内容;

4、对文本内容进行分块和筛选,得到多个目标文本块;每个目标文本块设置有对应的关注强度;

5、针对每个目标文本块,根据目标文本块的关注强度确定目标文本块的摘要字数;

6、通过预设大语言模型,基于多个目标文本块、每个目标文本块的摘要字数、以及用于指示摘要生成的提示词进行多轮摘要处理,输出文档对应的摘要结果。

7、在其中一个实施例中,第i轮摘要处理的步骤,包括:

8、确定文本块列表;文本块列表中包括关注强度大于i-1的目标文本块;

9、确定第i轮摘要处理的输入文本块;其中,首轮摘要处理的输入文本块为文本块列表中关注强度不大于i的至少一个目标文本块;非首轮摘要处理的输入文本块为第i-1轮的输出文本块和文本块列表中关注强度不大于i的至少一个目标文本块;

10、确定输入文本块的目标摘要字数;

11、基于输入文本块、目标摘要字数、以及用于指示摘要生成的提示词,构建输入文本;

12、将输入文本输入预设大语言模型,得到摘要文本;

13、根据预设大语言模型的输入长度限制值对摘要文本进行分块,得到至少一个摘要文本块;

14、从文本块列表中删除关注强度不大于i的至少一个目标文本块;

15、在摘要文本块的个数和文本块列表中目标文本块的个数之和超出设定阈值的情况下,将至少一个摘要文本块作为第i轮的输出文本块。

16、在其中一个实施例中,所述方法还包括:

17、在摘要文本块的个数和文本块列表中目标文本块的个数之和未超出设定阈值的情况下,将摘要文本块作为文档对应的摘要结果。

18、在其中一个实施例中,对文本内容进行分块和筛选,得到多个目标文本块,包括:

19、根据预设大语言模型的输入长度限制值确定文本量范围;

20、根据多个级别的预设分隔符和文本量范围对文本内容进行分块,得到多个第一文本块;

21、对多个第一文本块中的文本内容进行筛选和重组,得到多个目标文本块。

22、在其中一个实施例中,对多个第一文本块中的文本内容进行筛选和重组,得到多个目标文本块,包括:

23、针对每个第一文本块,从第一文本块的文本内容中,筛选出与预设关键词组的相似度高于设定相似度的目标句子,将目标句子作为筛选后的第一文本块的文本内容;

24、根据文本量范围对筛选后的第一文本块的文本内容进行重组,得到多个目标文本块。

25、在其中一个实施例中,根据文本量范围对筛选后的第一文本块的文本内容进行重组,得到多个目标文本块之后,所述方法还包括:

26、在目标文本块的数量大于设定数量的情况下,根据每个目标文本块的关注强度为每个目标文本块赋予比重;

27、根据多个目标文本块的比重,将多个目标文本块重组为数量与设定数量一致的第二文本块;

28、将第二文本块作为调整后的目标文本块。

29、在其中一个实施例中,所述方法还包括:

30、根据预设大语言模型的输入长度限制值确定文本块句子数量;

31、针对每个目标文本块,确定目标文本块中各句子之间的向量相似度;根据向量相似度确定目标文本块中各句子的重要度;

32、对目标文本块中的句子按照重要度由高至低进行排序,得到句子列表,从句子列表中选择文本块句子数量个的句子;

33、根据选择的句子构成调整后的目标文本块。

34、第二方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

35、读取文档中的文本内容;

36、对文本内容进行分块和筛选,得到多个目标文本块;每个目标文本块设置有对应的关注强度;

37、针对每个目标文本块,根据目标文本块的关注强度确定目标文本块的摘要字数;

38、通过预设大语言模型,基于多个目标文本块、每个目标文本块的摘要字数、以及用于指示摘要生成的提示词进行多轮摘要处理,输出文档对应的摘要结果。

39、第三方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

40、读取文档中的文本内容;

41、对文本内容进行分块和筛选,得到多个目标文本块;每个目标文本块设置有对应的关注强度;

42、针对每个目标文本块,根据目标文本块的关注强度确定目标文本块的摘要字数;

43、通过预设大语言模型,基于多个目标文本块、每个目标文本块的摘要字数、以及用于指示摘要生成的提示词进行多轮摘要处理,输出文档对应的摘要结果。

44、第四方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

45、读取文档中的文本内容;

46、对文本内容进行分块和筛选,得到多个目标文本块;每个目标文本块设置有对应的关注强度;

47、针对每个目标文本块,根据目标文本块的关注强度确定目标文本块的摘要字数;

48、通过预设大语言模型,基于多个目标文本块、每个目标文本块的摘要字数、以及用于指示摘要生成的提示词进行多轮摘要处理,输出文档对应的摘要结果。

49、上述文档摘要生成方法、计算机设备、计算机可读存储介质和计算机程序产品,读取文档中的文本内容;对文本内容进行分块和筛选,得到多个目标文本块;每个目标文本块设置有对应的关注强度;针对每个目标文本块,根据目标文本块的关注强度确定目标文本块的摘要字数;通过预设大语言模型,基于多个目标文本块、每个目标文本块的摘要字数、以及用于指示摘要生成的提示词进行多轮摘要处理,输出文档对应的摘要结果。通过上述方式,根据文档中各文本块的关注强度确定对应的摘要字数,能够保证重要程度高的文本块中的内容更多地保留下来。能够基于文本块的关注强度来适应不同文档的信息分布和信息重要性,能够提升摘要生成的灵活性。基于文本块的关注强度对不同类型的文档进行个性化处理,提升了生成的摘要的质量。通过预设大语言模型进行多轮摘要处理,可以充分利用大语言模型在理解自然语言、捕捉语义关系和生成流畅文本方面本文档来自技高网...

【技术保护点】

1.一种文档摘要生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,第i轮摘要处理的步骤,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述文本内容进行分块和筛选,得到多个目标文本块,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述多个第一文本块中的文本内容进行筛选和重组,得到多个目标文本块,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述文本量范围对筛选后的第一文本块的文本内容进行重组,得到多个目标文本块之后,所述方法还包括:

7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种文档摘要生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,第i轮摘要处理的步骤,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述文本内容进行分块和筛选,得到多个目标文本块,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述多个第一文本块中的文本内容进行筛选和重组,得到多个目标文本块,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述文本量范围对筛选后的第一文本块的文本内容进行重组...

【专利技术属性】
技术研发人员:艾若琳韩剑平柏雪詹晨刘芳芳
申请(专利权)人:一汽解放汽车有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1