System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,特别是涉及一种文本内容的提炼方法、装置、电子设备及存储介质。
技术介绍
1、大语言模型(large language model,llm)的出现为复杂长文本分析,例如剧情、剧本及文学等产物的解构、分析、评价等,提供了可能。在进行长文本分析时,可以将长文本向量化后,输入大语言模型进行分析。对于长文本,文本篇幅过长,无法一次性输入大语言模型,因为大语言模型一般都有长度限制。
2、现有技术中,通常将长文本划分成不同的块(chunk),对不同的块进行内容提炼,在对块进行内容提炼时,可以采用常规提炼工具(非大语言模型)进行提炼,也可以采用大语言模型进行提炼。常规提炼工具针对给定的块内容,固定输出一种提炼内容。大语言模型采用贪婪解码(greedy decoding)模式,返回一种在大语言模型本次执行时认为概率最大的一种生成内容。
3、利用大语言模型生成提炼内容的效果要比常规提炼工具的效果好,但是,大语言模型进行内容提炼的方式,也存在一定的弊端,由于大语言模型将概率最大的生成内容作为最优内容,而概率最大也仅仅是llm预训练时候所基于训练内容的概率最大,受时间推进及内容垂深的影响,所得到的概率最大的生成内容不一定是最优的,导致最终得到的提炼内容的准确性不足。
技术实现思路
1、本专利技术实施例的目的在于提供一种文本内容的提炼方法、装置、电子设备及存储介质,以提高生成的提炼内容的准确性。具体技术方案如下:
2、在本专利技术实施的第一方面
3、将待提炼文本划分为多个文本块;
4、针对每个所述文本块,生成包括所述文本块和文本提炼提示词的第一提示文本;
5、根据所述第一提示文本,通过大语言模型对所述文本块进行文本内容提炼,得到所述文本块对应的多个提炼内容;
6、根据所述多个提炼内容,生成进行内容融合的第二提示文本;
7、根据所述第二提示文本,通过所述大语言模型对所述多个提炼内容进行融合,得到所述文本块的融合内容;
8、根据多个所述文本块的融合内容,确定所述待提炼文本的目标提炼内容。
9、在本专利技术实施的第二方面,还提供了一种文本内容的提炼装置,包括:
10、文本块划分模块,用于将待提炼文本划分为多个文本块;
11、第一提示生成模块,用于针对每个所述文本块,生成包括所述文本块和文本提炼提示词的第一提示文本;
12、内容提炼模块,用于根据所述第一提示文本,通过大语言模型对所述文本块进行文本内容提炼,得到所述文本块对应的多个提炼内容;
13、第二提示生成模块,用于根据所述多个提炼内容,生成进行内容融合的第二提示文本;
14、内容融合模块,用于根据所述第二提示文本,通过所述大语言模型对所述多个提炼内容进行融合,得到所述文本块的融合内容;
15、提炼内容确定模块,用于根据多个所述文本块的融合内容,确定所述待提炼文本的目标提炼内容。
16、在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文本内容的提炼方法。
17、在本专利技术实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文本内容的提炼方法。
18、本专利技术实施例提供的文本内容的提炼方法、装置、电子设备及存储介质,将待提炼文本划分为多个文本块,针对每个文本块,通过大语言模型对该文本块进行文本内容提炼,得到该文本块对应的多个提炼内容,通过大语言模型对多个提炼内容进行融合,得到该文本块的融合内容,根据多个文本块的融合内容确定待提炼文本的目标提炼内容,由于在通过大语言模型对文本块进行文本内容提炼时,可以得到多个提炼内容,并对多个提炼内容进行融合作为文本块最终的提炼文本,相比于单一的一个提炼内容,这样综合考虑了更多维度、更多角度的多个提炼内容,可以提高最终生成的目标提炼内容的丰富度和准确性。
本文档来自技高网...【技术保护点】
1.一种文本内容的提炼方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一提示文本还包括打分提示词;
3.根据权利要求2所述的方法,其特征在于,在所述从所述多个提炼内容中选取所述分数大于或等于阈值分数的至少两个提炼内容之前,还包括:
4.根据权利要求2所述的方法,其特征在于,所述生成包括所述至少两个提炼内容和融合提示词的所述第二提示文本,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述生成包括所述文本块和文本提炼提示词的第一提示文本,包括:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据多个所述文本块的融合内容,确定所述待提炼文本的目标提炼内容,包括:
7.根据权利要求1-4任一项所述的方法,其特征在于,所述将待提炼文本划分为多个文本块,包括:
8.根据权利要求1-4任一项所述的方法,其特征在于,
9.一种文本内容的提炼装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
12.一种计算机程序产品,所述计算机程序产品包含指令,其特征在于,当所述计算机程序产品在计算机上运行时,使得计算机实现如权利要求1-8中任一所述的方法。
...【技术特征摘要】
1.一种文本内容的提炼方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一提示文本还包括打分提示词;
3.根据权利要求2所述的方法,其特征在于,在所述从所述多个提炼内容中选取所述分数大于或等于阈值分数的至少两个提炼内容之前,还包括:
4.根据权利要求2所述的方法,其特征在于,所述生成包括所述至少两个提炼内容和融合提示词的所述第二提示文本,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述生成包括所述文本块和文本提炼提示词的第一提示文本,包括:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据多个所述文本块的融合内容,确定所述待提炼文本的目标提炼内容,包括:
【专利技术属性】
技术研发人员:乔勇,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。