System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及机器学习,特别涉及一种训练数据生成方法、装置、计算机设备、存储介质及产品。
技术介绍
1、近年来,gpt等llm大模型(large language model,大语言模型)的应用逐渐增加;训练数据的质量和多样性对于大语言模型的性能提升起着至关重要的作用。
2、在相关技术中,训练数据生成往往依赖于人工标注或者基于规则的模板生成,通常需要对原始数据进行语义识别,数据标注等处理,目前缺乏有效的自动化手段,大部分仍是半自动化和人工标注,使得生成训练数据效率较低,且准确性较差。
技术实现思路
1、本申请实施例提供了一种训练数据生成方法、装置、计算机设备、存储介质及产品,可以实现训练数据生成的自动化,提高训练数据的生成效率,并且提高训练数据的数据质量以及全面性,该技术方案如下。
2、一方面,提供了一种训练数据生成方法,
3、所述方法包括:
4、获取目标文本段;所述目标文本段基于原始文档得到任意一个文本段;
5、通过多个大语言模型对所述目标文本段进行问答对提取,得到所述目标文本段的多个问答对;各个大语言模型之间的提示方式设置不同;
6、在所述多个问答对中包含问题文本相同的至少两个目标问答对的情况下,基于至少两个所述目标问答对生成重组问答对;所述重组问答对中包含问题文本以及重组回答文本;所述重组回答文本是基于至少两个所述目标问答对中的回答文本生成的;
7、基于所述重组问答对以及非目标问答对生成训练
8、另一方面,提供了一种训练数据生成装置,所述装置包括:
9、文本段获取模块,用于获取目标文本段;所述目标文本段基于原始文档得到任意一个文本段;
10、问答对提取模块,用于通过多个大语言模型对所述目标文本段进行问答对提取,得到所述目标文本段的多个问答对;各个大语言模型之间的提示方式设置不同;
11、问答对生成模块,用于在所述多个问答对中包含问题文本相同的至少两个目标问答对的情况下,基于至少两个所述目标问答对生成重组问答对;所述重组问答对中包含问题文本以及重组回答文本;所述重组回答文本是基于至少两个所述目标问答对中的回答文本生成的;
12、数据生成模块,用于基于所述重组问答对以及非目标问答对生成训练数据;所述非目标问答对是所述多个问答对中除所述目标问答对之外的其他问答对。
13、在一种可能的实现方式中,所述问答对生成模块,包括:
14、列表生成子模块,用于基于至少两个所述目标问答对,生成问题文本对应的回答文本列表;
15、去重子模块,用于对问题文本对应的所述回答文本列表中的至少两个回答文本进行去重处理,得到去重后的回答文本与问题文本组成的所述重组问答对。
16、在一种可能的实现方式中,所述去重子模块,包括:
17、相似度计算单元,用于对所述回答文本列表中的各个回答文本进行相似度计算,得到各个回答文本之间的相似度;
18、去重单元,用于基于各个回答文本之间的相似度对至少两个问答文本进行去重处理,得到去重后的回答文本与问题文本组成的所述重组问答对。
19、在一种可能的实现方式中,所述去重单元,用于将至少两个问答文本中相似度最小的前n对回答文本确定为去重后的回答文本;n为正整数。
20、在一种可能的实现方式中,所述去重单元,用于将至少两个回答文本中相对度小于相似度阈值的m对回答文本确定为去重后的回答文本;m为正整数。
21、在一种可能的实现方式中,所述装置还包括:
22、初始化模块,用于基于各个大语言模型各自对应的提示方式对各个大语言模型进行模板初始化;
23、模型抽取模块,用于从初始化后的各个大语言模型中随机抽取所述多个大语言模型。
24、在一种可能的实现方式中,所述文本段获取模块,包括:
25、文本提取子模块,用于对所述原始文档进行文本提取,得到所述原始文档对应的原始文本;
26、分段处理子模块,用于通过分段算法对所述原始文本进行分段处理,得到所述原始文本对应的文本段列表;
27、文本段获取子模块,用于获取所述文本段列表中的任意一个文本段为所述目标文本段。
28、在一种可能的实现方式中,所述文本提取子模块,用于,
29、在所述原始文档中包括图像信息的情况下,对所述图像信息进行图像识别,得到所述图像信息对应的文本内容;
30、在所述原始文档中包括音频信息的情况下,对所述音频信息进行语音识别,得到所述音频信息对应的文本内容。
31、在一种可能的实现方式中,所述分段算法包括以下至少之一:
32、基于目标分隔符对所述原始文本进行分段处理;
33、基于文本语义对所述原始文本进行分段处理;
34、基于文本字数对所述原始文本进行分段处理;
35、基于指定关键词对所述原始文本进行分段处理。
36、在一种可能的实现方式中,所述数据生成模块,用于基于目标训练模型的训练数据格式对所述重组问答对以及所述非目标问答对进行格式转换,得到对应于所述目标训练模型的训练数据。
37、另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现上述的训练数据生成方法。
38、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述的训练数据生成方法。
39、另一方面,提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以实现上述各种可选实现方式中提供的训练数据生成方法。
40、本申请提供的技术方案可以包括以下有益效果:
41、本申请实施例提供的训练数据生成方法,对于基于原始文档得到的任意一个文本段落,通过设置有不同提示方式的多个大语言模型分别进行问答对提取,得到该文本段的多个问答对,在存在问题文本相同的多个目标问答对的情况下,基于多个目标问答对生成重组问答对,该重组问答对中包含问题文本以及基于多个目标问答对中的回答文本生成的重组回答文本,之后,基于重组问答对以及多个问答对中除目标问答对之外的非目标问答多生成训练数据;通过上述方法,可以实现训练数据生成的自动化,提高训练数据的生成效率,并且在该过程中,借助多个大语言模型各异的提示方式提取同一文本段信息,可以多视角地获取问答对,提高了信息提取的全面性;通过重组具有相同问题文本的问答对,提高了问答对中回答文本的全面性和准确性,从而在基于重组问答对以及非目标问答对生成训练数据时本文档来自技高网...
【技术保护点】
1.一种训练数据生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于至少两个所述目标问答对生成重组问答对,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述回答文本列表中的至少两个回答文本进行去重处理,得到去重后的回答文本与问题文本组成的所述重组问答对,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于各个回答文本之间的相似度对至少两个问答文本进行去重处理,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于各个回答文本之间的相似度对至少两个问答文本进行去重处理,包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述获取目标文本段,包括:
8.根据权利要求7所述的方法,其特征在于,所述对所述原始文档进行文本提取,得到所述原始文档对应的原始文本,包括:
9.根据权利要求7所述的方法,其特征在于,所述分段算法包括以下至少之一:
10.根据权利要求1所述的方法,
11.一种训练数据生成装置,其特征在于,所述装置包括:
12.根据权利要求11所述的装置,其特征在于,所述问答对生成模块,包括:
13.根据权利要求12所述的装置,其特征在于,所述去重子模块,包括:
14.根据权利要求13所述的装置,其特征在于,所述去重单元,用于将至少两个问答文本中相似度最小的前N对回答文本确定为去重后的回答文本;N为正整数。
15.根据权利要求13所述的装置,其特征在于,所述去重单元,用于将至少两个回答文本中相对度小于相似度阈值的M对回答文本确定为去重后的回答文本;M为正整数。
16.一种计算机设备,其特征在于,所述计算机设备包含处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至10任一所述的训练数据生成方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的训练数据生成方法。
18.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行以实现如权利要求1至10任一所述的训练数据生成方法。
...【技术特征摘要】
1.一种训练数据生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于至少两个所述目标问答对生成重组问答对,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述回答文本列表中的至少两个回答文本进行去重处理,得到去重后的回答文本与问题文本组成的所述重组问答对,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于各个回答文本之间的相似度对至少两个问答文本进行去重处理,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于各个回答文本之间的相似度对至少两个问答文本进行去重处理,包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述获取目标文本段,包括:
8.根据权利要求7所述的方法,其特征在于,所述对所述原始文档进行文本提取,得到所述原始文档对应的原始文本,包括:
9.根据权利要求7所述的方法,其特征在于,所述分段算法包括以下至少之一:
10.根据权利要求1所述的方法,其特征在于,所述基于所述重组问答对以及非目标问答对生成训练数据;所述非目标问答对是所述多个问答对中除所述目标问答对之外的其他问答对,包括:
11.一种训练数据生成装置,其特...
【专利技术属性】
技术研发人员:林德煜,李盛阁,郑丁瑜,马德琳,张树业,毕金龙,徐经纬,肖聪,李高正,何志澎,张子川,朱方路,黄思颖,姚望,郑仰佳,卜志雄,曾嘉伟,
申请(专利权)人:中移互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。