System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书涉及数据处理,尤其涉及一种模型训练数据生成方法、装置、存储介质及电子设备。
技术介绍
1、近年来,大型语言模型在通用语言处理上表现出色,但在专业垂直领域中表现欠佳,因为这些专业垂直领域涉及复杂的专业知识。为了提升大型语言模型在这些领域中的表现,需要使用特定领域的精准数据进行微调,但获取高质量的专业领域数据并不容易。
技术实现思路
1、本说明书提供了一种模型训练数据生成方法、装置、存储介质及电子设备,所述技术方案如下:
2、第一方面,本说明书提供了一种模型训练数据生成方法,所述方法包括:
3、获取生成式处理模型和目标领域数据;
4、确定所述目标领域数据对应的领域数据特征以及所述领域数据特征的模型处理标签;
5、基于所述领域数据特征对所述领域数据特征的模型处理标签进行标签更新处理,得到目标领域模型训练数据集;
6、采用所述目标领域模型训练数据集对所述生成式处理模型进行模型训练。
7、第二方面,本说明书提供了一种模型训练数据生成装置,所述装置包括:
8、获取模块,适于获取生成式处理模型和目标领域数据;
9、确定模块,适于确定所述目标领域数据对应的领域数据特征以及所述领域数据特征的模型处理标签;
10、更新模块,适于基于所述领域数据特征对所述领域数据特征的模型处理标签进行标签更新处理,得到目标领域模型训练数据集;
11、训练模块,适于采用所述目标领域模型训练数据集
12、第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
13、第四方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
14、第五方面,本说明书提供一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行上述任意一项的方法步骤。
15、本说明书一些实施例提供的技术方案带来的有益效果至少包括:通过确定目标领域数据对应的领域数据特征以及领域数据特征的模型处理标签,基于领域数据特征确定领域数据特征中与其他领域数据特征差异性较大的领域数据特征,而与其他领域数据特征差异性较大的领域数据特征对应的模型处理标签往往容易打标错误,由此基于领域数据特征对领域数据特征中容易出现打标错误的领域数据特征的模型处理标签进行标签更新,从而得到目标领域模型训练数据集,提高了目标领域数据特征集的训练样本质量,最后采用得到的目标领域模型训练数据集对生成式处理模型进行模型训练,从而得到针对目标领域的高质量处理模型。
本文档来自技高网...【技术保护点】
1.一种模型训练数据生成方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于所述领域数据特征对所述领域数据特征的模型处理标签进行标签更新处理,得到目标领域模型训练数据集,包括:
3.根据权利要求2所述的方法,所述基于所述领域数据特征确定特异性领域数据特征,包括:
4.根据权利要求3所述的方法,所述对所述领域数据特征进行聚类处理,得到至少两类领域数据特征集,基于所述领域数据特征集确定特异性领域数据特征,包括:
5.根据权利要求4所述的方法,所述基于所述特征集相似度分布信息从所述领域数据特征集中确定特异性领域数据特征,包括:
6.根据权利要求5所述的方法,所述基于各参考领域数据特征的特征重复频次,确定所述领域数据特征集中的特异性领域数据特征,包括:
7.根据权利要求3至6中任意一项所述的方法,所述采用所述目标领域模型训练数据集对所述生成式处理模型进行模型训练,包括:
8.根据权利要求7所述的方法,所述确定所述领域数据特征集中新增特异性领域数据特征,包括:
9.根据权利要求1所述的方
10.根据权利要求9所述的方法,所述基于所述领域综合特征和所述领域属性特征确定领域垂类特征,基于所述领域数据特征和所述通用领域数据特征确定领域数据特征,包括:
11.根据权利要求1所述的方法,所述获取生成式处理模型和目标领域数据,包括:
12.根据权利要求1所述的方法,所述得到目标领域模型训练数据集之后,所述方法还包括:
13.一种模型训练数据生成装置,所述装置包括:
14.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~12任意一项的方法步骤。
15.一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行如权利要求1~12任意一项的方法步骤。
16.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~12任意一项的方法步骤。
...【技术特征摘要】
1.一种模型训练数据生成方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于所述领域数据特征对所述领域数据特征的模型处理标签进行标签更新处理,得到目标领域模型训练数据集,包括:
3.根据权利要求2所述的方法,所述基于所述领域数据特征确定特异性领域数据特征,包括:
4.根据权利要求3所述的方法,所述对所述领域数据特征进行聚类处理,得到至少两类领域数据特征集,基于所述领域数据特征集确定特异性领域数据特征,包括:
5.根据权利要求4所述的方法,所述基于所述特征集相似度分布信息从所述领域数据特征集中确定特异性领域数据特征,包括:
6.根据权利要求5所述的方法,所述基于各参考领域数据特征的特征重复频次,确定所述领域数据特征集中的特异性领域数据特征,包括:
7.根据权利要求3至6中任意一项所述的方法,所述采用所述目标领域模型训练数据集对所述生成式处理模型进行模型训练,包括:
8.根据权利要求7所述的方法,所述确定所述领域数据特征集中新增特异性领域数据特征,包括:
<...【专利技术属性】
技术研发人员:刘超,吴俊,朱磊,陈国利,孙志铭,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。