System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及模型优化,特别是涉及一种数据处理方法、装置、电子设备和存储介质。
技术介绍
1、随着自然语言处理(nlp)技术的快速发展,如openai的gpt系列和谷歌的bert系列等强大的预训练语言模型不断涌现,极大提升了各类nlp任务的性能。然而,模型规模的增加导致了计算复杂度和内存需求的急剧增长,特别是在资源有限的设备上,这一挑战显得尤为突出。在此背景下,大型语言模型的后训练量化技术(ptq)应运而生。
2、在大语言模型中,如果出现异常激活值,会对大语言模型的量化产生影响,无法保证大语言模型的量化精度,会导致量化后的大语言模型性能较差。
技术实现思路
1、本申请至少提供一种数据处理方法、装置、电子设备和存储介质。
2、为解决上述技术问题,本申请采用的一个技术方案是:提供一种数据处理方法,该方法包括:获取待处理文本数据;利用目标大模型对待处理文本数据进行处理,得到目标处理结果;其中,目标大模型是对预训练的大语言模型优化后得到的,优化的过程包括:利用大语言模型对样本文本数据进行处理,得到大语言模型中各网络层的样本处理结果;从各网络层的样本处理结果中,确定异常处理结果;基于异常处理结果在大语言模型中的出现位置,确定大语言模型中需优化的网络层;对需优化的网络层进行优化,得到目标大模型,目标大模型对样本文本数据处理得到的异常处理结果的分布数值范围减小。
3、因此,大语言模型中需优化的网络层,是基于异常处理结果在大语言模型中的出现位置确定的,也就是说,大语
4、其中,需优化的网络层包括第一网络层和第二网络层,异常处理结果为第一网络层的输出,且为第二网络层的输入;和/或,对需优化的网络层进行优化,包括:对需优化的网络层进行等价交换。
5、其中,对需优化的网络层的优化方式为等价交换,需优化的网络层包括第一网络层和第二网络层;对需优化网络层进行优化,包括:对需优化的第一网络层的网络参数进行调整,使得第一网络层能够减小输出的异常处理结果的分布数值范围;对需优化的的第二网络层的网络参数,使得第二网络层适配减小的异常处理结果的分布数值范围。
6、其中,对需优化的第一网络层的网络参数进行调整,包括:对第一网络层的网络参数进行平移变换和/或伸缩变换,以调整第一网络层的网络参数。
7、其中,第一网络层包括归一化层,归一化层的网络参数包括缩放因子和偏移量;对第一网络层的网络参数进行平移变换和/或伸缩变换,包括:对归一化层的缩放因子进行伸缩变换,以调整缩放因子;以及,对归一化层的偏移量进行平移变换,得到变换后的偏移量;对变换后的偏移量进行伸缩变换,以调整偏移量;或,第一网络层包括全连接层,全连接层的网络参数包括权重和偏置值;对第一网络层的网络参数进行平移变换和/或伸缩变换,包括:对全连接层的权重进行伸缩变换,以调整权重;以及,对全连接层的偏置值进行伸缩变换,得到变换后的偏置值;对变换后的偏置值进行平移变换,以调整偏置值。
8、其中,对网络参数进行伸缩变换,包括:获取伸缩变换对应的伸缩变换参数;将网络参数与伸缩变换参数相乘,以对网络参数进行伸缩变换;和/或,对网络参数进行平移变换,包括:获取平移变换对应的平移变换参数;将网络参数与平移变换参数相减,以对网络参数进行平移变换。
9、其中,对需优化的第二网络层的网络参数进行调整,包括:基于减小的异常处理结果分布的数值范围,对第二网络层的网络参数进行逆平移变换和/或逆伸缩变换,以调整第二网络层的网络参数。
10、其中,从各网络层的样本处理结果中,确定异常处理结果,包括:确定各网络层的样本处理结果是否离群;将离群的样本处理结果,作为异常处理结果。
11、其中,需优化网络层包括输出异常处理结果的第一网络层和输入异常处理结果的第二网络层,其中,第一网络层包括归一化层,第一网络层的网络参数包括缩放因子和偏移量,第二网络层包括全连接层,第二网络层的网络参数包括权重和偏置值;或者,第一网络层包括第一全连接层,第二网络层包括第二全连接层,第一网络层的网络参数包括第一权重和第一偏置值,第二网络层的网络参数包括第二权重和第二偏置值;和/或,网络层的样本处理结果包括网络层输出的至少一个激活值。
12、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种数据处理装置,该装置包括获取模块、处理模块和优化模块;获取模块用于获取待处理文本数据;处理模块用于利用目标大模型对待处理文本数据进行处理,得到目标处理结果;其中,目标大模型是对预训练的大语言模型优化后得到的;优化模块用于利用大语言模型对样本文本数据进行处理,得到大语言模型中各网络层的样本处理结果;从各网络层的样本处理结果中,确定异常处理结果;基于异常处理结果在大语言模型中的出现位置,确定大语言模型中需优化的网络层;对需优化的网络层进行优化,得到目标大模型,目标大模型对样本文本数据处理得到的异常处理结果的分布数值范围减小。
13、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括存储器和处理器,存储器存储有程序指令,处理器用于执行程序指令以实现上述的数据处理方法。
14、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令能够被执行以实现上述的数据处理方法。
15、上述技术方案,大语言模型中需优化的网络层,是基于异常处理结果在大语言模型中的出现位置确定的,也就是说,大语言模型中需优化的网络层,是与异常处理结果关联的网络层;对需优化的网络层进行优化,也就是对与异常处理结果关联的网络层进行优化,而无需对与异常处理结果无关联的网络层进行优化,提高对模型优化的效率。
16、另外,对大语言模型优化后,优化后得到的目标大模型能够控制异常处理结果对量化的影响,保证目标大模型的量化精度,从而保证目标大模型的性能,进而保证目标大模型对文本输出处理的准确性。
本文档来自技高网...【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,对所述需优化的网络层的优化方式为等价交换,所述需优化的网络层包括第一网络层和第二网络层;所述对所述需优化的网络层进行优化,包括:
4.根据权利要求3所述的方法,其特征在于,所述对需优化的第一网络层的网络参数进行调整,包括:
5.根据权利要求4所述的方法,其特征在于,所述第一网络层包括归一化层,所述归一化层的网络参数包括缩放因子和偏移量;所述对所述第一网络层的网络参数进行平移变换和/或伸缩变换,包括:
6.根据权利要求4所述的方法,其特征在于,对所述网络参数进行伸缩变换,包括:
7.根据权利要求3所述的方法,其特征在于,所述对需优化的第二网络层的网络参数进行调整,包括:
8.根据权利要求1所述的方法,其特征在于,所述从所述各网络层的样本处理结果中,确定异常处理结果,包括:
9.根据权利要求1所述的方法,其特征在于,
10.一种数据处理装置,其
11.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有程序指令,所述处理器用于执行所述程序指令以实现如权利要求1-9任一项所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令能够被执行以实现如权利要求1-9任一项所述的数据处理方法。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,对所述需优化的网络层的优化方式为等价交换,所述需优化的网络层包括第一网络层和第二网络层;所述对所述需优化的网络层进行优化,包括:
4.根据权利要求3所述的方法,其特征在于,所述对需优化的第一网络层的网络参数进行调整,包括:
5.根据权利要求4所述的方法,其特征在于,所述第一网络层包括归一化层,所述归一化层的网络参数包括缩放因子和偏移量;所述对所述第一网络层的网络参数进行平移变换和/或伸缩变换,包括:
6.根据权利要求4所述的方法,其特征在于,对所述网络参数进行伸缩变换,包括:
【专利技术属性】
技术研发人员:龚睿昊,张运宸,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。