一种模型参数微调方法、装置、系统及介质制造方法及图纸

技术编号：43547736 阅读：14 留言：0更新日期：2024-12-03 12:29

本发明专利技术公开了一种模型参数微调的方法、装置、系统及介质，方法包括：获取预训练的语言处理模型，所述语言处理模型包括若干个线性变换层；在所述线性变换层初始化生成函数系数生成模块；获取与下游任务相对应的目标任务的微调数据集，将所述微调数据集输入所述函数系数生成模块中；所述函数系数生成模块根据微调数据集通过反向传播和优化算法微调函数系数生成模块的参数。本发明专利技术通过只微调非线性函数系数生成模块的参数，而不是整个网络模型的参数，降低模型的训练数量，提升适配效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能决策，尤其涉及一种模型参数微调的方法、装置、系统及介质。

技术介绍

1、随着预训练语言模型的发展，越来越多的语言模型参数超过了3亿或者10亿，使企业无法再针对一个任务部署一个模型，于是模型参数微调方法变得非常重要。模型参数微调方法对每个不同的任务(数据集)，只需要微调几千万的参数就可以将大的预训练模型适配到任务上，获得与直接采用整个模型的全部参数进行一个任务的微调基本相同或者非常接近的表现。低秩适配方法是目前表现最好的模型参数微调方法。但是，对于一个百亿参数的大模型，需要添加上亿的低秩适配参数才能实现有效的微调。如果下游任务数据量太少时，则少样本微调时候不容易收敛。在实际业务中，每个任务都有一套独立的低秩适配参数，尤其是当需要支持成百上千个任务时，这些参数的显存占用会非常巨大。

技术实现思路

1、鉴于上述现有技术的不足，本专利技术的目的在于提供可应用于金融科技或其它相关领域的一种模型参数微调的方法、装置、系统及介质，旨在实现在少样本适配时最大程度的降低模型的训练参数量，提升模型适配效果。

2、本专利技术的技术方案如下：

3、一种模型参数微调的方法，所述方法包括：

4、获取预训练的语言处理模型，所述语言处理模型包括若干个线性变换层；

5、对所述线性变换层初始化生成函数系数生成模块；

6、获取与下游任务相对应的目标任务的微调数据集，将所述微调数据集输入所述函数系数生成模块中；

7、所述函数系数生成

8、在一个实施例中，所述函数系数生成模块根据微调数据集通过反向传播和优化算法更新函数系数生成模块的参数之后，包括：

9、定义有理函数，通过有理函数逼近原激活函数，优化有理函数；

10、将优化后的有理函数作为激活函数代替所述线性变换层的原激活函数。

11、在一个实施例中，所述定义有理函数，通过有理函数逼近原激活函数，优化有理函数，包括：

12、定义有理函数，对所述有理数函数的系数进行初始化；

13、通过损失函数计算所述有理函数和原激活函数之间的差异值；

14、使用数值优化算法根据所述差异值更新有理数函数的系数，生成新激活函数。

15、在一个实施例中，所述在所述线性变换层初始化生成函数系数生成模块，包括：

16、所述函数系数生成模块包括可学习矩阵和若干个可学习参数；其中，所述可学习参数用于调整生成的激活函数的形式；

17、对所述函数系数生成模块的可学习矩阵和若干个可学习参数进行初始化处理；其中，所述可学习矩阵用于处理输入特征。

18、在一个实施例中，所述将优化后的有理函数作为激活函数代替所述线性变换层的原激活函数之后，包括：

19、所述函数系数生成模块根据可学习矩阵和可学习参数生成激活函数的系数；

20、根据生成的系数对所述激活函数进行动态调整。

21、在一个实施例中，所述可学习矩阵用于处理输入特征，包括：

22、将所述微调数据转换成输入特征；

23、由可学习矩阵将输入特征的维度转换为函数系数生成模块参数的维度。

24、在一个实施例中，所述获取与下游任务相对应的目标任务的微调数据集，将所述微调数据集输入所述函数系数生成模块中，包括：

25、获取与下游任务相对应的目标任务的微调数据；

26、对所述微调数据进行预处理，将预处理后的微调数据形成微调数据集。

27、为了解决上述技术问题，本专利技术实施例还提供一种模型参数微调装置，采用了如下所述的技术方案：

28、一种模型参数微调装置，包括：

29、模型获取模块，用于获取预训练的语言处理模型，所述语言处理模型包括若干个线性变换层；

30、系数生成模块，所述对所述线性变换层初始化生成函数系数生成模块；

31、数据获取模块，用于获取与下游任务相对应的目标任务的微调数据集，将所述微调数据集输入所述函数系数生成模块中；

32、参数微调模块，用于所述函数系数生成模块根据微调数据集通过反向传播和优化算法微调函数系数生成模块的参数。

33、为了解决上述技术问题，本专利技术实施例还提供一种模型参数微调系统，采用了如下所述的技术方案：

34、一种模型参数微调系统，所述系统包括至少一个处理器；以及，

35、与所述至少一个处理器通信连接的存储器；其中，

36、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述模型参数微调的方法。

37、为了解决上述技术问题，本专利技术实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

38、一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的模型参数微调的方法。

39、与现有技术相比，本专利技术实施例主要有以下有益效果：

40、本专利技术公开了模型参数微调的方法、装置、系统及介质。相比于现有技术，本专利技术通过获取预训练的语言处理模型，所述语言处理模型包括若干个线性变换层；在所述线性变换层初始化生成函数系数生成模块；获取与下游任务相对应的目标任务的微调数据集，将所述微调数据集输入所述函数系数生成模块中；所述函数系数生成模块根据微调数据集通过反向传播和优化算法微调函数系数生成模块的参数。本专利技术通过只微调非线性函数系数生成模块的参数，而不是整个网络模型的参数，降低模型的训练数量，提升适配效果。

本文档来自技高网...

【技术保护点】

1.一种模型参数微调的方法，其特征在于，包括：

2.根据权利要求1所述的模型参数微调的方法，其特征在于，所述函数系数生成模块根据微调数据集通过反向传播和优化算法更新函数系数生成模块的参数之后，包括：

3.根据权利要求2所述的模型参数微调的方法，其特征在于，所述定义有理函数，通过有理函数逼近原激活函数，优化有理函数，包括：

4.根据权利要求3所述的模型参数微调的方法，其特征在于，所述在所述线性变换层初始化生成函数系数生成模块，包括：

5.根据权利要求4所述的模型参数微调的方法，其特征在于，所述将优化后的有理函数作为激活函数代替所述线性变换层的原激活函数之后，包括：

6.根据权利要求5所述的模型参数微调的方法，其特征在于，所述可学习矩阵用于处理输入特征，包括：

7.根据权利要求6所述的模型参数微调的方法，其特征在于，所述获取与下游任务相对应的目标任务的微调数据集，将所述微调数据集输入所述函数系数生成模块中，包括：

8.一种模型参数微调装置，其特征在于，包括：

9.一种模型参数微调系统，其特

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的模型参数微调的方法。

...

【技术特征摘要】

1.一种模型参数微调的方法，其特征在于，包括：

3.根据权利要求2所述的模型参数微调的方法，其特征在于，所述定义有理函数，通过有理函数逼近原激活函数，优化有理函数，包括：

4.根据权利要求3所述的模型参数微调的方法，其特征在于，所述在所述线性变换层初始化生成函数系数生成模块，包括：

5.根据权利要求4所述的模型参数微调的方法，其特征在于，所述将优化后的有理函数作为激活函数代替所述线性变换层的原激活函数之后，包括：

6.根据...

【专利技术属性】
技术研发人员：朱威，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人