一种模型微调方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：44281912 阅读：16 留言：0更新日期：2025-02-14 22:19

本申请提供了一种模型微调方法、装置、设备及计算机可读存储介质，该方法包括：利用通用数据集对预训练模型进行测试，得到预训练模型中各层的分类特性值；利用微调数据集分别对预训练模型中各层进行微调，得到预训练模型中各层的精度贡献值和各层的微调时长；求解最优层微调策略数学模型，得到最优层微调策略，最优层微调策略数学模型根据分类特性值、精度贡献值和微调时长构建。本申请通过对预训练模型进行微调，可以使预训练模型适应各种场景，利用预训练模型每层的精度贡献值确定微调策略，可以减小微调预训练模型的训练数据量，在提高训练效率和精度的同时，减少了计算成本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模型处理，尤其涉及一种模型微调方法、装置、设备及计算机可读存储介质。

技术介绍

1、随着深度学习技术的快速发展，尤其是计算机视觉(computer vision，cv)领域的进步，大规模预训练模型已经展现出强大的泛化能力和在多种下游任务上的优异性能。然而，这些预训练模型通常包含数十亿甚至数万亿个参数，若直接在原始预训练模型上针对具体任务进行训练，不仅需要大量的计算资源和存储空间，还可能导致过拟合问题，特别是在训练数据有限的情况下。

2、模型微调(fine-tuning)是在一个预训练模型上，通过调整少量参数(如权重、偏置等)以适应新的任务和数据的过程，可以在保持模型通用性的同时，降低了微调过程中的资源消耗。但是现有的微调方法仍存在一些不足之处，例如微调效率不高、耗时较长、微调的效果达不到预期等问题。

技术实现思路

1、有鉴于此，本申请的目的在于提供了一种模型微调方法、装置、设备及计算机可读存储介质，利用预训练模型每层的精度贡献值确定微调策略，提高微调效率和精度，其具体技术方案如下：

2、第一方面，本申请提供了一种模型微调方法，所述方法包括：

3、利用通用数据集对预训练模型进行测试，得到所述预训练模型中各层的分类特性值；

4、利用微调数据集分别对所述预训练模型中各层进行微调，得到所述预训练模型中各层的精度贡献值和各层的微调时长；

5、求解最优层微调策略数学模型，得到最优层微调策略，所述最优层微调策略数学模型根据所述

6、在一种可能的实现方式中，所述利用微调数据集分别对所述预训练模型中各层进行微调，得到所述预训练模型中各层的精度贡献值和各层的微调时长，包括：

7、对所述预训练模型进行精度计算，得到所述预训练模型的原始精度；

8、利用所述微调数据集分别对所述预训练模型中各层进行微调，得到多个微调模型和各个所述微调模型对应的微调时长，不同的微调模型对应的微调的层不同；

9、对多个所述微调模型进行精度计算，得到多个微调精度；

10、根据所述预训练模型的原始精度和多个所述微调精度，计算得到所述预训练模型中各层的精度贡献值。

11、在一种可能的实现方式中，所述利用所述微调数据集分别对所述预训练模型中各层进行微调，得到多个微调模型，包括：

12、利用所述微调数据集对所述预训练模型的微调层进行微调，得到所述微调模型，所述微调层为所述预训练模型中的任意一层；

13、遍历所述预训练模型中的每一层，得到多个所述微调模型。

14、在一种可能的实现方式中，所述求解最优层微调策略数学模型，得到最优层微调策略，包括：

15、利用遗传算法求解最优层微调策略数学模型，得到最优层微调策略。

16、在一种可能的实现方式中，所述利用通用数据集对预训练模型进行测试，得到所述预训练模型中各层的分类特性值，包括：

17、将所述通用数据集输入所述预训练模型，确定所述测试数据集在所述预训练模型中各层的测试结果；

18、根据所述预训练模型中各层的测试结果确定所述预训练模型中各层的分类特性值。

19、第二方面，本申请还提供了一种模型微调装置，所述装置包括：

20、测试模块，用于利用通用数据集对预训练模型进行测试，得到所述预训练模型中各层的分类特性值；

21、微调模块，用于利用微调数据集分别对所述预训练模型中各层进行微调，得到所述预训练模型中各层的精度贡献值和各层的微调时长；

22、求解模块，用于求解最优层微调策略数学模型，得到最优层微调策略，所述最优层微调策略数学模型根据所述分类特性值、所述精度贡献值和所述微调时长构建。

23、在一种可能的实现方式中，所述微调模块，包括：

24、原始精度计算单元，用于对所述预训练模型进行精度计算，得到所述预训练模型的原始精度；

25、微调单元，用于利用所述微调数据集分别对所述预训练模型中各层进行微调，得到多个微调模型和各个所述微调模型对应的微调时长，不同的微调模型对应的微调的层不同；

26、微调精度计算单元，用于对多个所述微调模型进行精度计算，得到多个微调精度；

27、计算单元，用于根据所述预训练模型的原始精度和多个所述微调精度，计算得到所述预训练模型中各层的精度贡献值。

28、在一种可能的实现方式中，所述微调单元，具体用于：

29、利用所述微调数据集对所述预训练模型的微调层进行微调，得到所述微调模型，所述微调层为所述预训练模型中的任意一层；

30、遍历所述预训练模型中的每一层，得到多个所述微调模型。

31、第三方面，本申请还提供了一种计算机设备，包括：存储器以及处理器；

32、其中，所述存储器用于存储计算机程序；

33、所述处理器用于执行所述存储器中的计算机程序，以实现上述第一方面或第一方面任一项所述的方法。

34、第四方面，本申请还提供了一种计算机可读存储介质，存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的方法。

35、在本申请中，利用通用数据集对预训练模型进行测试，得到预训练模型中各层的分类特性值；利用微调数据集分别对预训练模型中各层进行微调，得到预训练模型中各层的精度贡献值和各层的微调时长；求解最优层微调策略数学模型，得到最优层微调策略，最优层微调策略数学模型根据分类特性值、精度贡献值和微调时长构建。本申请通过对预训练模型进行微调，可以使预训练模型适应各种场景，利用预训练模型每层的精度贡献值确定微调策略，可以减小微调预训练模型的训练数据量，在提高训练效率和精度的同时，减少了计算成本。

本文档来自技高网...

【技术保护点】

1.一种模型微调方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用微调数据集分别对所述预训练模型中各层进行微调，得到所述预训练模型中各层的精度贡献值和各层的微调时长，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述微调数据集分别对所述预训练模型中各层进行微调，得到多个微调模型，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述求解最优层微调策略数学模型，得到最优层微调策略，包括：

5.根据权利要求1至3任一项所述的方法，其特征在于，所述利用通用数据集对预训练模型进行测试，得到所述预训练模型中各层的分类特性值，包括：

6.一种模型微调装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述微调模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述微调单元，具体用于：

9.一种计算机设备，其特征在于，包括：存储器以及处理器；

10.一种计算机可读存储介质，其特征在于，存储有指令，当其在计

...

【技术特征摘要】

1.一种模型微调方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述微调数据集分别对所述预训练模型中各层进行微调，得到多个微调模型，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述求解最优层微调策略数学模型，得到最优层微调策略，包括：

5.根据权利要求1至3任一项所述的...

【专利技术属性】
技术研发人员：徐朝农，刘志卓，
申请(专利权)人：中国石油大学北京，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人