机器学习模型的部署方法技术

技术编号：39511637 阅读：34 留言：0更新日期：2023-11-25 18:47

本申请公开了一种机器学习模型的部署方法

全部详细技术资料下载

【技术实现步骤摘要】
机器学习模型的部署方法、电子设备以及存储介质

[0001]本申请涉及大模型技术
、
模型部署领域，具体而言，涉及一种机器学习模型的部署方法
、
电子设备以及存储介质
。

技术介绍

[0002]目前，大模型在各种任务上表现出了惊人的效果，由于大模型的规模巨大，计算量
、
显存以及内存的占用量非常大，而一般的硬件设备难以支持推理，只能使用高性能计算加速器
(
例如，
A100)
等昂贵且稀缺的设备进行部署，导致大模型的部署成本较高
。
[0003]针对上述的问题，目前尚未提出有效的解决方案
。

技术实现思路

[0004]本申请实施例提供了一种机器学习模型的部署方法
、
电子设备以及存储介质，以至少解决相关技术中模型的部署成本较高的技术问题
。
[0005]根据本申请实施例的一个方面，提供了一种机器学习模型的部署方法，包括：响应作用于操作界面上的量化配置指令，在操作界面上显示初始机器学习模型对应的目标量化方式，其中，初始机器学习模型为预先训练得到的神经网络模型，目标量化方式用于表征对初始机器学习模型进行量化的量化尺度；响应作用于操作界面上的模型部署指令，在操作界面上显示初始机器学习模型的部署结果，其中，部署结果是对目标机器学习模型进行部署后得到的结果，目标机器学习模型是基于目标量化方式对初始机器学习模型进行量化得到的模型
。
[0006]根据本申请实

【技术保护点】

【技术特征摘要】
1.
一种机器学习模型的部署方法，其特征在于，包括：响应作用于操作界面上的量化配置指令，在所述操作界面上显示初始机器学习模型对应的目标量化方式，其中，所述初始机器学习模型为预先训练得到的神经网络模型，所述目标量化方式用于表征对所述初始机器学习模型进行量化的量化尺度；响应作用于所述操作界面上的模型部署指令，在所述操作界面上显示所述初始机器学习模型的部署结果，其中，所述部署结果是对目标机器学习模型进行部署后得到的结果，所述目标机器学习模型是基于所述目标量化方式对所述初始机器学习模型进行量化得到的模型
。2.
根据权利要求1所述的方法，其特征在于，所述初始机器学习模型包括：多层网络层，所述方法还包括：基于所述目标量化方式对所述网络层的权重进行量化处理，得到所述目标机器学习模型
。3.
根据权利要求2所述的方法，其特征在于，所述目标量化方式包括：量化类型，基于所述目标量化方式对所述多层网络层的权重进行量化处理，得到所述目标机器学习模型，包括：在所述量化类型为第一量化类型的情况下，按照所述第一量化类型对应的第一量化参数对所述多层网络层包含的激活层和所述权重进行量化处理，得到所述目标机器学习模型；在所述量化类型为第二量化类型的情况下，按照所述第二量化类型对应的第二量化参数对所述权重进行量化处理，得到所述目标机器学习模型
。4.
根据权利要求2所述的方法，其特征在于，所述目标量化方式包括：量化颗粒度，基于所述目标量化方式对所述网络层的权重进行量化处理，得到所述目标机器学习模型，包括：在所述量化颗粒度为张量颗粒度的情况下，按照一组量化参数对所述权重进行量化处理，得到所述目标机器学习模型；在所述量化颗粒度为通道颗粒度的情况下，按照多组第一量化参数对所述权重包含的多个通道分别进行量化处理，得到所述目标机器学习模型，其中，所述多组第一量化参数与所述多个通道一一对应；在所述量化颗粒度为子通道颗粒度的情况下，按照多组第二量化参数对所述权重包含的不同通道中的多个子通道进行量化处理，得到所述目标机器学习模型，其中，所述多组第二量化参数与所述多个子通道一一对应
。5.
根据权利要求2所述的方法，其特征在于，所述量化方式包括：量化颗粒度和量化精度增强，基于所述目标量化方式对所述网络层的权重进行量化处理，得到所述目标机器学习模型，包括：确定所述权重中，与所述量化颗粒度对应的第一权重；基于所述第一权重的均值和方差，确定所述第一权重中的第二权重，其中，所述第二权重与所述均值的偏离程度大于所述方差；从所述量化颗粒度对应的初始量化参数中，剔除所述第二权重对应的量化参数，得到剩余量化参数；基于所述初始量化参数和所述剩余量化参数分别对所述权重进行量化处理，得到所述
目标机器学习模型
。6.
根据权利要求5所述的方法，其特征在于，基于所述初始量化参数和所述剩余量化参数分别对所述权重进行量化处理，得到所述目标机器学习模型，包括：基于所述初始量化参数对所述权重进行量化处理，得到第一量化结果；基于所述剩余量化参数对所述权重进行量化处理，得到第二量化结果；对所述第一量化结果和所述第二量化结果进行求和，得到所述目标机器学习模型
。7.
根据权利要求1所述的方法，其特征在于，所述方法还包括：响应作用于所述操作界面上的模型部署指令，在所述操作界面上显示多个加速处理器；响应作用于所述多个加速处理器的处理器选择指令，在所述操作界面上显...

【专利技术属性】
技术研发人员：陈小波，张洁靖，王雅洁，郑来文，
申请(专利权)人：杭州阿里巴巴飞天信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人