System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 优化器的数据量化方法、装置、电子设备和介质制造方法及图纸_技高网

优化器的数据量化方法、装置、电子设备和介质制造方法及图纸

技术编号:44500503 阅读:0 留言:0更新日期:2025-03-04 18:09
本公开提供了一种优化器的数据量化方法、装置、电子设备和介质,涉及数据处理技术领域,尤其涉及数据量化技术领域。实现方案为:获取优化器的梯度数据,其中,梯度数据包括初始一阶动量和初始二阶动量;根据初始一阶动量和初始二阶动量确定初始更新率,其中,初始更新率指示初始一阶动量和初始二阶动量之间的比例关系;对初始一阶动量和初始更新率进行量化操作,得到量化一阶动量和量化更新率以进行存储;对量化一阶动量和量化更新率进行反量化操作,得到目标一阶动量和目标更新率;以及根据目标一阶动量和目标更新率确定目标二阶动量,以基于目标一阶动量和目标二阶动量更新神经网络模型的训练参数。

【技术实现步骤摘要】

本公开涉及数据处理,尤其涉及数据量化,具体涉及一种优化器的数据量化方法、装置、电子设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、在基于梯度算法的神经网络模型的训练过程中,每经过一定的训练步长都需要保存一次权重参数作为checkpoint(检查点),然而对于大模型,特别是采用分布式并行训练方式的大模型来说,单次训练所需保存的数据就将占用极大的存储空间。

2、对此,目前提出了对模型训练优化器中的一阶动量和二阶动量进行数据量化以节省存储空间的方法。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。


技术实现思路

1、本公开提供了一种优化器的数据量化方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面,提供了一种优化器的数据量化方法,包括:获取优化器的梯度数据,其中,所述优化器被用于优化基于梯度算法的神经网络模型的训练过程,所述梯度数据包括初始一阶动量和初始二阶动量;根据所述初始一阶动量和所述初始二阶动量确定初始更新率,其中,所述初始更新率指示所述初始一阶动量和所述初始二阶动量之间的比例关系;对所述初始一阶动量和所述初始更新率进行量化操作,得到量化一阶动量和量化更新率以进行存储;对所述量化一阶动量和所述量化更新率进行反量化操作,得到目标一阶动量和目标更新率;以及根据所述目标一阶动量和所述目标更新率确定目标二阶动量,以基于所述目标一阶动量和所述目标二阶动量更新所述神经网络模型的训练参数。

3、根据本公开的另一方面,提供了一种优化器的数据量化装置,包括:获取模块,被配置为获取优化器的梯度数据,其中,所述优化器被用于优化基于梯度算法的神经网络模型的训练过程,所述梯度数据包括初始一阶动量和初始二阶动量;第一确定模块,被配置为根据所述初始一阶动量和所述初始二阶动量确定初始更新率,其中,所述初始更新率指示所述初始一阶动量和所述初始二阶动量之间的比例关系;量化模块,被配置为对所述初始一阶动量和所述初始更新率进行量化操作,得到量化一阶动量和量化更新率以进行存储;反量化模块,被配置为对所述量化一阶动量和所述量化更新率进行反量化操作,得到目标一阶动量和目标更新率;以及第二确定目标,被配置为根据所述目标一阶动量和所述目标更新率确定目标二阶动量,以基于所述目标一阶动量和所述目标二阶动量更新所述神经网络模型的训练参数。

4、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。

5、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述方法。

6、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述方法。

7、根据本公开的一个或多个实施例,提供了一种优化器的数据量化方法,在对优化器的梯度数据进行量化时,基于优化器的一阶动量和二阶动量之间的比例关系来确定更新率,以建立起一阶动量与二阶动量之间的关联关系,基于此,无需单独量化二阶动量,只要量化优化器的一阶动量和更新率,即可在反量化后基于一阶动量和更新率来确定出二阶动量,有效降低了量化过程中的数据损失,实现了在最小化存储空间的同时最大程度地保持神经网络模型的训练方向。

8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种优化器的数据量化方法,包括:

2.根据权利要求1所述的方法,其中,所述初始更新率指示所述初始一阶动量和所述初始二阶动量之间呈负相关。

3.根据权利要求1或2所述的方法,其中,所述对所述初始一阶动量和所述初始更新率进行量化操作,得到量化一阶动量和量化更新率以进行存储,包括:

4.根据权利要求1-3中任一项所述的方法,其中,所述初始一阶动量和所述初始更新率的数据类型为浮点数类型,所述量化一阶动量和所述量化更新率的数据类型为整数类型。

5.根据权利要求4所述的方法,其中,所述整数类型包括int4类型和int8类型,并且其中,所述方法还包括:

6.根据权利要求1-5中任一项所述的方法,其中,所述量化操作为基于通道维度的量化操作。

7.根据权利要求1-5中任一项所述的方法,其中,所述量化操作为基于块维度的量化操作。

8.一种优化器的数据量化装置,包括:

9.根据权利要求8所述的装置,其中,所述初始更新率指示所述初始一阶动量和所述初始二阶动量之间呈负相关。

10.根据权利要求8或9所述的装置,其中,所述量化模块包括:

11.根据权利要求8-10中任一项所述的装置,其中,所述初始一阶动量和所述初始更新率的数据类型为浮点数类型,所述量化一阶动量和所述量化更新率的数据类型为整数类型。

12.根据权利要求11所述的装置,其中,所述整数类型包括int4类型和int8类型,并且其中,所述装置还包括:

13.根据权利要求8-12中任一项所述的装置,其中,所述量化操作为基于通道维度的量化操作。

14.根据权利要求8-12中任一项所述的装置,其中,所述量化操作为基于块维度的量化操作。

15.一种电子设备,包括:

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种优化器的数据量化方法,包括:

2.根据权利要求1所述的方法,其中,所述初始更新率指示所述初始一阶动量和所述初始二阶动量之间呈负相关。

3.根据权利要求1或2所述的方法,其中,所述对所述初始一阶动量和所述初始更新率进行量化操作,得到量化一阶动量和量化更新率以进行存储,包括:

4.根据权利要求1-3中任一项所述的方法,其中,所述初始一阶动量和所述初始更新率的数据类型为浮点数类型,所述量化一阶动量和所述量化更新率的数据类型为整数类型。

5.根据权利要求4所述的方法,其中,所述整数类型包括int4类型和int8类型,并且其中,所述方法还包括:

6.根据权利要求1-5中任一项所述的方法,其中,所述量化操作为基于通道维度的量化操作。

7.根据权利要求1-5中任一项所述的方法,其中,所述量化操作为基于块维度的量化操作。

8.一种优化器的数据量化装置,包括:

9.根据权利要求8所述的装置,其中,所述初始更新率指示所述初始一阶动量...

【专利技术属性】
技术研发人员:刘汀戴斯铭于佃海马艳军周兆京郑露静方泽阳刘毅陈泽裕
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1