System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度学习的AI加速器量化算法制造技术_技高网

一种基于深度学习的AI加速器量化算法制造技术

技术编号:41208499 阅读:3 留言:0更新日期:2024-05-09 23:30
本发明专利技术公开了一种基于深度学习的AI加速器量化算法,该方法包括获取预训练模型的各项参数,对权重的输入激活值进行限制和映射,得到输入激活的位宽;对预训练模型的浮点数数据进行预处理;基于输入激活的位宽对第一张量进行分组量化;对分组量化数据进行绝对值累加,并计算原始数据与分组量化数据的绝对值累加值的误差;设置超参数空间,并调整超参数组合;基于不同超参数组合和绝对值累加值的误差筛选分组量化数据;对预训练模型进行训练,并使损失函数最小化,得到最优的比特位权值分布及其对应的分组量化数据。通过使用本发明专利技术能够在保持精度的前提下,灵活地将每一层的数据量化为合适的量化位宽。本发明专利技术可广泛应用于人工智能技术领域。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于深度学习的ai加速器量化算法。


技术介绍

1、近年来,卷积神经网络在图像分类、目标检测和实例分割等多个计算机视觉问题上取得了巨大的成功。然而,随着神经网络性能的不断提升,模型的计算量也急剧增加。现代深度学习模型通常需要在具有大容量内存和高性能计算设备的平台上运行,如图形处理器,这导致了高昂的计算成本。同时,移动设备和嵌入式设备上对神经网络模型的需求也日益增长,而这些设备的计算性能、功耗和可用内存都受到限制。因此,如何在边缘设备上高效地部署深度神经网络模型,成为了一个亟待解决的问题。

2、然而,现有方法要么只能在保持精度的前提下,逐层将数据量化为不同的精度,不能对同一层的不同数据进行不同的量化;要么类似使用二值神经网络,虽然可以任意量化到想要的精度,但是同时也会带来显著的精度下降。现有量化算法不能在保持精度的前提下,根据数据的特征和分布,灵活地将每一层的数据量化为合适的量化位宽。


技术实现思路

1、为了解决上述技术问题,本专利技术的目的是提供一种基于深度学习的ai加速器量化算法,能够在保持精度的前提下,灵活地将每一层的数据量化为合适的量化位宽。

2、本专利技术所采用的第一技术方案是:一种基于深度学习的ai加速器量化算法,包括以下步骤:

3、获取特定任务的预训练模型,得到预训练模型的各项参数;

4、对权重的输入激活值进行限制和映射,得到输入激活的位宽;

5、对预训练模型的浮点数数据进行预处理,得到第一张量;

6、基于输入激活的位宽对第一张量进行分组量化,得到分组量化数据;

7、对分组量化数据进行绝对值累加,并计算原始数据的绝对值累加值与分组量化数据的绝对值累加值的误差;

8、设置超参数空间,并基于网格搜索算法调整超参数组合,得到不同超参数组合;

9、基于不同超参数组合和所述绝对值累加值的误差筛选分组量化数据,得到不同比特位权值分布的分组量化数据;

10、基于不同比特位权值分布的分组量化数据对预训练模型进行训练,并使损失函数最小化,得到最优的比特位权值分布。

11、进一步,所述对权重的输入激活值进行限制和映射,得到输入激活的位宽这一步骤,其具体包括:

12、对权重的激活值进行限制和映射,并去整得到激活值的整数表示;

13、对激活值的整数表示进行量化,得到输入激活的位宽。

14、进一步,所述对预训练模型的浮点数数据进行预处理,得到第一张量这一步骤,其具体包括:

15、基于双曲正切函数对浮点数数据进行映射,得到映射张量;

16、基于浮点数数据的最大绝对值对映射张量进行归一化,得到第一张量。

17、进一步,所述基于输入激活的位宽对第一张量进行分组量化,得到量化数据这一步骤,其具体包括:

18、基于输入激活的位宽确定第一张量内数据的分组数量,得到若干分组数据;

19、遍历分组数据的极大值,并基于以2为底的对数函数和向下取整函数对分组数据的极大值进行最高位取值,得到最高位的值;

20、基于2的幂次方函数对最高位的值进行精度划分,得到量化参数;

21、基于量化参数对分组数据进行量化,得到第二张量;

22、对第二张量进行位稀疏操作,得到量化数据。

23、进一步,所述基于不同超参数组合和所述绝对值累加值的误差筛选分组量化数据,得到不同比特位权值分布的分组量化数据这一步骤,其具体包括:

24、对所述绝对值累加值的误差和不同超参数组合的量化误差的阈值进行比较,得到比较结果;

25、基于比较结果对分组量化数据进行筛选,得到不同比特位权值分布的分组量化数据。

26、通过该优选步骤,可以在不同误差条件下全面评估权值分布效果。

27、进一步,所述一种基于深度学习的ai加速器量化算法的硬件设计方法,通过加法和移位对最低计算单元进行自由组合,得到混合计算阵列,以实现最优的比特位权值分布的分组量化数据的硬件计算。

28、本专利技术方法的有益效果是:本专利技术利用超参数空间和网格搜索算法探索最佳超参数组合,在不同误差条件下全面评估权值分布效果,自动地搜索和优化每一层的量化策略,无需人工干预和调整;通过损失函数最小化实现权值分布全局最优解,提高量化算法的通用性和可扩展性;通过将每一层的数据分组量化为混合精度的量化,实现对同一层中的不同数据赋予不同的量化位宽和方法,从而更好地适应数据的多样性和动态性;最后可以在不影响模型精度的前提下,最大程度地压缩模型的大小,减少模型的内存占用和访问开销,降低模型的计算复杂度和能耗,提高ai加速器的运行速度和能效。

本文档来自技高网...

【技术保护点】

1.一种基于深度学习的AI加速器量化算法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于深度学习的AI加速器量化算法,其特征在于,所述对权重的输入激活值进行限制和映射,得到输入激活的位宽这一步骤,其具体包括:

3.根据权利要求1所述一种基于深度学习的AI加速器量化算法,其特征在于,所述对预训练模型的浮点数数据进行预处理,得到第一张量这一步骤,其具体包括:

4.根据权利要求1所述一种基于深度学习的AI加速器量化算法,其特征在于,所述基于输入激活的位宽对第一张量进行分组量化,得到分组量化数据这一步骤,其具体包括:

5.根据权利要求1所述一种基于深度学习的AI加速器量化算法,其特征在于,所述基于不同超参数组合和所述绝对值累加值的误差筛选分组量化数据,得到不同比特位权值分布的分组量化数据这一步骤,其具体包括:

6.应用权利要求1-5任一项所述的一种基于深度学习的AI加速器量化算法的硬件设计方法,其特征在于,通过加法和移位对最低计算单元进行自由组合,得到混合计算阵列,以实现最优的比特位权值分布的分组量化数据的硬件计算。

...

【技术特征摘要】

1.一种基于深度学习的ai加速器量化算法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于深度学习的ai加速器量化算法,其特征在于,所述对权重的输入激活值进行限制和映射,得到输入激活的位宽这一步骤,其具体包括:

3.根据权利要求1所述一种基于深度学习的ai加速器量化算法,其特征在于,所述对预训练模型的浮点数数据进行预处理,得到第一张量这一步骤,其具体包括:

4.根据权利要求1所述一种基于深度学习的ai加速器量化算法,其特征在于,所述基于输入激活的位...

【专利技术属性】
技术研发人员:胡湘宏杨超明李荣峰李学铭熊晓明蔡述庭黄宏敏詹瑞典
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1