基于异构SoC的混合精度DNN性能成本模型构建系统技术方案

技术编号：44486985 阅读：11 留言：0更新日期：2025-03-04 17:52

本发明专利技术涉及深度学习加速的技术领域，公开了一种基于异构SoC的混合精度DNN性能成本模型构建系统，获取不同数据量从低精度到高精度和从高精度到低精度精度转换的时间和功耗，量化执行所述精度转换的时间，分析精度转换对计算流水线的执行开销和数据搬运开销，通过构建混合精度执行成本模型量化不同映射计划在异构SoC上的执行时间、功耗、层间切换开销和精度转换开销来构建系统，通过该系统进行层配置和统计信息决定每层的计算精度，估计不同环境条件下的功耗和执行时间，模拟在不同温度条件下系统的功耗和性能表，并实施实时监控机制来检测温度变化，实现的系统具有更高的能效，适用于能源敏感的应用场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习加速的，公开了基于异构soc的混合精度dnn性能成本模型构建系统。

技术介绍

1、为了构建基于异构soc的混合精度dnn性能成本模型，研究者们首先需要表征精度转换带来的开销。当在dnn的层与层之间发生精度转换时，例如从int8转换到fp16，或者反之亦然，这种转换不仅涉及到数据大小的变化，还会引起流水线的中断以及额外的数据移动。因此，研究者们需要深入了解每个dsa的硬件架构，因为这将直接影响到dsa的读/写行为，以及它们之间交互的方式。

2、在实验中，研究者们选取了alexnet作为代表性的神经网络模型，将其层映射到nvidia的xavier soc上，并采用了三种不同的精度配置方案：纯int8、混合精度以及纯fp16。实验结果表明，尽管int8执行在速度和能源效率方面表现最为出色，但由于进一步的量化损失导致了最低的准确性；而fp16执行虽然在准确性上表现出色，但在速度和能耗方面却不是最理想的选项。因此，混合精度执行成为了折衷的选择，它可以在准确度、性能和能源消耗之间找到平衡点。

3、为了在异构系统上实现最佳的性能与能源效率，仅仅配置各层的计算精度是不够的，还需要合理分配层到性能或能源效率较高的加速器(如dla和gpu)上。这两个优化目标紧密相连，共同影响着最终的执行时间和能源消耗。鉴于巨大的设计空间，几乎不可能通过随机搜索来获得最优映射。因此，研究者们提出了使用该系统来确定最优的映射策略，通过成本模型预测性能并提供反馈，从而在多种精度配置和加速器分配之间找到最佳平衡。

5、例如公开号为cn112633516a的本专利技术提供一种性能预测系统及装置，该系统包括：确定待预测性能的算子规划；以算子规划中每一张量为节点，以各个张量之间的连接关系为边，构建算子规划的描述图；其中，任一节点的节点特征为对应张量的规划信息，任一条边的边特征为该条边连接的点对应张量的尺寸信息；将描述图输入至性能预测模型，得到性能预测模型输出的算子规划的性能预测结果；其中，性能预测模型是基于样本算子规划及其样本性能参数训练得到的。本专利技术提供的一种性能预测系统及装置，充分考虑了算子规划内部数据流中各个张量的规划信息，提高了算子规划性能预测的准确性。

6、上述专利描述图是基于静态的算子规划构建的，无法完全反映运行时的实际行为，例如，内存访问模式、缓存利用率等动态因素在实际执行过程中可能会对性能产生显著影响，性能预测模型的有效性很大程度上依赖于训练样本的质量和多样性，若训练集不够广泛或代表性不足，那么模型可能无法很好地泛化到未见过的算子规划上，一旦性能预测模型被训练好并部署后，如果没有一个有效的机制来持续收集反馈并更新模型，那么随着硬件或软件的变化，模型的预测精度可能会逐渐下降。

技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。

2、为解决上述技术问题，本专利技术的主要目的在于提供基于异构soc的混合精度dnn性能成本模型构建系统，包括：

3、数据获取模块用于获取不同数据量从低精度到高精度和从高精度到低精度精度转换的时间和功耗；

4、数据处理模块用于量化执行所述精度转换的时间和功耗成本，分析精度转换对计算流水线的执行开销和数据搬运开销；

5、成本计算模块，包括混合精度执行成本模型和布尔变量简化模型，其中，所述混合精度执行成本模型用于量化不同映射计划在异构soc上的执行时间、功耗、层间切换开销和精度转换开销，所述布尔变量简化模型用于求解执行时间和功耗的过程；

6、候选模块，包括候选映射单元和成本模型，其中所述候选映射单元通过设置约束条件对总执行时间做映射排程，并计算层配置和统计信息的计算精度，所述成本模型用于反馈神经网络每层的执行时间、层间切换开销和精度转换开销；

7、估算模块，用于估算不同环境条件下的功耗和执行时间，模拟在不同温度条件下系统的功耗和性能，并实施实时监控机制来检测温度变化，根据当前温度动态调整系统设置。

8、作为本专利技术基于异构soc的混合精度dnn性能成本模型构建系统的一种优选方案，其中：

9、所述数据获取模块获取不同数据量从低精度到高精度和从高精度到低精度精度转换的时间和功耗方法包括，

10、s101、所述获取不同数据量在指定计算设备上的运行时间和功耗成本，对每个神经网络层在不同计算复杂度和不同计算精度下的执行时间进行测量；

11、s102、确定每个层在dla和gpu上分别使用低精度和高精度精度时的执行时间，并记录相应的功耗数据；

12、s103、若提升精度将较低的低精度转换到较高的高精度，则数据量增大而导致的内存带宽需求增加，若设备资源消耗限制将高精度转换到低精度，则数据量减少，内存带宽需求减少。

13、作为本专利技术基于异构soc的混合精度dnn性能成本模型构建系统的一种优选方案，其中：

14、所述执行开销包括精度转换的时间和精度转换消耗的功耗；

15、所述数据搬运开销包括数据传输时间及数据传输功耗。

16、作为本专利技术基于异构soc的混合精度dnn性能成本模型构建系统的一种优选方案，其中：

17、所述混合精度执行成本模型，包括了层映射调度、总执行时间函数和布尔变量、评估函数和计算单元；

18、所述层映射调度用于确定神经网络中的每一层分配给特定的加速器和选择精度转换方式；

19、所述总执行时间函数包括层执行时间、层间切换开销和精度转化开销；

20、所述层间切换和精度转换计算函数用于计算存储器层级切换开销和精度转换开销。

21、作为本专利技术基于异构soc的混合精度dnn性能成本模型构建系统的一种优选方案，其中：

22、构建所述成本模型计算神经网络的执行时间和功耗，确定神经网络各层执行精度转换策略，并预测不同映射方案下的执行时间和功耗；

23、所述成本模型包括计算单元用于计算层间切换、精度转换、过度成本的执行时间和功耗。

24、作为本专利技术基于异构soc的混合精度dnn性能成本模型构建系统的一种优选方案，其中：

25、所述层执行时间用于处理神经网络中的每个层分配特定的加速器和选择精度转换策略的执行时间。

<本文档来自技高网...

【技术保护点】

1.基于异构SoC的混合精度DNN性能成本模型构建系统，包括：

2.根据权利要求1所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

3.根据权利要求2所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

4.根据权利要求3所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

5.根据权利要求4所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

6.根据权利要求5所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

7.根据权利要求6所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

8.根据权利要求7所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

9.根据权利要求7所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

10.根据权利要求9所述的基于异构SoC的混合精度DNN性能成本模型构建系统，其特征在于：

【技术特征摘要】

1.基于异构soc的混合精度dnn性能成本模型构建系统，包括：

2.根据权利要求1所述的基于异构soc的混合精度dnn性能成本模型构建系统，其特征在于：

3.根据权利要求2所述的基于异构soc的混合精度dnn性能成本模型构建系统，其特征在于：

4.根据权利要求3所述的基于异构soc的混合精度dnn性能成本模型构建系统，其特征在于：

5.根据权利要求4所述的基于异构soc的混合精度dnn性能成本模型构建系统，其特征在于：

6.根据...

【专利技术属性】
技术研发人员：傅玉祥，陶强，宋雨龙，贾博琪，曾煦森，贲驰，李丽，李伟，何书专，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人