一种提高硬件吞吐率的AI模型优化部署的方法技术

技术编号：43363199 阅读：14 留言：0更新日期：2024-11-19 17:46

本发明专利技术提供了一种提高硬件吞吐率的AI模型优化部署的方法，其中，该方法包括：根据预设的环境配置和分割要求，将当前场景对应的目标模型进行模型分割，得到对应的多个模型子图；根据环境配置对目标模型和模型子图进行不同优化等级的编译处理，得到对应的多种可执行指令；实时监控当前场景的资源使用情况；根据资源使用情况和当前场景对应的目标模型的运行情况，确定当前场景的目标任务以及目标任务对应的可执行指令；执行目标任务对应的可执行指令，并记录可执行指令的执行参数。本方法通过模型分割和动态任务分配，实现了计算资源的高效利用，同时保证了模型执行的灵活性和性能，适用资源受限或多任务环境等情况下各种深度学习模型的优化部署。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型部署，尤其涉及一种提高硬件吞吐率的ai模型优化部署的方法。

技术介绍

1、随着人工智能技术的快速发展，深度学习模型在图像识别、自然语言处理、语音合成等多个领域得到了广泛应用。这些模型的复杂度和规模不断增加，对计算资源的需求也随之增长。在实际部署过程中，深度学习模型常常面临着诸多挑战，如计算资源有限、硬件异构、实时性要求高等问题。

2、现有技术中，深度学习模型的部署通常采用单一模型部署的方式。这种方法将整个深度学习模型作为一个不可分割的整体，在目标硬件平台上进行编译和执行。这种部署方式具有实现简单、管理方便的优点，因此在早期的深度学习应用中被广泛采用。

3、然而，随着应用场景的日益复杂和多样化，单一模型部署方式的局限性逐渐显现。其中最主要的缺陷是：单个大规模模型往往会独占大量计算资源，导致硬件资源利用率不高。特别是在不同的计算平台上，不同类型的计算单元（如cpu、gpu、tpu等）的特性各不相同，单一模型难以充分利用所有类型的计算资源。这种情况下，部分硬件资源可能处于闲置状态，而另一部分资源则可能超负荷运转，最终导致整体性能无法达到预期水平。

技术实现思路

1、本专利技术的主要目的在于解决现有的单个模型独占大量计算资源，导致硬件资源利用率不高的技术问题。

2、本专利技术第一方面提供了一种提高硬件吞吐率的ai模型优化部署的方法，所述一种提高硬件吞吐率的ai模型优化部署的方法包括：

3、根据预设的环境配置和分割要求，将当前

4、根据所述环境配置对所述目标模型和所述模型子图进行不同优化等级的编译处理，得到对应的多种可执行指令；

5、实时监控所述当前场景的资源使用情况；

6、根据所述资源使用情况和所述当前场景对应的目标模型的运行情况，确定当前场景的目标任务以及所述目标任务对应的可执行指令；

7、执行所述目标任务对应的可执行指令，并记录所述目标任务对应的可执行指令的执行参数。

8、可选的，在本专利技术第一方面的第一种实现方式中，所述根据预设的环境配置和分割要求，将当前场景对应的目标模型进行模型分割，得到对应的多个模型子图包括：

9、根据所述环境配置和所述分割要求，确定当前场景对应的各目标模型的优先等级；

10、根据所述优先等级确定当前场景对应的各目标模型的划分颗粒度；

11、根据所述划分颗粒度对对应的模型进行模型分割，得到对应的多个模型子图。

12、可选的，在本专利技术第一方面的第二种实现方式中，所述根据所述划分颗粒度对对应的模型进行模型分割，得到对应的多个模型子图包括：

13、对所述目标模型进行算子分析，得到所述目标模型中的算子序列；

14、对所述算子序列中的算子进行硬件适配性分析，得到硬件分析结果；

15、根据所述硬件分析结果和所述划分颗粒度对所述算子序列中的算子进行组别划分，得到多个算子组合；

16、根据所述多个算子组合生成对应的多个模型子图。

17、可选的，在本专利技术第一方面的第三种实现方式中，所述根据所述环境配置对所述目标模型和所述模型子图进行不同优化等级的编译处理，得到对应的多种可执行指令包括：

18、对所述目标模型和所述模型子图进行中间代码生成处理，得到对应的中间表示；

19、根据所述环境配置对所述中间表示进行优化处理，得到优化后的中间代码；

20、对所述优化后的中间代码进行目标代码生成处理，得到汇编代码；

21、对所述汇编代码进行机器码生成处理，得到对应的多种可执行指令。

22、可选的，在本专利技术第一方面的第四种实现方式中，所述根据所述资源使用情况和所述当前场景对应的目标模型的运行情况，确定当前场景的目标任务以及所述目标任务对应的可执行指令包括：

23、对所述资源使用情况进行分析处理，得到当前可用的硬件资源信息；

24、根据所述当前场景的需求对所述目标模型的多个模型子图进行任务匹配，得到当前场景的目标任务；

25、根据所述目标任务和所述可用的硬件资源信息，从所述多种可执行指令中进行选择，得到所述目标任务对应的可执行指令；

26、对所述目标任务和所述可执行指令进行关联处理，得到当前场景的目标任务以及所述目标任务对应的可执行指令。

27、可选的，在本专利技术第一方面的第五种实现方式中，所述执行所述目标任务对应的可执行指令，并记录所述目标任务对应的可执行指令的执行参数包括：

28、对所述目标任务对应的可执行指令进行解析处理，得到对应的指令执行序列；

29、根据所述指令执行序列对所述目标任务对应的可执行指令进行逐条执行，得到所述目标任务对应的每条可执行指令的执行结果；

30、对执行结果进行实时监控并记录，得到相应的执行参数。

31、可选的，在本专利技术第一方面的第六种实现方式中，所述对所述目标任务对应的可执行指令进行解析处理，得到对应的指令执行序列包括：

32、对所述目标任务进行需求分析，得到所述目标任务在当前场景对应的不同目标模型的及时性需求；

33、根据所述及时性需求对各目标模型的模型子图对应的可执行指令进行优先级排序，得到初步执行顺序；

34、对所述初步执行顺序中的可执行指令进行运行时间估算，得到各可执行指令的预计执行时间；

35、根据所述预计执行时间和所述及时性需求对所述初步执行顺序进行调整，得到对应的指令执行序列。

36、本专利技术第二方面提供了一种提高硬件吞吐率的ai模型优化部署的装置，所述提高硬件吞吐率的ai模型优化部署的装置包括：

37、模型分割模块，根据预设的环境配置和分割要求，将当前场景对应的目标模型进行模型分割，得到对应的多个模型子图；

38、模型编译模块，用于根据所述环境配置对所述目标模型和所述模型子图进行不同优化等级的编译处理，得到对应的多种可执行指令；

39、资源调度模块，用于实时监控所述当前场景的资源使用情况；

40、任务分配模块，用于根据所述资源使用情况和所述当前场景对应的目标模型的运行情况，确定当前场景的目标任务以及所述目标任务对应的可执行指令；

41、性能记录模块，用于执行所述目标任务对应的可执行指令，并记录所述目标任务对应的可执行指令的执行参数。

42、本专利技术第三方面提供了一种提高硬件吞吐率的ai模型优化部署的装置，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述一种提高硬件吞吐率的ai模型优化部署的设备执行上述的一种提高硬件吞吐率的ai模型优化部署的方法的步骤。

43、本专利技术的第四方面提供了一种计算机可读存储介质，本文档来自技高网...

【技术保护点】

1.一种提高硬件吞吐率的AI模型优化部署的方法，其特征在于，所述提高硬件吞吐率的AI模型优化部署的方法包括：

2.根据权利要求1所述的一种提高硬件吞吐率的AI模型优化部署的方法，其特征在于，所述根据预设的环境配置和分割要求，将当前场景对应的目标模型进行模型分割，得到对应的多个模型子图包括：

3.根据权利要求2所述的一种提高硬件吞吐率的AI模型优化部署的方法，其特征在于，所述根据所述划分颗粒度对对应的模型进行模型分割，得到对应的多个模型子图包括：

4.根据权利要求1所述的一种提高硬件吞吐率的AI模型优化部署的方法，其特征在于，所述根据所述环境配置对所述目标模型和所述模型子图进行不同优化等级的编译处理，得到对应的多种可执行指令包括：

5.根据权利要求1所述的一种提高硬件吞吐率的AI模型优化部署的方法，其特征在于，所述根据所述资源使用情况和所述当前场景对应的目标模型的运行情况，确定当前场景的目标任务以及所述目标任务对应的可执行指令包括：

6.根据权利要求1所述的一种提高硬件吞吐率的AI模型优化部署的方法，其特征在于，所述执行所

7.根据权利要求6所述的一种提高硬件吞吐率的AI模型优化部署的方法，其特征在于，所述对所述目标任务对应的可执行指令进行解析处理，得到对应的指令执行序列包括：

8.一种提高硬件吞吐率的AI模型优化部署的装置，其特征在于，所述提高硬件吞吐率的AI模型优化部署的装置包括：

9.一种提高硬件吞吐率的AI模型优化部署的设备，其特征在于，所述提高硬件吞吐率的AI模型优化部署的设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述一种提高硬件吞吐率的AI模型优化部署的方法的步骤。

...

【技术特征摘要】

1.一种提高硬件吞吐率的ai模型优化部署的方法，其特征在于，所述提高硬件吞吐率的ai模型优化部署的方法包括：

2.根据权利要求1所述的一种提高硬件吞吐率的ai模型优化部署的方法，其特征在于，所述根据预设的环境配置和分割要求，将当前场景对应的目标模型进行模型分割，得到对应的多个模型子图包括：

3.根据权利要求2所述的一种提高硬件吞吐率的ai模型优化部署的方法，其特征在于，所述根据所述划分颗粒度对对应的模型进行模型分割，得到对应的多个模型子图包括：

4.根据权利要求1所述的一种提高硬件吞吐率的ai模型优化部署的方法，其特征在于，所述根据所述环境配置对所述目标模型和所述模型子图进行不同优化等级的编译处理，得到对应的多种可执行指令包括：

5.根据权利要求1所述的一种提高硬件吞吐率的ai模型优化部署的方法，其特征在于，所述根据所述资源使用情况和所述当前场景对应的目标模型的运行情况，确定当前场景的目标任务以及所述目标任...

【专利技术属性】
技术研发人员：杨宜，孟成，
申请(专利权)人：奕行智能科技广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人