一种边缘AI推理场景下的模型缓存调度方法和系统技术方案

技术编号：41532043 阅读：17 留言：0更新日期：2024-06-03 23:08

本发明专利技术涉及人工智能技术领域，尤其涉及一种边缘AI推理场景下的模型缓存调度方法，包括以下步骤：S1：边缘推理节点定期向请求采集器发送请求信息，接收并记录请求信息，并将其上报至云端存储；S2：模型调度器请求信息、当前边缘推理节点的负载情况和预设调度策略向边缘推理节点分配模型副本；S3：边缘推理节点接收到模型副本，根据推理模型和任务需求执行推理任务，根据本地计算资源进行推理处理，生成推理结果并返回请求方。本发明专利技术通过智能计算每个模型的最佳副本数，结合幂律分布算法、节点数量和存储空间大小等能更好地平衡存储成本、节点配置要求和服务可用性之间的关系，为边缘环境下的AI推理服务提供了更加稳定、高效的模型缓存管理方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种边缘ai推理场景下的模型缓存调度方法和系统。

技术介绍

1、在ai推理服务的广泛应用中，随着stable diffusion的盛行和大量经过微调的模型在推理服务中的需求不断增加，传统的模型缓存方法已经显露出一些明显的局限性。

2、传统方法中，一种常见策略是缓存所有模型，然而这种做法导致了巨大的存储成本和对节点配置的高要求；另一种策略是只将部分模型进行缓存，但这会降低服务的可用性，同时模型间的热度不通，也会造成一定的资源浪费，特别是在边缘异构场景下，这种方法表现得尤为不佳。

3、在边缘计算环境中，节点资源有限且异构性明显，这给模型缓存管理带来了挑战。传统方法无法有效平衡算力、存储成本、节点要求和服务可用性之间的关系。因此，需要一种新的模型缓存方法来解决这一问题。

技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,而提供了一种边缘ai推理场景下的模型缓存调度方法，包括以下步骤：

2、s1：边缘推理节点定期向请求采集器发送请求信息，所述请求采集器接收并记录所述请求信息，并将所述请求信息上报至云端存储；

3、s2：模型调度器根据所述云端中的所述请求信息、当前边缘推理节点的负载情况和预设调度策略向所述边缘推理节点分配模型副本；

4、s3：所述边缘推理节点接收到所述模型副本，根据推理模型和任务需求执行推理任务，所述边缘推理节点根据本地计算资源进行推理处理，生成推理结果，并将所述推理结果返回请求方。

5、进一步地，在步骤s1中，所述请求信息，包括：

6、所述请求信息包括当前模型类型、推理频率和计算资源需求在内的信息。

7、进一步地，在步骤s2中，所述模型调度器，进一步包括：

8、所述模型调度器根据所述云端的上报信息，计算出所述当前模型的每个模型的热度，再结合当前的所述边缘推理节点情况计算出所述模型副本的数量。

9、进一步地，在步骤s2中，所述预设调度策略，进一步包括：

10、用户通过所述预设调度策略控制模型资源分配和所述边缘推理节点分配，其中，所述预设调度策略包括三种调度策略，如下所示：

11、第一种调度策略是直接指定所述模型副本的数量以实现精确控制模型资源分配和所述边缘推理节点分配；

12、第二种调度策略是指定所述当前模型和所述边缘推理节点的匹配规则以实现精准控制模型资源分配和所述边缘推理节点分配；

13、第三种调度策略是根据幂律分布调度算法智能决策所述边缘推理节点和模型缓存规则以实现精准控制模型资源分配和所述边缘推理节点分配。

14、进一步地，所述幂律分布调度算法，包括：

15、s21：采集所述当前模型的请求占比；

16、s22：根据所述边缘推理节点数量计算所述当前模型期望的缓存所述模型副本的数量；

17、s23：根据所述模型缓存规则将所述模型副本分配到所述边缘推理节点上；

18、s24：若所述边缘推理节点仍有剩余的存储空间，根据所述模型缓存规则将未分配的所述模型副本分配到所述边缘推理节点中。

19、进一步地，所述步骤s22，包括：

20、计算所述当前模型的每个模型期望的缓存副本数的计算公式，如下所示：

21、

22、其中，m为节点数量，设pi表示第i个模型的期望缓存副本数。

23、进一步地，在步骤s23中，所述模型缓存规则，包括：

24、所述模型缓存规则包括分配规则，所述分配规则是将热度高的所述模型副本按照热度顺序依次分配到存储空间小的节点上。

25、进一步地，在步骤s24中，所述模型缓存规则，还包括：

26、所述模型缓存规则还包括剩余空间利用规则，所述剩余空间利用规则是将未分配的所述模型副本按照热度顺序依次分配到节点上，直到节点的存储空间被充分利用。

27、进一步地，所述推理模型，包括：

28、所述边缘推理节点将接收到的推理任务信息上报给所述云端，所述任务信息包括推理任务使用的所述推理模型和源数据在内的信息。

29、一种边缘ai推理场景下的模型缓存调度系统，包括：

30、模型调度器，用于根据幂律分布调度算法的计算结果和预设调度策略，智能地将模型副本分配到边缘推理节点；

31、请求采集器，用于所述边缘推理节点采集请求信息，并将所述请求信息上传至云端，所述请求采集器收集并传输所述请求信息，为所述模型调度器提供数据支持；

32、所述边缘推理节点，用于执行推理任务，所述边缘推理节点接收所述模型副本并进行推理处理，作为推理执行单元，所述边缘推理节点根据所述模型调度器分配的所述模型副本进行缓存及相应的推理操作，确保所述推理任务的高效完成。

33、与现有技术相比，本专利技术的有益效果是：

34、1)本专利技术通过针对幂律分布特点设计的调度算法，系统能够更加智能地管理模型资源和推理任务的分配，实现对边缘节点资源的有效利用，提高系统的整体性能和可靠性，这种策略有助于平衡系统中不同模型之间的负载，提高整体的推理效率，从而更好地满足边缘异构场景下的ai推理服务需求。

35、2)本专利技术通过推理节点采集请求信息并上传至云端，结合幂律分布算法、节点数量和存储空间大小，智能计算每个模型的最佳副本数，并通过调度策略进行模型分配，这一创新方法在保证服务可用性的前提下，显著降低存储成本和节点要求，为ai推理服务带来了新的解决方案，能够有效应对节点资源有限、异构性明显的挑战，提高了模型缓存管理的效率和灵活性。

本文档来自技高网...

【技术保护点】

1.一种边缘AI推理场景下的模型缓存调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种边缘AI推理场景下的模型缓存调度方法，其特征在于，在步骤S1中，所述请求信息，包括：

3.根据权利要求2所述的一种边缘AI推理场景下的模型缓存调度方法，其特征在于，在步骤S2中，所述模型调度器，进一步包括：

4.根据权利要求3所述的一种边缘AI推理场景下的模型缓存调度方法，其特征在于，在步骤S2中，所述预设调度策略，进一步包括：

5.根据权利要求3所述的一种边缘AI推理场景下的模型缓存调度方法，其特征在于，所述幂律分布调度算法，包括：

6.根据权利要求4所述的一种边缘AI推理场景下的模型缓存调度方法，其特征在于，所述步骤S22，包括：

7.根据权利要求5所述的一种边缘AI推理场景下的模型缓存调度方法，其特征在于，在步骤S23中，所述模型缓存规则，包括：

8.根据权利要求6所述的一种边缘AI推理场景下的模型缓存调度方法，其特征在于，在步骤S24中，所述模型缓存规则，还包括：

9.根据权利

10.一种边缘AI推理场景下的模型缓存调度系统，其特征在于，包括：

...

【技术特征摘要】

1.一种边缘ai推理场景下的模型缓存调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种边缘ai推理场景下的模型缓存调度方法，其特征在于，在步骤s1中，所述请求信息，包括：

3.根据权利要求2所述的一种边缘ai推理场景下的模型缓存调度方法，其特征在于，在步骤s2中，所述模型调度器，进一步包括：

4.根据权利要求3所述的一种边缘ai推理场景下的模型缓存调度方法，其特征在于，在步骤s2中，所述预设调度策略，进一步包括：

5.根据权利要求3所述的一种边缘ai推理场景下的模型缓存调度方法，其特征在于，所述幂律分布调度算法...

【专利技术属性】
技术研发人员：赵昱，习霖，刘峰，
申请(专利权)人：派欧云计算上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人