一种AI模型部署系统技术方案

技术编号：40255846 阅读：19 留言：0更新日期：2024-02-02 22:48

本发明专利技术提供一种AI模型部署系统，属于AI加速卡技术领域，本发明专利技术包括：用户管理模块、模型分析模块、加速卡资源管理模块，数据接收模块，数据处理模块，数据合并模块，数据发送模块等。该方法及系统可以根据AI模型所需资源将不同的AI模型加载到不同的AI加速卡上，能够有效解决AI加速卡资源分配不均匀的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及ai加速卡，尤其涉及一种ai模型部署系统。

技术介绍

1、随着ai技术的不断发展，ai模型的参数越来越多，ai模型所需的内存资源和算力资源越来越大，单个ai加速卡仅可部署有限个ai小模型或者部分ai大模型。有些场景，我们需要多个ai加速卡部署多个ai小模型或者ai大模型，传统处理方式是将多个ai模型在多个ai加速卡上都加载一次，然后轮询或者使用其他算法进行任务分配。然而，这种方法会导致一些ai加速卡资源闲置，无法充分利用硬件资源。故需要一种动态加载ai模型到不同ai加速卡的系统。

技术实现思路

1、为了解决以上技术问题，本专利技术提供了一种ai模型部署系统。

2、本专利技术的技术方案是：

3、一种ai模型部署系统，包括如下模块：用户管理模块，模型分析模块，加速卡资源管理模块，数据接收模块，数据处理模块，数据合并模块，数据发送模块。

4、进一步的，

5、使用用户管理模块来对用户信息和模型信息进行绑定，当用户建立连接时，将用户信息，模型名称、模型资源信息m、版本号等信息形成基础映射关系orma。用户断开连接，将用户信息、模型名称、模型资源信息m、版本号等信息从关系映射orma中删除，同时通过加速卡资源管理模块s400释放ai离线模型资源。

6、使用模型资源分析模块来对待接入模型进行分析，根据映射关系orma,扫描本地离线模型资源，预读取模型，对模型进行解密和完整性校验，将模型所需的内存资源、算力资源等进行加权得到

7、使用加速卡资源管理模块来管理已经加载到ai加速卡的模型资源和待加载的模型资源，具体包括：

8、s1遍历每个加速卡空闲资源和映射关系orma中的模型资源信息m进行对比，判断当前加速卡能否加载模型资源。如果当前加速卡能够加载模型资源，则将当前模型资源加载到当前加速卡。

9、s2当全部加速卡遍历完毕，并且没有加速卡空闲资源能够加载当前模型，则调整已加载模型资源在ai加速卡中的资源分布，遍历所有加速卡，查找空闲资源较大的加速卡，将该加速卡已经加载的模型进行释放，同时将该模型加载至其他加速卡上，直到将其中一个加速卡空闲资源调整至最大。模型调整前后分布见图4。

10、s3将空闲资源最大的加速卡和当前模型资源信息m进行对比，判断当前加速卡能否加载模型资源。如果当前加速卡能够加载模型资源，则将当前模型资源加载到当前加速卡。

11、s4调整加速卡资源分布后，空闲资源最大的加速卡无法加载当前模型，则判断模型是否可以按照层级进行分割，将模型分割为多个小模型，按照s1将分割后的模型分别加载到对应的加速卡。

12、s5模型无法被分割，则需要增加ai加速卡硬件资源，按照s1重新加载该模型。

13、使用数据接收模块来接收用户的数据报文，根据协议解析数据报文，从数据报文中解析出用户信息、模型信息、模型版本、前处理数据内容，并形成映射关系ormb，将前处理数据内容放入到报文池中。

14、使用数据处理模块来对用户前处理数据进行推理运算，从报文池中取出数据报文，根据映射关系ormb和映射关系orma，获取模型所在加速卡id,通过加速卡资源管理模块s400将前处理数据从cpu拷贝到指定的加速卡上进行推理，并将推理结果拷贝到cpu上，并标记数据结果是否完整。

15、使用数据合并模块来对用户数据推理结果进行合并，判断数据结果是否完整，如果数据不完整并且模型可以分割，将当前结果送入报文池中等待数据处理模块进行处理。如果数据不完整且模型不可分割，说明是错误结果。如果数据结果完整则将数据结果放入到结果池。

16、使用数据发送模块来对用户数据推理结果进行发送，从结果池中取出数据，通过用户管理模块，获取用户连接信息，将数据按照协议进行发送。

17、本专利技术的有益效果是

18、能够根据模型所需资源，调整已加载模型分布，将模型加载到对应的ai加速卡中，有效的解决ai加速卡资源分配不均的问题。

本文档来自技高网...

【技术保护点】

1.一种AI模型部署系统，其特征在于，

2.根据权利要求1所述的系统，其特征在于，

3.根据权利要求1所述的系统，其特征在于，

4.根据权利要求1所述的系统，其特征在于，

5.根据权利要求1所述的系统，其特征在于，

6.根据权利要求1所述的系统，其特征在于，

7.根据权利要求1所述的系统，其特征在于，

8.根据权利要求1所述的系统，其特征在于，

9.根据权利要求1所述的系统，其特征在于，

10.根据权利要求1所述的系统，其特征在于，

【技术特征摘要】

1.一种ai模型部署系统，其特征在于，

2.根据权利要求1所述的系统，其特征在于，

3.根据权利要求1所述的系统，其特征在于，

4.根据权利要求1所述的系统，其特征在于，

5.根据权利要求1所述的系统，其特征在于，

<...

【专利技术属性】
技术研发人员：李翔，孙桂刚，李玉坤，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人