System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种AI模型部署系统技术方案_技高网

一种AI模型部署系统技术方案

技术编号:40255846 阅读:18 留言:0更新日期:2024-02-02 22:48
本发明专利技术提供一种AI模型部署系统,属于AI加速卡技术领域,本发明专利技术包括:用户管理模块、模型分析模块、加速卡资源管理模块,数据接收模块,数据处理模块,数据合并模块,数据发送模块等。该方法及系统可以根据AI模型所需资源将不同的AI模型加载到不同的AI加速卡上,能够有效解决AI加速卡资源分配不均匀的问题。

【技术实现步骤摘要】

本专利技术涉及ai加速卡,尤其涉及一种ai模型部署系统。


技术介绍

1、随着ai技术的不断发展,ai模型的参数越来越多,ai模型所需的内存资源和算力资源越来越大,单个ai加速卡仅可部署有限个ai小模型或者部分ai大模型。有些场景,我们需要多个ai加速卡部署多个ai小模型或者ai大模型,传统处理方式是将多个ai模型在多个ai加速卡上都加载一次,然后轮询或者使用其他算法进行任务分配。然而,这种方法会导致一些ai加速卡资源闲置,无法充分利用硬件资源。故需要一种动态加载ai模型到不同ai加速卡的系统。


技术实现思路

1、为了解决以上技术问题,本专利技术提供了一种ai模型部署系统。

2、本专利技术的技术方案是:

3、一种ai模型部署系统,包括如下模块:用户管理模块,模型分析模块,加速卡资源管理模块,数据接收模块,数据处理模块,数据合并模块,数据发送模块。

4、进一步的,

5、使用用户管理模块来对用户信息和模型信息进行绑定,当用户建立连接时,将用户信息,模型名称、模型资源信息m、版本号等信息形成基础映射关系orma。用户断开连接,将用户信息、模型名称、模型资源信息m、版本号等信息从关系映射orma中删除,同时通过加速卡资源管理模块s400释放ai离线模型资源。

6、使用模型资源分析模块来对待接入模型进行分析,根据映射关系orma,扫描本地离线模型资源,预读取模型,对模型进行解密和完整性校验,将模型所需的内存资源、算力资源等进行加权得到值m,m=w1*(模型内存)+w2*(模型算力)+w3*(模型层数)+w4*(其他),更新映射关系orma。

7、使用加速卡资源管理模块来管理已经加载到ai加速卡的模型资源和待加载的模型资源,具体包括:

8、s1遍历每个加速卡空闲资源和映射关系orma中的模型资源信息m进行对比,判断当前加速卡能否加载模型资源。如果当前加速卡能够加载模型资源,则将当前模型资源加载到当前加速卡。

9、s2当全部加速卡遍历完毕,并且没有加速卡空闲资源能够加载当前模型,则调整已加载模型资源在ai加速卡中的资源分布,遍历所有加速卡,查找空闲资源较大的加速卡,将该加速卡已经加载的模型进行释放,同时将该模型加载至其他加速卡上,直到将其中一个加速卡空闲资源调整至最大。模型调整前后分布见图4。

10、s3将空闲资源最大的加速卡和当前模型资源信息m进行对比,判断当前加速卡能否加载模型资源。如果当前加速卡能够加载模型资源,则将当前模型资源加载到当前加速卡。

11、s4调整加速卡资源分布后,空闲资源最大的加速卡无法加载当前模型,则判断模型是否可以按照层级进行分割,将模型分割为多个小模型,按照s1将分割后的模型分别加载到对应的加速卡。

12、s5模型无法被分割,则需要增加ai加速卡硬件资源,按照s1重新加载该模型。

13、使用数据接收模块来接收用户的数据报文,根据协议解析数据报文,从数据报文中解析出用户信息、模型信息、模型版本、前处理数据内容,并形成映射关系ormb,将前处理数据内容放入到报文池中。

14、使用数据处理模块来对用户前处理数据进行推理运算,从报文池中取出数据报文,根据映射关系ormb和映射关系orma,获取模型所在加速卡id,通过加速卡资源管理模块s400将前处理数据从cpu拷贝到指定的加速卡上进行推理,并将推理结果拷贝到cpu上,并标记数据结果是否完整。

15、使用数据合并模块来对用户数据推理结果进行合并,判断数据结果是否完整,如果数据不完整并且模型可以分割,将当前结果送入报文池中等待数据处理模块进行处理。如果数据不完整且模型不可分割,说明是错误结果。如果数据结果完整则将数据结果放入到结果池。

16、使用数据发送模块来对用户数据推理结果进行发送,从结果池中取出数据,通过用户管理模块,获取用户连接信息,将数据按照协议进行发送。

17、本专利技术的有益效果是

18、能够根据模型所需资源,调整已加载模型分布,将模型加载到对应的ai加速卡中,有效的解决ai加速卡资源分配不均的问题。

本文档来自技高网...

【技术保护点】

1.一种AI模型部署系统,其特征在于,

2.根据权利要求1所述的系统,其特征在于,

3.根据权利要求1所述的系统,其特征在于,

4.根据权利要求1所述的系统,其特征在于,

5.根据权利要求1所述的系统,其特征在于,

6.根据权利要求1所述的系统,其特征在于,

7.根据权利要求1所述的系统,其特征在于,

8.根据权利要求1所述的系统,其特征在于,

9.根据权利要求1所述的系统,其特征在于,

10.根据权利要求1所述的系统,其特征在于,

【技术特征摘要】

1.一种ai模型部署系统,其特征在于,

2.根据权利要求1所述的系统,其特征在于,

3.根据权利要求1所述的系统,其特征在于,

4.根据权利要求1所述的系统,其特征在于,

5.根据权利要求1所述的系统,其特征在于,

<...

【专利技术属性】
技术研发人员:李翔孙桂刚李玉坤
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1