System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及ai加速卡,尤其涉及一种ai模型部署系统。
技术介绍
1、随着ai技术的不断发展,ai模型的参数越来越多,ai模型所需的内存资源和算力资源越来越大,单个ai加速卡仅可部署有限个ai小模型或者部分ai大模型。有些场景,我们需要多个ai加速卡部署多个ai小模型或者ai大模型,传统处理方式是将多个ai模型在多个ai加速卡上都加载一次,然后轮询或者使用其他算法进行任务分配。然而,这种方法会导致一些ai加速卡资源闲置,无法充分利用硬件资源。故需要一种动态加载ai模型到不同ai加速卡的系统。
技术实现思路
1、为了解决以上技术问题,本专利技术提供了一种ai模型部署系统。
2、本专利技术的技术方案是:
3、一种ai模型部署系统,包括如下模块:用户管理模块,模型分析模块,加速卡资源管理模块,数据接收模块,数据处理模块,数据合并模块,数据发送模块。
4、进一步的,
5、使用用户管理模块来对用户信息和模型信息进行绑定,当用户建立连接时,将用户信息,模型名称、模型资源信息m、版本号等信息形成基础映射关系orma。用户断开连接,将用户信息、模型名称、模型资源信息m、版本号等信息从关系映射orma中删除,同时通过加速卡资源管理模块s400释放ai离线模型资源。
6、使用模型资源分析模块来对待接入模型进行分析,根据映射关系orma,扫描本地离线模型资源,预读取模型,对模型进行解密和完整性校验,将模型所需的内存资源、算力资源等进行加权得到
7、使用加速卡资源管理模块来管理已经加载到ai加速卡的模型资源和待加载的模型资源,具体包括:
8、s1遍历每个加速卡空闲资源和映射关系orma中的模型资源信息m进行对比,判断当前加速卡能否加载模型资源。如果当前加速卡能够加载模型资源,则将当前模型资源加载到当前加速卡。
9、s2当全部加速卡遍历完毕,并且没有加速卡空闲资源能够加载当前模型,则调整已加载模型资源在ai加速卡中的资源分布,遍历所有加速卡,查找空闲资源较大的加速卡,将该加速卡已经加载的模型进行释放,同时将该模型加载至其他加速卡上,直到将其中一个加速卡空闲资源调整至最大。模型调整前后分布见图4。
10、s3将空闲资源最大的加速卡和当前模型资源信息m进行对比,判断当前加速卡能否加载模型资源。如果当前加速卡能够加载模型资源,则将当前模型资源加载到当前加速卡。
11、s4调整加速卡资源分布后,空闲资源最大的加速卡无法加载当前模型,则判断模型是否可以按照层级进行分割,将模型分割为多个小模型,按照s1将分割后的模型分别加载到对应的加速卡。
12、s5模型无法被分割,则需要增加ai加速卡硬件资源,按照s1重新加载该模型。
13、使用数据接收模块来接收用户的数据报文,根据协议解析数据报文,从数据报文中解析出用户信息、模型信息、模型版本、前处理数据内容,并形成映射关系ormb,将前处理数据内容放入到报文池中。
14、使用数据处理模块来对用户前处理数据进行推理运算,从报文池中取出数据报文,根据映射关系ormb和映射关系orma,获取模型所在加速卡id,通过加速卡资源管理模块s400将前处理数据从cpu拷贝到指定的加速卡上进行推理,并将推理结果拷贝到cpu上,并标记数据结果是否完整。
15、使用数据合并模块来对用户数据推理结果进行合并,判断数据结果是否完整,如果数据不完整并且模型可以分割,将当前结果送入报文池中等待数据处理模块进行处理。如果数据不完整且模型不可分割,说明是错误结果。如果数据结果完整则将数据结果放入到结果池。
16、使用数据发送模块来对用户数据推理结果进行发送,从结果池中取出数据,通过用户管理模块,获取用户连接信息,将数据按照协议进行发送。
17、本专利技术的有益效果是
18、能够根据模型所需资源,调整已加载模型分布,将模型加载到对应的ai加速卡中,有效的解决ai加速卡资源分配不均的问题。
本文档来自技高网...【技术保护点】
1.一种AI模型部署系统,其特征在于,
2.根据权利要求1所述的系统,其特征在于,
3.根据权利要求1所述的系统,其特征在于,
4.根据权利要求1所述的系统,其特征在于,
5.根据权利要求1所述的系统,其特征在于,
6.根据权利要求1所述的系统,其特征在于,
7.根据权利要求1所述的系统,其特征在于,
8.根据权利要求1所述的系统,其特征在于,
9.根据权利要求1所述的系统,其特征在于,
10.根据权利要求1所述的系统,其特征在于,
【技术特征摘要】
1.一种ai模型部署系统,其特征在于,
2.根据权利要求1所述的系统,其特征在于,
3.根据权利要求1所述的系统,其特征在于,
4.根据权利要求1所述的系统,其特征在于,
5.根据权利要求1所述的系统,其特征在于,
<...【专利技术属性】
技术研发人员:李翔,孙桂刚,李玉坤,
申请(专利权)人:浪潮软件集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。