一种基于c++的人工智能加速卡推理服务设计方法及系统技术方案

技术编号：33347779 阅读：15 留言：0更新日期：2022-05-08 09:46

本发明专利技术公开了一种基于c++的人工智能加速卡推理服务设计方法及系统，属于人工智能加速卡领域；所述的本发明专利技术方法具体步骤如下：S1客户端将图片预处理为适合加速卡处理的数据类型；S2服务端将数据传递给加速卡进行推理；S3服务端通过json配置管理和加载模型文件；S4服务端将数据返回客户端，通过定义callback使不同的模型注册相应的后处理操作；不同模型经过加速卡的推理之后得到的数据格式一般不会相同，所以最后需要对数据进行后处理，以得到期望的结果，当存在不同类型的加速卡和模型时，能够以最小的工作量来完成相关的部署同时保证其工作效率。证其工作效率。证其工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于c++的人工智能加速卡推理服务设计方法及系统

[0001]本专利技术公开一种基于c++的人工智能加速卡推理服务设计方法及系统，涉及人工智能加速卡

技术介绍

[0002]当前人工智能的相关业务和技术发展迅猛，国内也出现了很多做人工智能加速卡的公司。他们通过量化，硬件设计等技术来加速处理矩阵运算的速度，从而在运行特定模型时，会取得比GPU更好的运行效率和速度。不同厂商在设计自己的api时会暴露出不同的接口，这就大大增加了适配的难度，如何在降低工作量的同时保证运行效率成为一个重要问题。虽然接口可能存在差异，但其处理数据的过程存在一定的共性。
[0003]随着人工智能芯片的发展，当前出现了很多人工智能加速卡，用来代替GPU进行推理服务。目前市面上的加速卡，其推理效率和利用率要比GPU高，但是也存在其自身的局限性。
[0004]故现专利技术一种基于c++的人工智能加速卡推理服务设计方法及系统，以解决上述问题。

技术实现思路

[0005]本专利技术针对现有技术的问题，提供一种基于c++的人工智能加速卡推理服务设计方法及系统，所采用的技术方案为：一种基于c++的人工智能加速卡推理服务设计方法，所述的方法具体步骤如下：
[0006]S1客户端将图片预处理为适合加速卡处理的数据类型；
[0007]S2服务端将数据传递给加速卡进行推理；
[0008]S3服务端通过json配置管理和加载模型文件；
[0009]S4服务端将数据返回客户端，通过定义callba...

【技术保护点】

【技术特征摘要】
1.一种基于c++的人工智能加速卡推理服务设计方法，其特征是所述的方法具体步骤如下：S1客户端将图片预处理为适合加速卡处理的数据类型；S2服务端将数据传递给加速卡进行推理；S3服务端通过json配置管理和加载模型文件；S4服务端将数据返回客户端，通过定义callback使不同的模型注册相应的后处理操作。2.根据权利要求1所述的方法，其特征是所述S1客户端将图片预处理为适合加速卡处理的数据类型的具体步骤如下：S101客户端对图片的数据类型进行转换；S102将处理后的数据利用tcp连接进行传输；S103利用线程池并行处理数据，将处理结果拼接后发送到服务端。3.根据权利要求2所述的方法，其特征是所述S2服务端将数据传递给加速卡进行推理的具体步骤如下：S201客户端将预处理数据发送给服务端的数据接收队列；S202服务端的数据发送线程将数据拷贝到加速卡；S203数据处理线程调用api使加速卡处理相关数据；S204数据接收线程从加速卡拷贝数据到主机，将处理后的数据发送回客户端。4.根据权利要求3所述的方法，其特征是所述S3服务端通过json配置管理和加载模型文件的具体步骤如下：S301获取本地存储离线模型信息；S302将用户端请求的网络模型加载到内存中；S303将客户端预处理后的数据传递给加速卡并处理相应数据，给板卡提供数据；S304服务端接受调用挥手接口的请求，释放相应资源。5.一种基于c++的人工智能加速卡推理服务设计系统，其特征是所述的系统具体包括预处理模块、数据推理模块、配...

【专利技术属性】
技术研发人员：姜玉哲，孙桂刚，李超，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人