【技术实现步骤摘要】
本专利技术涉及电路设计领域,具体涉及一种面向深度学习业务的加速装置及方法。
技术介绍
随着深度学习算法在语音识别、图像识别、自然语言理解等领域大规模成功应用,用户使用深度学习相关业务的次数和频率在逐渐增加;为了不降低用户的使用体验,企业也逐年增加深度学习相关业务响应的并发计算能力。现有的提升并发计算能力的方法主要有两种:一种是单纯增加CPU的方式,增加并发计算能力;另一种是采用CPU+GPU的异构系统,提升并发计算能力。单纯增加CPU的提升并发计算能力的方式,会随着业务的增长,线性增加CPU的数量,成本也随之成线性增长,且CPU用于用户程序的计算部件有限,如果用于深度学习计算,其CPU资源难以完全利用。采用CPU+GPU异构系统提升并发计算能力的方式,因GPU是专门为图形计算设计的处理芯片,如将其用于深度学习计算,必会导致部分资源不适配、利用不完全等问题。
技术实现思路
本专利技术提供一种面向深度学习业务的加速装置及方法,可以有效提高计算效率,提升性能功耗比。为此,本专利技术提供如下技术方案:一种面向深度学习业务的加速装置,用于对服务器中的待处理数据进行深度学习计算,包括:设置于服务器端的网卡、与所述服务器通过总线连接的计算控制模块、以及第一存储器和第二存储器;所述计算控制模块为可编程逻辑器件,包括:控制单元、数据存储单元、逻辑存储单元、以及分别与所述网卡、第一存储器和第二存储器通信的总线接口、第一通信接口和第二通信接口;所述逻辑存储单元用于存储深度学习控制逻辑;所述第一存储器用于存储网络各层的权重数据和偏置数据;在所述计算控制模块上电后,所述控制单元运行所 ...
【技术保护点】
一种面向深度学习业务的加速装置,用于对服务器中的待处理数据进行深度学习计算,其特征在于,包括:设置于服务器端的网卡、与所述服务器通过总线连接的计算控制模块、以及第一存储器和第二存储器;所述计算控制模块为可编程逻辑器件,包括:控制单元、数据存储单元、逻辑存储单元、以及分别与所述网卡、第一存储器和第二存储器通信的总线接口、第一通信接口和第二通信接口;所述逻辑存储单元用于存储深度学习控制逻辑;所述第一存储器用于存储网络各层的权重数据和偏置数据;在所述计算控制模块上电后,所述控制单元运行所述深度学习控制逻辑,以进行深度学习计算;在进行深度学习计算时,所述控制单元通过所述总线接口和所述网卡从所述服务器中读取待处理数据,并将所述待处理数据通过所述第二通信接口存放到第二存储器中,依照所述深度学习控制逻辑依次从第一存储器和第二存储器中获取网络当前层计算所需的数据,计算当前层的输入参数和输出参数,并将所述输出参数存储到所述第一存储器或第二存储器中;计算完成后,所述控制单元将网络输出参数通过所述总线接口传送给服务器。
【技术特征摘要】
1.一种面向深度学习业务的加速装置,用于对服务器中的待处理数据进行深度学习计算,其特征在于,包括:设置于服务器端的网卡、与所述服务器通过总线连接的计算控制模块、以及第一存储器和第二存储器;所述计算控制模块为可编程逻辑器件,包括:控制单元、数据存储单元、逻辑存储单元、以及分别与所述网卡、第一存储器和第二存储器通信的总线接口、第一通信接口和第二通信接口;所述逻辑存储单元用于存储深度学习控制逻辑;所述第一存储器用于存储网络各层的权重数据和偏置数据;在所述计算控制模块上电后,所述控制单元运行所述深度学习控制逻辑,以进行深度学习计算;在进行深度学习计算时,所述控制单元通过所述总线接口和所述网卡从所述服务器中读取待处理数据,并将所述待处理数据通过所述第二通信接口存放到第二存储器中,依照所述深度学习控制逻辑依次从第一存储器和第二存储器中获取网络当前层计算所需的数据,计算当前层的输入参数和输出参数,并将所述输出参数存储到所述第一存储器或第二存储器中;计算完成后,所述控制单元将网络输出参数通过所述总线接口传送给服务器。2.根据权利要求1所述的装置,其特征在于,所述可编程逻辑器件为FPGA芯片或CPLD芯片。3.根据权利要求1所述的装置,其特征在于,所述总线为PCI总线或PCI-E总线。4.根据权利要求1所述的装置,其特征在于,所述第一存储器为堆叠内存,所述第二存储器为DDR SDRAM。5.根据权利要求1所述的装置,其...
【专利技术属性】
技术研发人员:张致江,王智国,于振华,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。