一种面向可编程代数处理器的矩阵乘法计算装置及方法制造方法及图纸

技术编号：10188239 阅读：218 留言：0更新日期：2014-07-04 20:40

本发明专利技术公开了一种矩阵乘法计算装置及方法，所述装置包括多粒度并行存储器、数据缓存装置、数据广播缓存装置和向量运算装置。本发明专利技术采用可编程配置的DSP芯片，并结合高效的向量化矩阵乘法方案，针对实际应用中存在的矩阵尺寸小、运算量大的矩阵乘法进行并行优化处理，具有运算速度快，并行粒度高和访存次数少的优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向可编程代数处理器的矩阵乘法计算装置及方法
本专利技术涉及数据处理
，更具体地，涉及一种基于可编程代数处理器的矩阵乘法计算装置及方法。
技术介绍
矩阵乘法是科学计算中一种基本操作，其广泛用于信号处理、图像处理、雷达、声纳、通信等复杂计算领域中，并且由于其计算复杂度为O(n3)，使得矩阵乘法往往成为算法计算过程中最为耗时的操作，进而影响整个算法的性能。矩阵乘法操作又分为大矩阵乘法和小矩阵乘法，大矩阵乘法由于其行列数值非常巨大，导致运算量呈指数级增加，近些年受到广泛关注，一种通用的处理方法为将大矩阵进行分块处理，以加快其运算效率；小矩阵乘法由于其单个乘法的计算量并不是很大，往往被人们所忽视，但随着无线通信领域、雷达信号处理领域，数字图像处理等计算密集型领域的广泛发展，海量信息必须在固定时间内进行处理，而其中大规模的小矩阵乘法随着矩阵数量的急剧增加，逐渐成为非常耗时的计算操作。例如在无线通信领域中的预编码过程，存在着多种模式的大规模小矩阵乘法，并且其有非常严格的时间约束。具体说来，多天线技术包括传输分集、空间复用和波束赋形技术。这三种技术简单来说都包含大规模小矩阵相乘，以空间复用为例，其分为闭环空间复用和开环空间复用，其计算公式如下：闭环空间复用：开环空间复用：其中：W(i)为码本，根据天线数不同存在着不同的码本，例如，在两天线情况下存在如下码本：四天线情况下具体码本由得出，un及Wn从下表得出：八天线码本相对更为复杂一些，这里就不一一列举。然后这些小矩阵码本再和每层的信号进行矩阵乘法，最终得出不同天线上的发射信号，由于信号量非常巨大，导致该过程也变...
一种面向可编程代数处理器的矩阵乘法计算装置及方法

【技术保护点】
一种矩阵乘法计算装置，其特征在于，该装置包括多粒度并行存储器(10)、数据缓存装置(20)、数据广播缓存装置(30)和向量运算装置(40)。所述的多粒度并行存储器(10)用于存储要进行乘法运算的矩阵、广播索引以及矩阵乘法之后的结果；所述数据缓存装置(20)用于暂存从多粒度并行存储器(10)中取出的要进行乘法运算的矩阵；所述数据广播缓存装置(30)用于将要进行数据广播操作的矩阵从多粒度并行存储器(10)中取出，并对所述矩阵的数据进行广播操作；所述向量运算装置(40)用于将从所述数据缓存装置(20)中读取得到的矩阵进行向量运算，或将从所述数据缓存装置(20)中读取得到的矩阵和从所述数据广播缓存装置(30)中读取的矩阵进行向量运算，并将结果写入所述多粒度存储器(10)中。

【技术特征摘要】
1.一种矩阵乘法计算装置，其特征在于，该装置包括多粒度并行存储器(10)、数据缓存装置(20)、数据广播缓存装置(30)和向量运算装置(40)；所述的多粒度并行存储器(10)用于存储要进行乘法运算的矩阵、广播索引以及矩阵乘法之后的结果；所述数据缓存装置(20)用于暂存从多粒度并行存储器(10)中取出的要进行乘法运算的矩阵；所述数据广播缓存装置(30)用于将要进行数据广播操作的矩阵从多粒度并行存储器(10)中取出，并对所述矩阵的数据进行广播操作；所述数据广播缓存装置(30)包括数据广播控制单元(301)、数据缓存实体(302)和广播索引寄存器(303)，其中数据广播控制单元(301)用于控制数据广播操作；所述向量运算装置(40)用于将从所述数据缓存装置(20)中读取得到的矩阵进行向量运算，或将从所述数据缓存装置(20)中读取得到的矩阵和从所述数据广播缓存装置(30)中读取的矩阵进行向量运算，并将结果写入所述多粒度存储器(10)中。2.如权利要求1所述的矩阵乘法计算装置，其特征在于，所述多粒度并行存储器的读写位宽、数据缓存装置(20)中寄存器堆(201)的位宽、数据广播缓存装置中相关寄存器位宽以及所述向量运算装置(40)的运算尺寸相等。3.如权利要求1所述的矩阵乘法计算装置，其特征在于，所述数据广播缓存装置对所述矩阵的数据依据广播索引寄存器(303)中的广播索引进行广播操作。4.如权利要求1所述的矩阵乘法计算装置，其特征在于，所述向量运算单元(40)包括乘法运算单元(401)和累加运算单元(402)。5.一种矩阵乘法计算方法，其特征在于，包括如下步骤：步骤S1：分别从多粒度并行存储器10中按行读取L×M行的A系列矩阵以及按行读取M×N行的B系列矩阵到数据缓存装置(20)中，A系列矩阵放置在寄存器堆(201)中的Ck寄存器中，B系列矩阵放置在寄存器堆(201)中的寄存器中Dl，其中k∈[1,L*M]，l∈[1,M*N]；步骤S2：令k1＝0，k2＝0；步骤S3：取Ck中第k1×M+1到(k1+1)×M行数据和Dl中第k2×M+1到(k2+1)×M行数据，其相应行分别进行点乘操作，然后将结果进行累加操作，得到结果E，最后将E写回到多粒度并行存储器(10)中；步骤S4：k2加1，重复步骤S3，直到k2等于N为止；步骤S5：k1加1，重复步骤S3～S4，直到k1等于L为止；步骤S6：读取下一个L×M行的A系列矩阵和M×N行的B...

【专利技术属性】
技术研发人员：郭晓龙，王晓琴，王伟康，吴军宁，林啸，郭璟，张森，赵旭莹，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人