System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及集成电路,尤其是一种用于机器人抓取的硬件加速器。
技术介绍
1、机器人抓取任务需要摄像头获取环境信息,并依赖于抓取检测网络分析和识别待抓取物体。然而,抓取检测网络往往具有较高的复杂度,需要低比特量化技术来降低网络复杂度。针对低比特量化技术,衍生出了许多硬件加速器,专门用于加速量化后的抓取检测网络的卷积操作和反卷积操作。考虑到低比特量化技术的多种量化策略,促使硬件加速器向着精度可扩展的方向发展。硬件加速器的主要设计思路依赖于位串行和乘法分解。
2、基于位串行的加速器通过调整处理周期并串行处理激活或权重来获得精度可扩展性;基于乘法分解的加速器通过分解高精度定点乘法来获得精度可扩展性。
3、但是,基于位串行的加速器需要额外的周期,基于乘法分解的加速器具有较大的硬件冗余。同时,精度可扩展的硬件加速器具有两个问题仍然没有解决,即基本mac单元及其空间组成的硬件冗余,现有技术虽然通过引入基于输入输出分析的简化bit brick,但是在常见的精度模式下仍存在不小的资源浪费。
技术实现思路
1、针对现有技术的不足,本专利技术提供一种用于机器人抓取的硬件加速器。
2、本专利技术的技术方案为:一种用于机器人抓取的硬件加速器,包括顶层控制器、n个计算阵列单元、缓冲器单元、路由器单元;所述的顶层控制器用于管理顶层的时序逻辑;并通过使能和寻址信号进行读写来控制缓冲器单元,每个所述的计算阵列单元由m个高比特乘法单元组mmu group组成,且同一个计算阵列的m
3、作为优选的,所述的缓冲器单元包括输入缓冲器、权重缓冲器;所述的路由器单元包括输入路由器、权重路由器;所述的顶层控制器通过使能和寻址信号从输入缓冲器和权重缓冲器中读取输入和权重;然后输入路由器和权重路由器根据各种计算模式重新排布输入缓冲器和权重缓冲器送入的数据。
4、作为优选的,所述的加速器还包括累加器acc;所述的顶层控制器监督累加器acc进行累加和清零,并且将计算阵列单元处理的结果经过累加器acc后写入输出缓冲器,作为下一层的输入。
5、作为优选的,每个所述的高比特乘法单元组mmu group由k个多位宽乘法单元mmu组成。
6、作为优选的,每个所述的多位宽乘法单元mmu由多个位级乘法单元bmu组成。
7、作为优选的,所述的位级乘法单元bmu具有符号数×有符号数、有符号数×无符号数、无符号数×有符号数、无符号数×无符号数四种计算情况,并统一用一个3b×2b有符号数乘法器的结果表示。
8、作为优选的,所述的位级乘法单元bmu的四种计算情况分别表示为:
9、
10、
11、
12、
13、式中,a2、a1、a0分别表示输入值的最高位、第一位和最低位;w1、w0分别表示权重的最高位和最低位;表示输入值的最高位取反;表示权重的最高位取反;
14、其中,式(2)至式(4)相对于式(1)增加了高位取反和位偏差。
15、作为优选的,所述的位级乘法单元bmu的四种计算情况统一表示为:
16、
17、式中,sa、sw表示额外符号位,为1表示有符号数,为0表示无符号数。
18、作为优选的,每个所述的位级乘法单元bmu包括两个半加器和两个选择器。
19、作为优选的,所述的多位宽乘法单元mmu通过将多个位级乘法单元bmu与移位-加逻辑根据不同的计算模式进行组合形成。
20、作为优选的,所述的多位宽乘法单元mmu实现五种精度计算模式,即:3b×2b、4b×2b、4b×4b、6b×2b和6b×4b;其中,3bit输入是有符号数,而4bit输入则是非负有符号数,输入是12bits的激活和8bits的权重,输出是小于等于10bits的乘法结果。
21、作为优选的,将每个所述的多位宽乘法单元mmu中的计算并行度给予输入通道维度,并且每个多位宽乘法单元mmu中的多个位级乘法单元bmu在输入通道维度上进行部分和的累加。
22、作为优选的,所述的高比特乘法单元组mmu group的输入激活来自k个输入通道;然后在高比特乘法单元组mmu group中重组多位宽乘法单元mmu;且由于不同的多位宽乘法单元mmu中处于相同位置的位级乘法单元bmu具有相同的移位逻辑;通过将不同多位宽乘法单元mmu中相同位置的位级乘法单元bmu的结果进行相加,然后再送入移位逻辑得到输出。
23、本专利技术的有益效果为:
24、1、本专利技术硬件加速器处理量化后的抓取检测网络更有更低的处理延时,本专利技术仅需要4.5ms,相对于现有技术的20ms以上具有实质性的提升,加速比为4.4倍;
25、2、本专利技术硬件加速器具有更低的功耗和面积,本专利技术的多位宽乘法单元mmu相对于现有技术面积降低了62-83%;功耗相抵了12-74%;
26、3、本专利技术的硬件加速器具有更高的峰值能量效率和峰值面积效率,相对于现有技术提升了2-2.2倍的峰值能源效率,并显著提高了1.8-2.0倍的峰值面积效率;
27、4、本专利技术硬件加速器支持更多不同位宽的量化方案,本专利技术支持至少六种量化方案:3b×2b、4b×2b、3b×4b、4b×4b、6b×2b和6b×4b;
28、5、本专利技术在降低资源开销、计算和存储复杂度的同时并不损失精度。
本文档来自技高网...【技术保护点】
1.一种用于机器人抓取的硬件加速器,其特征在于,包括顶层控制器、n个计算阵列单元、缓冲器单元、路由器单元;所述的顶层控制器用于管理顶层的时序逻辑;并通过使能和寻址信号进行读写来控制缓冲器单元,每个所述的计算阵列单元由m个高比特乘法单元组MMU Group组成,且同一个计算阵列单元的m干个高比特乘法单元组MMU Group共享激活,不同的计算阵列单元之间共享权重;所述的计算阵列单元负责处理基于tile的卷积或输入特征映射的反卷积,并通过输出缓冲器输出作为下一层的输入。
2.根据权利要求1所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的缓冲器单元包括输入缓冲器、权重缓冲器;所述的路由器单元包括输入路由器、权重路由器;所述的顶层控制器通过使能和寻址信号从输入缓冲器和权重缓冲器中读取输入和权重;然后输入路由器和权重路由器根据各种计算模式重新排布输入缓冲器和权重缓冲器送入的数据。
3.根据权利要求2所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的加速器还包括累加器ACC;所述的顶层控制器还用于监督累加器ACC进行累加和清零,并且将计算阵列单元处理的结
4.根据权利要求1所述的一种用于机器人抓取的硬件加速器,其特征在于:每个所述的高比特乘法单元组MMU Group由k个多位宽乘法单元MMU组成。
5.根据权利要求4所述的一种用于机器人抓取的硬件加速器,其特征在于:每个所述的多位宽乘法单元MMU通过将多个位级乘法单元BMU与移位-加逻辑根据不同的计算模式进行组合形成,每个所述的位级乘法单元BMU包括两个半加器和两个选择器。
6.根据权利要求5所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的高比特乘法单元组MMU Group的输入激活来自k个输入通道;然后在高比特乘法单元组MMUGroup中重组多位宽乘法单元MMU;且由于不同的多位宽乘法单元MMU中处于相同位置的位级乘法单元BMU具有相同的移位逻辑;通过将不同多位宽乘法单元MMU中相同位置的位级乘法单元BMU的结果进行相加,然后再送入移位逻辑得到输出。
7.根据权利要求6所述的一种用于机器人抓取的硬件加速器,其特征在于:将每个所述的多位宽乘法单元MMU中的计算并行度给予输入通道维度,并且每个多位宽乘法单元MMU中的多个位级乘法单元BMU在输入通道维度上进行部分和的累加。
8.根据权利要求7所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的多位宽乘法单元MMU实现五种精度计算模式,即:3b×2b、4b×2b、4b×4b、6b×2b和6b×4b;其中,3bit输入是有符号数,而4bit输入则是非负有符号数,输入是12bits的激活和8bits的权重,输出是小于等于10bits的乘法结果。
9.根据权利要求7所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的位级乘法单元BMU具有符号数×有符号数、有符号数×无符号数、无符号数×有符号数、无符号数×无符号数四种计算情况,并统一用一个3b×2b有符号数乘法器的结果表示;所述的位级乘法单元BMU的四种计算情况统一表示为:
10.根据权利要求9所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的位级乘法单元BMU的四种计算情况分别表示为:
...【技术特征摘要】
1.一种用于机器人抓取的硬件加速器,其特征在于,包括顶层控制器、n个计算阵列单元、缓冲器单元、路由器单元;所述的顶层控制器用于管理顶层的时序逻辑;并通过使能和寻址信号进行读写来控制缓冲器单元,每个所述的计算阵列单元由m个高比特乘法单元组mmu group组成,且同一个计算阵列单元的m干个高比特乘法单元组mmu group共享激活,不同的计算阵列单元之间共享权重;所述的计算阵列单元负责处理基于tile的卷积或输入特征映射的反卷积,并通过输出缓冲器输出作为下一层的输入。
2.根据权利要求1所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的缓冲器单元包括输入缓冲器、权重缓冲器;所述的路由器单元包括输入路由器、权重路由器;所述的顶层控制器通过使能和寻址信号从输入缓冲器和权重缓冲器中读取输入和权重;然后输入路由器和权重路由器根据各种计算模式重新排布输入缓冲器和权重缓冲器送入的数据。
3.根据权利要求2所述的一种用于机器人抓取的硬件加速器,其特征在于:所述的加速器还包括累加器acc;所述的顶层控制器还用于监督累加器acc进行累加和清零,并且将计算阵列单元处理的结果经过累加器acc后写入输出缓冲器,作为下一层的输入。
4.根据权利要求1所述的一种用于机器人抓取的硬件加速器,其特征在于:每个所述的高比特乘法单元组mmu group由k个多位宽乘法单元mmu组成。
5.根据权利要求4所述的一种用于机器人抓取的硬件加速器,其特征在于:每个所述的多位宽乘法单元mmu通过将多个位级乘法单元bmu与移位-加逻辑根据不同的计算模式进行组合形成,每个所述的位级乘法单元bmu包括两个半...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。