具有正确舍入的浮点点积运算器制造技术

技术编号：26845063 阅读：41 留言：0更新日期：2020-12-25 13:06

本发明专利技术涉及一种用于点积计算的硬件运算器，包括多个乘法器(10)，每个乘法器接收以第一精度格式(fp16)编码的浮点数格式的两个被乘数(a，b)；与每个乘法器相关联的对准电路(12)，被配置为基于相应被乘数的指数，将乘法的结果转换成具有足够位数(80)以覆盖乘法的整个动态范围的相应固定点数；以及多加法器(30)，被配置为将乘法器提供的固定点数无损失地相加，提供固定点数的格式的和。

全部详细技术资料下载

【技术实现步骤摘要】
具有正确舍入的浮点点积运算器
本专利技术涉及用于在处理器内核中处理浮点数的硬件运算器，并且更具体地说，涉及用于基于通常被称为FMA的融合乘加运算器(FusedMultiply-Addoperator)来计算点积的运算器。
技术介绍
人工智能技术，尤其是深度学习，在大型矩阵的乘法方面要求特别高，其中大型矩阵可以有数百行和数百列。因此，专门从事混合精度矩阵乘法的硬件加速器正在出现。大矩阵的乘法通常以块实施，即通过将矩阵分解成大小适合于计算资源的子矩阵。加速器因此被设计来有效地计算这些子矩阵的乘积。这种加速器包括能够在一个指令周期中计算表示子矩阵的行和列的向量的点积并将相应部分结果加到先前周期中累积(accumulate)的部分结果的运算器。经过多个周期后，部分结果的累积是表示完整矩阵的一行和一列的向量的点积。这种运算器利用了FMA技术。图1示意性地示出了传统的FMA运算器。运算器通常采用三个二进制浮点操作数，即两个乘法操作数(即被乘数a和b)以及加法操作数c。它计算项ab+c以在指定为ACC的寄存器中产生结果s。之所以这样指定寄存器，是因为它通常用于在数个周期内累积数个乘积，并在下一个周期内将寄存器的输出作为加法操作数c重新使用，如虚线所示。在[″ModifiedFusedMultiplyandAddforExactLowPrecisionProductAccumulation″，NicolasBrunie，IEEE24thSymposiumonComputerArithmetic(ARI...

【技术保护点】
1.一种用于点积计算的硬件运算器，包括：/n·多个乘法器，每个乘法器接收以第一精度格式编码的浮点数格式的两个被乘数；/n·与每个乘法器相关联的对准电路，被配置为基于相应被乘数的指数，将乘法的结果转换成具有足够位数以覆盖乘法的整个动态范围的相应固定点数；和/n·多加法器，被配置为无损失地将乘法器提供的固定点数相加，提供固定点数的格式的和。/n

【技术特征摘要】
20190625 FR 19068871.一种用于点积计算的硬件运算器，包括：
·多个乘法器，每个乘法器接收以第一精度格式编码的浮点数格式的两个被乘数；
·与每个乘法器相关联的对准电路，被配置为基于相应被乘数的指数，将乘法的结果转换成具有足够位数以覆盖乘法的整个动态范围的相应固定点数；和
·多加法器，被配置为无损失地将乘法器提供的固定点数相加，提供固定点数的格式的和。

2.根据权利要求1所述的运算器，还包括：
·以具有比第一精度格式更高精度的第二精度格式编码的浮点加法操作数的输入；
·与加法操作数相关联的对准电路，被配置为基于加法操作数的指数，将加法操作数转换成相对于加法操作数的动态范围的减小的动态范围的固定点数，该固定点数的位数等于定点和的位数在任一侧扩展至少加法操作数的尾数的大小；和
·加法器，被配置为无损失地将定点和与减小的动态范围的固定点数相加。

3.根据权利要求2所述的运算器，包括舍入和归一化电路，被配置为将加法器结果转换成以第二精度格式编码的浮点数，从加法器结果的最高有效位取得尾数，从加法器结果的剩余位计算舍入，以及从加法器结果中最高有效位的位...

【专利技术属性】
技术研发人员：N布鲁尼，
申请(专利权)人：卡雷公司，
类型：发明
国别省市：法国;FR

全部详细技术资料下载我是这个专利的主人