一种半精度浮点矩阵乘累加误差的优化方法技术

技术编号：32753124 阅读：14 留言：0更新日期：2022-03-23 18:48

本发明专利技术公开一种半精度浮点矩阵乘累加误差的优化方法，针对半精度浮点矩阵乘的分块运算，在进行分块结果累加计算时，先进行各分块内部累加，再进行分块间累加，具体包括以下步骤：S1、两个形状为M*K和K*N的矩阵进行半精度矩阵乘法时，如果K大于64，则将矩阵数据按kernel(M*N*K为8*32*32)进行分块；S2、每组分块中，对矩阵乘法的结果进行内部累加；S3、将S2中获得的每组分块的结果进行块间累加。本发明专利技术有效缓解了由于半精度类型数据表示范围较小导致的计算结果误差较大的问题。导致的计算结果误差较大的问题。导致的计算结果误差较大的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种半精度浮点矩阵乘累加误差的优化方法

[0001]本专利技术涉及一种半精度浮点矩阵乘累加误差的优化方法，属于深度学习

技术介绍

[0002]使用半精度浮点类型不仅能够大幅度降低数据传输和存储成本，进一步使用运算核中的向量计算部件进行计算，还能有效提高计算算子的运算速度。
[0003]矩阵乘是深度学习中占比很大的计算操作，目前矩阵乘运算中的累加操作是通过逐一累加的方式进行的，由于FP16半精度数据格式中的尾数只有10位，这样的精度不足会造成部分数据进行加法操作时的精度损失，从而导致舍入误差的问题。
[0004]以fp16格式为例，数据结构格式表示如附图1所示，半精度数据在内存中储存时长度为16位，尾数只有10位，这样短的尾数会导致FP16因精度不足而带来舍入误差：当两个浮点数进行加减运算时，首先要使两个数的阶码相同，即小数点的位置对齐，这个过程称为对阶。在对阶时，规定使小阶向大阶看齐，通过小阶的尾数算术右移来改变阶码；对阶过程中，由于FP16只有10位的尾数，当小阶的尾数右移超过11位时，会导致该数变为0，即以FP16表示的数，如果当大数与小数的比率大于2^11时，加减法运算结果出现较大误差。
[0005]在Nvidia的GPU中提供了Tensor Core支持，由硬件提供了混合精度（FP16矩阵相乘和FP32相加）的方式，可以通过扩展乘法结果到FP32的方式应对累加运算时精度损失的问题，而在国产众核处理器上缺少类似的硬件支持，只支持单纯的FP16乘法和加法。
[0006]...

【技术保护点】

【技术特征摘要】
1.一种半精度浮点矩阵乘累加误差的优化方法，其特征在于：针对国产众核处理器半精度浮点矩阵乘的分块运算，在进行分块结果累加计算时，先进行各分块内部累加，再进行分块间累加，具体包括以下步骤：S1、两个形状为M*K和K*N的...

【专利技术属性】
技术研发人员：刘沙，陈德训，刘鑫，黄则强，彭超，高捷，王宜鹏，
申请(专利权)人：无锡江南计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人