一种神经网络卷积层的高效量化加速方法及硬件电路技术

技术编号：33711640 阅读：31 留言：0更新日期：2022-06-06 08:45

本发明专利技术涉及人工智能计算技术领域，具体涉及一种神经网络卷积层的高效量化加速方法及硬件电路，分别在乘累加计算后设置逐通道乘法计算和逐通道加法计算，包括对输入特征和输出特征进行非对称量化，以确定放缩因子s1、s3和零点z1、z3的值；对每个权重进行独立量化，分别得到s2_k0、s2_k1、s2_k2

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络卷积层的高效量化加速方法及硬件电路

[0001]本专利技术涉及人工智能计算
，具体涉及一种神经网络卷积层的高效量化加速方法及硬件电路。

技术介绍

[0002]近年来，人工智能发展迅速，作为人工智能的重要组成部分，深度神经网络在各行业的应用也日益广泛。在边缘端进行网络模型部署的时候，由于边缘端计算性能和功耗的制约，限制了边缘端的网络模型推理性能。因此，在保证计算精度不大幅损失的前提下，设计低位宽、高效率的神经网络加速器成为行业研究的重点。
[0003]目前业界主流的加速器都在8
‑
bit的量化位宽上进行推理，将权重和特征有32
‑
bit浮点数压缩为8
‑
bit，相比于fp32或int16可以带来成倍的算力提升并成倍减少访存带宽压力。
[0004]量化是浮点数据转为定点数据的过程，分非对称量化(uint8)和对称量化(int8)。

技术实现思路

[0005]本专利技术提供针对网络加速的高效量化方法，通过对特征进行非对称量化，对权重进行对称量化，可以避免∑q1
×
z2项的在线计算，同时避免激活函数之后特征的输出范围不以0对称造成的量化损失。同时针对权重不同kernel之间数值范围差异较大问题，对每个权重kernel独立进行量化，避免统一量化造成的精度损失。
[0006]本专利技术为解决上述
技术介绍
问题所采用的技术方案是：
[0007]本专利技术第一方面提供了一种神经网络卷积层的高效量化加...

【技术保护点】

【技术特征摘要】
1.一种神经网络卷积层的高效量化加速方法，包括计算原浮点数r、量化后定点数q、量化的放缩因子S以及零点z，所述零点z为原浮点数0对应的量化后的值，计算公式如下：r＝s(q
‑
z)；z)；z)；原浮点数据计算可表示为：r3＝∑r1 x r2；其中，r1为输入特征浮点数，r2为权重浮点数，r3为输出特征浮点数，转化为定点运算公式如下：s3(q3
‑
z3)＝∑s1(q1
‑
z1)
×
s2(q2
‑
z2)公式转化：展开如下：其特征在于，分别在乘累加计算后设置逐通道乘法计算和逐通道加法计算，包括：对输入特征和输出特征进行非对称量化，以确定放缩因子s1、s3和零点z1、z3的值；对每...

【专利技术属性】
技术研发人员：蔡文利，戴波，孙皓，
申请(专利权)人：北京宏景智驾科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人