System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 硬件加速电路、数据处理加速方法、芯片及加速器技术_技高网

硬件加速电路、数据处理加速方法、芯片及加速器技术

技术编号:40091256 阅读:19 留言:0更新日期:2024-01-23 16:14
本申请涉及一种硬件加速电路、数据处理加速方法、芯片及加速器。该硬件加速电路包括:函数值获得模块,用于获得k个数据元素的方差构成部分的函数值;第一处理电路,用于对方差构成部分的函数值进行第一预设处理,将方差构成部分的函数值至少处理为第一数据和第二数据;第二处理电路,用于至少对第一数据和第二数据进行第二预设处理,获得与方差构成部分对应的均方差的倒数;第三处理电路,用于对k个数据元素中的第i个数据元素与均方差的倒数进行第三预设处理,获得第i个数据元素的标准化函数值。本申请提供的方案,能够提高层标准化函数值计算过程中的数据处理速度,更快获得标准化函数值。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种硬件加速电路、数据处理加速方法、芯片及加速器


技术介绍

1、人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。以基于神经网络的深度学习为例,其对训练数据的数量和质量的要求较高。为了提升神经网络的训练效果,可以消除训练数据中对训练不利的因素。例如,使用数据标准化(normalization)的方法来处理原始数据。

2、对数据进行标准化处理广泛应用于深度学习等。相关技术中可以通过通用计算单元,例如中央处理器(cpu)或图形处理器(gpu)计算标准化函数的函数值。但是,神经网络的处理过程例如由深度学习加速器(deep learning accelerator,简称dla)或神经网络处理器(neural network processing unit,简称npu)等硬件电路执行的情况下,如果标准化函数层(如归一化层)位于神经网络的网络中间层,会导致dla/npu与cpu/gpu之间的作业迁移(job migration)开销,使得使用cpu/gpu确定标准化函数值的方案的效率不高,导致系统带宽增加和更高的功耗。


技术实现思路

1、为解决或部分解决相关技术中存在的问题,本申请提供一种硬件加速电路、数据处理加速方法、芯片及加速器,可以降低数据处理的运算量,从而能够提高非线性函数值的获取速度。

2、本申请第一方面提供一种硬件加速电路,硬件加速电路包括:

3、函数值获得模块,用于获得k个数据元素的方差构成部分的函数值;

4、第一处理电路,用于对方差构成部分的函数值进行第一预设处理,将方差构成部分的函数值至少处理为第一数据和第二数据,其中,方差构成部分的函数值的长度为n1比特,第一数据的长度为n2比特,第二数据的长度为n3比特,n2和n3均小于n1;

5、第二处理电路,用于至少对第一数据和第二数据进行第二预设处理,获得与方差构成部分对应的均方差的倒数;

6、第三处理电路,用于对k个数据元素中的第i个数据元素与均方差的倒数进行第三预设处理,获得第i个数据元素的标准化函数值。

7、本申请第二方面提供一种硬件加速电路,硬件加速电路包括:

8、函数值获得模块,用于获得k个数据元素的方差构成部分的1/k倍函数值,数据元素是浮点数;

9、第四处理电路,用于对方差构成部分的1/k倍函数值进行第四预设处理,将方差构成部分的1/k倍函数值至少处理为第三数据和第四数据,其中,方差构成部分的1/k倍函数值的长度为n4比特,第三数据的长度为n5比特,第四数据的长度为n6比特,n5和n6均小于n4;

10、第五处理电路,用于至少对数据元素、第三数据和第四数据进行第五预设处理,获得第i个数据元素的标准化函数值。

11、本申请第三方面提供一种人工智能芯片,包括如上的硬件加速电路。

12、本申请第四方面提供一种数据处理加速方法,应用于人工智能加速器,上述方法包括:

13、获得k个数据元素的方差构成部分的函数值;

14、对方差构成部分的函数值进行第一预设处理,以将方差构成部分的函数值至少处理为第一数据和第二数据;

15、至少对第一数据和第二数据进行第二预设处理,获得与方差构成部分对应的均方差的倒数;

16、对k个数据元素中的第i个数据元素与均方差的倒数进行第三预设处理,获得第i个数据元素的标准化函数值;

17、其中,方差构成部分的函数值的长度为n1比特,第一数据的长度为n2比特,第二数据的长度为n3比特,n2和n3均小于n1。

18、本申请第五方面提供一种数据处理加速方法,应用于人工智能加速器,上述方法包括:

19、获得k个数据元素的方差构成部分的1/k倍函数值,数据元素是浮点数;

20、对方差构成部分的1/k倍函数值进行第四预设处理,将方差构成部分的1/k倍函数值至少处理为第三数据和第四数据;

21、至少对第三数据和第四数据进行第五预设处理,获得第i个数据元素的标准化函数值;

22、其中,方差构成部分的1/k倍函数值的长度为n4比特,第三数据的长度为n5比特,第四数据的长度为n6比特,n5和n6均小于n4。

23、本申请第六方面提供一种人工智能加速器,包括:

24、处理器;以及

25、存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上的方法。

26、本申请提供的技术方案可以包括以下有益效果:

27、本申请实施例的技术方案,将k个数据元素的方差构成部分的函数值至少处理为长度均低于方差构成部分的函数值的第一数据和第二数据,并通过至少对第一数据和第二数据进行第二预设处理,获得均方差的函数值的倒数,通过降低所处理数据的位宽,可以降低数据处理的运算量,从而能够提高非线性函数值的获取速度。

28、本申请实施例的技术方案,将k个浮点型数据元素的方差构成部分的1/k函数值至少处理为长度均低于方差构成部分的1/k函数值的第三数据和第四数据,并通过至少对第i个数据元素、第三数据和第四数据进行第五预设处理,获得标准化函数值,通过降低所处理数据的位宽,可以降低数据处理的运算量,从而能够提高非线性函数值的获取速度。

29、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种硬件加速电路,其特征在于,包括:

2.如权利要求1所述的硬件加速电路,其特征在于:

3.如权利要求2所述的硬件加速电路,其特征在于,所述第二处理电路包括:

4.如权利要求3所述的硬件加速电路,其特征在于,所述第三转换电路包括:

5.如权利要求3所述的硬件加速电路,其特征在于:

6.如权利要求3所述的硬件加速电路,其特征在于:

7.如权利要求5所述的硬件加速电路,其特征在于:所述硬件加速电路包括所述第一查找表电路至所述第四查找表电路中的至少两个查找表电路,

8.如权利要求1所述的硬件加速电路,其特征在于:

9.如权利要求1至8任一项所述的硬件加速电路,其特征在于,还包括:

10.一种硬件加速电路,其特征在于,包括:

11.如权利要求10所述的硬件加速电路,其特征在于,所述第三数据为指数数据,所述第四数据为尾数数据,所述第i个数据元素包括第五指数数据和第五尾数数据;

12.如权利要求11所述的硬件加速电路,其特征在于,所述第六转换电路包括:>

13.如权利要求11所述的硬件加速电路,其特征在于:

14.如权利要求12所述的硬件加速电路,其特征在于:

15.如权利要求13所述的硬件加速电路,其特征在于:所述硬件加速电路包括所述第七查找表电路至所述第十查找表电路中的至少两个查找表电路,

16.如权利要求10至15任一项所述的硬件加速电路,其特征在于,还包括:

17.一种人工智能芯片,其特征在于,包括如权利要求1至9任一项所述的硬件加速电路,或者,如权利要求10至16任一项所述的硬件加速电路。

18.一种数据处理加速方法,其特征在于,应用于人工智能加速器,所述方法包括:

19.一种数据处理加速方法,其特征在于,应用于人工智能加速器,所述方法包括:

20.一种人工智能加速器,其特征在于,包括:

...

【技术特征摘要】

1.一种硬件加速电路,其特征在于,包括:

2.如权利要求1所述的硬件加速电路,其特征在于:

3.如权利要求2所述的硬件加速电路,其特征在于,所述第二处理电路包括:

4.如权利要求3所述的硬件加速电路,其特征在于,所述第三转换电路包括:

5.如权利要求3所述的硬件加速电路,其特征在于:

6.如权利要求3所述的硬件加速电路,其特征在于:

7.如权利要求5所述的硬件加速电路,其特征在于:所述硬件加速电路包括所述第一查找表电路至所述第四查找表电路中的至少两个查找表电路,

8.如权利要求1所述的硬件加速电路,其特征在于:

9.如权利要求1至8任一项所述的硬件加速电路,其特征在于,还包括:

10.一种硬件加速电路,其特征在于,包括:

11.如权利要求10所述的硬件加速电路,其特征在于,所述第三数据为指数数据,所述第四数据为尾数数据,所述第i个数据元素包...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:广州小鹏自动驾驶科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1