对可训练模块的快速量化训练制造技术

技术编号：33240805 阅读：14 留言：0更新日期：2022-04-27 17:44

用于对可训练模块（1）进行训练的方法（100），可训练模块将一个或多个输入参量（11）通过内部处理链（12）映射到一个或多个输出参量（13），所述方法具有如下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】对可训练模块的快速量化训练

[0001]本专利技术涉及对可训练模块的训练，特别是用于在车辆的控制设备中或者在其它嵌入式系统中使用。

技术介绍

[0002]对于很多难以或者完全无法在数学上封闭建模的要求苛刻的分类和控制任务来说，使用可训练模块，这些可训练模块例如包含神经网络。人工神经网络KNN是通常包含多个具有神经元的层的处理链。每个神经元都将多个具有权重的输入参量组成激活。在一个层中形成的激活或从中通过进一步处理来确定的结果分别被输送给下一个邻接的层，直至KNN完全被遍历并且形成一个或多个输出参量为止。即，KNN根据内部处理链将输入参量的值映射到输出参量的值。
[0003]权重、激活以及从中确定的结果通常是浮点数（英文“float”）。为了能够高效执行大量在对KNN的训练时并且在稍后使用KNN时所需的浮点运算，通常使用图形处理器GPU。在此，通常需要比在桌面GPU中按标准安装的情况更多的GPU工作存储器。
[0004]WO 2018/158043 A1公开了一种用于对在KNN中的数值进行编码的方法，其中最高值位专门被保留用于对值零的编码。以这种方式可以特别快地检查该值是否为零。

技术实现思路

[0005]在本专利技术的范围内，开发出了一种用于对可训练模块进行训练的方法。可训练模块通过内部处理链将一个或多个输入参量映射到一个或多个输出参量。内部处理链通过一组参数来被表征。
[0006]可训练模块尤其被视为如下模块，该模块体现在理想情况下花费大力气来一般化的利用可适配的参数予以参数...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对可训练模块（1）进行训练的方法（100），所述可训练模块将一个或多个输入参量（11）通过内部处理链（12）映射到一个或多个输出参量（13），其中所述内部处理链（12）通过一组参数（12a）来表征，所述方法具有如下步骤：
•ꢀ
提供至少一个学习数据记录（2）（110），所述学习数据记录包括所述输入参量（11）的学习值（11a）和所述输出参量（13）的相关的学习值（13a）；
•ꢀ
提供离散值（3a
‑
3c）的列表（3）（120），在训练期间应该从所述离散值中选择表征所述内部处理链（12）的参数（12a），其中所述离散值（3a
‑
3c）被选择为使得所述离散值能够利用预先给定的N个位在没有质量损失的情况下被存储为定点数；
•ꢀ
在所述学习数据记录（2）中所包含的所述输入参量（11）的学习值（11a）通过所述可训练模块（1）被映射到所述输出参量的评价值（13b）（130）；
•ꢀ
评估预先给定的成本函数（4）（140），所述成本函数不仅表征所述输出参量（13）的评价值（13b）与在所述学习数据记录（2）中所包含的所述输出参量（13）的学习值（13a）的偏差而且表征所述内部处理链（12）的至少一个参数（12a）与所述列表（3）中的至少一个离散值（3a
‑
3c）的偏差；
•ꢀ
所述内部处理链（12）的至少一个参数（12a）被适配（150），目的在于改善所述成本函数（4）的值，其中在对所述参数（12a）的至少一次适配（150）的情况下，所述参数（12a）的值范围和/或所述成本函数（4）的梯度（4d）的值范围在使用所述离散值（3a
‑
3c）的情况下被限制。2.根据权利要求1所述的方法（100），其中在所述参数（12a）的至少一次适配（150）的情况下，
•ꢀ
将所述参数（12a）的比所述列表（3）的最低离散值（3a
‑
3c）更低的值设置到所述最低离散值（3a
‑
3c）（151）；和/或
•ꢀ
将所述参数（12a）的比所述列表（3）的最高离散值（3a
‑
3c）更高的值设置到所述最高值（3a
‑
3c）（152）。3.根据权利要求1至2中任一项所述的方法（100），其中在所述参数（12a）的至少一次适配（150）的情况下确定在所述参数（12a）中表达成变量的成本函数（4）的朝着所述成本函数（4）的更好的值的方向的梯度（4d）（153），而且其中将所述参数（12a）改变所述梯度（4d）与步距的乘积（154），其中在确定所述梯度（153）时，
•ꢀ
将所述梯度（4d）的涉及当前具有所述列表（3）的最低离散值（3a
‑
3c）的参数（12a）的分量限制到非负值（153a）；和/或
•ꢀ
将所述梯度（4d）的涉及当前具有所述列表（3）的最高离散值（3a
‑
3c）的参数（12a）的分量限制到非正值（153b）。4.根据权利要求1至3中任一项所述的方法（100），其中所述成本函数（4）包含至少如下贡献的加权和：
•ꢀ
第一贡献（4b），所述第一贡献表征所述输出参量（13）的评价值（13b）与在所述学习数据记录（2）中所包含的所述输出参量（13）的学习值（13a）的偏差；和
•ꢀ
第二贡献（4c），所述第二贡献表征所述内部处理链（12）的至少一个参数（12a）与在所述列表（3）中的至少一个离散值（3a
‑
3c）的偏差，其中随着所述训练的进展，所述第一贡献（4b）的权重被减小并且所述第二贡献（4c）的
权重被增加（155）。5.根据权利要求1至4中任一项所述的方法（100），其中选择在2与7之间、优选地在2与5之间并且十分特别优选地在2与3之间的N个位。6.根据权利要求1至5中任一项所述的方法（100），其中依据在对所述可训练模块（1）的预训练时所获得的所述内部处理链（12）的参数（12a）的值来确定离散值（3a
‑
3c）的列表（3）（124），其中所述预训练包括如下步骤：
•ꢀ
在至少一个学习数据记录（2）中所包含的所述输入参量（11）的学习值（11a）通过所述可训练模块（1）被映射到所述输出参量（13）的评价值（13b）（121）；
•ꢀ
评估预先给定的预训练成本函数（4a）（122...

【专利技术属性】
技术研发人员：L，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人