当前位置: 首页 > 专利查询>罗伯特专利>正文

对可训练模块的快速量化训练制造技术

技术编号:33240805 阅读:14 留言:0更新日期:2022-04-27 17:44
用于对可训练模块(1)进行训练的方法(100),可训练模块将一个或多个输入参量(11)通过内部处理链(12)映射到一个或多个输出参量(13),所述方法具有如下步骤:

【技术实现步骤摘要】
【国外来华专利技术】对可训练模块的快速量化训练


[0001]本专利技术涉及对可训练模块的训练,特别是用于在车辆的控制设备中或者在其它嵌入式系统中使用。

技术介绍

[0002]对于很多难以或者完全无法在数学上封闭建模的要求苛刻的分类和控制任务来说,使用可训练模块,这些可训练模块例如包含神经网络。人工神经网络KNN是通常包含多个具有神经元的层的处理链。每个神经元都将多个具有权重的输入参量组成激活。在一个层中形成的激活或从中通过进一步处理来确定的结果分别被输送给下一个邻接的层,直至KNN完全被遍历并且形成一个或多个输出参量为止。即,KNN根据内部处理链将输入参量的值映射到输出参量的值。
[0003]权重、激活以及从中确定的结果通常是浮点数(英文“float”)。为了能够高效执行大量在对KNN的训练时并且在稍后使用KNN时所需的浮点运算,通常使用图形处理器GPU。在此,通常需要比在桌面GPU中按标准安装的情况更多的GPU工作存储器。
[0004]WO 2018/158043 A1公开了一种用于对在KNN中的数值进行编码的方法,其中最高值位专门被保留用于对值零的编码。以这种方式可以特别快地检查该值是否为零。

技术实现思路

[0005]在本专利技术的范围内,开发出了一种用于对可训练模块进行训练的方法。可训练模块通过内部处理链将一个或多个输入参量映射到一个或多个输出参量。内部处理链通过一组参数来被表征。
[0006]可训练模块尤其被视为如下模块,该模块体现在理想情况下花费大力气来一般化的利用可适配的参数予以参数化的函数。这些参数可以在对可训练模块进行训练时尤其被适配为使得在将学习输入参量输入到该模块中的情况下尽可能好地再现所属的学习输出参量的值。
[0007]在此,内部处理链尤其例如可以包括人工神经网络KNN或者也可以是KNN。接着,这些参数可包括权重,神经元利用这些权重分别将多个输入参量组合成激活。
[0008]在该方法中,提供至少一个学习数据记录,该学习数据记录包括输入参量的学习值和输出参量的相关的学习值。通常,在训练过程中,提供多个学习数据记录,这些学习数据记录采集了在输入侧呈现的情况的多种变体,可训练模块旨在处理这些变体。
[0009]提供离散值列表,在训练期间应该从这些离散值中选择表征内部处理链的参数。这些离散值被选择为使得这些离散值可以利用预先给定的N个位在没有质量损失的情况下被存储为定点数。
[0010]模型参数的离散化通常导致KNN的存储花费减少。如果这些离散值还可以无损失地被表达为定点数,则可以在定点硬件上实现高效的实现。这种定点硬件明显比用于浮点计算的硬件更便宜、能效更高并且更节省空间。
[0011]现在,对离散值的期望规定从一开始就被集成到可训练模块的训练中。这意味着:该训练现在同样不仅考虑输入参量的学习值应该尽可能好地被映射到输出参量的学习值的需求,而且也考虑参数只应取离散值的需求。
[0012]为了该目的,在学习数据记录中所包含的输入参量的学习值通过可训练模块被映射到输出参量的评价值。现在,评估预先给定的成本函数,该成本函数不仅表征输出参量的评价值与在学习数据记录中所包含的输出参量的学习值的偏差而且表征内部处理链的至少一个参数与该列表中的至少一个离散值的偏差。内部处理链的至少一个参数被适配,目的在于改善成本函数的值。在对参数的至少一次适配的情况下,参数的值范围和/或成本函数的梯度的值范围在使用离散值的情况下被限制。
[0013]成本函数例如可以是总和。在该总和中,第一个加数可以表征输出参量的评价值与在学习数据记录中所包含的输出参量的学习值的偏差。第二个加数可包括至少一个惩罚参量,该惩罚参量表征内部处理链的至少一个参数与在该列表中的至少一个离散值的偏差。可选地,该总和也可以被加权。尤其可以针对每个层都单独进行加权。这样,例如可以使用与正好该层的参数数目成反比的权重。
[0014]对内部处理链的至少一个参数的适配尤其可以旨在对成本函数的值进行优化、比如最小化。接着,该优化代表了不仅关于在学习数据记录中所包含的知识的最优再现方面而且关于遵守参数的所希望的离散化方面的同时改善。
[0015]对于该优化来说,例如可以使用梯度下降方法或任意其它优化方法,该方法依据成本函数的值来提出一个或多个参数的改变,这些改变在训练的接下来的过程中预期改善成本函数的值。在该上下文中,“预期”意味着:不是在每个训练步骤中都一定必须发生成本函数的值的改善。在训练过程中也完全可能存在“失误”,这些“失误”反而会恶化成本函数的值。优化方法从这些“失误”中学习,使得最初的恶化最终被转变成改善。
[0016]N个位将可能的离散值的数目规定为最大2
N
。在专利技术人的实验中,在2与7之间、优选地在2与5之间并且十分特别优选地在2与3之间的N的值已经被证明为有利。在此,刚刚提到的最窄范围恰恰是违反直觉的,原因在于初步印象是该离散化也在由可训练模块整体提供的输出参量中传播并且这些输出参量因此明显变粗糙。然而,在实际应用中情况不是如此,原因在于可训练模块由于多个现有的参数而仍然完全能够以差异化的方式映射以学习数据记录为形式的知识。
[0017]在N=2的情况下,还可有利的是:选择对称量化或离散化,即将离散值的数目缩小到2
N

1=3。接着,可以缩放到{

1, 0, 1}。因此,只还需要加法来计算激活。由于缩放是二的幂(2

f
),所以小数点然后只须被移动相应的缩放因子f。总而言之,因此不再需要浮点运算,而是只还需要“有利的”加法和按位的移动。
[0018]N个位可以被用作调节螺钉,以便使对用于可训练模块的同一基本架构的训练与各种应用适配。如果基本架构保持不变,则这引起:可以将各种应用的实现在具有高份额同类件的硬件上进行,这进而简化了制造并且使制造更便宜。
[0019]离散值列表可来自任意来源。该列表例如可以依据关于应在其中运行可训练模块的应用的先验知识来被规定。然而,也存在如下可能性:如果这种先验知识有缺陷或不存在,则完全或部分地自动规定离散值列表。
[0020]在一个特别有利的设计方案中,依据在对可训练模块的预训练时所获得的内部处
理链的参数的值来确定离散值列表。该预训练尤其可以在针对参数使用浮点数的情况下来被执行,即不对参数可取的值进行量化或其它限制。
[0021]在该预训练的情况下,在至少一个学习数据记录中所包含的输入参量的学习值通过可训练模块来被映射到输出参量的评价值。评估预先给定的预训练成本函数,该预训练成本函数表征输出参量的评价值与在学习数据记录中所包含的输出参量的学习值的偏差。内部处理链的至少一个参数被适配,目的在于改善、尤其是优化预训练成本函数的值。
[0022]在此,预训练成本函数尤其例如可以以与之前描述的预先给定的成本函数相同的方式来表征输出参量的评价值与在学习数据记录中所包含的输出参量的学习值的偏差。即,在之前提到的其中该预先给本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对可训练模块(1)进行训练的方法(100),所述可训练模块将一个或多个输入参量(11)通过内部处理链(12)映射到一个或多个输出参量(13),其中所述内部处理链(12)通过一组参数(12a)来表征,所述方法具有如下步骤:
•ꢀ
提供至少一个学习数据记录(2)(110),所述学习数据记录包括所述输入参量(11)的学习值(11a)和所述输出参量(13)的相关的学习值(13a);
•ꢀ
提供离散值(3a

3c)的列表(3)(120),在训练期间应该从所述离散值中选择表征所述内部处理链(12)的参数(12a),其中所述离散值(3a

3c)被选择为使得所述离散值能够利用预先给定的N个位在没有质量损失的情况下被存储为定点数;
•ꢀ
在所述学习数据记录(2)中所包含的所述输入参量(11)的学习值(11a)通过所述可训练模块(1)被映射到所述输出参量的评价值(13b)(130);
•ꢀ
评估预先给定的成本函数(4)(140),所述成本函数不仅表征所述输出参量(13)的评价值(13b)与在所述学习数据记录(2)中所包含的所述输出参量(13)的学习值(13a)的偏差而且表征所述内部处理链(12)的至少一个参数(12a)与所述列表(3)中的至少一个离散值(3a

3c)的偏差;
•ꢀ
所述内部处理链(12)的至少一个参数(12a)被适配(150),目的在于改善所述成本函数(4)的值,其中在对所述参数(12a)的至少一次适配(150)的情况下,所述参数(12a)的值范围和/或所述成本函数(4)的梯度(4d)的值范围在使用所述离散值(3a

3c)的情况下被限制。2.根据权利要求1所述的方法(100),其中在所述参数(12a)的至少一次适配(150)的情况下,
•ꢀ
将所述参数(12a)的比所述列表(3)的最低离散值(3a

3c)更低的值设置到所述最低离散值(3a

3c)(151);和/或
•ꢀ
将所述参数(12a)的比所述列表(3)的最高离散值(3a

3c)更高的值设置到所述最高值(3a

3c)(152)。3.根据权利要求1至2中任一项所述的方法(100),其中在所述参数(12a)的至少一次适配(150)的情况下确定在所述参数(12a)中表达成变量的成本函数(4)的朝着所述成本函数(4)的更好的值的方向的梯度(4d)(153),而且其中将所述参数(12a)改变所述梯度(4d)与步距的乘积(154),其中在确定所述梯度(153)时,
•ꢀ
将所述梯度(4d)的涉及当前具有所述列表(3)的最低离散值(3a

3c)的参数(12a)的分量限制到非负值(153a);和/或
•ꢀ
将所述梯度(4d)的涉及当前具有所述列表(3)的最高离散值(3a

3c)的参数(12a)的分量限制到非正值(153b)。4.根据权利要求1至3中任一项所述的方法(100),其中所述成本函数(4)包含至少如下贡献的加权和:
•ꢀ
第一贡献(4b),所述第一贡献表征所述输出参量(13)的评价值(13b)与在所述学习数据记录(2)中所包含的所述输出参量(13)的学习值(13a)的偏差;和
•ꢀ
第二贡献(4c),所述第二贡献表征所述内部处理链(12)的至少一个参数(12a)与在所述列表(3)中的至少一个离散值(3a

3c)的偏差,其中随着所述训练的进展,所述第一贡献(4b)的权重被减小并且所述第二贡献(4c)的
权重被增加(155)。5.根据权利要求1至4中任一项所述的方法(100),其中选择在2与7之间、优选地在2与5之间并且十分特别优选地在2与3之间的N个位。6.根据权利要求1至5中任一项所述的方法(100),其中依据在对所述可训练模块(1)的预训练时所获得的所述内部处理链(12)的参数(12a)的值来确定离散值(3a

3c)的列表(3)(124),其中所述预训练包括如下步骤:
•ꢀ
在至少一个学习数据记录(2)中所包含的所述输入参量(11)的学习值(11a)通过所述可训练模块(1)被映射到所述输出参量(13)的评价值(13b)(121);
•ꢀ
评估预先给定的预训练成本函数(4a)(122...

【专利技术属性】
技术研发人员:L
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1