System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于训练机器学习模型的方法技术_技高网

用于训练机器学习模型的方法技术

技术编号:43257917 阅读:1 留言:0更新日期:2024-11-08 20:39
用于训练机器学习模型的方法。根据不同的实施方式提供一种用于训练机器学习模型的方法,包括:针对多个训练数据元素中的每一个确定目标函数的梯度,其中该梯度具有针对机器学习模型的多个参数中的每一个的分量;通过逐分量地对所确定梯度求平均来产生总梯度,其方式是对于每个分量将该分量的所确定梯度的值相加,并将该分量的从中得出的总和除以该分量高于预定阈值所针对的所确定梯度的数量;以及在由总梯度给定的方向上调整机器学习模型。

【技术实现步骤摘要】

本专利技术涉及一种用于训练机器学习模型的方法


技术介绍

1、许多类型的机器学习模型通过确定目标函数(例如损失或者奖励)的梯度来训练,所述梯度表明目标函数值对相应机器学习模型的参数(例如神经网络的权重)的依赖性。根据目标函数是否应被最大化或最小化,然后沿梯度方向或沿相反方向调整机器学习模型的参数。梯度在此通常在多个训练数据元素上求平均,即调整不是针对每个训练数据元素进行,而是通常在批量训练数据元素上进行。然而,在此可能会出现这样的情况:目标函数值仅针对少量训练数据元素取决于特定参数,并且由于平均,相应的梯度分量变得如此之小,以至于机器学习模型实际上不适合这种代表性不足的梯度分量,尽管其对于有些情况(然而,这些情况仅由少量训练数据元素表示)可能是必需的。在此,调整可能恰好对于这些情况是特别重要的,因为这些情况例如对应于极端但很少发生的交通情况。

2、因此,值得期望的是针对训练数据中代表性不足的参数对训练进行改进的方式。


技术实现思路

1、根据不同的实施方式,提供了一种用于训练机器学习模型的方法,所述方法包括:针对多个训练数据元素中的每一个确定目标函数的梯度,其中所述梯度具有针对该机器学习模型的多个参数中的每一个的分量;通过对所确定梯度进行逐分量的求平均来产生总梯度,其方式是对于每个分量,将该分量的所确定梯度的值进行求和并将该分量的从中得出的总和除以该分量高于预定阈值所针对的所确定梯度的数量,并且在由总梯度给定的方向上调整机器学习模型。

2、上述方法使得能够适当地训练机器学习模型的参数,即使这些参数在训练数据中代表性不足,即机器学习模型的输出对于大多数训练数据元素来说不依赖于这些参数。换句话说,避免了与训练这些参数相关的训练数据元素被与训练这些参数不相关的大量的训练数据元素“稀释”。

3、下面说明不同实施例。

4、实施例1是如上所述的用于控制机器人的方法。

5、实施例2是根据实施例1的方法,其中目标函数取决于包含在训练数据元素中的奖励并且表明对由机器学习模型的输出引起的状态转换的奖励。

6、换句话说,可以借助于强化学习(英文:reinforcement learning)来训练用于控制任务的机器学习模型。特别是在这样的背景下,上述做法实现了更有效的训练。

7、实施例3是根据实施例1或2的方法,其中预定阈值为零(例如在计算精度的范围内)。

8、对于每个分量,只有当梯度值实际上表示对相应参数的依赖性时,该梯度值才会包含在平均中。由此可以避免与代表性不足的参数相关的训练数据元素被与这些参数不相关的训练数据元素稀释。

9、实施例4是根据实施例1至3之一的方法,其中机器学习模型被设立和训练为接收关于车辆的运动状态的信息作为输入并输出用于车辆的控制信息用于驾驶稳定性程序(例如abs、esp)。

10、尤其是在这样的控制场景中,机器学习模型的参数经常代表性不足,因为在大多数情况下“正常”驾驶,即不存在例如esp或abs必须干预的特殊情况。

11、实施例5是一种用于控制技术系统的方法,所述方法包括:根据实施例1至4之一训练机器学习模型;向机器学习模型输送关于技术系统的状态的信息;以及响应于所输送的信息根据经训练的机器学习模型的输出来控制技术系统。

12、实施例6是被设立为执行根据实施例1至5之一的方法的设备。

13、实施例7是具有指令的计算机程序,所述指令当其由处理器实施时引起处理器执行根据实施例1至5之一所述的方法。

14、实施例8是存储指令的计算机可读介质,所述指令当其由处理器实施时引起所述处理器执行根据实施例1至5之一所述的方法。

本文档来自技高网...

【技术保护点】

1.一种用于训练机器学习模型(105)的方法,包括:

2.根据权利要求1所述的方法,其中所述目标函数取决于包含在所述训练数据元素中的奖励并且表明对由所述机器学习模型(105)的输出引起的状态转换的奖励。

3.根据权利要求1或2所述的方法,其中所述预定阈值为零。

4.根据权利要求1至3中任一项所述的方法,其中所述机器学习模型(105)被设立和训练为接收关于车辆(101)的运动状态的信息作为输入并输出用于所述车辆(101)的控制信息用于驾驶稳定性程序。

5.一种用于控制技术系统的方法,包括:

6.一种设备,其被设立为执行根据权利要求1至5中任一项所述的方法。

7.一种具有指令的计算机程序,所述指令当其由处理器(103)实施时引起所述处理器(103)执行根据权利要求1至5中任一项所述的方法。

8.一种存储指令的计算机可读介质,所述指令当其由处理器(103)实施时引起所述处理器(103)执行根据权利要求1至5中任一项所述的方法。

【技术特征摘要】

1.一种用于训练机器学习模型(105)的方法,包括:

2.根据权利要求1所述的方法,其中所述目标函数取决于包含在所述训练数据元素中的奖励并且表明对由所述机器学习模型(105)的输出引起的状态转换的奖励。

3.根据权利要求1或2所述的方法,其中所述预定阈值为零。

4.根据权利要求1至3中任一项所述的方法,其中所述机器学习模型(105)被设立和训练为接收关于车辆(101)的运动状态的信息作为输入并输出用于所述车辆(101)...

【专利技术属性】
技术研发人员:D·S·施塔特F·博肯坎普F·M·里希特I·卡缅希科夫V·洛弗尔曼
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1