网络的训练及设备的控制方法、装置、设备以及存储介质制造方法及图纸

技术编号:32794569 阅读:13 留言:0更新日期:2022-03-23 19:56
本公开提供了一种网络的训练及设备的控制方法、装置、设备以及存储介质,其中,该方法包括:从离线数据池中获取训练样本数据;基于所述策略网络以及所述训练样本数据,确定目标策略;基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略;基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。本公开实施例,可以提升训练的稳定性。提升训练的稳定性。提升训练的稳定性。

【技术实现步骤摘要】
网络的训练及设备的控制方法、装置、设备以及存储介质


[0001]本公开涉及强化学习领域,具体而言,涉及一种网络的训练及设备的控制方法、装置、设备以及存储介质。

技术介绍

[0002]大多数强化学习需要在与环境进行交互的过程中,经过大量的尝试和错误后才能学习到最好的策略,比如在游戏领域和机器人领域。但是在生活中的一些领域(比如:自动驾驶)中,不能通过大量的尝试来进行试错优化,因此,需要通过离线强化学习,在不与环境进行交互的情况下,根据离线采集的数据进行学习。然而,如何避免神经网络训练崩溃,提高训练的稳定性,是业界一直追求的目标。

技术实现思路

[0003]本公开实施例至少提供一种网络的训练及设备的控制方法、装置、设备以及存储介质。
[0004]本公开实施例提供了一种神经网络的训练方法,所述神经网络包括策略网络和评价网络,所述方法包括:
[0005]从离线数据池中获取训练样本数据;所述训练样本数据包括第一状态、动作以及第二状态,所述第二状态为执行所述动作后转移至的状态;
[0006]基于所述策略网络以及所述训练样本数据,确定目标策略;
[0007]基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略;
[0008]基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。
[0009]本公开实施例中,由于目标损失函数包括限制损失函数以及利用损失函数,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系,使得在训练的过程中,可以根据环境自适应调节利用损失以及限制损失之间的关系,如此,可以更好的保证神经网络训练的稳定性,避免训练崩溃的情况发生。
[0010]在一种可能的实施方式中,所述限制损失函数包括权重系数,所述权重系数与所述利用损失函数的函数值正相关。
[0011]在一种可能的实施方式中,所述权重系数为所述利用损失函数的函数值。
[0012]在一种可能的实施方式中,通过如下步骤确定所述权重系数:
[0013]基于多次训练中每次得到的所述利用损失函数的函数值,确定所述利用损失函数的函数值的中位数;
[0014]基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数。
[0015]本公开实施例中,通过利用损失函数的函数值的中位数以及利用损失函数的函数值,确定所述权重系数,如此,可以保证权重系数在预设的范围内波动,进而使得神经网络训练更加稳定。
[0016]在一种可能的实施方式中,所述基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数,包括:
[0017]基于所述中位数以及所述利用损失函数的函数值,确定比例系数;
[0018]基于所述比例系数与所述利用损失函数的函数值的乘积,确定所述权重系数。
[0019]在一种可能的实施方式中,所述利用损失函数包括第一项以及第二项,所述第一项为所述评价网络输出的评价值,所述第二项为目标评价网络输出的评价值。
[0020]在一种可能的实施方式中,所述限制损失函数包括第一部分以及第二部分,所述权重系数分别作用于所述第一部分以及所述第二部分;所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值,所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。
[0021]本公开实施例还提供了一种智能行驶设备的控制方法,包括:
[0022]获取智能行驶设备所处的环境状态;
[0023]基于目标神经网络以及所述环境状态,确定设备控制策略;所述目标神经网络是根据上述实施例中任一所述的神经网络的训练方法训练得到;
[0024]基于所述设备控制策略控制所述智能行驶设备。
[0025]本公开实施例中,由于目标神经网络采用上述的训练方法训练得到,提升了目标神经网络的性能,进而提升了设备控制策略确定的准确度,如此,可以在智能行驶设备运行的过程中,更好的实现对智能行驶设备的控制。
[0026]本公开实施例还提供了一种神经网络的训练装置,包括:
[0027]样本数据获取模块,用于从离线数据池中获取训练样本数据;所述训练样本数据包括第一状态、动作以及第二状态,所述第二状态为执行所述动作后转移至的状态;
[0028]目标策略确定模块,用于基于所述策略网络以及所述训练样本数据,确定目标策略;
[0029]评价结果确定模块,用于基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略;
[0030]网络参数调整模块,用于基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。
[0031]在一种可能的实施方式中,所述限制损失函数包括权重系数,所述权重系数与所述利用损失函数的函数值正相关。
[0032]在一种可能的实施方式中,所述权重系数为所述利用损失函数的函数值。
[0033]在一种可能的实施方式中,通过如下步骤确定所述权重系数:
[0034]基于多次训练中每次得到的所述利用损失函数的函数值,确定所述利用损失函数的函数值的中位数;
[0035]基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数。
[0036]在一种可能的实施方式中,所述基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数,包括:
[0037]基于所述中位数以及所述利用损失函数的函数值,确定比例系数;
[0038]基于所述比例系数与所述利用损失函数的函数值的乘积,确定所述权重系数。
[0039]在一种可能的实施方式中,所述利用损失函数包括第一项以及第二项,所述第一项为所述评价网络输出的评价值,所述第二项为目标评价网络输出的评价值。
[0040]在一种可能的实施方式中,所述限制损失函数包括第一部分以及第二部分,所述权重系数分别作用于所述第一部分以及所述第二部分;所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值,所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。
[0041]本公开实施例还提供了智能行驶设备的控制装置,包括:
[0042]环境状态获取模块,用于获取智能行驶设备所处的环境状态;
[0043]控制策略确定模块,用于基于目标神经网络以及所述环境状态,确定设备控制策略;所述目标神经网络是根据上述任一种可能的实施方式中的神经网络的训练装置训练得到;
[0044]行驶设备控制模块,用于基于所述设备控制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,所述神经网络包括策略网络和评价网络,所述方法包括:从离线数据池中获取训练样本数据;所述训练样本数据包括第一状态、动作以及第二状态,所述第二状态为执行所述动作后转移至的状态;基于所述策略网络以及所述训练样本数据,确定目标策略;基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略;基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。2.根据权利要求1所述的方法,其特征在于,所述限制损失函数包括权重系数,所述权重系数与所述利用损失函数的函数值正相关。3.根据权利要求2所述的方法,其特征在于,所述权重系数为所述利用损失函数的函数值。4.根据权利要求2所述的方法,其特征在于,通过如下步骤确定所述权重系数:基于多次训练中每次得到的所述利用损失函数的函数值,确定所述利用损失函数的函数值的中位数;基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数。5.根据权利要求4所述的方法,其特征在于,所述基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数,包括:基于所述中位数以及所述利用损失函数的函数值,确定比例系数;基于所述比例系数与所述利用损失函数的函数值的乘积,确定所述权重系数。6.根据权利要求1所述的方法,其特征在于,所述利用损失函数包括第一项以及第二项,所述第一项为所述评价网络输出的评价值,所述第二项为目标评价网络输出的评价值。7.根据权利要求2所述的方法,其特征在于,所述限制损失函数包括第一部分以及第二部分,所述权重系数分别作用于所述第一部分以及所述第二部分;所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值,所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。8.一种智能行驶设备的控制方法,其特征在于,包括:获取智能...

【专利技术属性】
技术研发人员:刘杰张胤民李楚鸣
申请(专利权)人:上海商汤临港智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1