网络的训练及设备的控制方法、装置、设备以及存储介质制造方法及图纸

技术编号：32794569 阅读：13 留言：0更新日期：2022-03-23 19:56

本公开提供了一种网络的训练及设备的控制方法、装置、设备以及存储介质，其中，该方法包括：从离线数据池中获取训练样本数据；基于所述策略网络以及所述训练样本数据，确定目标策略；基于所述评价网络，对所述目标策略进行评价，生成相应的评价值；所述评价值用于指示所述策略网络调整所述目标策略；基于预设的目标损失函数，对所述评价网络的参数进行调整；其中，所述目标损失函数包括限制损失函数以及利用损失函数，所述限制损失函数用于最小化所述评价值，所述利用损失函数用于最大化所述评价值，且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。本公开实施例，可以提升训练的稳定性。提升训练的稳定性。提升训练的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
网络的训练及设备的控制方法、装置、设备以及存储介质

[0001]本公开涉及强化学习领域，具体而言，涉及一种网络的训练及设备的控制方法、装置、设备以及存储介质。

技术介绍

[0002]大多数强化学习需要在与环境进行交互的过程中，经过大量的尝试和错误后才能学习到最好的策略，比如在游戏领域和机器人领域。但是在生活中的一些领域(比如：自动驾驶)中，不能通过大量的尝试来进行试错优化，因此，需要通过离线强化学习，在不与环境进行交互的情况下，根据离线采集的数据进行学习。然而，如何避免神经网络训练崩溃，提高训练的稳定性，是业界一直追求的目标。

技术实现思路

[0003]本公开实施例至少提供一种网络的训练及设备的控制方法、装置、设备以及存储介质。
[0004]本公开实施例提供了一种神经网络的训练方法，所述神经网络包括策略网络和评价网络，所述方法包括：
[0005]从离线数据池中获取训练样本数据；所述训练样本数据包括第一状态、动作以及第二状态，所述第二状态为执行所述动作后转移至的状态；
[0006]基于所述策略网络以及所述训练样本数据，确定目标策略；
[0007]基于所述评价网络，对所述目标策略进行评价，生成相应的评价值；所述评价值用于指示所述策略网络调整所述目标策略；
[0008]基于预设的目标损失函数，对所述评价网络的参数进行调整；其中，所述目标损失函数包括限制损失函数以及利用损失函数，所述限制损失函数用于最小化所述评价值，所述利用损失函数用于最大化所述评价值，且所述限制损失函...

【技术保护点】

【技术特征摘要】
1.一种神经网络的训练方法，其特征在于，所述神经网络包括策略网络和评价网络，所述方法包括：从离线数据池中获取训练样本数据；所述训练样本数据包括第一状态、动作以及第二状态，所述第二状态为执行所述动作后转移至的状态；基于所述策略网络以及所述训练样本数据，确定目标策略；基于所述评价网络，对所述目标策略进行评价，生成相应的评价值；所述评价值用于指示所述策略网络调整所述目标策略；基于预设的目标损失函数，对所述评价网络的参数进行调整；其中，所述目标损失函数包括限制损失函数以及利用损失函数，所述限制损失函数用于最小化所述评价值，所述利用损失函数用于最大化所述评价值，且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。2.根据权利要求1所述的方法，其特征在于，所述限制损失函数包括权重系数，所述权重系数与所述利用损失函数的函数值正相关。3.根据权利要求2所述的方法，其特征在于，所述权重系数为所述利用损失函数的函数值。4.根据权利要求2所述的方法，其特征在于，通过如下步骤确定所述权重系数：基于多次训练中每次得到的所述利用损失函数的函数值，确定所述利用损失函数的函数值的中位数；基于所述中位数以及所述利用损失函数的函数值，确定所述权重系数。5.根据权利要求4所述的方法，其特征在于，所述基于所述中位数以及所述利用损失函数的函数值，确定所述权重系数，包括：基于所述中位数以及所述利用损失函数的函数值，确定比例系数；基于所述比例系数与所述利用损失函数的函数值的乘积，确定所述权重系数。6.根据权利要求1所述的方法，其特征在于，所述利用损失函数包括第一项以及第二项，所述第一项为所述评价网络输出的评价值，所述第二项为目标评价网络输出的评价值。7.根据权利要求2所述的方法，其特征在于，所述限制损失函数包括第一部分以及第二部分，所述权重系数分别作用于所述第一部分以及所述第二部分；所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值，所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。8.一种智能行驶设备的控制方法，其特征在于，包括：获取智能...

【专利技术属性】
技术研发人员：刘杰，张胤民，李楚鸣，
申请(专利权)人：上海商汤临港智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人