本申请涉及一种模型预测控制MPC的训练方法、装置及电子设备。该方法包括:通过MPC与环境进行交互,获得经验数据;基于经验数据,使用拟合价值迭代的强化学习方法得到状态价值函数;根据状态价值函数得到使MPC的全局代价最小的第一MPC策略。基于上述方法,可以降低模型预测控制MPC的计算复杂度,实现MPC的多场景跨越适用,提高MPC的自适应能力。提高MPC的自适应能力。提高MPC的自适应能力。
【技术实现步骤摘要】
一种模型预测控制MPC的训练方法、装置及电子设备
[0001]本申请涉及自动驾驶
,尤其涉及一种模型预测控制MPC的训练方法、装置及电子设备。
技术介绍
[0002]模型预测控制(Model Predictive Control,MPC)是一种被广泛研究与应用的控制技术,简单来说就是利用一个现有模型来针对系统未来状态进行预测,同时决定应该采取什么样的动作能保证系统在接下来一段时间内的状态能与之前预测的相符合。MPC利用系统的数学模型对系统未来的行为进行预测,以当前系统状态作为初始条件,通过解决优化控制问题得到最优策略,其具有预测、滚动优化和反馈矫正的特征。
[0003]MPC框架的缺点是需要一个准确的动态环境模型,这就需要对MPC超参数进行手动调整,而对MPC超参数的手动调整则需要有经验的工程师通过不断试错的方式来完成,所以很多情况下这种动态环境模型并不容易获得。另外解决优化控制问题的计算复杂度是很高的,现阶段自动驾驶车辆的算力有限,这在很大程度上限制了MPC在自动驾驶上的实际应用。
技术实现思路
[0004]本申请的目的在于提供一种模型预测控制MPC的训练方法、装置及电子设备,通过降低模型预测控制MPC的计算复杂度,从而降低目前MPC的实车部署难度,通过优化MPC的预测空间步长参数,以及多环境小样本的快速迭代,实现MPC的多场景跨越适用,提高了MPC的自适应能力。
[0005]第一方面,本申请提供了一种模型预测控制MPC的训练方法,所述方法包括:通过MPC与环境进行交互,获得经验数据,其中,所述经验数据包括:环境状态和车辆行为误差;基于所述经验数据,使用拟合价值迭代的强化学习方法得到状态价值函数;根据所述状态价值函数得到使所述MPC的全局代价最小的第一MPC策略,其中,所述全局代价为预测无限时间步长的代价。
[0006]在一种可能的设计中,在所述根据预设状态价值函数得到使所述MPC的全局代价最小的第一MPC策略之后,还包括:基于所述第一MPC策略,获得样本数据;判断所述样本数据的总数量是否大于n,其中,所述n为大于1的整数;若所述样本数据的总数量大于n,则使用基于最大熵SAC架构的离线强化学习方法对所述第一MPC策略进行优化训练,得到第二MPC策略;若所述样本数据的总数量小于等于n,则继续基于所述第一MPC策略获得样本数据。
[0007]在一种可能的设计中,所述使用基于最大熵SAC架构的离线强化学习方法对所述第一MPC策略进行优化训练,包括:将所述状态价值函数添加到所述强化学习方法的奖励函数中,得到目标奖励函数;使用所述目标奖励函数对应的强化学习方法,对所述第一MPC策
略中的预测空间步长进行优化训练。在一种可能的设计中,在所述使用强化学习方法对所述第一MPC策略进行优化训练,得到第二MPC策略之后,还包括:判断所述第一MPC策略输出的车辆动作与所述第二MPC策略输出的车辆动作之间的动作误差是否小于预设误差值;若所述动作误差小于预设误差值,则结束所述优化训练,得到目标第二MPC策略;若所述动作误差大于等于预设误差值,则继续进行所述优化训练。在一种可能的设计中,在所述根据状态价值函数得到使所述MPC的全局代价最小的第一MPC策略之后,还包括:判断所述MPC与所述第一MPC策略之间的损失误差是否小于预设阈值;若否,则继续获取所述经验数据,更新所述状态价值函数;若是,则结束获取所述经验数据,得到目标第一MPC策略。
[0008]第二方面,本申请提供了一种模型预测控制MPC的训练装置,所述装置包括:数据获取模块,通过MPC与环境进行交互,获得经验数据,其中,所述经验数据包括:环境状态和车辆行为误差;强化学习模块,基于所述经验数据,使用拟合价值迭代的强化学习方法得到最优状态价值函数;策略生成模块,根据所述最优状态价值函数得到使所述MPC的全局代价最小的第一MPC策略。
[0009]在一种可能的设计中,所述装置还包括:样本获取模块,基于所述第一MPC策略,获得样本数据;数量判断模块,判断所述样本数据的总数量是否大于n,其中,所述n为大于1的整数;优化训练模块,若所述样本数据的总数量大于n,则使用基于最大熵SAC架构的离线强化学习方法对所述第一MPC策略进行优化训练,得到第二MPC策略;样本收集模块,若所述样本数据的总数量小于等于n,则继续基于所述第一MPC策略获得样本数据。
[0010]在一种可能的设计中,所述优化训练模块,具体用于:将所述状态价值函数添加到所述强化学习方法的奖励函数中,得到目标奖励函数;使用所述目标奖励函数对应的强化学习方法,对所述第一MPC策略中的预测空间步长进行优化训练。
[0011]在一种可能的设计中,所述装置还用于:判断所述第一MPC策略输出的车辆动作与所述第二MPC策略输出的车辆动作之间的动作误差是否小于预设误差值;若所述动作误差小于预设误差值,则结束所述优化训练,得到目标第二MPC策略;若所述动作误差大于等于预设误差值,则继续进行所述优化训练。
[0012]在一种可能的设计中,所述装置还用于:判断所述MPC与所述第一MPC策略之间的损失误差是否小于预设阈值;若否,则继续获取所述经验数据,更新所述状态价值函数;若是,则结束获取所述经验数据,得到目标第一MPC策略。
[0013]第三方面,本申请提供了一种电子设备,所述电子设备包括:存储器,用于存放计算机程序;处理器,用于执行所述存储器上所存放的计算机程序时,实现上述的一种模型预测控制MPC的训练方法的步骤。
[0014]第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种模型预测控制MPC的
训练方法的步骤。
[0015]上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
附图说明
[0016]图1为本申请提供的一种模型预测控制MPC的训练方法的流程图;图2为本申请提供的一种可能的MPC与环境进行交互的示意图;图3为本申请提供的一种可能的MPC与环境进行交互的示意图;图4为本申请提供的一种模型预测控制MPC训练过程的示意图;图5为本申请提供的一种模型预测控制MPC的训练系统的结构图;图6为本申请提供的一种模型预测控制MPC的训练装置的示意图;图7为本申请提供的一种电子设备的结构的示意图。
具体实施方式
[0017]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
[0018]在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种模型预测控制MPC的训练方法,其特征在于,所述方法包括:通过MPC与环境进行交互,获得经验数据,其中,所述经验数据包括:环境状态和车辆行为误差;基于所述经验数据,使用拟合价值迭代的强化学习方法得到状态价值函数;根据所述状态价值函数得到使所述MPC的全局代价最小的第一MPC策略,其中,所述全局代价为预测无限时间步长的代价。2.如权利要求1所述的方法,其特征在于,在所述根据状态价值函数得到使所述MPC的全局代价最小的第一MPC策略之后,还包括:基于所述第一MPC策略,获得样本数据;判断所述样本数据的总数量是否大于n,其中,所述n为大于1的整数;若所述样本数据的总数量大于n,则使用基于最大熵SAC架构的离线强化学习方法对所述第一MPC策略进行优化训练,得到第二MPC策略;若所述样本数据的总数量小于等于n,则继续基于所述第一MPC策略获得样本数据。3.如权利要求2所述的方法,其特征在于,所述使用基于最大熵SAC架构的离线强化学习方法对所述第一MPC策略进行优化训练,包括:将所述状态价值函数添加到所述强化学习方法的奖励函数中,得到目标奖励函数;使用所述目标奖励函数对应的强化学习方法,对所述第一MPC策略中的预测空间步长进行优化训练。4.如权利要求2所述的方法,其特征在于,在所述使用强化学习方法对所述第一MPC策略进行优化训练,得到第二MPC策略之后,还包括:判断所述第一MPC策略输出的车辆动作与所述第二MPC策略输出的车辆动作之间的动作误差是否小于预设误差值;若所述动作误差小于预设误差值,则结束所述优化训练,得到目标第二MPC策略;若所述动作误差大于等于预设误差值,则继续进行所述优化训练。5.如权利要求1所述的方法,其特征在于,在所述根据状态价值函数得到使所述MPC的全局代价最小的第一MPC策略之后,还包括:判断所述...
【专利技术属性】
技术研发人员:余舒,夏勇,于猛,衡阳,符茂磊,吴炳霖,
申请(专利权)人:宁波吉利汽车研究开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。