一种模型预测控制MPC的训练方法、装置及电子设备制造方法及图纸

技术编号：36987848 阅读：61 留言：0更新日期：2023-03-25 18:05

本申请涉及一种模型预测控制MPC的训练方法、装置及电子设备。该方法包括：通过MPC与环境进行交互，获得经验数据；基于经验数据，使用拟合价值迭代的强化学习方法得到状态价值函数；根据状态价值函数得到使MPC的全局代价最小的第一MPC策略。基于上述方法，可以降低模型预测控制MPC的计算复杂度，实现MPC的多场景跨越适用，提高MPC的自适应能力。提高MPC的自适应能力。提高MPC的自适应能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型预测控制MPC的训练方法、装置及电子设备

[0001]本申请涉及自动驾驶
，尤其涉及一种模型预测控制MPC的训练方法、装置及电子设备。

技术介绍

[0002]模型预测控制（Model Predictive Control，MPC）是一种被广泛研究与应用的控制技术，简单来说就是利用一个现有模型来针对系统未来状态进行预测，同时决定应该采取什么样的动作能保证系统在接下来一段时间内的状态能与之前预测的相符合。MPC利用系统的数学模型对系统未来的行为进行预测，以当前系统状态作为初始条件，通过解决优化控制问题得到最优策略，其具有预测、滚动优化和反馈矫正的特征。
[0003]MPC框架的缺点是需要一个准确的动态环境模型，这就需要对MPC超参数进行手动调整，而对MPC超参数的手动调整则需要有经验的工程师通过不断试错的方式来完成，所以很多情况下这种动态环境模型并不容易获得。另外解决优化控制问题的计算复杂度是很高的，现阶段自动驾驶车辆的算力有限，这在很大程度上限制了MPC在自动驾驶上的实际应用。

技术实现思路

[0004]本申请的目的在于提供一种模型预测控制MPC的训练方法、装置及电子设备，通过降低模型预测控制MPC的计算复杂度，从而降低目前MPC的实车部署难度，通过优化MPC的预测空间步长参数，以及多环境小样本的快速迭代，实现MPC的多场景跨越适用，提高了MPC的自适应能力。
[0005]第一方面，本申请提供了一种模型预测控制MPC的训练方法，所述方法包括：通过MPC与环境进行交互，获得经...

【技术保护点】

【技术特征摘要】
1.一种模型预测控制MPC的训练方法，其特征在于，所述方法包括：通过MPC与环境进行交互，获得经验数据，其中，所述经验数据包括：环境状态和车辆行为误差；基于所述经验数据，使用拟合价值迭代的强化学习方法得到状态价值函数；根据所述状态价值函数得到使所述MPC的全局代价最小的第一MPC策略，其中，所述全局代价为预测无限时间步长的代价。2.如权利要求1所述的方法，其特征在于，在所述根据状态价值函数得到使所述MPC的全局代价最小的第一MPC策略之后，还包括：基于所述第一MPC策略，获得样本数据；判断所述样本数据的总数量是否大于n，其中，所述n为大于1的整数；若所述样本数据的总数量大于n，则使用基于最大熵SAC架构的离线强化学习方法对所述第一MPC策略进行优化训练，得到第二MPC策略；若所述样本数据的总数量小于等于n，则继续基于所述第一MPC策略获得样本数据。3.如权利要求2所述的方法，其特征在于，所述使用基于最大熵SAC架构的离线强化学习方法对所述第一MPC策略进行优化训练，包括：将所述状态价值函数添加到所述强化学习方法的奖励函数中，得到目标奖励函数；使用所述目标奖励函数对应的强化学习方法，对所述第一MPC策略中的预测空间步长进行优化训练。4.如权利要求2所述的方法，其特征在于，在所述使用强化学习方法对所述第一MPC策略进行优化训练，得到第二MPC策略之后，还包括：判断所述第一MPC策略输出的车辆动作与所述第二MPC策略输出的车辆动作之间的动作误差是否小于预设误差值；若所述动作误差小于预设误差值，则结束所述优化训练，得到目标第二MPC策略；若所述动作误差大于等于预设误差值，则继续进行所述优化训练。5.如权利要求1所述的方法，其特征在于，在所述根据状态价值函数得到使所述MPC的全局代价最小的第一MPC策略之后，还包括：判断所述...

【专利技术属性】
技术研发人员：余舒，夏勇，于猛，衡阳，符茂磊，吴炳霖，
申请(专利权)人：宁波吉利汽车研究开发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人