一种车辆控制方法、装置、设备及可读存储介质制造方法及图纸

技术编号：40031621 阅读：6 留言：0更新日期：2024-01-16 18:19

本发明专利技术公开了自动驾驶技术领域内的一种车辆控制方法、装置、设备及可读存储介质。本发明专利技术能够分别运行每个驾驶策略，并收集每个驾驶策略运行过程中每一次的输入状态、策略动作及动作奖励，该策略动作用于控制车辆沿设定轨迹点行驶预设距离，可应对更复杂的驾驶场景；还能够根据每个驾驶策略的运行估计值分别确定每个驾驶策略的置信度，选择置信度最高的驾驶策略用于车辆的自动驾驶，由此可选择可靠性高的、适用于更高复杂度的驾驶场景的驾驶策略进行车辆的自动驾驶。该方案基于驾驶策略的置信度衡量驾驶策略的风险程度，通过风险程度最小的驾驶策略可确保车辆驾驶期间始终执行最优驾驶策略，保障长尾情况下的驾驶性能的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动驾驶，特别涉及一种车辆控制方法、装置、设备及可读存储介质。

技术介绍

1、自动驾驶技术在提高各种驾驶场景下的车辆安全性和机动性方面具有巨大潜力。然而，现实世界的驾驶场景通常是长尾分布式的，对于出现概率较小的风险案例，驾驶系统会由于数据不足而缺乏对环境的了解，无法及时作出合理响应。自动驾驶车辆在现实中可能遇到的风险案例无穷无尽，这些案例可能具有多种特征，例如封路、交通事故、违反交通规则等，即使进行数百万英里的实际路测也无法一一遍历。即便是对于一个训练有素的驾驶策略，在实际驾驶过程中仍然可能会出现故障。

2、由于真实自动驾驶过程并不是特定个别场景的简单切换，驾驶策略可能会被要求同时处理多种未见场景，这对驾驶策略提出了更高的要求。当前通过强化学习得到的自动驾驶策略要么过于激进要么过于保守，导致自动驾驶策略实际上难以产生可靠的自动驾驶动作。并且，当前自动驾驶策略用于产生车辆级别的控制命令，如：每个时刻的车辆转向、加速指令等，这种单步控制的自动驾驶策略难以实现复杂度更高的高级驾驶行为。

3、因此，如何选择可靠性高的、适用于更高复杂度驾驶场景的自动驾驶策略，是本领域技术人员需要解决的问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种车辆控制方法、装置、设备及可读存储介质，以选择可靠性高的、适用于更高复杂度驾驶场景的自动驾驶策略。其具体方案如下：

2、第一方面，本专利技术提供了一种车辆控制方法，包括：

3、获取多个驾驶策略；

4、分别运行每个驾驶策略，并收集每个驾驶策略运行过程中每一次的输入状态、策略动作及动作奖励，得到每个驾驶策略的运行三元集；所述策略动作用于控制车辆沿设定轨迹点行驶预设距离；

5、根据所述运行三元集分别计算每个驾驶策略的运行估计值，并根据所述运行估计值分别确定每个驾驶策略的置信度；

6、在所述多个驾驶策略中选择置信度最高的驾驶策略用于车辆的自动驾驶。

7、可选地，所述分别运行每个驾驶策略，并收集每个驾驶策略运行过程中每一次的输入状态、策略动作及动作奖励，得到每个驾驶策略的运行三元集，包括：

8、针对每一驾驶策略，利用当前驾驶策略控制真实车辆进行自动驾驶，并收集所述真实车辆自动驾驶过程中当前驾驶策略每一次的输入状态、策略动作及动作奖励；

9、在自动驾驶结束后，汇总各次的输入状态、策略动作及动作奖励，得到当前驾驶策略的运行三元集。

10、可选地，所述分别运行每个驾驶策略，包括：

11、分别利用每个驾驶策略控制同一真实车辆进行自动驾驶，以在同一真实车辆上分别运行每个驾驶策略。

12、可选地，所述分别运行每个驾驶策略，并收集每个驾驶策略运行过程中每一次的输入状态、策略动作及动作奖励，得到每个驾驶策略的运行三元集，包括：

13、针对每一驾驶策略，利用当前驾驶策略控制真实车辆进行自动驾驶，并收集所述真实车辆自动驾驶过程中当前驾驶策略每一次的输入状态及策略动作；在自动驾驶结束后，汇总各次的输入状态及策略动作，得到训练样本；

14、利用所述训练样本和当前驾驶策略训练得到虚拟驾驶模型；

15、利用当前驾驶策略和所述虚拟驾驶模型生成多次的输入状态、策略动作及动作奖励，得到当前驾驶策略的运行三元集。

16、可选地，所述利用所述训练样本和当前驾驶策略训练得到虚拟驾驶模型，包括：

17、将所述训练样本和当前驾驶策略训练预设的高斯神经网络模型，得到所述虚拟驾驶模型。

18、可选地，所述利用所述训练样本和当前驾驶策略训练得到虚拟驾驶模型，包括：

19、将所述训练样本划分为至少两个子样本集；

20、利用每个子样本集和当前驾驶策略分别训练一个子模型，得到至少两个子模型；

21、在所述至少两个子模型中选择模型评估值最低的子模型作为所述虚拟驾驶模型。

22、可选地，所述在所述至少两个子模型中选择模型评估值最低的子模型作为所述虚拟驾驶模型，包括：

23、计算每个子模型在所述训练样本上的模型评估值；

24、选择模型评估值最低的子模型作为所述虚拟驾驶模型。

25、可选地，所述利用当前驾驶策略和所述虚拟驾驶模型生成多次的输入状态、策略动作及动作奖励，得到当前驾驶策略的运行三元集，包括：

26、若当前迭代次数未超出预测总次数，则获取前一次输入状态及前一次策略动作；将前一次输入状态及前一次策略动作输入所述虚拟驾驶模型，以使所述虚拟驾驶模型输出当前输入状态；

27、使当前驾驶策略根据当前输入状态输出当前策略动作；

28、使当前驾驶策略对应的奖励函数根据当前策略动作计算当前动作奖励；

29、将当前输入状态、当前策略动作和当前动作奖励构建为三元组，并将所述三元组作为当前驾驶策略的运行三元集中的一个元素；

30、将当前输入状态作为前一次输入状态，将当前策略动作作为前一次策略动作，并使当前迭代次数递增一，然后判断当前迭代次数是否超出预测总次数。

31、可选地，所述奖励函数为： r = λ e× r e+ λ s× r s+ λ ot× r ot； r为当前动作奖励， λ e为当前驾驶策略的第一奖励系数， λ s为当前驾驶策略的第二奖励系数， λ ot为当前驾驶策略的第三奖励系数， r e为当前车辆效率， r s为当前安全奖励， r ot为当前超车奖励。

32、可选地，所述多个驾驶策略中的任意驾驶策略 i的第一奖励系数、第二奖励系数和第三奖励系数的计算公式包括：

33、 λ e,i = λ e,max-[( i-1)( λ e,max- λ本文档来自技高网...

【技术保护点】

1.一种车辆控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别运行每个驾驶策略，并收集每个驾驶策略运行过程中每一次的输入状态、策略动作及动作奖励，得到每个驾驶策略的运行三元集，包括：

3.根据权利要求1所述的方法，其特征在于，所述分别运行每个驾驶策略，包括：

4.根据权利要求1所述的方法，其特征在于，所述分别运行每个驾驶策略，并收集每个驾驶策略运行过程中每一次的输入状态、策略动作及动作奖励，得到每个驾驶策略的运行三元集，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述训练样本和当前驾驶策略训练得到虚拟驾驶模型，包括：

6.根据权利要求4所述的方法，其特征在于，所述利用所述训练样本和当前驾驶策略训练得到虚拟驾驶模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述在所述至少两个子模型中选择模型评估值最低的子模型作为所述虚拟驾驶模型，包括：

8.根据权利要求4所述的方法，其特征在于，所述利用当前驾驶策略和所述虚拟驾驶模型生成多次的输入状态、策略动作及动

9.根据权利要求8所述的方法，其特征在于，所述奖励函数为：r=λe×re+λs×rs+λot×rot；r为当前动作奖励，λe为当前驾驶策略的第一奖励系数，λs为当前驾驶策略的第二奖励系数，λot为当前驾驶策略的第三奖励系数，re为当前车辆效率，rs为当前安全奖励，rot为当前超车奖励。

10.根据权利要求1所述的方法，其特征在于，所述多个驾驶策略中的任意驾驶策略i的第一奖励系数、第二奖励系数和第三奖励系数的计算公式包括：

11.根据权利要求1至10任一项所述的方法，其特征在于，所述多个驾驶策略中的任意目标驾驶策略的生成过程包括：

12.根据权利要求11所述的方法，其特征在于，所述利用所述待优化策略构建优化样本，包括：

13.根据权利要求12所述的方法，其特征在于，所述通过曲线拟合确定所述目标窗口内的各轨迹点，包括：

14.根据权利要求12所述的方法，其特征在于，所述通过曲线拟合确定所述目标窗口内的各轨迹点，包括：

15.根据权利要求12所述的方法，其特征在于，所述通过曲线拟合确定所述目标窗口内的各轨迹点，包括：

16.根据权利要求11所述的方法，其特征在于，所述设定奖励函数，包括：

17.根据权利要求1至10任一项所述的方法，其特征在于，所述在所述多个驾驶策略中选择置信度最高的驾驶策略用于车辆的自动驾驶，包括：

18.一种车辆控制装置，其特征在于，包括：

19.一种电子设备，其特征在于，包括：

20.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的方法。

...

【技术特征摘要】

1.一种车辆控制方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述分别运行每个驾驶策略，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述训练样本和当前驾驶策略训练得到虚拟驾驶模型，包括：

6.根据权利要求4所述的方法，其特征在于，所述利用所述训练样本和当前驾驶策略训练得到虚拟驾驶模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述在所述至少两个子模型中选择模型评估值最低的子模型作为所述虚拟驾驶模型，包括：

8.根据权利要求4所述的方法，其特征在于，所述利用当前驾驶策略和所述虚拟驾驶模型生成多次的输入状态、策略动作及动作奖励，得到当前驾驶策略的运行三元集，包括：

9.根据权利要求8所述的方法，其特征在于，所述奖励函数为：r=λe×re+λs×rs+λot×rot；r为当前动作奖励，λe为当前驾驶策略的第一奖励系数，λs为当前驾驶策略的第二奖励系数，λot为当前驾驶策略的第...

【专利技术属性】
技术研发人员：邓琪，李茹杨，张恒，张腾飞，
申请(专利权)人：苏州元脑智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人