车辆决策控制模型的训练和车辆决策控制方法、装置及设备制造方法及图纸

技术编号：40808196 阅读：24 留言：0更新日期：2024-03-28 19:31

本发明专利技术公开了一种车辆决策控制模型的训练和车辆决策控制方法、装置及设备，涉及自动驾驶技术领域。包括：采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；采用上层行为决策子模型，对样本状态编码特征进行行为决策，得到上层行为决策预测结果；采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息；根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失；根据上层行为决策预测结果、下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失；根据上层行为决策损失，对车辆决策控制模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及自动驾驶，具体涉及一种车辆决策控制模型的训练和车辆决策控制方法、装置及设备。

技术介绍

1、自动驾驶技术已成为未来交通领域的热点研究，其中行为决策是自动驾驶系统的核心技术之一。行为决策涉及车辆在不同交通场景下的行动计划，包括是否变道、何时减速、何时超车等。有效的行为决策对于确保车辆的安全性和乘客的舒适性至关重要。

2、目前，自动驾驶领域存在多种行为决策的技术方案。这些方案通常基于传统的规则制定，例如基于交通规则和车辆感知信息的决策制定。然而，这种方法在处理复杂的交通场景和不确定性时存在一定的局限性。因此，需要一种更灵活、适应性更强的方法来进行行为决策，以提高自动驾驶系统的性能。

技术实现思路

1、本专利技术提供了一种车辆决策控制模型的训练和车辆决策控制方法、装置及设备，以提高自动驾驶车辆的适应性和灵活性。

2、根据本专利技术的一方面，提供了一种车辆决策控制模型的训练方法，该方法包括：

3、采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；所述样本车辆状态空间包括样本车辆信息；

4、采用上层行为决策子模型，对所述样本状态编码特征进行行为决策，得到上层行为决策预测结果；

5、采用下层行为控制子模型，对所述样本状态编码特征进行行为控制，得到所述样本车辆的样本车辆状态信息；

6、根据所述样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速

7、根据所述上层行为决策预测结果、所述下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失；

8、根据所述上层行为决策损失，对车辆决策控制模型进行训练。

9、根据本专利技术的另一方面，提供了一种车辆决策控制方法，该方法包括：

10、获取目标自动驾驶车辆的目标车辆状态空间；所述目标车辆状态空间采用栅格图表示；

11、将所述目标车辆状态空间输入车辆决策控制模型中，得到所述目标自动驾驶车辆的目标行为控制结果；其中，所述车辆决策控制模型由本专利技术任一实施例所述的车辆决策控制模型的训练方法训练得到；

12、采用所述目标行为控制结果对所述目标自动驾驶车辆进行控制。

13、根据本专利技术的另一方面，提供了一种车辆决策控制模型的训练装置，该装置包括：

14、样本状态特征确定模块，用于采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；所述样本车辆状态空间包括样本车辆信息；

15、上层决策预测模块，用于采用上层行为决策子模型，对所述样本状态编码特征进行行为决策，得到上层行为决策预测结果；

16、下行行为控制模块，用于采用下层行为控制子模型，对所述样本状态编码特征进行行为控制，得到所述样本车辆的样本车辆状态信息；

17、下层控制损失确定模块，用于根据所述样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失；

18、上层决策损失确定模块，用于根据所述上层行为决策预测结果、所述下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失；

19、模型训练模块，用于根据所述上层行为决策损失，对车辆决策控制模型进行训练。

20、根据本专利技术的另一方面，提供了一种辆决策控制装置，该装置包括：

21、目标状态空间确定模块，用于获取目标自动驾驶车辆的目标车辆状态空间；所述目标车辆状态空间采用栅格图表示；

22、目标控制结果确定模块，用于将所述目标车辆状态空间输入车辆决策控制模型中，得到所述目标自动驾驶车辆的目标行为控制结果；其中，所述车辆决策控制模型由本专利技术任一实施例所述的车辆决策控制模型的训练方法训练得到；

23、车辆控制模块，用于采用所述目标行为控制结果对所述目标自动驾驶车辆进行控制。

24、根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括：

25、至少一个处理器；以及

26、与所述至少一个处理器通信连接的存储器；其中，

27、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的车辆决策控制模型的训练方法，或车辆决策控制方法。

28、根据本专利技术的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的车辆决策控制模型的训练方法，或车辆决策控制方法。

29、本专利技术实施例的技术方案，通过采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；样本车辆状态空间包括样本车辆信息，之后采用上层行为决策子模型，对样本状态编码特征进行行为决策，得到上层行为决策预测结果，并采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息，进而根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失，根据上层行为决策预测结果、下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失，最后根据上层行为决策损失，对车辆决策控制模型进行训练。上述技术方案，通过分层强化学习即采用上层行为决策子模型和下层行为控制子模型来实现车辆行为控制，提供了能够自主决策的框架，减少了对人工规则的依赖；同时提高了自动驾驶系统在复杂交通环境中的适应性和灵活性，从而提高车辆的安全性、平稳性和能源效率。

30、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种车辆决策控制模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采用下层行为控制子模型，对所述样本状态编码特征进行行为控制，得到所述样本车辆的样本车辆状态信息，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述样本车辆状态信息、样本障碍物位置、道路信息中道路边界和道路限速、样本车辆限速、以及最大车辆加速度，确定车道保持损失，包括：

5.根据权利要求1所述的方法，其特征在于，根据所述上层行为决策预测结果、所述下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述样本车辆状态空间还包括样本障碍物信息和样本可行驶区域；其中，所述样本车辆信息包括样本车辆位置信息、样本车辆速度、样本车辆加速度和样本车辆航向角；所述样本障碍物信息包括样本障碍物位置、样本障碍物

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述上层行为决策子模型和所述下层行为控制子模型结构相同，参数不同；所述上层行为决策子模型由深度Q网络构成。

8.一种车辆决策控制方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述目标车辆状态空间包括目标车辆信息、目标障碍物信息和目标可行驶区域；其中，所述目标车辆信息包括目标车辆位置信息、目标车辆速度、目标车辆加速度和目标车辆航向角；所述目标障碍物信息包括目标障碍物位置、目标障碍物速度、目标障碍物加速度和目标障碍物航向角。

10.一种车辆决策控制模型的训练装置，其特征在于，包括：

11.一种辆决策控制装置，其特征在于，包括：

12.一种电子设备，其特征在于，所述电子设备包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的车辆决策控制模型的训练方法，或权利要求8-9任一项所述的车辆决策控制方法。

...

【技术特征摘要】

1.一种车辆决策控制模型的训练方法，其特征在于，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述样本车辆状态空间还包括样本障碍物信息和样本可行驶区域；其中，所述样本车辆信息包括样本车辆位置信息、样本车辆速度、样本车辆加速度和样本车辆航向角；所述样本障碍物信息包括样本障碍物位置、样本障碍物速度、样本障碍物加速度和...

【专利技术属性】
技术研发人员：赵瑞彬，
申请(专利权)人：九识苏州智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人