本发明专利技术涉及具有驾驶激进性的期望水平的自动化驾驶系统。一种系统包括计算机,该计算机包括处理器和存储器。存储器包括指令,使得处理器被编程为:接收表示感知的驾驶环境的传感器数据;基于使用传感器数据所计算的挑战分数和期望的驾驶风格,从多个强化学习智能体中选择强化学习智能体;以及基于传感器数据经由选择的强化学习智能体来生成驾驶动作。选择的强化学习智能体来生成驾驶动作。选择的强化学习智能体来生成驾驶动作。
【技术实现步骤摘要】
具有驾驶激进性的期望水平的自动化驾驶系统
[0001]本公开涉及基于感测的驾驶环境和用户偏好来选择强化学习智能体以操作车辆。
技术介绍
[0002]强化学习系统包括智能体,该智能体通过执行由强化学习系统响应于接收到表征环境的当前状态的观察结果所选择的动作来与环境交互。
技术实现思路
[0003]一种系统包括计算机,该计算机包括处理器和存储器。存储器包括指令,使得处理器被编程为:接收表示感知的驾驶环境的传感器数据;基于使用传感器数据所计算的挑战分数和期望的驾驶风格,从多个强化学习智能体中选择强化学习智能体;以及基于传感器数据经由选择的强化学习智能体来生成驾驶动作。
[0004]在其他特征中,所述多个强化学习智能体中的每个强化学习智能体对应于不同的挑战分数和期望的驾驶风格。
[0005]在其他特征中,期望的驾驶风格对应于驾驶激进性的期望水平。
[0006]在其他特征中,驾驶激进性的期望水平对应于在特定的时间段内完成驾驶动作。
[0007]在其他特征中,所述多个强化学习智能体包括M
×
N个强化学习智能体,其中,M是表示M个驾驶偏好水平的整数,且N是表示N个数量的驾驶环境的整数。
[0008]在其他特征中,处理器进一步被编程为基于表示不同的感知的驾驶环境的传感器数据从所述多个强化学习智能体中自动选择另一个强化学习智能体。
[0009]在其他特征中,期望的驾驶风格是从用户接收的。
[0010]在其他特征中,期望的驾驶风格是从人机接口(HMI)处接收的。
[0011]在其他特征中,车辆根据驾驶动作被操作。
[0012]在其他特征中,车辆包括陆地车辆、空中车辆或水上车辆中的至少一者。
[0013]一种方法包括:接收表示感知的驾驶环境的传感器数据;基于使用传感器数据所计算的挑战分数和期望的驾驶风格,从多个强化学习智能体中选择强化学习智能体;以及基于传感器数据经由选择的强化学习智能体来生成驾驶动作。
[0014]在其他特征中,所述多个强化学习智能体中的每个强化学习智能体对应于不同的挑战分数和期望的驾驶风格。
[0015]在其他特征中,期望的驾驶风格对应于驾驶激进性的期望水平。
[0016]在其他特征中,驾驶激进性的期望水平对应于在特定的时间段内完成驾驶动作。
[0017]在其他特征中,所述多个强化学习智能体包括M
×
N个强化学习智能体,其中,M是表示M个驾驶偏好水平的整数,且N是表示N个数量的驾驶环境的整数。
[0018]在其他特征中,该方法包括:基于表示不同的感知的驾驶环境的传感器数据从所述多个强化学习智能体中自动选择另一个强化学习智能体。
[0019]在其他特征中,期望的驾驶风格是从用户接收的。
[0020]在其他特征中,期望的驾驶风格是从人机接口(HMI)处接收的。
[0021]在其他特征中,该方法包括:根据驾驶动作进行操作。
[0022]在其他特征中,车辆包括陆地车辆、空中车辆或水上车辆中的至少一者。
[0023]1. 一种系统,其包括计算机,所述计算机包括处理器和存储器,所述存储器包括指令,使得所述处理器被编程为:接收表示感知的驾驶环境的传感器数据;基于使用所述传感器数据所计算的挑战分数和期望的驾驶风格,从多个强化学习智能体中选择强化学习智能体;以及基于所述传感器数据经由选择的强化学习智能体来生成驾驶动作。
[0024]2. 根据方案1所述的系统,其中,所述多个强化学习智能体中的每个强化学习智能体对应于不同的挑战分数和期望的驾驶风格。
[0025]3. 根据方案1所述的系统,其中,所述期望的驾驶风格对应于驾驶激进性的期望水平。
[0026]4. 根据方案1所述的系统,其中,驾驶激进性的所述期望水平对应于在特定的时间段内完成所述驾驶动作。
[0027]5. 根据方案1所述的系统,其中,所述多个强化学习智能体包括M
×
N个强化学习智能体,其中,M是表示M个驾驶偏好水平的整数,且N是表示N个数量的驾驶环境的整数。
[0028]6. 根据方案5所述的系统,其中,所述处理器进一步被编程为基于表示不同的感知的驾驶环境的所述传感器数据从所述多个强化学习智能体中自动选择另一个强化学习智能体。
[0029]7. 根据方案1所述的系统,其中,所述期望的驾驶风格是从用户接收的。
[0030]8. 根据方案7所述的系统,其中,所述期望的驾驶风格是从人机接口(HMI)处接收的。
[0031]9. 根据方案1所述的系统,其中,车辆根据所述驾驶动作被操作。
[0032]10. 根据方案9所述的系统,其中,所述车辆包括陆地车辆、空中车辆或水上车辆中的至少一者。
[0033]11. 一种方法,其包括:接收表示感知的驾驶环境的传感器数据;基于使用所述传感器数据所计算的挑战分数和期望的驾驶风格,从多个强化学习智能体中选择强化学习智能体;以及基于所述传感器数据经由选择的强化学习智能体来生成驾驶动作。
[0034]12. 根据方案11所述的方法,其中,所述多个强化学习智能体中的每个强化学习智能体对应于不同的挑战分数和期望的驾驶风格。
[0035]13. 根据方案11所述的方法,其中,所述期望的驾驶风格对应于驾驶激进性的期望水平。
[0036]14. 根据方案11所述的方法,其中,驾驶激进性的所述期望水平对应于在特定的时间段内完成所述驾驶动作。
[0037]15. 根据方案11所述的方法,其中,所述多个强化学习智能体包括M
×
N个强化学习智能体,其中,M是表示M个驾驶偏好水平的整数,且N是表示N个数量的驾驶环境的整数。
[0038]16. 根据方案11所述的方法,其进一步包括:基于表示不同的感知的驾驶环境的所述传感器数据从所述多个强化学习智能体中自动选择另一个强化学习智能体。
[0039]17. 根据方案11所述的方法,其中,所述期望的驾驶风格是从用户接收的。
[0040]18. 根据方案17所述的方法,其中,所述期望的驾驶风格是从人机接口(HMI)处接收的。
[0041]19. 根据方案11所述的方法,其进一步包括:根据所述驾驶动作进行操作。
[0042]20. 根据方案19所述的方法,其中,所述车辆包括陆地车辆、空中车辆或水上车辆中的至少一者。
[0043]根据本文中提供的描述,其他应用领域将变得显而易见。应理解,该描述以及具体示例仅仅旨在用于说明目的,并且不旨在限定本公开的范围。
附图说明
[0044]本文中描述的附图仅用于说明目的且不旨在以任何方式限制本公开的范围。
[0045]图1是包括车辆的示例系统的框图;图2是系统内的示例服务器的框图;图3是示例计算装置的框图;图4是示例神经网络的图;图5是图示用于训练多个强化学习智能体的示例过程的图;图6是图示示例强化学习系统本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种系统,其包括计算机,所述计算机包括处理器和存储器,所述存储器包括指令,使得所述处理器被编程为:接收表示感知的驾驶环境的传感器数据;基于使用所述传感器数据所计算的挑战分数和期望的驾驶风格,从多个强化学习智能体中选择强化学习智能体;以及基于所述传感器数据经由选择的强化学习智能体来生成驾驶动作。2.根据权利要求1所述的系统,其中,所述多个强化学习智能体中的每个强化学习智能体对应于不同的挑战分数和期望的驾驶风格。3.根据权利要求1所述的系统,其中,所述期望的驾驶风格对应于驾驶激进性的期望水平。4.根据权利要求1所述的系统,其中,驾驶激进性的所述期望水平对应于在特定的时间段内完成所述驾驶动作。5.根据权利要求1所述的系统,其中,所...
【专利技术属性】
技术研发人员:A,
申请(专利权)人:通用汽车环球科技运作有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。