基于性格选择的自动驾驶汽车决策规划方法技术

技术编号：38208506 阅读：12 留言：0更新日期：2023-07-21 16:58

本发明专利技术公开了一种基于性格选择的自动驾驶汽车决策规划方法。本发明专利技术提出了基于性格选择的单智能体决策规划算法SelectSVO(Select Social Value Orientation)；针对传统算法只优化自身利益的问题，引入了性格偏好(Social Value Orientation)的概念，并基于性格偏好设计了动态奖励函数；针对强化学习训练时所需要的数据空间较大的问题，提出了基于线段向量的表示方法；针对多源感知信息的关联问题，提出了基于DeepSet模型和注意力机制的网络结构。本发明专利技术通过协调自身利益和他车利益的冲突问题，以提高整个交通流的性能、提升安全效能。提升安全效能。提升安全效能。

全部详细技术资料下载

【技术实现步骤摘要】
基于性格选择的自动驾驶汽车决策规划方法

[0001]本专利技术属于自动驾驶
，具体涉及一种用于城市、乡村公路的基于性格选择的自动驾驶汽车规划方法。

技术介绍

[0002]自动驾驶汽车是一种集成环境感知、决策规划、运动控制、语音交互和无线通信等技术的智能综合系统。它被认为将对交通系统和人类出行方式产生革命性影响，显著提高社会生产效率，是构建安全、便捷、高效、绿色、经济的现代综合交通体系的重要抓手之一。决策规划是自动驾驶汽车中的关键环节，对汽车智能化等级产生重要影响，备受业界广泛关注，并具有重要的研究意义。
[0003][0004]而自动驾驶汽车有望提高交通安全性、减少交通拥堵、提高交通效率，无需人类驾驶，为人们带来更多的舒适和便利。自动驾驶汽车受到业界广泛关注，同时得益于计算芯片、传感器技术和人工智能技术的发展，自动驾驶汽车在近十年内得以快速发展并从概念步入实践阶段。自动驾驶汽车有望解决现有的交通问题，但仍然面临许多挑战，其中决策规划技术是关键性技术需要攻克。
[0005]目前的自动驾驶汽车决策规划技术缺乏智能化，让其像人类一样进行思考仍具有挑战性。当前，自动驾驶汽车难以应对复杂的城市道路交通场景，因为这些场景中道路结构复杂、交通流动态变化，且交通参与者的行为也具有随机性。大多数决策策略都是基于人为规则设计的，如有限状态机、场景规则等，这些规则具有良好的可解释性，但均为人工设计。然而，这些规则的定义和修改都十分困难，设定驾驶规则需要不断测试和调整，重构或微调整个逻辑框架时常需要耗费大量的人力和时间...

【技术保护点】

【技术特征摘要】
1.一种基于性格选择的自动驾驶汽车决策规划方法，其特征在于，包括以下步骤：S1：使用部分可观测马尔科夫决策过程对自动驾驶汽车的行为决策过程进行建模，构建的部分可观测马尔科夫决策过程为八元组，具体为其中：表示智能体的观测状态空间：通过感知模块感知车辆的道路信息和车辆的轨迹信息，采用线段向量的方法处理感知模块获得的感知信息，以表示观测状态空间；表示所有可能的动作集合，所有可能的动作a包括加速度、转向、性格值φ；表示基于性格偏好的奖励函数，通过在原始奖励函数基础上引入性格值φ得到基于性格偏好的奖励函数；π表示策略，通过SelectSVO网络模型表示策略π，根据策略π确定性格值φ；P表示状态间的转移概率分布；表示状态空间；Ω表示条件观测概率分布；γ表示奖励折扣因子；S2：根据构建的部分可观测马尔科夫决策过程描述自动驾驶汽车与环境的交互过程；S21：将车辆实时的观测状态o输入训练后的策略π中，根据策略π输出动作a，并根据条件观测概率分布Ω转移到新的观测状态o
′
，再根据策略π输出新的动作a
′
，通过动作指导驾驶行为和性格选择；S22：循环步骤S21，直至驾驶任务结束。2.根据权利要求1所述的基于性格选择的自动驾驶汽车决策规划方法，其特征在于，所述步骤S1中，采用线段向量的方法表示观测状态空间，所述的观测状态空间其中：χ
s
为道路信息集合，具体为其中centerline为道路中心线，sideline为道边线，route为全局路径；道路信息集合中的一个点集点集中一个点的信息表示为ξ
j
＝[p
j
，width，i，j]，其中p
j
＝(x，y，ψ)表示车辆的坐标信息(x，y)与朝向角ψ，width表示点集的道路宽度，i表示点ξ
j
属于点集j表示该点是对应点集中的第j个点；χ
v
为车辆的轨迹信息集合，车辆的轨迹信息集合包含有环境中n辆车的轨迹信息，具体为车辆的轨迹信息集合χ
v
中一辆车的轨迹信息表示为点集中一辆车的轨迹信息表示为点集horizon为车辆的轨迹长度；点集中一个点的信息表示为其中p
′
j
＝(x
′
，y
′
，ψ
′
，speed)表示轨迹点的位置(x
′
，y
′
)、朝向角以及速度信息，i表示点ζ
j
属于第i辆车的轨迹即点集j表示该点属于轨迹中的第j个点。3.根据权利要求1所述的基于性格选择的自动驾驶汽车决策规划方法，其特征在于，通过在原始奖励函数R
′
基础上引入性格值φ得到基于性格偏好的奖励函数具体为：
其中，为自车根据所有车的原始奖励函数得到的奖励函数；φ为性格值，为自车的奖励和他车的奖励的权衡比重，φ∈[0，1]；当φ趋近于0时，基于性格偏好的奖励函数将退化为原始奖励函数，并表现出自私的驾驶策略，当φ趋近于1时，自车将更加考虑他车获得的奖励，进而表现出合作的驾驶策略；r为自车奖励，r
j
为他车奖励，所有车辆根据原始奖励函数R
′
得到某一时刻的自车奖励r和他车奖励[r0，r1，...，r

【专利技术属性】
技术研发人员：薛锦涛，刘而云，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人