基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法技术

技术编号：41510263 阅读：26 留言：0更新日期：2024-05-30 14:49

本发明专利技术公开了一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，包括：1、在考虑道路等静态结构的影响下，基于交通参与者个体的运动建立动力学模型；2、根据采集到的环境信息，构建状态量；3、通过设置奖励函数鼓励交通流车辆与被测车辆之间的博弈；4、构建深度神经网络，初始化深度强化学习参数，训练深度神经网络，产生针对被测车辆上匝道场景下，具有博弈行为的交通流车辆，以检验被测车辆针对小概率、高风险的边缘场景的应对能力。本发明专利技术通过使用深度强化学习与博弈性理论，生成被测车辆在匝道遭遇博弈性交通流的场景，提供了构建自动驾驶场景的新方式。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人驾驶汽车上匝道行车安全评估领域，具体说就是一种基于深度强化学习的匝道行车场景下具有博弈性交通流车辆生成方法。

技术介绍

1、对于智能汽车来说，交通流车辆是行驶环境的重要组成部分，不同场景下不同驾驶风格的交通流车辆对智能车辆的安全性、可靠性具有深刻影响。无人驾驶已经逐步在各类矿区和工业园区等相对简单的场景得到了广泛的应用，但是对于实际公路等相对复杂的驾驶场景，要考虑到障碍物、交通标识、地面路况和其他行驶车辆等环境因素，这为无人驾驶的落地带来了许多不确定的危险，如何确定无人驾驶车辆的可靠性、找到其存在的缺陷成为迫切的需求。现有的场景生成方法是人工搭建的，其他交通参与者的运动都是在运行前确定下来，无法主动且深度发掘无人驾驶车辆存在的不足。

技术实现思路

1、本专利技术为了克服上述现有技术的不足之处，提供一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，以期能生成具有博弈行为的交通流车辆，在匝道场景下与智能汽车换道行为进行博弈，从而发掘智能汽车在匝道场景下的不足，使汽车在行驶过程中安全高效地通行，为智能汽车的安全导航提供保障。

2、本专利技术为达到上述专利技术目的，采用如下的技术方案是：

3、本专利技术一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法的特点是应用于交通流车辆阻止测试车辆在匝道口处向目标车道换道的行车场景中，并包括如下步骤：

4、步骤1、建立交通流车辆的动力学模型，并根据动力学模型获得交

5、步骤2、根据采集到的环境信息，并结合动力学模型，构建状态参数集s＝(xagent,yagent,xego,yego,vagent,vego,aagent,aego,θego)，其中，(xagent,yagent)表示交通流车辆的坐标、(xego,yego)表示测试车辆的坐标、vagent表示交通流车辆的速度、vego表示测试车辆的速度、aego表示测试车辆的加速度、θego表示测试车辆的航向角；

6、步骤3、构建奖励函数的四个组成部分，用于交通流车辆与测试车辆之间的博弈；

7、步骤4、构建深度神经网络，并初始化强化学习参数；

8、基于历史状态参数集s＝{si|i＝1,2,…,n}和历史动作参数a＝{ai|i＝1,2,…,n}对所述深度神经网络进行训练，并得到最优阻止换道模型；其中，si表示第i步的状态参数，ai表示第i步的动作参数；

9、将当前场景在第i步的状态参数s′i输入所述最优阻止换道模型中，并输出当前场景在第i步的动作参数a′i并作为交通流车辆的第i步加速度，从而控制交通流车辆在当前场景第i步纵向运动，以阻止测试车辆换道。

10、本专利技术所述的一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法的特点在于，所述步骤1包括：

11、步骤1.1：建立交通流车辆的纵向驱动模型，从而得到交通流车辆加速度aagent的上限：

12、对交通流纵向受力进行建模，交通流车辆纵向运动的动力来源于前轮纵向力与后轮纵向力，而阻力来源于风阻、坡道阻力、前轮滚动摩擦力与后轮滚动摩擦力；

13、根据发动机转矩、变速器传动比、主减速器传动比、液力变矩器的扭矩特性函数、交通流车辆中液力变矩器涡轮的转速、发动机的转速和传动系机械效率计算前后车轮的纵向力；

14、根据交通流车辆相对于风的速度、车辆迎风面积、空气密度和风阻系数计算当前风阻，根据车重、道路坡度和滚动摩擦系数计算交通流车辆受到的前后车轮滚动摩擦力与坡道阻力；

15、通过交通流车辆能提供的最大动力与当前阻力的差值，计算出交通流车辆加速度上限；

16、步骤1.2：利用构建交通流车辆的纵向制动模型，从而得到交通流车辆的加速度aagent的下限：

17、对于交通流车辆加速度的下限，根据车辆制动系提供给车轮的最大制动力矩、车轮半径、滚阻、风阻、坡道阻力计算得到。

18、所述步骤3包括：

19、步骤3.1：构建第一部分的奖励函数r1：

20、第一部分奖励函数r1由两车横纵向间距组成，并设定博弈距离的超参数，使得交通流车辆与被测车辆纵向间距保持在博弈距离内，当间距小于博弈距离时，第一部分的奖励函数r1达到最大值0；

21、步骤3.2：构建第二部分的奖励函数r2：

22、第二部分的奖励函数r2是由被测车辆的加速度组成，且第二部分的奖励函数与被测车辆加速度的绝对值成正比；设定博弈指标的超参数，当加速度的绝对值大约博弈指标的超参数时，第二部分的奖励函数与被测车辆的加速度绝对值的比值增大；

23、步骤3.3：构建第三部分的奖励函数r3：

24、若被测车辆车身从未进入目标车道，则视为未发生换道，给予定值的惩罚；

25、若被测车辆放弃换道时，则根据放弃换道时两车质心横向间距给予奖励，当间距为车道宽度的一半时，r3达到最大值；

26、步骤3.4：若发生追尾碰撞，则令第四部分的奖励函数r4为负数，否则，令r4为正数。

27、所述步骤4包括：

28、步骤4.1：初始化衰减系数，经验回放池的容量，训练的步数，同时将高速匝道场景时间进行离散化；

29、步骤4.2：构建策略网络和价值网络并初始化网络的权重参数和偏置参数:策略网络包含两个全连接网络,分别输出动作的均值和方差构成的高斯分布；价值网络输出当前状态的价值函数；

30、步骤4.3：将当前时刻i的状态参数si输入策略网络πθ′的输入层，得到交通流车辆第i时刻动作参数ai所对应的高斯分布的均值与方差，根据均值与方差随机得到交通流车辆第i时刻执行的动作ai，执行动作后记录i+1时刻的状态si+1和根据步骤三奖励函数计算出的奖励ri，将(si,ai,si+1,ri)作为一条样本存入经验池中；

31、步骤4.4：若经验池的样本数量达到容量上限，则执行步骤4.5；否则，i+1赋值给i后，返回步骤4.3；

32、步骤4.5：从经验池中随机抽取一批样本对策略网络和价值网络进行训练；

33、对于任意第i条样本(si,ai,si+1,ri)，用价值网络计算第i条样本中si与si+1对应的状态价值；用第i条样本的si与si+1对应的状态价值计算第i条样本的优势函数及价值网络梯度；

34、用新策略和旧策略在同状态si下选择同动作ai的概率比值与第i条样本的优势函数的乘积，得到策略网络的梯度；所述旧策略是在训练过程中更新前的策略网络，所述新策略是在训练过程中更新后的策略网络；

35、步骤4.6：基于随机梯度下降法对步骤4.5所计算的所有样本对应的策略网络的梯度与价值网络的梯度进行优化求解，以更新策略网络的参数与价值网络的参数；

36本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，其特征是应用于交通流车辆阻止测试车辆在匝道口处向目标车道换道的行车场景中，并包括如下步骤：

2.根据权利要求1所述的一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，其特征在于，所述步骤1包括：

3.根据权利要求3所述的一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，其特征在于，所述步骤3包括：

4.根据权利要求4所述的一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，其特征在于，所述步骤4包括：

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述自动驾驶汇入工况下交通参与者动态行为生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述自动驾驶汇入工况下交通参与者动态行为生成方法的步骤。>...

【技术特征摘要】

2.根据权利要求1所述的一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，其特征在于，所述步骤1包括：

3.根据权利要求3所述的一种基于深度强化学习的自动驾驶汇入工况下交通参与者动态行为生成方法，其特征在于，所述步骤3包括：

4.根据权利要求4所述的一种基于深度强化学习的自动...

【专利技术属性】
技术研发人员：黄鹤，付梦园，蔡雄风，杨迪，尹成昊，曹旭东，石琴，李家豪，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人