一种用于优化无人驾驶车辆行为决策模型的方法技术

技术编号：44040201 阅读：23 留言：0更新日期：2025-01-15 01:17

本发明专利技术公开了一种用于优化无人驾驶车辆行为决策模型的方法，属于无人驾驶车辆的智能决策技术领域。包括：获取交通参与者的历史数据；建立交通场景交互关系图，包括节点特征矩阵和邻接矩阵；将所述节点特征矩阵和邻接矩阵输入图注意力神经网络得到图的拓扑特征；建立轨迹模型，选择决策特征生成奖励函数，并采用最大熵逆强化进行学习；将学习到的所述奖励函数与DQN相结合，根据所述图的拓扑特征进行车辆行为决策。本发明专利技术设计的多维度奖励函数综合考虑了行驶效率、舒适性、风险规避和交互作用，使得无人驾驶车辆的决策更为全面和细致。并采用最大熵逆强化学习技术，直接从人类驾驶数据中学习奖励函数，有效提升了无人驾驶车辆的决策拟人化程度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人驾驶车辆的智能决策，特别涉及一种用于优化无人驾驶车辆行为决策模型的方法。

技术介绍

1、无人驾驶车辆的行为决策模型是实现自动驾驶的核心环节，其目标是在确保安全的前提下，模拟人类驾驶员的决策过程，以适应复杂的交通环境。现有的无人驾驶车辆决策模型主要基于传统的规则引擎或简单的强化学习方法，这些方法在特定条件下表现尚可，但在多变的交通场景中，尤其是在多智能体交互的场景下，其泛化能力和适应性受限。

2、在多智能体交互环境中，无人驾驶车辆的决策不仅受到自身状态的影响，还受到其他交通参与者行为的显著影响。这些交互作用的复杂性要求决策模型能够理解和预测其他交通参与者的行为，以便做出更加合理和人性化的决策。然而，现有模型往往忽视了这种交互性，或者无法准确捕捉和模拟这些交互作用，导致无人驾驶车辆在实际交通中的决策行为与人类驾驶员存在显著差异。

3、此外，现有的强化学习模型在训练过程中可能会遇到奖励函数设计困难、训练效率低、模型泛化能力弱等问题。这些问题限制了无人驾驶车辆在复杂交通场景中的应用潜力。为了解决这些问题，研究人员开始探索逆强化学习(inverse reinforcementlearning,irl)技术，该技术通过从人类驾驶员的示范行为中学习奖励函数，以期获得更好的决策模型。

4、尽管irl技术在理论上具有潜力，但在实际应用中仍面临诸多挑战，如计算复杂性高、容易过拟合、模型泛化能力有限等。此外，现有的irl方法在处理具有多个交互智能体的复杂场景时，往往难以准确捕捉和模拟交互作用对决策的影响。

技术实现思路

1、针对现有技术的缺陷，本专利技术通过建立轨迹评估模型和优化奖励函数，以提高无人驾驶车辆行为决策模型的性能。该方法不仅考虑了无人驾驶车辆与环境中其他交通参与者的交互作用，而且还通过逆强化学习技术从真实人类驾驶数据中学习奖励函数，从而提高了决策模型的拟人化程度和泛化能力。

2、为了达到上述目的，本专利技术提出了一种用于优化无人驾驶车辆行为决策模型的方法，包括如下步骤：

3、(1)获取交通参与者的历史数据，包括交通参与者过去t时间内的位置、速度、加速度以及偏转角；

4、(2)建立交通场景交互关系图，包括节点特征矩阵和邻接矩阵；

5、利用门控循环单元gru对所述交通参与者的历史数据进行编码得到动态特征，并将此动态特征输入节点特征向量中，构造节点特征矩阵；

6、利用高斯过程回归gpr表示高斯速度场来构建邻接矩阵；

7、(3)将所述节点特征矩阵和邻接矩阵输入图注意力神经网络gat得到图的拓扑特征；

8、(4)建立轨迹模型，选择决策特征以生成奖励函数，并采用最大熵逆强化进行学习；

9、(5)将学习到的所述奖励函数与dqn相结合，根据所述图的拓扑特征进行车辆行为决策。

10、进一步的，所述节点特征矩阵具体为：

11、利用gru对所述交通参与者的历史数据进行编码，提取交通参与者动态特征：

12、

13、其中：gruh代表门控循环单元gru，表示在t时刻交通参与者i的动态特征，表示在t时刻交通参与者i的历史数据；

14、将此动态特征输入到节点特征向量中，构造节点特征矩阵；

15、

16、其中：为节点i在t时刻的节点特征向量，该向量中包含交通参与者当前速度信息、位置信息、车辆的行驶方向、行人的朝向以及交通参与者的动态特征。

17、进一步的，所述邻接矩阵具体为：

18、

19、其中：ef＝{eij,i,j∈[1,n]}中的每一项代表了第i个交通参与者和第j个交通参与者之间关系的边特征向量；

20、所述边特征向量中包括高斯速度场以及不同交通参与者之间的相对速度、相对位置以及两者朝向之间的夹角；

21、相对速度可以表示为vij＝(vjx-vix,vjy-viy)，相对位置由欧几里得距离表示朝向夹角可以表示为θij＝atan2(yj-yi,xj-xi)；xi、yi为第i个交通参与者的位置，vix、viy为第i个交通参与者在x和y方向的速度；

22、使用gpr建立交通参与者速度场的概率分布，获得交通参与者运动的不确定性的量化描述：

23、

24、其中：a为放大系数，xi为第i个交通参与者的位置，xj为第j个周围交通参与者的位置，σ为尺度常数；

25、采用第i个交通参与者与其周围第j个交通参与者在xi位置的相对速度来描述车辆之间的高斯速度场：

26、bt(i，j)＝k(xi，xj)k(xi，xj)-1δv(xi，xj)

27、δv(xi，xj)＝vi-vj

28、其中：δv(xi,xj)为第i个交通参与者与其周围第j个交通参与者在xi位置的相对速度，vi、vj为第i、j个交通参与者的速度。

29、进一步的，所述轨迹模型具体为；

30、利用多项式轨迹采样器生成参与车辆的轨迹模型，所述多项式轨迹采样器分别由关于x和y坐标的两个多项式函数表示：

31、

32、其中：τ表示时间，{a0,...,a4}和{b0,...,b5}多项式各项的系数；x表示交通参与者在道路纵向的位置函数；y表示交通参与者在道路横向的位置函数；

33、所述参与车辆的初始状态、目标状态以及到达目标所需的时间t，纵轴和横轴上多项式函数的边界条件可以表示为：

34、

35、其中：(xs,vxs,axs,ys,vys,ays)为初始状态，即τ＝0的状态，其中各个分项为位置和横纵轴方向上的速度和加速度；(vxe,axe,ye,vye,aye)为目标状态，即τ＝t的状态，其中没有纵向位置；为x、y的一阶导数，表示速度函数；为x、y的二阶导数，表示加速度函数；

36、通过求解边界方程确定多项式函数的系数，得到轨迹模型。

37、进一步的，所述选取决策特征包括：行驶效率、舒适性、风险规避以及交互作用；根据所述轨迹模型，得到每条轨迹上的决策特征；

38、所述行驶效率由车辆的行驶速度表征：

39、

40、所述舒适性由纵向加速度ax，横向加速度ay和纵向加加速度jerk jx表征：

41、

42、所述风险规避由自车和前车、后车的位置关系表征：

43、

44、其中：xf(t)为距离最近的前车纵向的位置，xego(t)为自车纵向的位置，vego(t)是自车的当前纵向的行驶速度；xr(t)为距离最近的后车纵向的位置，vr(t)是后车纵向的行驶速度；

45、所述交互作用受自车行为影响车辆的预测减速度的绝对值之和表征：

46、

47、其中：ai(t)是受到自车影响车辆的加速度；i表示受到自车行为影响的周围车辆；

48、在本文档来自技高网...

【技术保护点】

1.一种用于优化无人驾驶车辆行为决策模型的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述节点特征矩阵具体为：

3.根据权利要求1所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述邻接矩阵具体为：

4.根据权利要求1所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于：所述轨迹模型具体为；

5.根据权利要求4所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述选取决策特征包括：行驶效率、舒适性、风险规避以及交互作用；根据所述轨迹模型，得到每条轨迹上的决策特征；

6.根据权利要求5所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述奖励函数具体为：

7.根据权利要求6所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述采用最大熵逆强化进行学习具体为：

8.根据权利要求1所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述步骤(5)具体为：

9.根据权利要求8所述的用于

...

【技术特征摘要】

1.一种用于优化无人驾驶车辆行为决策模型的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述节点特征矩阵具体为：

3.根据权利要求1所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述邻接矩阵具体为：

4.根据权利要求1所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于：所述轨迹模型具体为；

5.根据权利要求4所述的用于优化无人驾驶车辆行为决策模型的方法，其特征在于，所述选取决策特征包括：行驶效率、舒...

【专利技术属性】
技术研发人员：王孝兰，孙明浩，王岩松，强育川，
申请(专利权)人：上海工程技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人