当前位置: 首页 > 专利查询>江苏大学专利>正文

融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法及设备技术

技术编号:37398105 阅读:9 留言:0更新日期:2023-04-30 09:26
本发明专利技术公开了融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法及设备,通过引入部分可观察马尔可夫决策过程(POMDP),提供了一种在不确定性环境下,多智能体交互的理想决策模型,随着模型维度的增加,其计算复杂度也大大增加,为解决计算复杂度问题,本发明专利技术引入基于复杂网络认知理论对驾驶环境进行建模,用于评估重要节点并提取风险树,以缩小POMDP模型的置信空间、加速模型求解,从而实现在高度交互的动态不确定性驾驶环境下进行实时性的行为决策,相比于采用有限状态机和RL的行为决策方法,本发明专利技术在保证算法可解释性的同时,可在高度交互的动态不确定性驾驶环境中有效运行,为高级别的智能驾驶系统开发提供了新的解决思路。发提供了新的解决思路。发提供了新的解决思路。

【技术实现步骤摘要】
融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法及设备


[0001]本专利技术属于智能驾驶系统的决策规划领域,具体的为一种结合基于复杂网络认知理论和部分可观察马尔可夫决策过程(POMDP),面向高度交互的动态不确定性驾驶环境的智能驾驶行为决策方法及设备。

技术介绍

[0002]决策规划作为智能驾驶技术的核心模块之一,通过接收、处理各类感知信息,做出行为决策和轨迹规划,是智能驾驶系统的大脑。经典的智能驾驶行为决策方法一般采用基于规则设计的有限状态机的方法,具有良好的可解释性,目前被广泛应用于L2级智能驾驶车辆的自动辅助导航驾驶系统当中。然而随着智能驾驶汽车面临的驾驶环境越发复杂,经典决策规划方法已经不能满足高度交互的动态不确定性驾驶环境,而基于RL(强化学习)的智能驾驶行为决策方法通常假设驾驶环境是完全可观测的MDP过程,这在高度交互的动态不确定性驾驶环境中几乎是很难实现的,因此很难应用于真实的驾驶场景当中。

技术实现思路

[0003]为解决上述问题,本专利技术引入部分可观察马尔可夫决策过程(POMDP),其提供了一种在不确定性环境下,多智能体交互的理想数学决策模型,但随着模型维度的增加,其计算复杂度也将大大增加。为解决计算复杂度的问题,本专利技术引入基于复杂网络认知理论对驾驶环境进行建模,用于评估重要节点并提取风险树,以缩小POMDP模型的置信空间、加速模型求解,从而实现在高度交互的动态不确定性驾驶环境下进行实时性的行为决策。
[0004]本专利技术的目的在于提供一种智能驾驶行为决策方法,基于复杂网络理论与部分可观察马尔可夫决策过程的融合,创新设计了一种可以在高度交互的动态不确定性驾驶环境下有效运行的行为决策方法。
[0005]为实现上述目的,本专利技术提出的决策方法采用以下技术方案,包括如下步骤:
[0006]步骤1:应用基于复杂网络的认知理论对驾驶环境进行动态建模,包括:
[0007]步骤1.1:首先基于复杂网络理论,将自车和其他交通参与者视为网络节点,构建动态的复杂网络模型:
[0008]G
t
=(P,E,W,Θ)
t
其中,G
t
为动态的复杂网络模型;P={p1,p2,...,pN
}
为网络中的节点的集合,p
i
为网络中的节点,N为网络中节点的数量;E={e1,e2,...,e
K
}为网络中节点的边集合,e
i
为网络中的节点的边,K为网络中节点边的数量;W={w1,w2,...,w
k
}为边的权重集合;Θ为节点的可移动区域。
[0009]Θ被建模为光滑有界曲面:
[0010][0011]其中,Ω为光滑有界曲面的边界。
[0012]步骤1.2:基于二自由度车辆模型和运动点模型,对节点进行动力学建模。
[0013]车辆二自由度模型为:
[0014][0015]其中,模型的状态变量为横摆角速度r和侧向速度U
y
;δ为前轮转向角;F
yf
和F
yr
分别为驾驶中产生的前侧向力和后侧向力;a和b分别为前轴重心和后轴重心;m为车辆质量;I
z
为横摆的转动惯量;纵向速度U
x
被认为是一个时变参数。当轮胎转弯特性在线性范围内时,模型可以表示为:
[0016][0017]其中,C
f
和C
r
分别为前轮侧偏刚度和后轮侧偏刚度。
[0018]将相关节点视为具有重心的运动质点,建立相对于期望路径的运动点模型:
[0019][0020]其中,Δψ和e分别为航向角偏差和横向路径偏差;s为沿期望路径的距离;k为期望路径的曲率。
[0021]步骤1.3:根据场理论提出了基于风险中心转移的可变高斯安全场模型,静态安全场由二维高斯函数描述,则静态安全场S
sta
可表示为:
[0022][0023]其中,x0和y0为风险中心的坐标(即以自车为中心的坐标原点);C
a
为场强系数;a
x
和b
y
分别为椭圆的长轴和短轴的半径(椭圆为车辆边框的内接椭圆的放大,可以等效的用车辆的横纵比表示)。
[0024]当车辆移动时,风险中心将随之转移,新的风险中心为O

(x
′0,y
′0):
[0025][0026]其中,为速度矢量;k
v
为调节因子,且有0<k
v
<1(向前)或

1<k
v
<0(向后);β为与x轴夹角,用a

x
和b

y
表示风险中心转移之后椭圆的长轴和短轴的半径。则动态安全场S
dyn
可表示为:
[0027][0028]步骤2:根据人类驾驶员对距离的敏感度和反应时间,将节点周围分为第一认知域、第二认知域和域外空间。
[0029]第一认知域的范围为:
[0030]maxa

x
≤s
th1
[0031]s
th1
=t
c1
·
v
e
[0032]其中,s
th1
为第一阈值;t
c1
为人类驾驶员的第一认知反应时间;v
e
为环境中其他节点的最大接近速度。
[0033]第二认知域的范围为:
[0034]s
th1
<maxa

x
≤s
th2
[0035]s
th2
=t
c2
·
v
e
[0036]其中,s
th2
为第二阈值;t
c2
为人类驾驶员的第二认知反应时间。第二认知域外的空间定义为域外空间。
[0037]在可变高斯安全场的框架内,建立节点间的风险认知函数:
[0038][0039]其中,是节点p
i
在节点p
j
处的场强,是节点p
j
的标量速度,方向角θ
i,j
是节点px的速度矢量与节点p
i
的场强矢量的夹角(顺时针为正向),k
c
为风险认知调节系数。
[0040]步骤3:根据所建模型,生成复杂网络并评估重要节点和提取风险树。
[0041]步骤3.1:复杂网络的演化过程,包括:
[0042]1)将自车节点设为主节点,连接主节点及其第一认知域内的其他节点,计算相应连边的权重,并按照权重大小进行排序,为方便计算,若与主节点连接方向存在多个节点,则取最近的节点为第一认知域中的节点,其他距离较远的节点视为第二认知域的节点,第二认知域内的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法,其特征在于,包括如下步骤:步骤1:应用基于复杂网络的认知理论对驾驶环境进行动态建模;步骤2:根据人类驾驶员对距离的敏感度和反应时间,将节点周围分为第一认知域、第二认知域和域外空间;步骤3:根据所建模型,生成复杂网络并评估重要节点和提取风险树;步骤4:应用POMD理论对自车决策过程进行建模,消除驾驶环境中的不确定性;步骤5:根据步骤4所建模型,进行自车的行为决策。2.根据权利要求1所述的融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法,其特征在于,所述步骤1具体包括建立动态的复杂网络模型,具体地:基于复杂网络理论,将自车和其他交通参与者视为网络节点,构建动态的复杂网络模型:G
t
=(P,E,W,Θ)
t
其中,G
t
为动态的复杂网络模型;P={p1,p2,...,p
N
}为网络中的节点的集合,p
i
为网络中的节点,N为网络中节点的数量;E={e1,e2,...,e
K
}为网络中节点的边集合,e
i
为网络中的节点的边,K为网络中节点边的数量;W={w1,w2,...,w
k
}为边的权重;Θ为节点的可移动区域;Θ被建模为光滑有界曲面:其中,Ω为光滑有界曲面的边界。3.根据权利要求1所述的融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法,其特征在于,所述步骤1还包括建立动力学模型,具体地:基于二自由度车辆模型和运动点模型,对节点进行动力学建模:其中,模型的状态变量为横摆角速度r和侧向速度U
y
;δ为前轮转向角;F
yf
和F
yr
分别为驾驶中产生的前侧向力和后侧向力;纵向速度U
x
被认为是一个时变参数,当轮胎转弯特性在线性范围内时,模型可以表示为:将相关节点视为具有重心的运动质点,建立相对于期望路径的运动点模型:其中,Δψ和e分别为航向角偏差和横向路径偏差;s为沿期望路径的距离;k为期望路径的曲率。
4.根据权利要求1所述的融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法,其特征在于,所述步骤1还包括建立可变高斯安全场模型,具体地:根据场理论提出基于风险中心转移的可变高斯安全场模型,静态安全场由二维高斯函数描述:其中,C
a
为场强系数;a
x
和b
y
分别为椭圆的长轴和短轴的半径(椭圆为车辆边框的内接椭圆的放大,可以等效的用车辆的横纵比表示);当车辆移动时,风险中心将随之转移,新的风险中心为O

(x
′0,y
′0):其中,为速度矢量;k
v
为调节因子,且有0<k
v
<1(向前)或

1<k
v
<0(向后);β为与x轴夹角,则动态的安全场可表示为:5.根据权利要求1所述的融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法,其特征在于,所述步骤2中:第一认知域的范围为:max a

x
≤s
th1
s
th1
=t
c1
·
v
e
其中,s
th1
为第一阈值;t
c1
为人类驾驶员的第一认知反应时间;v
e
为环境中其他节点的最大接近速度;第二认知域的范围为:s
th1
<maxa

x
≤s
th2
s
th2
=t
c2
·
v
e
其中,s
th2
为第二阈值;t
c2
为人类驾驶员的第二认知反应时间;第二认知域外的空间定义为域外空间;在可变高斯安全场的框架内,建立节点间的风险认知函数:其中,是节点p
i
在节点p
j
处的场强,是节点p
j
的标量速度,方向角θ
i,j
是节点p
j
的速度矢量与节点p
i
的场强矢量的夹角(顺时针为正向),k
c
为风险认知调节系数。6.根据权利要求1所述的融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法,其特征在于,所述步骤3具体包括:步骤3.1:复杂网络的演化:1)将自车节点设为主节点,连接主节点及其第一认知域内的其他节点,计算相应连边的权重,并按照权重大小进行排序,若与主节点连接方向存在多个节点,则取最近的节点为第一认知域中的节点,其他距离较远的节点视为第二认知域的节点,第二认知域内的节点
做同样处理;2)在第一认知域中,根据上一步确定的权值序列依次选择环境节点,计算其与其它节点的权值并排序,连接权重最大的节点对,如果权重低于设定的阈值,则不连接,如该边已存在,则不再重复连接;3)选择第二认知域中的环境节点和第一认知域的节点,连接权重最大的节点对;4)在第二认知域中,依次选择环境节点,计算其相对于其他节点的权重,并进行排序,连接权重最大的节点对,如果权重低于设定的阈值,则不连接,如该边已存在,则不再重复连接;步骤3.2:评估重要节点,并生成风险树,包括:1)设与节点p
i
与所有相邻节点的集合为N
i
;节点强度r
i
为节点p
i
与其相邻节点的权重的总和,则有:2)将网络中所有节点强度的平均值定义为网络强度<r>,则有:3)将节点强度r
i
与所有节点的强度之和的比值定义为用以评估节点的重要性,则有:将最大的节点定义为重要节点,第一认知域中的重要节点定义为第一类重要节点(非主节点的节点),第二认知域中的重要节点定义为第二类重要节点;4)将主节点、第一类重要节点和第二类重要节点生成的树定义为风险树。7.根据权利要求1所述的融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法,其特征在于,所述步骤4具体包括:步骤4.1:设ε
t
表示时间t时刻以自车为中心的驾驶环境,包括前面步骤中建模的认知模型、交通信号、静态障碍占用的栅格地图等;表示车辆i∈V在时间t时刻的状态,当i=0时表示自车,状态量缺少上标时表示所有车辆,缺少下标时表示所有时间点;自车接受到的观测值记为z
t
,并使用观测值去评估真实的状态量x
t
;则行为决策的输入记为<z
t
,ε
t
>,输出为一组连续的离散状态参数,记为其中H表示一个规划周期的时间长度;步骤4.2:POMDP模型定义为一组六元素<X,A,Z,T,O,R>,其中,X、A和Z分别为状态空间、行为空间和观测空间;T为连续时刻的状态概率转移函数T(x
t
‑1,a
t
,x
t
)=p(x
t
|x
t
‑1,a
t
),O为状态量与观测量之间的概率函数O(x
t
,z
t
)=p(z
t...

【专利技术属性】
技术研发人员:蔡英凤付新科滕成龙陈龙王海刘擎超孙晓强
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1