当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于蒙特卡洛树搜索的自动驾驶纵向决策方法技术

技术编号:37961141 阅读:10 留言:0更新日期:2023-06-30 09:36
本申请涉及自动驾驶领域,提供了一种在采样后ST图上进行蒙特卡洛树搜索的自动驾驶纵向决策方法。包括:构建神经网络并训练,将训练好的神经网络部署到决策方法中,决策过程中得到的神经网络推理结果是si=p(ti)的离散函数;在采样后的ST图中基于神经网络得到的先验知识(si=p(ti)离散函数)进行蒙特卡洛树搜索,以得到最优的N条轨迹;依据得到的最优轨迹得出纵向决策。本申请对比于动态规划搜索方式,在一定程度上能够减少耗时,提高决策鲁棒性,且可以得到多组纵向决策,适用于多线程/多进程架构。进程架构。进程架构。

【技术实现步骤摘要】
一种基于蒙特卡洛树搜索的自动驾驶纵向决策方法


[0001]本专利技术涉及自动驾驶领域,尤其涉及一种基于蒙特卡洛树搜索的自动驾驶纵向决策方法。

技术介绍

[0002]随着汽车智能化和辅助驾驶技术的发展,自动驾驶作为辅助驾驶的高级阶段,俨然成为未来解决人们出行问题的重要手段,已经成为全球新一轮研究重点和热点。尤其是近年来,自动驾驶技术蓬勃发展,在人类交通发展史上取得了里程碑式的进步。
[0003]目前,自动驾驶的技术架构主要分为环境感知定位,决策规划和执行控制三个主要模块。其中,决策规划模块相当于自动驾驶的大脑,接收来自环境感知定位的一系列数据和障碍物信息后做出相应的决策,纵向决策是决策规划模块中比较重要的部分,用以计算出与障碍物之间的交互行为(超车,停止,让行,强行等),即在上层规定的搜索域(所有的静态交规决策,部分动态障碍物决策)和搜索目标(目标速度)下,将不确定性问题(障碍物行为不确定性,预测本身的不确定性)确定化,对搜索域内每个障碍物做出纵向的交互决策(不交互,时间上的交互形式和参数,空间上的交互形式和参数),在将纵向决策转化为纵向规划可理解的可解的、凸的定义域和目标函数。纵观自动驾驶全局,纵向决策在路径决策之后,运动规划,运动控制之前。
[0004]如今自动驾驶系统中的纵向决策模块一般采用的是在采样后的ST图(station

time graph)上进行动态规划(dynamic programming,DP)搜索后得出一条最优轨迹,之后根据此轨迹与障碍物ST图的位置关系确定交互行为。这种基于动态规划的搜索算法只能给出一组纵向决策,很难兼容多线程/多进程架构;其次,这种方法的运算效率较低,耗时较长;最后,这种方法是基于规则的方法,当场景越来越复杂的时候,规则的人力成本会逐渐升高,泛化能力也会逐渐下降,就容易造成顾此失彼的局面。

技术实现思路

[0005]针对自动驾驶纵向决策模块,本申请提出了一种在采样后的ST图上进行蒙特卡洛树搜索的方法,对于蒙特卡洛树搜索中使用UCB公式选择阶段,本申请采用基于神经网络改进的UCB公式,使选择阶段更加合理,可以更加快速的搜索到最优轨迹,并基于此轨迹与障碍物ST图的位置关系确定纵向决策。本申请可以在一定程度上减少纵向决策的耗时,提高决策鲁棒性,且可以得到多组纵向决策,适用于多线程/多进程架构。
[0006]为了达到上述目的,本申请采用以下方案:
[0007]1,构建人工神经网络并对其训练,以将训练好的神经网络的推理结果应用于蒙特卡洛树搜索中UCB公式的改进,包括:
[0008](1)构建训练集,利用自动驾驶车辆在运行良好场景下的数据来构建训练集,通过障碍物的ST图与自动驾驶车辆在ST图上轨迹的一一对应关系训练神经网络。这里要对ST图进行采样和降维处理,以得到神经网络的(n+1)维输入向量,其中n维代表采样后的ST图,1
维为自动驾驶车辆在当前时刻速度。
[0009](2)构建神经网络并训练,构建(n+1)
×
h
×
m三层神经网络,其中,(n+1)为输入层节点数,h为隐藏层节点数,m为输出层节点数,即输出一个m维向量,用以表示自动驾驶车辆在ST图上的预估轨迹,每一维表示在时刻T(即ST图中的time)时自动驾驶车辆应该位于的S(即ST图中的station)。激活函数采用Sigmoid函数,损失函数采用如下式所示的均方差损失函数:
[0010][0011]此处对数据进行Z

score标准化处理,且在训练过程中使用droupout操作随机丢弃隐藏层一定数目的节点数以防止过拟合。最后将训练好的神经网络部署到决策方法中,该神经网络推理后的输出为预估的自动驾驶车辆在ST图上的轨迹(m维向量),记为s
i
=p(t
i
)。
[0012]2,在采样后的ST图上进行蒙特卡洛树搜索,以得到最优的N条轨迹,采样后的ST图为n
×
m的0、1矩阵,
‘1’
表示此处被障碍物的行驶轨迹占据,不可通行,蒙特卡洛树搜索即为在矩阵中为
‘0’
点处搜索出N条最优轨迹,以用于纵向决策。
[0013]进一步的,蒙特卡洛树搜索的起始点为0、1矩阵的左下角,即自动驾驶车辆的起始点(S=0,T=0),终止点为S=n或T=m处的点,即采样后ST图最上方一行中的某个点或最右方一列中的某个点。
[0014]进一步的,依据从自动驾驶车辆初始点(S=0,T=0)出发,到采样后ST图中的任意可通行点(即矩阵中值为
‘0’
的点)的轨迹,可以计算出当自动驾驶车辆位于当前可通行点时的速度、加速度、加加速度等行驶信息,依据这些行驶信息和当前可通行点距离障碍物行驶轨迹投影的欧式距离(即矩阵中值为
‘1’
的点)以及当前可通行点距终止点的距离,可以构建ST图中任意可通行点的代价函数。同样的,根据任意两可通行点之间的位置信息与此两通行点之间线段和障碍物轨迹投影之间的位置关系,亦可构建任意两通行点之间的代价函数。蒙特卡洛树搜索的目的便为搜索出代价函数总和最小的一条轨迹,该轨迹的代价总和为该轨迹上m个可通行点的代价函数之和加上该轨迹上任意相邻两点之间代价函数之和。
[0015]进一步的,蒙特卡洛树搜索分为选择、扩展、模拟和回溯四步。针对选择阶段,一般是采用如下UCB公式指导选择:
[0016][0017]其中x
i
表示已经搜索过的轨迹中所有经过该点轨迹的代价均值,C为可调参数,N为该节点父结点已经探索过的次数,n
i
为该节点已经探索过的次数。采用UCB公式,可以有效的平衡探索和利用。本申请利用神经网络推理得到的s
i
=p(t
i
)离散函数,改写UCB公式,使选择过程更加合理。改写后的UCB公式如下所示,记做UCB
g

[0018][0019]其中D为可调参数,g(s;p(t
i
),σ)为数学期望为p(t
i
),方差为σ^2高斯分布的概率
密度函数,其函数如下所示:
[0020][0021]代入UCB
g
公式中,UCB
g
公式如下所示:
[0022][0023]通过引入神经网络生成的p(t
i
)函数,可以有效的均衡探索、利用以及通过神经网络推理所得到的先验知识,引导搜索朝最有可能为最优轨迹的方向进行,从而加快搜索速度,提高决策鲁棒性。
[0024]进一步的,蒙特卡洛树搜索的模拟阶段亦可采用p(t
i
)离散函数指导,基于期望p(t
i
)和方差σ^2通过高斯采样得到下一时刻s值的概率分布si=N(p(ti),σ),并从概率分布中采样获取下一时刻的s值以用于蒙特卡洛树搜索的模拟阶段。具体而言,就是在ti时刻,越接近si=p(ti)的s值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于蒙特卡洛树搜索的自动驾驶纵向决策方法,其特征在于,包括以下步骤:步骤一:构建人工神经网络并对其训练,以将训练好模型的的推理结果应用于蒙特卡洛树搜索中UCB公式的改进。步骤二:在采样后的ST图中基于神经网络得到的先验知识(即s
i
=p(t
i
)离散函数)进行蒙特卡洛树搜索,以得到最优的N条轨迹。步骤三:基于蒙特卡洛树搜索生成的N条最优轨迹,确定纵向决策。2.根据权利要求1所述的方法,其特征在于,所述的构建人工神经网络并对其训练,以将训练好模型的推理结果应用于蒙特卡洛树搜索中UCB公式的改进包括:所述的人工神经网络包括输入层,隐藏层,输出层;输入层为对采样后ST图进行降维处理后并且加上自动驾驶车辆速度的(n+1)维向量;隐藏层用于对表示采样、降维后ST图和自动驾驶车辆速度的(n+1)维向量特征的提取和处理;输出层为经过神经网络推理后的预估轨迹,即s
i
=p(t
i
)。所述对蒙特卡洛树搜索中UCB公式的改进包括:利用神经网络推理得到的s
i
=p(t
i
)的离散函数,对UCB公式进行改进,记为UCB
g
,UCB
g
公式具体如下所示:其中C、D、σ为可调参数,xi为所有经过当前节点轨迹代价总和的均值,ni为当前节点被探索过的次数,N为其父节点被探索过的次数。g(s;p(t),σ)为数学期...

【专利技术属性】
技术研发人员:李增宝董未名张羽
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1