System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及车辆相关,特别是一种自动驾驶的速度规划方法、电子设备、存储介质及计算机程序产品。
技术介绍
1、自动驾驶中,路径规划完成之后进行的就是速度规划。速度规划就是,确定车辆在哪个时刻到达哪个位置(也就是路径上的哪个点,用位移大小来表示)。现有技术的自动驾驶中的速度规划算法主要包括使用动态规划(dp)方法和a*方法。
2、动态规划(dp)方法:动态规划是一种通过将问题分解为子问题并以递归的方式解决这些子问题来解决复杂问题的方法。在自动驾驶中,速度规划算法可以使用动态规划来确定车辆在不同时间段内的最佳速度。这种方法通常会考虑车辆的动力学约束,并尝试找到一条最优路径,使车辆能够在规定的时间内到达目的地,并且遵守交通规则和限制条件。
3、a*方法:在自动驾驶中,a*算法可以用于规划车辆的速度。a*算法是一种启发式搜索算法,用于寻找位移-时间图中的最优路径,也就是最优速度曲线。使用启发式函数来估计从当前状态到目标状态的代价,并且通过搜索图形中的节点来找到最佳路径。
4、然而,动态规划(dp)方法和a*方法均存在一定问题。
5、动态规划(dp)方法的缺点:
6、高计算复杂度以及难以处理实时性要求:动态规划方法可能需要对大量的状态和决策进行搜索和计算,这可能导致高计算复杂度,尤其是在处理连续空间中的速度规划问题时。因为它需要对全局状态空间进行搜索和计算,这可能导致响应时间过长。
7、a*方法的缺点:
8、1.启发式函数选择的问题:a*算法的性能高度依赖
9、2.决策空间限制:a*算法通常依赖于离散或有限的决策空间,这可能导致在处理大空间中的速度规划问题时存在限制。
10、3.需要额外的决策输入:a*算法的输入为车辆初始状态(位移-时间图中的起点)、预期末状态(位移-时间图中的终点),环境交通参与者们以及信号灯造成的约束(位移-时间图中的不可行区域),输出为位移-时间图中的曲线(从起点连接到终点)。因此必须先通过其他决策方式计算得到车辆预期末状态(在什么位置、速度是多少),这额外的模块增加了复杂度,需要另外开发。
技术实现思路
1、基于此,有必要针对现有技术自动驾驶的速度规划存在的技术问题,提供一种自动驾驶的速度规划方法、电子设备、存储介质及计算机程序产品。
2、本专利技术提供一种自动驾驶的速度规划方法,包括:
3、在车辆自动驾驶过程中,在每个决策时间,初始化蒙特卡洛树,所述蒙特卡洛树的节点用于表示预测时间内每一预测时刻车辆的状态,连接两所述节点的连线表示执行的动作,所述动作为车辆执行的加速度,所述状态包括车辆速度和车辆位移,相邻两所述预测时间之间的间隔为时间粒度;
4、在每个决策时间,迭代执行蒙特卡洛树搜索算法从所述蒙特卡洛树的根节点搜索到达所述蒙特卡洛树的终止节点,所述根节点表示预测时间的起始预测时刻的状态,所述终止节点表示预测时间的终止预测时刻的状态,所述蒙特卡洛树搜索算法基于连线的状态动作价值值选择待选择节点,所述连线的状态动作价值值通过强化学习模拟确定;
5、将迭代结束时所述蒙特卡洛树中连接待选择节点的连线的动作作为最优动作组合,控制车辆按照在所述预测时刻依次执行所述最优动作组合中的动作。
6、进一步地,所述迭代执行蒙特卡洛树搜索算法从所述蒙特卡洛树的根节点搜索到达所述蒙特卡洛树的终止节点,包括:
7、执行多次迭代直到满足迭代结束条件,在每次迭代中执行:
8、从所述蒙特卡洛树的根节点开始依次确定当前节点,基于所述当前节点与所述当前节点的每个子节点连线的状态动作价值值,选择一个所述子节点作为待选择节点,将所述当前节点更新为所述待选择节点,直到所述当前节点为所述蒙特卡洛树的末节点;
9、如果所述末节点为终止节点,则结束本次迭代,否则生成所述末节点的子节点,所述子节点表示所述当前节点在所述时间粒度之后的状态和动作;
10、从所述末节点的所有所述子节点中选择一个所述子节点作为待模拟节点,对所述待模拟节点基于强化学习进行模拟,得到所述待模拟节点的累积回报;
11、对所述待模拟节点进行回溯直到根节点,更新回溯所经过的所有连线的状态动作价值值。
12、更进一步地,所述基于所述当前节点与所述当前节点的每个子节点连线的状态动作价值值,选择一个所述子节点作为待选择节点,包括:
13、根据所述当前节点与所述当前节点的每个子节点连线的状态动作价值值,确定每个连线的动作选择概率,并根据每个所述连线的动作选择概率进行选择,得到一个连线作为待选择连线,将所述待选择连线所连接的子节点作为待选择节点,其中,状态动作价值值大的所述连线的动作选择概率大于状态动作价值值小的所述连线的动作选择概率。
14、更进一步地,所述生成所述末节点的子节点,包括:
15、扩展所述末节点中除不可行节点以外的所有子节点,所述不可行节点为:状态不满足安全条件的节点。
16、更进一步地,所述从所述末节点的所有所述子节点中选择一个所述子节点作为待模拟节点,对所述待模拟节点基于强化学习进行模拟,得到所述待模拟节点的累积回报,包括:
17、从所述末节点的所有所述子节点中随机选择一个所述子节点作为待模拟节点,将所述待模拟节点进行强化学习模拟,直到终止节点,计算车辆从所述待模拟节点模拟执行到所述终止节点的累积回报。
18、再进一步地,所述计算车辆从所述待模拟节点模拟执行到所述终止节点的累积回报,包括:
19、从所述待模拟节点开始,依次随机生成多个随机节点到达终止节点;
20、计算车辆从所述待模拟节点沿所述随机节点模拟执行到所述终止节点的累积回报为:
21、其中,g为累积回报,t为从所述待模拟节点到所述终止节点的节点数量,t为从所述待模拟节点到所述终止节点的节点序号,st为第t个节点的状态,at为第t个节点的动作,st+1为第t+1个节点的状态,r(st,at,st+1)为从状态st变为状态st+1所改变的奖励,其中,每个状态的奖励为其中,ω1为第一权重,ω2为第二权重,dmin为当前状态下车辆与障碍物的最小距离,dsafe为安全距离,v为当前状态下的车速,vmax为最大车速。
22、更进一步地,所述对所述待模拟节点进行回溯直到根节点,更新回溯所经过的所有连线的状态动作价值值,包括:
23、对所述待模拟节点进行回溯直到根节点,对回溯所经过的所有连线,更新连线的状态动作价值值为q=(nq′+g)/(n+1),其中q为所述连线更新后的状态动作价值值,q’为所述连线更新前的状态动作价值值,g为所述待模拟节点的累积回报,n为所述连线之前更新的总次数。
24、本专利技术提供一种电子设备,包括:
25、至少一个处理器;以及,<本文档来自技高网...
【技术保护点】
1.一种自动驾驶的速度规划方法,其特征在于,包括:
2.根据权利要求1所述的自动驾驶的速度规划方法,其特征在于,所述迭代执行蒙特卡洛树搜索算法从所述蒙特卡洛树的根节点搜索到达所述蒙特卡洛树的终止节点,包括:
3.根据权利要求2所述的自动驾驶的速度规划方法,其特征在于,所述基于所述当前节点与所述当前节点的每个子节点连线的状态动作价值值,选择一个所述子节点作为待选择节点,包括:
4.根据权利要求2所述的自动驾驶的速度规划方法,其特征在于,所述生成所述末节点的子节点,包括:
5.根据权利要求2所述的自动驾驶的速度规划方法,其特征在于,所述从所述末节点的所有所述子节点中选择一个所述子节点作为待模拟节点,对所述待模拟节点基于强化学习进行模拟,得到所述待模拟节点的累积回报,包括:
6.根据权利要求5所述的自动驾驶的速度规划方法,其特征在于,所述计算车辆从所述待模拟节点模拟执行到所述终止节点的累积回报,包括:
7.根据权利要求2所述的自动驾驶的速度规划方法,其特征在于,所述对所述待模拟节点进行回溯直到根节点,更新回溯所经过
8.一种电子设备,其特征在于,包括:
9.一种存储介质,其特征在于,所述存储介质存储计算机指令,当计算机执行所述计算机指令时,用于执行如权利要求1至7任一项所述的自动驾驶的速度规划方法的所有步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至7任一项所述的自动驾驶的速度规划方法。
...【技术特征摘要】
1.一种自动驾驶的速度规划方法,其特征在于,包括:
2.根据权利要求1所述的自动驾驶的速度规划方法,其特征在于,所述迭代执行蒙特卡洛树搜索算法从所述蒙特卡洛树的根节点搜索到达所述蒙特卡洛树的终止节点,包括:
3.根据权利要求2所述的自动驾驶的速度规划方法,其特征在于,所述基于所述当前节点与所述当前节点的每个子节点连线的状态动作价值值,选择一个所述子节点作为待选择节点,包括:
4.根据权利要求2所述的自动驾驶的速度规划方法,其特征在于,所述生成所述末节点的子节点,包括:
5.根据权利要求2所述的自动驾驶的速度规划方法,其特征在于,所述从所述末节点的所有所述子节点中选择一个所述子节点作为待模拟节点,对所述待模拟节点基于强化学习进行模拟,得到所述待模拟节点...
【专利技术属性】
技术研发人员:邓晨,
申请(专利权)人:云控智行科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。