System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自动驾驶,具体是涉及一种自动驾驶车辆混合场景纵向控制方法、系统、终端和介质。
技术介绍
1、随着硬件算力和软件算法的不断发展,自动驾驶技术已进入大规模研究和应用阶段,而自动驾驶的安全性一直是各界广泛关注的研究重点之一。
2、目前,自动驾驶控制方法主要是通过构建跟车模型,利用车辆状态信息与周围环境信息对车辆的速度和加速度进行控制,且基于规则所构建的跟车模型往往是针对一些已知的运行场景对应设置不同运动场景下的控制策略,但是跟车模型被训练范围外的陌生场景,并没有给出相应的控制策略,致使自动驾驶车辆的行驶安全性无法得到保障,基于学习所构建的跟车模型在陌生场景下输出动作的安全性无法保证,可见,现有技术中基于规则或基于学习的跟车模型的鲁棒性均较差。
3、综上所述,现有的自动驾驶控制方法在陌生场景下执行的控制策略无法保障行驶的安全性。
4、因此,现有技术还有待改进和提高。
技术实现思路
1、本申请提供了自动驾驶车辆混合场景纵向控制方法、系统、终端和介质,以解决相关技术的自动驾驶控制方法无法在陌生场景下执行的控制策略无法保障行驶的安全性的技术问题。
2、为实现上述目的,本申请采用了以下技术方案:
3、本申请第一方面实施例提供一种自动驾驶车辆混合场景纵向控制方法,包括以下步骤:
4、实时获取被控车辆的运动状态信息;
5、将所述运动状态信息输入至预先构建的车辆纵向控制模型中,通过所述车辆纵向控制模型输出目标策
6、根据所述场景不确定性评估结果判断所述被控车辆所处的当前场景是否为陌生场景,若是,则获取与所述被控车辆的运动状态信息相对应的目标规划速度;计算所述被控车辆的运动状态信息中的实际速度和所述目标规划速度之差,获得速度偏差;将所述速度偏差输入预设的比例积分器,通过所述比例积分器输出加速度,并根据所述加速度,确定目标控制策略。
7、根据上述技术手段,本申请实施例根据场景不确定性评估结果的场景不确定性大小,辨识车辆当前所处的运动场景是否是在车辆纵向控制模型训练过程中训练过的已知运动场景,并根据运动场景辨识结果和纵向控制策略切换条件,选择相应的纵向控制策略。特别地,当车辆所处的当前场景为陌生场景时,通过比例积分器对当前的实际速度和目标规划速度之差进行积分,获得目标控制策略对应的加速度,从而基于该加速度生成目标控制策略对车辆进行控制,以确保被控车辆无论是在各种已知训练场景下还是在陌生场景下,均能执行与场景不确定性评估结果相匹配的纵向控制策略,提高被控车辆行驶的安全性。
8、可选地,在本申请的一个实施例中,所述车辆纵向控制模型是基于深度确定策略梯度算法构建而成,所述车辆纵向控制模型的构建过程,包括:
9、获取训练样本集,所述训练样本集包括若干训练样本,每个所述训练样本均包括车辆的历史运动状态信息和相对应的历史控制动作;
10、基于深度确定策略梯度算法构建初始网络模型,其中,所述初始网络模型包括初始actor网络和初始critic网络;将所述训练样本输入初始网络模型,通过所述初始网络模型输出控制目标动作和第一动作评分;
11、基于所述控制目标动作和所述控制目标动作对应的运动状态下的历史控制动作,计算奖励值;基于所述奖励值和所述第一动作评分对所述初始critic网络和所述初始actor网络进行训练,获得已训练critic网络和已训练actor网络;
12、基于所述已训练critic网络和所述已训练actor网络,获得训练好的车辆纵向控制模型。
13、根据上述技术手段,本申请实施例基于ddpg算法构建车辆纵向控制模型,并利用经验样本对车辆纵向控制模型中的初始critic网络和初始actor网进行优化训练,得到已训练critic网络和已训练actor网络,使得已训练actor网络能够根据每一时刻下的状态精准输出对应时刻的动作,并利用已训练critic网络根据每一时刻的动作精准执行相应时刻下的策略,能够实现对车辆进行持续有效地控制,从而有效提高训练好的车辆纵向控制模型对车辆纵向控制的稳定性和安全性。
14、可选地,在本申请的一个实施例中,所述初始critic网络包括若干在线q网络,所述基于所述奖励值和所述动作评分对所述初始critic网络和所述初始actor网络进行训练,获得已训练critic网络和已训练actor网络,包括:
15、获取每个所述在线q网络输出的第一动作评分,并计算每个所述在线q网络的时间差分误差和所有所述在线q网络的平均时间差分误差;
16、基于每个所述在线q网络的时间差分误差和平均时间差分误差对相应的在线q网络进行训练,获得已训练在线q网络,并基于所有所述已训练在线q网络,获得已训练critic网络;
17、基于所有所述第一动作评分的梯度和所述奖励值,对所述初始actor网络进行更新,获得已训练actor网络。
18、根据上述技术手段,本申请实施例相比于仅存在一个在线q网络的初始critic网络的车辆纵向控制模型而言,设置多个在线q网络能够弥补单个在线q网络对陌生场景的学习能力表现不好的情况下,也能通过建立多个在线q函数网络输出的第一动作评分之间的标准差和均值之间偏离程度来最小化第一动作评分的误差,从而保障训练好的车辆纵向控制模型在陌生场景下仍能做出良好的决策。
19、可选地,在本申请的一个实施例中,所述初始网络模型还包括目标策略网络和目标q网络,所述基于所述已训练critic网络和所述已训练actor网络,获得训练好的车辆纵向控制模型,包括:
20、基于所述已训练critic网络对所述目标q网络进行软更新,获得更新后的目标q网络;并利用所述更新后的目标q网络对所述已训练critic网络进行更新,获得更新后的已训练critic网络;
21、基于所述已训练actor网络对所述目标策略网络进行软更新,获得更新后的目标策略网络;并利用所述更新后的目标策略网络对所述已训练actor网络进行更新,获得更新后的已训练actor网络;
22、基于所述更新后的已训练critic网络、所述更新后的已训练actor网络,获得训练好的车辆纵向控制模型。
23、根据上述技术手段,本申请实施例通过在车辆纵向控制模型中的初始actor网络和初始critic网络分别引入目标策略网络和目标q网络,通过目标策略网络和目标q网络实现以一定的衰减率进行更新,从而使得初始网络模型中的已训练critic网络和已训练actor网络得到稳步更新,能够提高对车辆纵向控制模型训练的平稳性。
24、可选地,在本申请的一个实施例中,所述车辆纵向控制模型包括已训练actor网络和已训练critic网络,所述将所述运动状态信息输入至预先训练好的车辆纵向控制模型中,通过所述车辆纵向控制模型输出目标策略动作,并根据所本文档来自技高网...
【技术保护点】
1.一种自动驾驶车辆混合场景纵向控制方法,其特征在于,包括以下步骤:
2.如权利要求1所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述车辆纵向控制模型的构建过程,包括:
3.如权利要求2所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述初始Critic网络包括若干在线Q网络,所述基于所述奖励值和所述动作评分对所述初始Critic网络和所述初始Actor网络进行训练,获得已训练Critic网络和已训练Actor网络,包括:
4.如权利要求2所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述初始网络模型还包括目标策略网络和目标Q网络,所述基于所述已训练Critic网络和所述已训练Actor网络,获得训练好的车辆纵向控制模型,包括:
5.如权利要求2所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述车辆纵向控制模型包括已训练Actor网络和已训练Critic网络,所述将所述运动状态信息输入至预先训练好的车辆纵向控制模型中,通过所述车辆纵向控制模型输出目标策略动作,并根据所述目标策略动作输出场景不确定性评估结果,包
6.如权利要求5所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述已训练Critic网络包括若干在线Q网络,所述将所述目标策略动作输入至所述已训练Critic网络,通过所述已训练Critic网络预测策略动作,获得第二动作评分,包括:
7.如权利要求5所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述根据所述第二动作评分获得场景不确定性评估结果,包括:
8.一种自动驾驶车辆混合场景纵向控制系统,其特征在于,包括:
9.一种车辆,其特征在于,所述车辆包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的自动驾驶车辆混合场景纵向控制程序,所述处理器执行所述自动驾驶车辆混合场景纵向控制程序时,实现如权利要求1-7任一项所述的自动驾驶车辆混合场景纵向控制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有自动驾驶车辆混合场景纵向控制程序,所述自动驾驶车辆混合场景纵向控制程序被处理器执行时,实现如权利要求1-7任一项所述的自动驾驶车辆混合场景纵向控制方法的步骤。
...【技术特征摘要】
1.一种自动驾驶车辆混合场景纵向控制方法,其特征在于,包括以下步骤:
2.如权利要求1所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述车辆纵向控制模型的构建过程,包括:
3.如权利要求2所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述初始critic网络包括若干在线q网络,所述基于所述奖励值和所述动作评分对所述初始critic网络和所述初始actor网络进行训练,获得已训练critic网络和已训练actor网络,包括:
4.如权利要求2所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述初始网络模型还包括目标策略网络和目标q网络,所述基于所述已训练critic网络和所述已训练actor网络,获得训练好的车辆纵向控制模型,包括:
5.如权利要求2所述的自动驾驶车辆混合场景纵向控制方法,其特征在于,所述车辆纵向控制模型包括已训练actor网络和已训练critic网络,所述将所述运动状态信息输入至预先训练好的车辆纵向控制模型中,通过所述车辆纵向控制模型输出目标策略动作,并根据所述目标策略动作输出场景不确定性评估结...
【专利技术属性】
技术研发人员:金书峰,
申请(专利权)人:重庆长安科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。