换道决策模型生成方法和无人车换道决策方法及装置制造方法及图纸

技术编号:28815797 阅读:14 留言:0更新日期:2021-06-11 23:07
本说明书公开一种换道决策模型生成方法和无人车换道决策方法及装置,其中,所述换道决策模型生成方法包括:获取车辆换道的训练样本集,所述训练样本集包括多个训练样本组,每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本,所述训练样本包括一组状态量及对应的控制量,所述状态量包括目标车辆的位姿、速度、加速度,目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度;所述控制量包括目标车辆的速度、角速度;通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型,所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。

【技术实现步骤摘要】
换道决策模型生成方法和无人车换道决策方法及装置
本专利技术涉及无人驾驶
,具体而言,涉及一种换道决策模型生成方法和无人车换道决策方法及装置。
技术介绍
在无人驾驶领域,无人驾驶车辆的自主系统的架构通常可分为感知系统和决策控制系统,传统决策控制系统采用基于优化的算法,但是,大多数经典的基于优化的方法因为计算量复杂,导致无法解决复杂决策任务问题。而实际中,车辆行驶情况复杂,非结构化环境中无人驾驶车辆使用复杂的传感器,例如相机和激光测距仪,由于上述传感器获取的传感数据通常取决于复杂且未知的环境,将上述传感器获得的传感数据直接输入到算法框架后,使算法输出最佳控制量具有困难。传统方法中,通常使用slam算法来绘制出环境,然后在结果图中获取轨迹,但是这种基于模型的算法,在车辆行驶时,由于高度的不确定性(比如路面的颠簸)增加了不稳定因素。
技术实现思路
本说明书提供一种换道决策模型生成方法和无人车换道决策方法及装置,用以克服现有技术中存在的至少一个技术问题。根据本说明书实施例的第一方面,提供一种换道决策模型生成方法,包括:获取车辆换道的训练样本集,所述训练样本集包括多个训练样本组,每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本,所述训练样本包括一组状态量及对应的控制量,所述状态量包括目标车辆的位姿、速度、加速度,目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度;所述控制量包括目标车辆的速度、角速度;通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型,所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。可选地,所述训练样本集通过以下至少一种方式得到:第一获取方式:在模拟器中按照基于规则的优化算法使得车辆完成换道,获取多次换道过程中目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量;第二获取方式:从存储车辆换道信息的数据库中,采样出车辆换道过程中的车辆数据,所述车辆数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量。可选地,所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络,所述通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型的步骤包括:对于预先加入经验池的训练样本集,将每组训练样本中的任一状态量作为所述预测网络的输入,得到所述预测网络对该状态量的下一时间步长的预测控制量;将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入,得到所述目标网络输出的价值评估Q值;将所述预测控制量作为预先构建的环境模拟器的输入,得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量;将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中;当所述经验数据的组数每达到第一预设数目后,根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值,计算损失函数,优化所述损失函数,得到所述预测网络参数变化的梯度,更新所述预测网络参数直至所述损失函数收敛。可选地,所述当所述经验数据的组数每达到第一预设数目后,则根据所述经验数据计算损失函数,优化迭代所述损失函数,得到更新所述预测网络的参数的步骤之后,还包括:当所述预测网络参数的更新次数达到第二预设数目后,获取经验池中环境奖励高于预设值的预测控制量和对应的状态量,或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量,将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中,以训练更新所述目标网络的参数。可选地,所述损失函数为第一预设数目个预设网络的价值评估Q值与目标网络的价值评估Q值的均方误差,所述预设网络的价值评估Q值关于输入的状态量、对应预测控制量以及预测网络的策略参数;所述目标网络的价值评估Q值关于输入的训练样本中的状态量、对应控制量以及目标网络的策略参数。根据本说明书实施例的第二方面,提供一种无人车换道决策方法,包括:在确定的换道时刻,获取目标车辆车身传感器中的传感器数据,所述传感器数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的位姿、速度、加速度;调用换道决策模型,通过所述换道决策模型得到换道过程中,每一时刻目标车辆的控制量,所述换道决策模型使得目标车辆的状态量与对应的控制量相关联;将换道过程中每一时刻的控制量发送给执行机构,使得目标车辆完成换道。根据本说明书实施例的第三方面,提供一种换道决策模型生成装置,包括:样本获取模块,被配置为获取车辆换道的训练样本集,所述训练样本集包括多个训练样本组,每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本,所述训练样本包括一组状态量及对应的控制量,所述状态量包括目标车辆的位姿、速度、加速度,目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度;所述控制量包括目标车辆的速度、角速度;模型训练模块,被配置为通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型,所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。可选地,所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络,所述模型训练模块包括:样本输入单元,被配置为对于预先加入经验池的训练样本集,将每组训练样本中的任一状态量作为所述预测网络的输入,得到所述预测网络对该状态量的下一时间步长的预测控制量;将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入,得到所述目标网络输出的价值评估Q值;奖励生成单元,被配置为将所述预测控制量作为预先构建的环境模拟器的输入,得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量;经验保存单元,被配置为将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中;参数更新单元,被配置为当所述经验数据的组数每达到第一预设数目后,根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值,计算损失函数,优化所述损失函数,得到所述预测网络参数变化的梯度,更新所述预测网络参数直至所述损失函数收敛。可选地,所述参数更新单元,还包括:当所述预测网络参数的更新次数达到第二预设数目后,获取经验池中环境奖励高于预设值的预测控制量和对应的状态量,或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量,将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中,以训练更新所述目标网络的参数。根据本说明书实施例的第四方面,提供一种无人车换道决策装置,包括:数据获取模块,被配置为在确定的本文档来自技高网...

【技术保护点】
1.一种换道决策模型生成方法,包括:/n获取车辆换道的训练样本集,所述训练样本集包括多个训练样本组,每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本,所述训练样本包括一组状态量及对应的控制量,所述状态量包括目标车辆的位姿、速度、加速度,目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度;所述控制量包括目标车辆的速度、角速度;/n通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型,所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。/n

【技术特征摘要】
1.一种换道决策模型生成方法,包括:
获取车辆换道的训练样本集,所述训练样本集包括多个训练样本组,每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本,所述训练样本包括一组状态量及对应的控制量,所述状态量包括目标车辆的位姿、速度、加速度,目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度;所述控制量包括目标车辆的速度、角速度;
通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型,所述换道决策模型使得目标车辆的状态量与对应的控制量相关联。


2.根据权利要求1所述的方法,所述训练样本集通过以下至少一种方式得到:
第一获取方式:
在模拟器中按照基于规则的优化算法使得车辆完成换道,获取多次换道过程中目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量;
第二获取方式:
从存储车辆换道信息的数据库中,采样出车辆换道过程中的车辆数据,所述车辆数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量。


3.根据权利要求1所述的方法,其特征在于,所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络,所述通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型的步骤包括:
对于预先加入经验池的训练样本集,将每组训练样本中的任一状态量作为所述预测网络的输入,得到所述预测网络对该状态量的下一时间步长的预测控制量;将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入,得到所述目标网络输出的价值评估Q值;
将所述预测控制量作为预先构建的环境模拟器的输入,得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量;
将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中;
当所述经验数据的组数每达到第一预设数目后,根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值,计算损失函数,优化所述损失函数,得到所述预测网络参数变化的梯度,更新所述预测网络参数直至所述损失函数收敛。


4.根据权利要求3所述的方法,其特征在于,所述当所述经验数据的组数每达到第一预设数目后,则根据所述经验数据计算损失函数,优化所述损失函数,得到所述预测网络参数变化的梯度,更新所述预测网络参数直至所述损失函数收敛的步骤之后,还包括:
当所述预测网络参数的更新次数达到第二预设数目后,获取经验池中环境奖励高于预设值的预测控制量和对应的状态量,或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量,将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中,以训练更新所述目标网络的参数。


5.根据权利要求3所述的方法,其特征在于,所述损失函数为第一预设数目个预设网络的价值评估Q值与目标网络的价值评估Q值的均方误差,所述预设网络的价值评估Q值关于输入的状态量、对应预测控制量以及预测网络的策略参数;所述目标网络的价值评估Q值关于输入的训练样本中的状态量、对应控制量以及目标网络的策略参数。

【专利技术属性】
技术研发人员:时天宇冉旭
申请(专利权)人:初速度苏州科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1