【技术实现步骤摘要】
约束型智能汽车自主决策系统在线训练方法及装置
本专利技术涉及智能汽车应用
,特别涉及一种约束型智能汽车自主决策系统在线训练方法及装置。
技术介绍
汽车智能化技术具有提升道路车辆行驶经济性,舒适性和安全性的巨大潜力,是汽车行业未来发展的必经之路。规则型的决策与控制方法已被验证无法满足智能汽车高智能化发展的需求,必须发展学习型的智能汽车决策控制技术。然而,智能汽车的决策控制任务是一个复杂的序列决策问题,现有的使用传统模仿学习或者监督学习的方法,一方面需要大量有标签的人工驾驶数据,决策模型难以超越人类水平,另一方面单纯依靠离线数据集学习,难以覆盖实际问题中所有可能的真实状态的分布特性。基于强化学习的自进化型决策方法以性能为优化指标,具有超越人类驾驶员水平的潜力,是解决复杂决策问题的有效方法,成为实现智能汽车高度智能化的唯一路径。但是,智能汽车高度关注安全,强化学习型决策的探索学习与应用安全存在矛盾,即如果要学习到安全的策略,就无法避免要经历危险的情况,因此需要构建约束来确保学习过程中的安全性。其中,约束型优化控制问题的处理难点不仅包括如何在动态规划体系结构中实现约束优化技术,而且还包括策略可行性的考量。一方面,策略的可行性要求安全区域内的所有状态都安全,另一方面,一个可行的策略更新方向需要满足所有约束的更新方向限制。基于以上自进化性和安全性的要求,本实施例拟通过利用先验模型的信息,对学习过程中的试错探索过程进行安全性约束,克服现有的强化学习型决策控制方法训练时的危险性问题,以实现智能车辆安全在线训练的 ...
【技术保护点】
1.一种约束型智能汽车自主决策系统在线训练方法,其特征在于,包括以下步骤:/nS1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;/nS2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;/nS3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;/nS4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;/nS5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;/nS6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;/nS7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交 ...
【技术特征摘要】
1.一种约束型智能汽车自主决策系统在线训练方法,其特征在于,包括以下步骤:
S1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;
S2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;
S3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;
S4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;
S5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;
S6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;
S7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。
2.根据权利要求1所述的方法,其特征在于,
所述先验模型和约束为:
h(st+i)≤d,i∈{0,1,2,…,T}
其中,收益函数r(s,a)代表任务的目标,γ为折扣因子,πθ为当前的参数化策略的概率密度函数,a为智能车辆实际执行的安全的确定性动作,代表策略πθ或π(·|si;θ)下状态si的分布,为期望,为状态st+i在t+i时刻的安全约束函数,d为安全约束阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述估计值计算所述策略评估网络的梯度为:
其中,yQ为目标函数值,Q(st,at;ω)为策略评估网络的输出近似值,ω为网络当前参数,ρπθ(st,at)代表策略πθ下状态-动作对(st,at)的分布。
4.根据权利要求3...
【专利技术属性】
技术研发人员:谷子青,马海铜,郑四发,李升波,王建强,许庆,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。