当前位置: 首页 > 专利查询>清华大学专利>正文

约束型智能汽车自主决策系统在线训练方法及装置制造方法及图纸

技术编号:29252353 阅读:21 留言:0更新日期:2021-07-13 17:21
本发明专利技术公开了一种约束型智能汽车自主决策系统在线训练方法及装置,该方法在每轮优化中,以车辆驾驶性能作为优化的目标,通过计算约束函数的梯度投影矩阵,将更新梯度投影至可行且安全的区域中,并利用安全护盾检测执行策略的绝对安全行。可以保证智能汽车在线优化目标时的安全性,从而降低了对仿真器的要求,应用范围不受场景限制,能够达到安全在线训练的目标。

【技术实现步骤摘要】
约束型智能汽车自主决策系统在线训练方法及装置
本专利技术涉及智能汽车应用
,特别涉及一种约束型智能汽车自主决策系统在线训练方法及装置。
技术介绍
汽车智能化技术具有提升道路车辆行驶经济性,舒适性和安全性的巨大潜力,是汽车行业未来发展的必经之路。规则型的决策与控制方法已被验证无法满足智能汽车高智能化发展的需求,必须发展学习型的智能汽车决策控制技术。然而,智能汽车的决策控制任务是一个复杂的序列决策问题,现有的使用传统模仿学习或者监督学习的方法,一方面需要大量有标签的人工驾驶数据,决策模型难以超越人类水平,另一方面单纯依靠离线数据集学习,难以覆盖实际问题中所有可能的真实状态的分布特性。基于强化学习的自进化型决策方法以性能为优化指标,具有超越人类驾驶员水平的潜力,是解决复杂决策问题的有效方法,成为实现智能汽车高度智能化的唯一路径。但是,智能汽车高度关注安全,强化学习型决策的探索学习与应用安全存在矛盾,即如果要学习到安全的策略,就无法避免要经历危险的情况,因此需要构建约束来确保学习过程中的安全性。其中,约束型优化控制问题的处理难点不仅包括如何在动态规划体系结构中实现约束优化技术,而且还包括策略可行性的考量。一方面,策略的可行性要求安全区域内的所有状态都安全,另一方面,一个可行的策略更新方向需要满足所有约束的更新方向限制。基于以上自进化性和安全性的要求,本实施例拟通过利用先验模型的信息,对学习过程中的试错探索过程进行安全性约束,克服现有的强化学习型决策控制方法训练时的危险性问题,以实现智能车辆安全在线训练的可能性。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种,、约束型智能汽车自主决策系统在线训练方法,该方法通过利用先验模型的信息,对学习过程中的试错探索过程进行安全性约束,克服现有的强化学习型决策控制方法训练时的危险性问题,以实现智能车辆安全在线训练的可能性。本专利技术的另一个目的在于提出一种约束型智能汽车自主决策系统在线训练装置。为达到上述目的,本专利技术一方面实施例提出了一种约束型智能汽车自主决策系统在线训练方法,包括:S1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;S2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;S3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;S4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;S5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;S6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;S7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。为达到上述目的,本专利技术另一方面实施例提出了一种约束型智能汽车自主决策系统在线训练装置,包括:数据存储模块,用于存储从智能汽车传感器上收集的向量级状态信息并为策略评估模块随机提供数据组;策略评估模块,用于利用获得的数据组来评估当前策略的价值,计算当前状态-动作的价值;目标梯度模块,用于计算得到的状态-动作价值的策略梯度,确定初始策略优化方向;模型预测模块,用于根据先验的车辆动力学模型以及周车行为模型进行有限时域预测,计算未来时刻的约束函数值和策略梯度,以保证未来策略优化方向的安全性;安全约束投影模块,用于根据确定的投影规则,将策略梯度更新方向投影至可行且安全的梯度方向,并进行策略网络与值网络的参数更新;安全护盾模块,用于对优化过的策略产生的动作信息进行检验。本专利技术实施例的约束型智能汽车自主决策系统在线训练方法及装置,具有以下优势:1)通过将先验模型预测步内的约束计算出合理的投影矩阵,并将目标函数的“目标梯度”投影到可行且安全的方向上,能够保证智能汽车在线训练过程的安全性。2)能够根据不同场景(或者任务的需求)对目标函数做出修改,例如跟踪性、经济性等,多维度综合优化智能汽车的在线训练过程。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的约束型智能汽车自主决策系统在线训练方法流程图;图2为根据本专利技术一个实施例的约束型智能汽车自主决策系统在线训练方法框图;图3为根据本专利技术一个实施例的车间碰撞约束示意图;图4为根据本专利技术一个实施例的约束函数梯度求导示意图;图5为根据本专利技术一个实施例的安全约束投影逻辑示意图;图6为根据本专利技术一个实施例的约束型智能汽车自主决策系统在线训练装置结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的约束型智能汽车自主决策系统在线训练方法及装置。首先将参照附图描述根据本专利技术实施例提出的约束型智能汽车自主决策系统在线训练方法。图1为根据本专利技术一个实施例的约束型智能汽车自主决策系统在线训练方法流程图。如图1所示,该约束型智能汽车自主决策系统在线训练方法包括以下步骤:步骤S1,对策略网络和策略评估网络的参数进行初始化,分别选择策略网络和策略评估网络的学习率,开始马尔科夫决策进程。具体地,初始化策略网络和策略评估网络(又称Q网络)的参数θ和ω,选择合适的学习率βθ和βω,以及迭代步数k,开始一个马尔科夫决策进程(简记为MDP),根据任务的目标(例如经济性、安全性等),设计收益函数。步骤S2,通过策略网络输出动作分布,并执行满足动作分布的动作,获取智能汽车与环境交互产生的数据组,将数据组进行存储,判断存储量是否达到预设阈值,在数据组的存储量达到预设阈值时,执行S3。具体地,根据策略网络输出动作分布,π(·|s;θ),并执行满足该分布的动作,a~π(·|s;θ),令该动作通过安全护盾模块的检查,并通过智能汽车不断与环境交互获得数据组,(st,at,rt,st+1,dt),存入到数据存储模块中,待存储到一本文档来自技高网
...

【技术保护点】
1.一种约束型智能汽车自主决策系统在线训练方法,其特征在于,包括以下步骤:/nS1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;/nS2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;/nS3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;/nS4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;/nS5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;/nS6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;/nS7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。/n...

【技术特征摘要】
1.一种约束型智能汽车自主决策系统在线训练方法,其特征在于,包括以下步骤:
S1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;
S2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;
S3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;
S4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;
S5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;
S6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;
S7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。


2.根据权利要求1所述的方法,其特征在于,
所述先验模型和约束为:



h(st+i)≤d,i∈{0,1,2,…,T}
其中,收益函数r(s,a)代表任务的目标,γ为折扣因子,πθ为当前的参数化策略的概率密度函数,a为智能车辆实际执行的安全的确定性动作,代表策略πθ或π(·|si;θ)下状态si的分布,为期望,为状态st+i在t+i时刻的安全约束函数,d为安全约束阈值。


3.根据权利要求2所述的方法,其特征在于,所述根据所述估计值计算所述策略评估网络的梯度为:



其中,yQ为目标函数值,Q(st,at;ω)为策略评估网络的输出近似值,ω为网络当前参数,ρπθ(st,at)代表策略πθ下状态-动作对(st,at)的分布。


4.根据权利要求3...

【专利技术属性】
技术研发人员:谷子青马海铜郑四发李升波王建强许庆
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1