本发明专利技术公开了一种基于参考深度强化学习的列车协同运行控制方法,具体为:建立列车协同运行仿真环境,设定列车安全距离等,计算两车估计的最短实时距离;设定奖励函数,建立输入降维的强化学习算法控制器;增加参考控制器,当列车满足参考控制策略条件时,使用参考控制信号取代强化学习控制信号,并将这部分数据用于优化强化学习控制策略;训练网络,直至网络全局奖励达到一个最优,且控制结果复合预期,认为网络的初步训练完成;在实车上加载参考控制策略以及强化学习控制策略,根据真实的列车信息,输出列车控制信号,完成列车协同运行控制。本发明专利技术加快了最优策略训练速度,保证了在实际运行过程中控制策略的鲁棒性。了在实际运行过程中控制策略的鲁棒性。了在实际运行过程中控制策略的鲁棒性。
【技术实现步骤摘要】
一种基于参考深度强化学习的列车协同运行控制方法
[0001]本专利技术属于列车协同控制
,尤其涉及一种基于参考深度强化学习的列车协同运行控制方法。
技术介绍
[0002]铁路作为国家的重要基础设施、大众化的交通工具,在中国综合交通运输体系中处于骨干地位。随着我国城市化进程的不断加快和城市规模的不断扩大,轨道交通建设进入高速发展期,轨道交通工具在人们出行方式的选择中发挥的作用也愈发重要。其路网规模及质量、技术装备现代化水平、客货运量均达到世界现金甚至领先水平,中国已经成为名副其实的铁路大国。
[0003]但中国铁路在科技持续创新能力、企业运输服务与经营、与其他运输方式衔接、国际社会影响力等方面还存在不足。
[0004]路网能力未能充分发挥便是其中的主要问题之一。大量铁路支线、边远地区线路仍为单线,如青藏线格拉段、南疆铁路、宝成铁路宝阳段、南昆铁路等,其中格拉段、南疆铁路等线路的运输能力将难以满足运输需求。此外,有部分单线铁路属于国土开发型铁路,其建设会对沿线地区的政治、经济、社会和生态环境带来重大影响,局部区域、局部时期(战时、抢险救灾等)也可能有较大的运输需求,需要在平时预留较大的运输能力储备以应对运输需求波动。既有的单线铁路由于所处地理位置(山区、高原等)施工难度大、费用高,实施传统的运输组织扩能措施难以取得良好的效果。因此,有效提高现有单线铁路运输能力成为亟需解决的问题。
[0005]基于以上的需求,列车协同运行问题则愈发受到研究者们的关注。列车协同运行是在确保行车安全前提下,以追踪列车间隔最小为目标,大大提升线路的运输能力。国际上已有不少城市开始采用这种新技术对现有的城市轨道交通列车控制系统进行更新,例如具有100多年历史的巴黎地铁改造工程,巴黎交通局成功的将列车运行间隔由105s减少到90s。硬件设备上,该方案借助先进的无线通信网络、高精度传感器和轨旁设备等技术手段。车载系统可以获得线路信息、参考控制曲线、自身运行状态,并基于车间通信从相邻列车获得列车位置、速度、加速度等关键信息,调整自身速度,与相邻列车保持安全稳定的最短协同距离。
[0006]控制方法上,以往研究者们往往是将列车协同运行视作列车协同控制问题,但是这样一方面增加了控制器设计的复杂程度,算法结构庞杂;另一方面,对于列车实际的运行环境要进行适当的简化,结果便是列车协同问题简化为在达到预期的协同距离后,车辆间速度误差趋向于零。这样的简化对于代数运算是简单方便的,但是在实际列车运行过程中,由于将问题简化,列车组通过坡道路段或者是弯道路段,是否会由于前后车处于不同的道路限速条件下,同时后车仍要跟踪前车速度,从而导致后车可能超出道路限速,从而引起乘客舒适度下降,甚至可能危及行车安全则是值得讨论的一个重要问题。
[0007]而使用基于数据驱动的强化学习控制算法,算法本身是基于实验,对控制目标所
有的状态环境、控制动作对进行探索,得到最优控制策略的一种算法。在列车协同运行的过程中,很多状态环境下的最优控制策略是十分明晰的,列如,两车距离小于安全协同运行距离时,后车必须进行制动减速;同时,控制策略是基于以往的列车经验得到的最优策略,当训练好的控制算法面对一个全新的列车运行环境状态,是否能够保证控制策略的鲁棒性就成为了一个问题。因此基于以上两点,考虑在强化学习控制算法的训练以及实用阶段同时加入参考控制信号,一方面加快最优策略训练速度,另一方面保证了在实际运行过程中控制策略的鲁棒性。
[0008]最后,以往的控制算法是基于对列车系统的理想化数学建模、以及部分非线性条件的线性化拟合而设计的,因此在真实环境下,由于器件磨损老化等问题无法根据设备而更改其控制策略参数。而强化学习算法本身就是基于经验进行学习改进的,因此可以在列车实际运行环境下,根据积累的列车运行数据,不断地更新控制策略参数,完成进一步优化。
技术实现思路
[0009]针对上述问题,本专利技术提供一种基于参考深度强化学习的列车协同运行控制方法。
[0010]本专利技术的一种基于参考深度强化学习的列车协同运行控制方法,包括以下步骤:
[0011]步骤1:在列车仿真运行环境中,根据车辆信息、道路信息、前车计划运行速度曲线,以及无线网通讯模型建立列车协同运行仿真环境,设定列车安全距离为d_safe
t
。
[0012]步骤2:考虑通讯延迟,根据上一时刻前车位置s
前t
‑1,当前时刻后车位置s
后t
,前车最大制动加速度a_brk
t
‑1=f(v
前t
‑1,s
前t
‑1),计算得到两车估计的最短实时距离d
t
:
[0013][0014]式中,τ为被积分对象,
△
t为两次通讯之间的时间间隔。
[0015]步骤3:设定奖励函数f_r
t
。
[0016]S31:在列车运行过程中,以两列车实时间距d
t
与列车协同目标距离d_safe
t
误差为距离奖励f_dr
t
。
[0017]S32:考虑乘客舒适度,基于后车加速度变化,建立舒适度奖励函数f_cr
t
。
[0018]S33:基于上述描述,f_r
t
=f_dr
t
+f_cr
t
。
[0019]步骤4:建立输入降维的强化学习算法控制器;强化学习算法中用于决策以及决策优化的智能体,由动作价值评价网络Q=f(s
t
,a
t
),以及策略网络a
t
=g(s
t
)两部分构成;其中s
t
为由列车速度、位置、加速度信息构成的向量,a
t
为输出的动作。
[0020]因此,通过对动作选择网络的输入状态进行降维,减少策略网络输入的状态数量,构建动作价值评价网络和输入状态更少的动作选择网络,组成新的输入降维的强化学习智能体,用公式表示为:
[0021][0022]步骤5:增加参考控制器,当列车满足参考控制策略条件时,使用参考控制信号取
代强化学习控制信号,并将这部分数据用于优化强化学习控制策略。
[0023]S51:考虑列车距离大于安全协同运行目标距离时,当两车的实时车距d
t
大于d_safe
t
+500m,且后车速度v
后t
小于前车速度v
前t
‑1时,参考控制器输出为后车的最大加速度。
[0024]S52:考虑列车距离小于安全协同运行目标距离时,当两车实时车距d
t
小于d_safe
t
时,参考控制器输出最大制动。
[0025]S53:考虑当列车速度v
t
大于等于道路限速时,参考控制器输出为0或最大制动,让后车速度保持在道路限速的合理范围内本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于参考深度强化学习的列车协同运行控制方法,其特征在于,包括以下步骤:步骤1:在列车仿真运行环境中,根据车辆信息、道路信息、前车计划运行速度曲线,以及无线网通讯模型建立列车协同运行仿真环境,设定列车安全距离为d_safe
t
;步骤2:考虑通讯延迟,根据上一时刻前车位置s
前t
‑1,当前时刻后车位置s
后t
,前车最大制动加速度a_brk
t
‑1=f(v
前t
‑1,s
前t
‑1),计算得到两车估计的最短实时距离d
t
:式中,τ为被积分对象,
△
t为两次通讯之间的时间间隔;步骤3:设定奖励函数f_r
t
:S31:在列车运行过程中,以两列车实时间距d
t
与列车协同目标距离d_safe
t
误差为距离奖励f_dr
t
;S32:考虑乘客舒适度,基于后车加速度变化,建立舒适度奖励函数f_cr
t
;S33:基于上述描述,f_r
t
=f_dr
t
+f_cr
t
;步骤4:建立输入降维的强化学习算法控制器;强化学习算法中用于决策以及决策优化的智能体,由动作价值评价网络Q=f(s
t
,a
t
),以及策略网络a
t
=g(s
t
)两部分构成;其中s
t
为由列车速度、位置、加速度信息构成的向量,a
t
为输出的动作;因此...
【专利技术属性】
技术研发人员:黄德青,王兴国,秦娜,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。