一种基于参考深度强化学习的列车协同运行控制方法技术

技术编号：34475030 阅读：35 留言：0更新日期：2022-08-10 08:50

本发明专利技术公开了一种基于参考深度强化学习的列车协同运行控制方法，具体为：建立列车协同运行仿真环境，设定列车安全距离等，计算两车估计的最短实时距离；设定奖励函数，建立输入降维的强化学习算法控制器；增加参考控制器，当列车满足参考控制策略条件时，使用参考控制信号取代强化学习控制信号，并将这部分数据用于优化强化学习控制策略；训练网络，直至网络全局奖励达到一个最优，且控制结果复合预期，认为网络的初步训练完成；在实车上加载参考控制策略以及强化学习控制策略，根据真实的列车信息，输出列车控制信号，完成列车协同运行控制。本发明专利技术加快了最优策略训练速度，保证了在实际运行过程中控制策略的鲁棒性。了在实际运行过程中控制策略的鲁棒性。了在实际运行过程中控制策略的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于参考深度强化学习的列车协同运行控制方法

[0001]本专利技术属于列车协同控制
，尤其涉及一种基于参考深度强化学习的列车协同运行控制方法。

技术介绍

[0002]铁路作为国家的重要基础设施、大众化的交通工具，在中国综合交通运输体系中处于骨干地位。随着我国城市化进程的不断加快和城市规模的不断扩大，轨道交通建设进入高速发展期，轨道交通工具在人们出行方式的选择中发挥的作用也愈发重要。其路网规模及质量、技术装备现代化水平、客货运量均达到世界现金甚至领先水平，中国已经成为名副其实的铁路大国。
[0003]但中国铁路在科技持续创新能力、企业运输服务与经营、与其他运输方式衔接、国际社会影响力等方面还存在不足。
[0004]路网能力未能充分发挥便是其中的主要问题之一。大量铁路支线、边远地区线路仍为单线，如青藏线格拉段、南疆铁路、宝成铁路宝阳段、南昆铁路等，其中格拉段、南疆铁路等线路的运输能力将难以满足运输需求。此外，有部分单线铁路属于国土开发型铁路，其建设会对沿线地区的政治、经济、社会和生态环境带来重大影响，局部区域、局部时期(战时、抢险救灾等)也可能有较大的运输需求，需要在平时预留较大的运输能力储备以应对运输需求波动。既有的单线铁路由于所处地理位置(山区、高原等)施工难度大、费用高，实施传统的运输组织扩能措施难以取得良好的效果。因此，有效提高现有单线铁路运输能力成为亟需解决的问题。
[0005]基于以上的需求，列车协同运行问题则愈发受到研究者们的关注。列车协同运行是在确保行车安全前提下，以追踪...

【技术保护点】

【技术特征摘要】
1.一种基于参考深度强化学习的列车协同运行控制方法，其特征在于，包括以下步骤：步骤1：在列车仿真运行环境中，根据车辆信息、道路信息、前车计划运行速度曲线，以及无线网通讯模型建立列车协同运行仿真环境，设定列车安全距离为d_safe
t
；步骤2：考虑通讯延迟，根据上一时刻前车位置s
前t
‑1，当前时刻后车位置s
后t
，前车最大制动加速度a_brk
t
‑1＝f(v
前t
‑1，s
前t
‑1)，计算得到两车估计的最短实时距离d
t
：式中，τ为被积分对象，
△
t为两次通讯之间的时间间隔；步骤3：设定奖励函数f_r
t
：S31：在列车运行过程中，以两列车实时间距d
t
与列车协同目标距离d_safe
t
误差为距离奖励f_dr
t
；S32：考虑乘客舒适度，基于后车加速度变化，建立舒适度奖励函数f_cr
t
；S33：基于上述描述，f_r
t
＝f_dr
t
+f_cr
t
；步骤4：建立输入降维的强化学习算法控制器；强化学习算法中用于决策以及决策优化的智能体，由动作价值评价网络Q＝f(s
t
,a
t
)，以及策略网络a
t
＝g(s
t
)两部分构成；其中s
t
为由列车速度、位置、加速度信息构成的向量，a
t
为输出的动作；因此...

【专利技术属性】
技术研发人员：黄德青，王兴国，秦娜，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人