System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及轨道交通,尤其涉及一种列车调度优化方法、装置、设备及存储介质。
技术介绍
1、地铁作为轨道交通的的重要组成部分,地铁成为了各大中型城市发展城市轨道交通的首选交通方式。针对列车停站时突发的延时扰动,如果列车门由于乘客卡住未关闭等一些原因,原有的最优调度方案无法继续遵从,因此原有的方案失效。如果列车仍按照原有的最优调度方案执行,那么由于扰动造成的误差会不断累积,进一步造成更多的能耗。
2、然而现在使用启发式算法和混合整数规划无法满足实时性要求,计算一次耗费大量时间和算力,且面对列车运行中的扰动情况,无法做到实时调整列车调度方案。
技术实现思路
1、本专利技术提供了一种列车调度优化方法、装置、设备及存储介质,以在发生延时扰动情况时可实时快速确定对列车的最优调度节能方案。
2、根据本专利技术的一方面,提供了一种列车调度优化方法,包括:
3、确定停靠在当前站点的目标列车满足列车重新调度条件时,通过部署在所述当前站点的决策网络获取所述目标列车对应目标线路上全部列车的当前状态信息;
4、其中,所述决策网络通过基于ddpg算法的初始决策网络与预设列车运行模拟环境经过至少一轮交互训练获得;所述预设列车运行模拟环境内构建有奖励函数;所述奖励函数通过计算相邻列车的制动时间信息与加速时间信息之间的重合时间实现;
5、根据所述当前状态信息获取所述目标列车离开所述当前站点并到达下一站点的策略信息;
6、将所述策略信息发送至所
7、根据本专利技术的另一方面,提供了一种列车调度优化装置,包括:
8、列车信息获取模块,用于确定停靠在当前站点的目标列车满足列车重新调度条件时,通过部署在所述当前站点的决策网络获取所述目标列车对应目标线路上全部列车的当前状态信息;
9、其中,所述决策网络通过基于ddpg算法的初始决策网络与预设列车运行模拟环境经过至少一轮交互训练获得;所述预设列车运行模拟环境内构建有奖励函数;所述奖励函数通过计算相邻列车的制动时间信息与加速时间信息之间的重合时间实现;
10、策略信息获取模块,用于根据所述当前状态信息获取所述目标列车离开所述当前站点并到达下一站点的策略信息;
11、策略信息发送模块,用于将所述策略信息发送至所述目标列车以使所述目标列车按照所述策略信息运行。
12、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
13、至少一个处理器;以及
14、与所述至少一个处理器通信连接的存储器;其中,
15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的列车调度优化方法。
16、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的列车调度优化方法。
17、本专利技术的技术方案,通过确定停靠在当前站点的目标列车满足列车重新调度条件时,通过部署在当前站点的决策网络获取目标列车对应目标线路上全部列车的当前状态信息;其中,决策网络通过基于深度确定性策略梯度ddpg算法的初始决策网络与预设列车运行模拟环境经过至少一轮交互训练获得;预设列车运行模拟环境内构建有奖励函数;奖励函数通过计算相邻列车的制动时间信息与加速时间信息之间的重合时间实现;根据当前状态信息获取目标列车离开当前站点并到达下一站点的策略信息;将策略信息发送至目标列车以使目标列车按照策略信息运行。解决了现有技术面对列车运行中的延时扰动,无法做到实时调整列车调度策略的问题,取到了在发生延时扰动情况时可实时快速确定对列车的最优调度节能方案的效果。
18、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种列车调度优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于DDPG算法的初始决策网络包括Actor网络、Actor目标网络、Critic网络和Critic目标网络;
3.根据权利要求2所述的方法,其特征在于,所述决策网络通过基于深度确定性策略梯度DDPG算法的初始决策网络与预设列车运行模拟环境经过至少一轮交互训练获得,包括:
4.根据权利要求3所述的方法,其特征在于,利用所述经验回放缓冲区中的已存经验数据更新所述初始决策网络参数,包括:
5.根据权利要求4所述的方法,其特征在于,根据当前处理目标经验数据中的当前状态更新所述Actor网络得到当前更新后Actor网络,包括:
6.根据权利要求4所述的方法,其特征在于,根据当前处理目标经验数据中的下一状态和奖励值更新所述Critic网络,得到当前更新后Critic网络,包括:
7.根据权利要求1所述的方法,其特征在于,所述当前状态信息包括当前速度、当前位置以及当前已存行车策略;所述策略信息包括巡航速度和在所述下一站点的停站时长
8.根据权利要求7所述的方法,其特征在于,确定停靠在当前站点的目标列车满足列车重新调度条件,包括:
9.一种列车调度优化装置,其特征在于,包括:
10.一种电子设备,其特征在于,所述电子设备包括:
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的列车调度优化方法。
...【技术特征摘要】
1.一种列车调度优化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于ddpg算法的初始决策网络包括actor网络、actor目标网络、critic网络和critic目标网络;
3.根据权利要求2所述的方法,其特征在于,所述决策网络通过基于深度确定性策略梯度ddpg算法的初始决策网络与预设列车运行模拟环境经过至少一轮交互训练获得,包括:
4.根据权利要求3所述的方法,其特征在于,利用所述经验回放缓冲区中的已存经验数据更新所述初始决策网络参数,包括:
5.根据权利要求4所述的方法,其特征在于,根据当前处理目标经验数据中的当前状态更新所述actor网络得到当前更新后actor网络,包括:
6.根据权利要求4所述的方...
【专利技术属性】
技术研发人员:谢海琴,王橙,李士成,何梁,
申请(专利权)人:海尔数字科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。