System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及轨道运输领域,尤其涉及一种基于深度强化学习的重载铁路优化调度方法和装置。
技术介绍
1、重载铁路适合大宗货物及中长距离货物运输,是矿物、煤炭等运输系统的支柱。随着重载铁路运输需求的快速增加,提高重载货运系统的运输能力具有迫切的现实需要。重载铁路货运系统的运输能力是在一定行车组织方法的条件下衡量和评估的,随着可调度列车数量的增加,调度方案的制定对运能的提升具有越来越重要的意义。
技术实现思路
1、有鉴于此,本公开提出了一种基于深度强化学习的重载铁路优化调度方法和装置,旨在自动生成重载铁路货运系统的调度方案。
2、根据本公开的第一方面,提供了一种基于深度强化学习的重载铁路优化调度方法,所述方法包括:
3、获取包括至少一个列车的列车集合,以及至少一个铁路轨道股道段的股道段集合;
4、确定预设的作业类型集合以及调度约束条件;
5、通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,所述铁路调度方案中包括所述列车集合中每个所述列车的调度策略。
6、在一种可能的实现方式中,所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,包括:
7、确定所述列车集合中每个所述列车初始的动作空间;
...【技术保护点】
1.一种基于深度强化学习的重载铁路优化调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据预设步长由每个所述列车初始的动作空间开始,依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间,包括:
5.根据权利要求3或4所述的方法,其特征在于,所述观测空间包括实际观测空间和辅助掩码空间,所述实际观测空间包括列车位置和列车装载情况,所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不可选的作业类型。
6.根据权利要求5所述的方法,其
7.根据权利要求2-6中任意一项所述的方法,其特征在于,所述铁路调度方案中还包括每个所述列车对应的货物周转量;
8.根据权利要求7所述的方法,其特征在于,每个所述动作空间对应的货物周转量根据所述列车对应的运输距离和货物量确定,所述运输距离根据所述动作空间确定。
9.根据权利要求1-8中任意一项所述的方法,其特征在于,所述股道段集合中包括所述列车集合中每个所述列车能够行驶的股道段的标识,所述作业类型集合中包括通过作业、接车作业、发车作业、装车作业和卸车作业。
10.一种基于深度强化学习的重载铁路优化调度装置,其特征在于,所述装置包括:
11.一种电子设备,其特征在于,包括:
12.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。
...【技术特征摘要】
1.一种基于深度强化学习的重载铁路优化调度方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题,并基于强化学习方法解决所述序贯决策问题得到铁路调度方案,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据预设步长由每个所述列车初始的动作空间开始,依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间,包括:
5.根据权利要求3或4所述的方法,其特征在于,所述观测空间包括实际观测空间和辅助掩码空间,所述实际观测空间包括列车位置和列车装载情况,所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不...
【专利技术属性】
技术研发人员:董炜,吴涛,张统帅,叶昊,江明,于晓泉,刘雷,孙新亚,吉吟东,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。