基于深度强化学习的重载铁路优化调度方法和装置制造方法及图纸

技术编号：42808416 阅读：18 留言：0更新日期：2024-09-24 20:51

本公开涉及一种基于深度强化学习的重载铁路优化调度方法和装置，获取包括至少一个列车的列车集合，以及至少一个铁路轨道股道段的股道段集合。确定预设的作业类型集合以及调度约束条件，通过马尔科夫决策过程基于股道段集合、作业类型集合和调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决序贯决策问题得到铁路调度方案，其中包括每个列车的调度策略。本公开通过确定列车集合、股道段集合、作业集合以及约束条件的方式建立仿真环境，并根据马尔科夫决策过程基于仿真环境将铁路调度方案生成问题转化为序贯决策问题，并根据深度强化学习方法自动有效的生成铁路调度方案，提高了生成方案的效率以及效果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及轨道运输领域，尤其涉及一种基于深度强化学习的重载铁路优化调度方法和装置。

技术介绍

1、重载铁路适合大宗货物及中长距离货物运输，是矿物、煤炭等运输系统的支柱。随着重载铁路运输需求的快速增加，提高重载货运系统的运输能力具有迫切的现实需要。重载铁路货运系统的运输能力是在一定行车组织方法的条件下衡量和评估的，随着可调度列车数量的增加，调度方案的制定对运能的提升具有越来越重要的意义。

技术实现思路

1、有鉴于此，本公开提出了一种基于深度强化学习的重载铁路优化调度方法和装置，旨在自动生成重载铁路货运系统的调度方案。

2、根据本公开的第一方面，提供了一种基于深度强化学习的重载铁路优化调度方法，所述方法包括：

3、获取包括至少一个列车的列车集合，以及至少一个铁路轨道股道段的股道段集合；

4、确定预设的作业类型集合以及调度约束条件；

5、通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决所述序贯决策问题得到铁路调度方案，所述铁路调度方案中包括所述列车集合中每个所述列车的调度策略。

6、在一种可能的实现方式中，所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决所述序贯决策问题得到铁路调度方案，包括：

7、确定所述列车集合中每个所述列车初始的动作空间；p>

8、根据预设步长由每个所述列车初始的动作空间开始，依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间，所述动作空间中包括对应的股道段和作业类型；

9、根据每个所述列车对应的多个具有顺序的动作空间确定对应的调度策略，得到铁路调度方案。

10、在一种可能的实现方式中，所述根据预设步长由每个所述列车初始的动作空间开始，依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间，包括：

11、确定当前仿真步，所述仿真步为长度为一个所述预设步长的时间区间；

12、响应于所述动作空间符合所述调度约束条件，根据所述动作空间确定每个所述列车对应的观测空间，所述观测空间用于表征对应列车的状态；

13、根据所述列车对应的观测空间确定列车的工作状态；

14、响应于所述列车的工作状态为未完成工作，根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间；

15、响应于所述列车的工作状态为完成工作，停止确定所述列车动作空间的过程。

16、在一种可能的实现方式中，所述根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间，包括：

17、将据当前仿真步的观测空间输入基于强化学习方法训练得到的动作预测模型，通过所述动作预测模型根据输入的观测空间在所述股道段集合和所述作业类型集合分别选择下一仿真步需要的股道段和作业类型，输出下一仿真步对应的动作空间。

18、在一种可能的实现方式中，所述观测空间包括实际观测空间和辅助掩码空间，所述实际观测空间包括列车位置和列车装载情况，所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不可选的作业类型。

19、在一种可能的实现方式中，所述根据所述动作空间确定每个所述列车对应的观测空间，包括：

20、根据当前仿真步内所述列车的工作状态和所在的股道段确定对应的实际观测空间；

21、根据所述实际观测空间更新所述辅助掩码空间。

22、在一种可能的实现方式中，所述铁路调度方案中还包括每个所述列车对应的货物周转量；

23、所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决所述序贯决策问题得到铁路调度方案，还包括：

24、对于每个所述列车，确定每个所述动作空间对应的周转量；

25、计算每个所述周转量的和得到总的货物周转量。

26、在一种可能的实现方式中，每个所述动作空间对应的货物周转量根据所述列车对应的运输距离和货物量确定，所述运输距离根据所述动作空间确定。

27、在一种可能的实现方式中，所述股道段集合中包括所述列车集合中每个所述列车能够行驶的股道段的标识，所述作业类型集合中包括通过作业、接车作业、发车作业、装车作业和卸车作业。

28、根据本公开的第二方面，提供了一种基于深度强化学习的重载铁路优化调度装置，所述装置包括：

29、信息确定模块，用于获取包括至少一个列车的列车集合，以及至少一个铁路轨道股道段的股道段集合；

30、约束条件确定模块，用于确定预设的作业类型集合以及调度约束条件；

31、方案生成模块，用于通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决所述序贯决策问题得到铁路调度方案，所述铁路调度方案中包括所述列车集合中每个所述列车的调度策略。

32、在一种可能的实现方式中，所述方案生成模块，进一步用于：

33、确定所述列车集合中每个所述列车初始的动作空间；

34、根据预设步长由每个所述列车初始的动作空间开始，依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间，所述动作空间中包括对应的股道段和作业类型；

35、根据每个所述列车对应的多个具有顺序的动作空间确定对应的调度策略，得到铁路调度方案。

36、在一种可能的实现方式中，所述方案生成模块，进一步用于：

37、确定当前仿真步，所述仿真步为长度为一个所述预设步长的时间区间；

38、响应于所述动作空间符合所述调度约束条件，根据所述动作空间确定每个所述列车对应的观测空间，所述观测空间用于表征对应列车的状态；

39、根据所述列车对应的观测空间确定列车的工作状态；

40、响应于所述列车的工作状态为未完成工作，根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间；

41、响应于所述列车的工作状态为完成工作，停止确定所述列车动作空间的过程。

42、在一种可能的实现方式中，所述方案生成模块，进一步用于：

43、将据当前仿真步的观测空间输入基于强化学习方法训练得到的动作预测模型，通过所述动作预测模型根据输入的观测空间在所述股道段集合和所述作业类型集合分别选择下一仿真步需本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的重载铁路优化调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过马尔科夫决策过程基于所述股道段集合、作业类型集合和所述调度约束条件生成用于确定铁路调度方案的序贯决策问题，并基于强化学习方法解决所述序贯决策问题得到铁路调度方案，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设步长由每个所述列车初始的动作空间开始，依次基于强化学习方法根据所述股道段集合、作业类型集合和所述调度约束条件确定每个所述列车对应的多个具有顺序的动作空间，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据当前仿真步的观测空间基于强化学习方法根据所述股道段集合和所述作业类型集合确定下一仿真步对应的动作空间，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述观测空间包括实际观测空间和辅助掩码空间，所述实际观测空间包括列车位置和列车装载情况，所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不可选的作业类型。

6.根据权利要求5所述的方法，其

7.根据权利要求2-6中任意一项所述的方法，其特征在于，所述铁路调度方案中还包括每个所述列车对应的货物周转量；

8.根据权利要求7所述的方法，其特征在于，每个所述动作空间对应的货物周转量根据所述列车对应的运输距离和货物量确定，所述运输距离根据所述动作空间确定。

9.根据权利要求1-8中任意一项所述的方法，其特征在于，所述股道段集合中包括所述列车集合中每个所述列车能够行驶的股道段的标识，所述作业类型集合中包括通过作业、接车作业、发车作业、装车作业和卸车作业。

10.一种基于深度强化学习的重载铁路优化调度装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：

12.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。

...

【技术特征摘要】

1.一种基于深度强化学习的重载铁路优化调度方法，其特征在于，所述方法包括：

5.根据权利要求3或4所述的方法，其特征在于，所述观测空间包括实际观测空间和辅助掩码空间，所述实际观测空间包括列车位置和列车装载情况，所述辅助掩码空间包括所述列车在下一仿真步不可行的股道段和所述列车在下一仿真步不...

【专利技术属性】
技术研发人员：董炜，吴涛，张统帅，叶昊，江明，于晓泉，刘雷，孙新亚，吉吟东，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人