一种列车智能调度优化方法、系统及电子设备技术方案

技术编号:38464589 阅读:9 留言:0更新日期:2023-08-11 14:41
本发明专利技术公开了一种列车智能调度优化方法、系统及电子设备,涉及列车智能调度技术领域。方法包括获取待测列车当前时刻的实绩运行数据;将实绩运行数据,输入到多任务深度强化学习模型中,得到待测列车下一时刻的调度策略;多任务深度强化学习模型是利用多场景下的列车的历史运行数据,对双对偶神经网络模型进行训练后得到的;根据待测列车下一时刻的调度策略,控制待测列车运行。本发明专利技术通过构建多任务深度强化学习模型能够完成对多场景下的列车调度,提高列车调度的合理性。提高列车调度的合理性。提高列车调度的合理性。

【技术实现步骤摘要】
一种列车智能调度优化方法、系统及电子设备


[0001]本专利技术涉及列车智能调度
,特别是涉及一种列车智能调度优化方法、系统及电子设备。

技术介绍

[0002]高铁的日常运营中经常会出现各种各样的突发事件,比如恶劣天气、异物侵限、车辆和轨旁设备故障等,影响列车的正常运行,导致列车晚点。目前高铁调度指挥系统中,仍需人工完成突发状况下的列车扣停车站、平移运行图等调度调整策略。人工调整存在着如效率低、不同管辖范围的调度员之间沟通不畅、无法统筹全局等问题,且不同调度员的经验水平参差不齐,有时调度指挥决策的失误甚至会导致列车冲突或者更大面积晚点的问题。所以,目前亟需深入研究高速铁路智能调度指挥技术,从全局角度优化列车群调度决策过程,以减小突发事件下的列车晚点、提升旅客服务质量。
[0003]目前采用机器学习方法解决突发状况下的列车运行调整问题的研究中,都是针对某个场景训练出一个对应的模型,该模型只能解决该场景下的运行调整问题。而在某场景下训练出的模型应用到其他场景中时,求解的效果并不好。而且在实际运营中,出现的突发状况种类多、随机性强,针对每一种场景都训练出一个对应的列车运行调整模型并不现实。

技术实现思路

[0004]本专利技术的目的是提供一种列车智能调度优化方法、系统及电子设备,能够完成对多场景下的列车调度,提高列车调度的合理性。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种列车智能调度优化方法,包括:
[0007]获取待测列车当前时刻的实绩运行数据;
[0008]将所述实绩运行数据,输入到多任务深度强化学习模型中,得到待测列车下一时刻的调度策略;所述多任务深度强化学习模型是利用多场景下的列车的历史运行数据,对双对偶神经网络模型进行训练后得到的;
[0009]根据待测列车下一时刻的调度策略,控制待测列车运行。
[0010]可选的,在获取当前时刻列车实绩运行数据之前,还包括:
[0011]确定多个训练场景下的列车的历史运行数据;
[0012]构建多个深度强化学习模型;所述深度强化学习模型与所述训练场景一一对应;所述深度强化学习模型包括Q

Evaluate Net结构模型和Q

TargetNet结构模型;
[0013]确定多个深度强化学习模型为第0次迭代时的深度强化学习模型;
[0014]令第一迭代次数i=1;
[0015]利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行并行训练,直至多个深度强化学习模型的训练轮次均达到训练轮次阈值,得到第i次迭代时的深度强化学习模型;
[0016]判断第一迭代次数是否达到第一迭代次数阈值,得到第一判断结果;
[0017]若所述第一判断结果为否,则计算第i次迭代的回报值;
[0018]判断第i次迭代的回报值是否大于回报值阈值,得到第二判断结果;
[0019]若第二判断结果为否,则令第一迭代次数i的数值增加1,并返回步骤“利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行并行训练,直至多个深度强化学习模型的训练轮次均达到训练轮次阈值,得到第i次迭代时的深度强化学习模型”;
[0020]若第二判断结果为是,则利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行多任务训练,得到第i次迭代时的深度强化学习模型;
[0021]若所述第一判断结果为是,则确定第i次迭代时的深度强化学习模型为多任务深度强化学习模型。
[0022]可选的,在确定多个训练场景下的列车的历史运行数据之前,还包括:
[0023]确定列车中任一场景为当前场景;
[0024]分别确定当前场景与列车中当前场景之外每个场景的差异度;
[0025]遍历列车中所有场景,得到多个所述差异度;
[0026]将多个所述差异度进行降序排列后,确定前预设个数差异度对应的场景为待定场景集;
[0027]对所述待定场景集中的场景进行去重处理,得到多个训练场景。
[0028]可选的,利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行并行训练,直至多个深度强化学习模型的训练轮次均达到训练轮次阈值,得到第i次迭代时的深度强化学习模型,包括,
[0029]确定任一训练场景为当前训练场景;
[0030]初始化当前训练场景对应Q

EvaluateNet结构模型的参数;
[0031]初始化当前训练场景对应Q

TargetNet结构模型的参数;
[0032]根据列车的历史运行数据构建当前历史时刻的多个列车状态向量;
[0033]将当前历史时刻的多个列车状态向量输入到Q

Evaluate Net结构模型中,得到多个第一动作向量;
[0034]基于当前历史时刻的多个列车状态向量执行对应的动作向量,得到下一历史时刻的多个列车状态向量;
[0035]将下一历史时刻的多个列车状态向量输入到Q

Evaluate Net结构模型中,得到多个第二动作向量;
[0036]将下一历史时刻的多个列车状态向量输入到Q

TargetNet结构模型中,得到多个目标Q值;
[0037]根据多个所述第二动作向量和多个所述目标Q值,确定损失函数值;
[0038]根据损失函数值,利用梯度下降法调整Q

Evaluate Net结构模型的参数,更新当前历史时刻并返回步骤“根据列车的历史运行数据构建当前历史时刻的多个列车状态向量”直至Q

Evaluate Net结构模型的参数调整次数达到第一参数调整次数阈值;
[0039]将Q

EvaluateNet结构模型的参数复制到Q

TargetNet结构模型,更新当前历史时
刻并返回步骤“根据列车的历史运行数据构建当前历史时刻的多个列车状态向量”直至Q

TargetNet结构模型的参数调整次数达到第二参数调整次数阈值;
[0040]确定训练后的Q

Evaluate Net结构模型为当前场景第i次迭代时的深度强化学习模型。
[0041]可选的,利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行多任务训练,得到第i次迭代时的深度强化学习模型,包括:
[0042]定义任务集;所述任务集中的多个任务与所述训练场景一一对应;
[0043]利用课程算法确定所述任务集中的多个任务的最优训练顺序,按照所述最优训练顺序构建任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种列车智能调度优化方法,其特征在于,包括:获取待测列车当前时刻的实绩运行数据;将所述实绩运行数据,输入到多任务深度强化学习模型中,得到待测列车下一时刻的调度策略;所述多任务深度强化学习模型是利用多场景下的列车的历史运行数据,对双对偶神经网络模型进行训练后得到的;根据待测列车下一时刻的调度策略,控制待测列车运行。2.根据权利要求1所述的一种列车智能调度优化方法,其特征在于,在获取当前时刻列车实绩运行数据之前,还包括:确定多个训练场景下的列车的历史运行数据;构建多个深度强化学习模型;所述深度强化学习模型与所述训练场景一一对应;所述深度强化学习模型包括Q

EvaluateNet结构模型和Q

TargetNet结构模型;确定多个深度强化学习模型为第0次迭代时的深度强化学习模型;令第一迭代次数i=1;利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行并行训练,直至多个深度强化学习模型的训练轮次均达到训练轮次阈值,得到第i次迭代时的深度强化学习模型;判断第一迭代次数是否达到第一迭代次数阈值,得到第一判断结果;若所述第一判断结果为否,则计算第i次迭代的回报值;判断第i次迭代的回报值是否大于回报值阈值,得到第二判断结果;若第二判断结果为否,则令第一迭代次数i的数值增加1,并返回步骤“利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行并行训练,直至多个深度强化学习模型的训练轮次均达到训练轮次阈值,得到第i次迭代时的深度强化学习模型”;若第二判断结果为是,则利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行多任务训练,得到第i次迭代时的深度强化学习模型;若所述第一判断结果为是,则确定第i次迭代时的深度强化学习模型为多任务深度强化学习模型。3.根据权利要求2所述的一种列车智能调度优化方法,其特征在于,在确定多个训练场景下的列车的历史运行数据之前,还包括:确定列车中任一场景为当前场景;分别确定当前场景与列车中当前场景之外每个场景的差异度;遍历列车中所有场景,得到多个所述差异度;将多个所述差异度进行降序排列后,确定前预设个数差异度对应的场景为待定场景集;对所述待定场景集中的场景进行去重处理,得到多个训练场景。4.根据权利要求2所述的一种列车智能调度优化方法,其特征在于,利用多个训练场景下的列车的历史运行数据,分别对多个第i

1次迭代时的深度强化学习模型进行并行训练,直至多个深度强化学习模型的训练轮次均达到训练轮次阈值,得到第i次迭代时的深度强
化学习模型,包括,确定任一训练场景为当前训练场景;初始化当前训练场景对应Q

EvaluateNet结构模型的参数;初始化当前训练场景对应Q

TargetNet结构模型的参数;根据列车的历史运行数据构建当前历史时刻的多个列车状态向量;将当前历史时刻的多个列车状态向量输入到Q

EvaluateNet结构模型中,得到多个第一动作向量;基于当前历史时刻的多个列车状态向量执行对应的动作向量,得到下一历史时刻的多个列车状态...

【专利技术属性】
技术研发人员:阴佳腾吴卫陈星范礼乾张金雷杨立兴
申请(专利权)人:南昌轨道交通集团有限公司中铁第四勘察设计院集团有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1