一种基于元强化学习的列车受电弓自适应控制方法技术

技术编号:38498489 阅读:18 留言:0更新日期:2023-08-15 17:07
本发明专利技术公开了一种基于元强化学习的列车受电弓自适应控制方法,具体为:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息;建立控制器控制动作与接触网交互样本数据集;基于所建立的交互样本数据集采用深度强化学习网络学习最优行为策略;每一个控制任务基于贝叶斯优化方法生成最优任务编码;最优行为策略作为控制器,根据弓网系统运行信息和任务编码计算最优控制动作,并将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明专利技术对高铁受电弓的精准、提前控制,保证受电弓和接触网的良好接触,提升列车的受流质量,降低接触部件的磨损,提升服役寿命;还使弓网系统控制器能够快速适应外部环境扰动和自身参数变化。自身参数变化。自身参数变化。

【技术实现步骤摘要】
一种基于元强化学习的列车受电弓自适应控制方法


[0001]本专利技术属于高速铁路受电弓的智能控制
,尤其涉及一种基于元强化学习的列车受电弓自适应控制方法。

技术介绍

[0002]高速铁路的快速发展,对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展,受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。受电弓

接触网系统是一个复杂的动力学系统。传统的优化方式主要从受电弓结构优化、接触网性能优化和弓网参数匹配等角度出发,但是花费的经济成本巨大难以推动。受电弓的主动控制是一项弓网性能优化技术。当受电弓与接触网接触力过大时,会导致接触线和受电弓碳滑板过度磨损,影响产品服务寿命。当受电弓与接触网接触力过小时,会导致受电弓与接触网脱离接触,造成离线电弧,灼伤受电弓碳滑板,并且产生谐波影响电流质量。但由于受电弓、接触网类型很多,传统控制器只能针对单一弓网参数组合有控制效果,当受电弓、接触网类型或者环境扰动发生变化时,控制器很可能失效甚至恶化弓网接触。

技术实现思路

[0003]为实现对受电弓进行快速的自适应控制,避免接触线和受电弓碳滑板过度磨损,提高主动受电弓控制器适应性,提高列车受流质量,保障列车安全。本专利技术提供一种基于元强化学习的列车受电弓自适应控制方法。
[0004]本专利技术的一种基于元强化学习的列车受电弓自适应控制方法,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息。控制方法具体包括以下步骤:
[0005]步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。
[0006]步骤2:初始化一批不同受电弓、接触网、环境扰动参数的控制任务,建立控制器控制动作与接触网交互样本数据集。
[0007]步骤3:基于步骤2所建立的交互样本数据集,采用任务编码网络学习任务编码,采用强化学习网络学习最优行为策略。
[0008]步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
[0009]步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度和运行方向;接触网信息包括接触网的刚度、跨度和吊弦分布信息。
[0010]进一步的,步骤2具体为:
[0011]步骤2.1:定义深度强化学习马尔可夫决策环境关键要素:状态空间,动作空间和奖励函数:
[0012]1)状态空间:状态空间包含所有步骤1的状态信息,其表示为:
[0013]S={s|s
t
=(s
pantograph
,s
catenary
,s
train
)}
[0014]其中,s
pantograph
表示受电弓状态信息,s
catenary
表示接触网信息,s
train
表示列车运行信息。
[0015]2)动作空间:动作空间包含气囊气压变化的范围,其表示为:
[0016]A={a|a
min
≤a
t
≤a
max
}
[0017]其中,a
min
表示气囊最小设定气压,a
max
表示气囊最大设定气压。
[0018]3)奖励函数:奖励函数用于奖励策略网络向最优策略收敛:
[0019]r
t


|F
r

F
pc
(t)|
[0020]其中,F
r
表示最优弓网接触力,F
pc
(t)表示实际弓网接触力。
[0021]步骤2.2:建立虚拟仿真平台,初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务,运行所有控制任务生成虚拟仿真样本库。
[0022]步骤2.3:步骤2.2样本获取过程如下:深度强化学习网络获得当前时间步状态s
t
并生成动作a
t
给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励r
t
和下一时间步受电弓状态s
t+1
;产生样本(s
t
,a
t
,r
t
,s
t+1
)并存储在数据库中,重复以上步骤直至训练结束。
[0023]步骤2.4:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤2.3。
[0024]进一步的,步骤3具体为:
[0025]步骤3.1:利用步骤2产生的2个样本库,轮流训练深度强化学习网络和任务编码网络。
[0026]步骤3.2:步骤3.1的深度强化学习网络具有1个策略网络和4个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优控制策略。
[0027]步骤3.3:步骤3.2的策略网络输入状态信息和任务编码信息,输出最优动作;使用π
θ
(s,z)表示策略网络,θ表示策略网络的参数;从数据库中采样一批样本(s
t
,a
t
,r
t
,s
t+1
)训练策略网络,其损失函数写为:
[0028][0029]其中,B表示采样样本库,Q
φ
表示评估网络,s,a表示样本中状态和动作值,z表示当前任务编码,表示不通过z计算梯度。
[0030]步骤3.4:步骤3.3的评估网络Q
φ
输入状态信息和动作,输出状态动作价值,有两种策略网络,使用Q表示当前评估网络,使用φ表示其参数;使用表示目标评估网络,使用表示其参数;当前评估网络参数的损失函数写为:
[0031][0032]式中,a

=π
θ
(s

),表示下一状态s'下根据控制策略π
θ
采取的动作a'。目标评估网络通过当前评估网络参数定期软更新:
[0033][0034]其中,τ表示软更新的速度。
[0035]步骤3.5:步骤3.3、步骤3.4的任务编码计算方式为基于贝叶斯优化的任务编码计算。
[0036]贝叶斯优化的求解步骤为:首先生成一个初始候选解集合,然后根据这些点寻找下一个最有可能是极值的点,将该点加入集合中,重复这一步骤,直至迭代终止;最后从这些点中找出函数值最大的点作为问题的解,从而求解最优任务编码。
[0037]需要求解的目标函数为智能体的累计奖励函数,其公式为:
[0038][0039]以高斯过程回归做为概率代理模型,其表达本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息;控制方法具体包括以下步骤:步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息;步骤2:初始化一批不同受电弓、接触网、环境扰动参数的控制任务,建立控制器控制动作与接触网交互样本数据集;步骤3:基于步骤2所建立的交互样本数据集,采用任务编码网络学习任务编码,采用强化学习网络学习最优行为策略;步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。2.根据权利要求1所述的一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度和运行方向;接触网信息包括接触网的刚度、跨度和吊弦分布信息。3.根据权利要求2所述的一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,所述步骤2具体为:步骤2.1:定义深度强化学习马尔可夫决策环境关键要素:状态空间,动作空间和奖励函数:1)状态空间:状态空间包含所有步骤1的状态信息,其表示为:S={s|s
t
=(s
pantograph
,s
catenary
,s
train
)}其中,s
pantograph
表示受电弓状态信息,s
catenary
表示接触网信息,s
train
表示列车运行信息;2)动作空间:动作空间包含气囊气压变化的范围,其表示为:A={a|a
min
≤a
t
≤a
max
}其中,a
min
表示气囊最小设定气压,a
max
表示气囊最大设定气压;3)奖励函数:奖励函数用于奖励策略网络向最优策略收敛;r
t


|F
r

F
pc
(t)|其中,F
r
表示最优弓网接触力,F
pc
(t)表示实际弓网接触力;步骤2.2:建立虚拟仿真平台,初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务,运行所有控制任务生成虚拟仿真样本库;步骤2.3:步骤2.2样本获取过程如下:深度强化学习网络获得当前时间步状态s
t
并生成动作a
t
给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励r
t
和下一时间步受电弓状态s
t+1
;产生样本(s
t
,a
t
,r
t
,s
t+1
)并存储在数据库中,重复以上步骤直至训练结束;步骤2.4:以运行线路参数和实际受电弓建立...

【专利技术属性】
技术研发人员:刘志刚王惠
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1