一种基于元强化学习的列车受电弓自适应控制方法技术

技术编号：38498489 阅读：24 留言：0更新日期：2023-08-15 17:07

本发明专利技术公开了一种基于元强化学习的列车受电弓自适应控制方法，具体为：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息；建立控制器控制动作与接触网交互样本数据集；基于所建立的交互样本数据集采用深度强化学习网络学习最优行为策略；每一个控制任务基于贝叶斯优化方法生成最优任务编码；最优行为策略作为控制器，根据弓网系统运行信息和任务编码计算最优控制动作，并将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明专利技术对高铁受电弓的精准、提前控制，保证受电弓和接触网的良好接触，提升列车的受流质量，降低接触部件的磨损，提升服役寿命；还使弓网系统控制器能够快速适应外部环境扰动和自身参数变化。自身参数变化。自身参数变化。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于元强化学习的列车受电弓自适应控制方法

[0001]本专利技术属于高速铁路受电弓的智能控制
，尤其涉及一种基于元强化学习的列车受电弓自适应控制方法。

技术介绍

[0002]高速铁路的快速发展，对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展，受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。受电弓
‑
接触网系统是一个复杂的动力学系统。传统的优化方式主要从受电弓结构优化、接触网性能优化和弓网参数匹配等角度出发，但是花费的经济成本巨大难以推动。受电弓的主动控制是一项弓网性能优化技术。当受电弓与接触网接触力过大时，会导致接触线和受电弓碳滑板过度磨损，影响产品服务寿命。当受电弓与接触网接触力过小时，会导致受电弓与接触网脱离接触，造成离线电弧，灼伤受电弓碳滑板，并且产生谐波影响电流质量。但由于受电弓、接触网类型很多，传统控制器只能针对单一弓网参数组合有控制效果，当受电弓、接触网类型或者环境扰动发生变化时，控制器很可能失效甚至恶化弓网接触。

技术实现思路

[0003]为实现对受电弓进行快速的自适应控制，避免接触线和受电弓碳滑板过度磨损，提高主动受电弓控制器适应性，提高列车受流质量，保障列车安全。本专利技术提供一种基于元强化学习的列车受电弓自适应控制方法。
[0004]本专利技术的一种基于元强化学习的列车受电弓自适应控制方法，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊...

【技术保护点】

【技术特征摘要】
1.一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息；控制方法具体包括以下步骤：步骤1：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息；步骤2：初始化一批不同受电弓、接触网、环境扰动参数的控制任务，建立控制器控制动作与接触网交互样本数据集；步骤3：基于步骤2所建立的交互样本数据集，采用任务编码网络学习任务编码，采用强化学习网络学习最优行为策略；步骤4：根据步骤3的最优行为策略作为控制器，将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。2.根据权利要求1所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度和运行方向；接触网信息包括接触网的刚度、跨度和吊弦分布信息。3.根据权利要求2所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤2具体为：步骤2.1：定义深度强化学习马尔可夫决策环境关键要素：状态空间，动作空间和奖励函数：1)状态空间：状态空间包含所有步骤1的状态信息，其表示为：S＝{s|s
t
＝(s
pantograph
,s
catenary
,s
train
)}其中，s
pantograph
表示受电弓状态信息，s
catenary
表示接触网信息，s
train
表示列车运行信息；2)动作空间：动作空间包含气囊气压变化的范围，其表示为：A＝{a|a
min
≤a
t
≤a
max
}其中，a
min
表示气囊最小设定气压，a
max
表示气囊最大设定气压；3)奖励函数：奖励函数用于奖励策略网络向最优策略收敛；r
t
＝
‑
|F
r
‑
F
pc
(t)|其中，F
r
表示最优弓网接触力，F
pc
(t)表示实际弓网接触力；步骤2.2：建立虚拟仿真平台，初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务，运行所有控制任务生成虚拟仿真样本库；步骤2.3：步骤2.2样本获取过程如下：深度强化学习网络获得当前时间步状态s
t
并生成动作a
t
给受电弓气阀板，气阀板执行控制后，深度强化学习网络获得奖励r
t
和下一时间步受电弓状态s
t+1
；产生样本(s
t
,a
t
,r
t
,s
t+1
)并存储在数据库中，重复以上步骤直至训练结束；步骤2.4：以运行线路参数和实际受电弓建立...

【专利技术属性】
技术研发人员：刘志刚，王惠，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人