System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及运行速度控制,尤其是涉及一种基于强化学习混合控制策略的运行速度安全控制方法。
技术介绍
1、在强风环境下,高速列车的速度控制主要是依靠驾驶员的经验和操作技术,驾驶员参考列车自动防护曲线进行手动控制,对驾驶员的经验和操作技术要求较高,很难满足安全高效的运行要求。而列车自动驾驶系统能够克服人工操作的缺陷,列车自动驾驶系统依靠给定的目标速度曲线进行实时自动调整列车的运行速度,实现列车运行速度的精确跟踪,达到列车安全运行的目的。
2、现有技术中,速度控制器是列车自动驾驶的核心部件,pid控制器或者是自适应pid控制器是使用最普遍的速度控制器。但是,pid控制器的灵活性和适应性不强。尤其是在强风环境(存在扰动和不确定性的情况)下,对高度非线性、强耦合的复杂对象高速列车来说,pid控制器存在抗扰动能力差、系统响应速度较慢的问题。
技术实现思路
1、本专利技术的目的是提供一种基于强化学习混合控制策略的运行速度安全控制方法,解决现有技术中存在抗扰动能力差、系统响应速度较慢的问题,实现高速列车对目标运行速度的精确跟踪,达到高速列车安全运行的目的。
2、为实现上述目的,本专利技术提供了一种基于强化学习混合控制策略的运行速度安全控制方法,包括以下步骤:
3、s1、构建高速列车运行过程模型;
4、s2、构建基于强化学习和分数阶pid的混合控制策略的奖励函数;
5、s3、构建基于强化学习和分数阶pid的混合控制策略,通过叠加处理,共同
6、优选的,步骤s1中,对高速列车运行过程进行动力学分析和数学描述,动力学方程具体如下:
7、
8、其中,v为列车运行速度,m为加速度系数,f为列车受到的合力,n为列车牵引或制动力,fr为列车受到的基本阻力,a0为列车的滚动机械力系数,a1为列车的其他机械阻力系数,a2为列车受到的外部空气阻力系数。
9、优选的,步骤s2中,奖励函数具体如下:
10、
11、其中,et表示t时刻的控制误差,c为一个常数奖励,当控制误差et的绝对值小于0.001时增加一个常数奖励c。
12、优选的,s3具体为:
13、s31、基于格伦瓦德-莱特尼科夫分数阶微积分的定义进行主控制器的分数阶pid的传递函数c(s)设计;
14、s32、基于强化学习ppo算法的截断方式构建辅助学习控制器的目标函数,更新策略参数θ和价值函数参数φ,直至策略收敛或达到最大训练步数;
15、s33、将主控制器和辅助学习控制器的输出进行叠加处理,共同生成最终的控制信号。
16、优选的,步骤s31中,格伦瓦德-莱特尼科夫分数阶微积分的定义具体如下:
17、
18、其中,α是分数阶次,α>0表示微分,α<0表示积分;h表示时间步长;是广义二项式系数,具体为
19、基于格伦瓦德-莱特尼科夫分数阶微积分的定义,分数阶pid的传递函数具体如下:
20、
21、其中,kp是比例增益,kd是微分增益,ki是积分增益,s是拉普拉斯算子,λ是积分阶次,通常取0≤λ≤1,μ是微分阶次,通常取0≤μ≤1。
22、优选的,s32具体为:
23、s321、初始化:初始化策略参数θ和价值函数参数φ,以及初始化环境和经验存储;
24、s322、采集轨迹:与环境进行交互,采集多条轨迹,在时间步t时刻,根据动作策略πθ(a|s)选择动作at,收集状态st、动作at和奖励rt,并保存该轨迹的数据;
25、s323、计算优势函数:使用时间差分法估计优势函数at:
26、at=δt+γδt+1+γ2δt+2+…;
27、其中,δt是td误差,具体为δt=rt+γvφ(st+1)-vφ(st),vφ(st)是当前状态的价值函数,γ是折扣因子;
28、s324、构造目标函数:包括策略更新目标、价值函数更新目标和熵正则化项;
29、s325、更新参数:通过adam优化器进行随机梯度下降更新策略参数θ和价值函数参数φ;
30、s326、重复训练:重复步骤s322-s325,直至策略收敛或达到最大训练步数。
31、优选的,步骤s324中,策略更新目标,具体如下所示:
32、lclip(θ)=et[min(rt(θ)·at,clip(rt(θ),1-τ,1+τ)·at)];
33、其中,rt(θ)是概率比值,表示新旧策略在某一状态动作对的概率比,at是优势函数,用于衡量某一动作相对于当前策略的好坏;∈是裁剪阈值,控制新旧策略的更新幅度,clip(·)是剪枝函数,将rt(θ)裁剪到区间[1-τ,1+τ];
34、价值函数更新目标是使用均方误差优化,具体如下所示:
35、
36、其中,rt是从t时刻开始的累计回报;
37、熵正则化项,具体如下所示:
38、
39、其中,β是熵正则化系数。
40、因此,本专利技术采用上述一种基于强化学习混合控制策略的运行速度安全控制方法,有益效果如下:
41、本专利技术将控制理论的精度与强化学习中以学习为导向的自适应机制相结合,设计了一种分数阶pid作为主控制器,强化学习ppo算法作为辅助控制器的混合控制策略,将分数阶pid控制的确定性与强化学习的自适应性进行创新融合,继承分数阶pid控制器固有的鲁棒性和稳定性特征,并通过强化学习ppo算法实现控制策略的即时更新,有效增强了高速列车在强风环境下速度控制器对不确定性和干扰的抑制能力,大幅提高了高速列车运行速度控制精度,实现高速列车对目标运行速度的精确跟踪,达到高速列车安全运行的目的。
42、下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
本文档来自技高网...【技术保护点】
1.一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,步骤S1中,对高速列车运行过程进行动力学分析和数学描述,动力学方程具体如下:
3.根据权利要求1所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,步骤S2中,奖励函数具体如下:
4.根据权利要求1所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,S3具体为:
5.根据权利要求4所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,步骤S31中,格伦瓦德-莱特尼科夫分数阶微积分的定义具体如下:
6.根据权利要求5所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,S32具体为:
7.根据权利要求6所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,步骤S324中,策略更新目标,具体如下所示:
【技术特征摘要】
1.一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,步骤s1中,对高速列车运行过程进行动力学分析和数学描述,动力学方程具体如下:
3.根据权利要求1所述的一种基于强化学习混合控制策略的运行速度安全控制方法,其特征在于,步骤s2中,奖励函数具体如下:
4.根据权利要求1所述的一种基于强化学习混合控制策略的运行速...
【专利技术属性】
技术研发人员:柴毅,郭茂耘,谢非,李硕,徐开雄,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。