System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于无人艇航迹跟踪控制领域,具体涉及一种基于深度强化学习sac算法的无人艇航迹跟踪pd或pid控制参数匹配方法。
技术介绍
1、在无人艇航迹跟踪领域pd与pid控制相比于其他的控制应用范围广,调参较容易,但pd与pid控制参数整定较复杂,传统pd与pid控制器的控制参数无法随无人艇航行状态变化自适应调整,且固定参数的pid控制器存在控制精度差和超调量大等问题,导致无人艇在航迹跟踪时抗干扰性差。
技术实现思路
1、本专利技术的目的在于提供一种水面无人艇航迹跟踪控制参数匹配的方法,它采用深度强化学习算法训练出pid或pd参数匹配器,然后将输出的pid或pd参数作为水面无人艇航迹跟踪pid或pd控制器的输入,解决了控制参数随水面无人艇航行变化自适应调整的问题,同时提高了控制的鲁棒性,即在干扰情况下仍可快速视线轨迹跟踪。本专利技术提出的方法以神经网络逼近的形式替代数学推导,并且由程序自动训练参数匹配器,不需要人工干预。
2、根据实施例的第一方面,提供一种无人艇航迹跟踪控制参数匹配方法,该方法是采用sac算法训练出的智能体输出pid或pd参数作为无人艇航迹跟踪pid或pd控制器的输入,
3、智能体的观测状态s为:其中u为无人艇x轴速度、v为y轴速度、r为角速度、为航向角、ye为无人艇与目标航线横向距离、αk为目标航线的倾斜角度,epsi为航向角目标航线倾角的偏差为,d为舵角,为舵角的导数,为航向角偏差的导数,kp,kd分别为pid或pd参数;
4
5、经验池采用优先经验回放法。
6、sac算法的网络结构包括:actor网络;v critic网络,分别是:1个v critic网络和1个target v critic网络;q critic网络,分别是:q1 critic网络和q2 critic网络。
7、智能体的训练方法包括:
8、初始化参数:迭代次数epoch,每次迭代最大步数steps,软更新参数τ,网络学习率βψ、βθ、βφ,衰减因子γ,熵值系数α;
9、初始化经验池r,初始化仿真环境,初始化随机噪声;
10、从仿真环境获得获得第t步观测状态st:
11、前n步训练时,n<steps,从动作概率正态分布中随机选取动作,并映射到所需范围,n步训练后开始从网络结构中获取动作a,并加入随机噪声;
12、actor网络输入为状态st,输出为动作at,智能体执行动作后与环境交互得到奖励rt和下一步的状态st+1,并将(st,at,rt,st+1)存入经验池r;
13、当本次迭代达到最大执行步steps,从经验池r中随机抽取若干条的样本,智能体开始学习;
14、更新q critic网络、v critic网络、actor网络、target v critic网络;
15、保存训练参数。
16、根据实施例的第二方面,提供一种无人艇,包括:处理器,其被配置为利用所述的无人艇航迹跟踪控制参数匹配方法生成航迹跟踪pid或pd控制器的参数。
17、根据实施例的第三方面,提供一种存储介质,用于存储非暂时性指令,当所述非暂时性指令由处理器执行时能够实现所述的无人艇航迹跟踪控制参数匹配方法。
本文档来自技高网...【技术保护点】
1.一种无人艇航迹跟踪控制参数匹配方法,其特征在于,该方法是采用SAC算法训练出的智能体输出PID或PD参数作为无人艇航迹跟踪PID或PD控制器的输入,
2.根据权利要求1所述的方法,其特征在于,SAC算法的网络结构包括:actor网络;VCritic网络,分别是:1个V Critic网络和1个Target V Critic网络;Q Critic网络,分别是:Q1 Critic网络和Q2 Critic网络。
3.根据权利要求2所述的方法,其特征在于,智能体的训练方法包括:
4.根据权利要求3所述的方法,其特征在于,计算Target V Critic网络时,取两个QCritic网络输出的较小Q值:
5.根据权利要求4所述的方法,其特征在于,拿从经验池R中采出的数据(st,at,rt,st+1)进行Q Critic网络的更新;用作为状态st的真实价值估计,即t时刻奖励rt加上折扣因子γ和t+1时刻的状态价值的乘积,用实际采用的动作a的q(st,a)值作为状态的st预测价值估计,使用MSEloss作为Loss函数,对Q Critic网络进
6.根据权利要求4所述的方法,其特征在于,拿从经验池R中采出的数据(st,at,rt,st+1)进行V Critic网络的更新;用Actor网络输出含熵的式子进行状态价值估计,并作为Vcritic网络输出的真实值;V critic网络的输出v(st;ψ)作为预测值,使用MSEloss作为Loss函数,对V Critic神经网络进行训练:
7.根据权利要求4所述的方法,其特征在于,拿从经验池R中采出的数据(st,at,rt+1,st+1)进行Actor网络的更新;使用MSEloss作为Loss函数,对Actor神经网络进行训练:
8.根据权利要求4所述的方法,其特征在于,利用Polyak Averaging更新Target VCritic网络参数ψ′
9.一种无人艇,其特征在于,包括:处理器,其被配置为利用权利要求1所述的无人艇航迹跟踪控制参数匹配方法生成航迹跟踪PID或PD控制器的参数。
10.一种存储介质,用于存储非暂时性指令,其特征在于,当所述非暂时性指令由处理器执行时能够实现权利要求1所述的无人艇航迹跟踪控制参数匹配方法。
...【技术特征摘要】
1.一种无人艇航迹跟踪控制参数匹配方法,其特征在于,该方法是采用sac算法训练出的智能体输出pid或pd参数作为无人艇航迹跟踪pid或pd控制器的输入,
2.根据权利要求1所述的方法,其特征在于,sac算法的网络结构包括:actor网络;vcritic网络,分别是:1个v critic网络和1个target v critic网络;q critic网络,分别是:q1 critic网络和q2 critic网络。
3.根据权利要求2所述的方法,其特征在于,智能体的训练方法包括:
4.根据权利要求3所述的方法,其特征在于,计算target v critic网络时,取两个qcritic网络输出的较小q值:
5.根据权利要求4所述的方法,其特征在于,拿从经验池r中采出的数据(st,at,rt,st+1)进行q critic网络的更新;用作为状态st的真实价值估计,即t时刻奖励rt加上折扣因子γ和t+1时刻的状态价值的乘积,用实际采用的动作a的q(st,a)值作为状态的st预测价值估计,使用mseloss作为loss函数,对q critic网络进行训练,损失函数...
【专利技术属性】
技术研发人员:宋利飞,许传毅,郝乐,徐凯凯,史晓骞,孙昊,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。