System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及无人艇控制技术,尤其涉及一种知识与数据融合的无人艇路径跟踪控制方法。
技术介绍
1、传统的无人艇集群路径跟踪控制方法主要包括以下几类:1、领航者-跟随者控制法;2、基于行为的控制法:事先定义智能体的个体行为规则和局部控制方案,使得智能体可独立完成多种行为;3、基于人工势场的控制法:通过定义人工势函数并最小化个体势能进行编队控制,具有较强的实时计算能力和防突发威胁能力。
2、传统的无人艇集群路径跟踪控制算法依赖特定应用领域的规则知识,属于知识驱动的群体智能算法,其理论清晰、便于集成各学科知识、算法可解释性较高,但是同时存在知识获取成本较高解空间探索不完全、难以持续学习进化的缺点。
3、深度学习、强化学习等机器学习算法利用数据进行迭代更新,属于数据驱动的群体智能算法,这类算法无需对问题精确建模、通用性强,可以实现对解空间的充分探索、实现持续学习进化,但是同时存在理论分析较为困难、算法可解释性差、解空间维度灾难等问题。
技术实现思路
1、本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种知识与数据融合的无人艇路径跟踪控制方法。
2、本专利技术解决其技术问题所采用的技术方案是:一种知识与数据融合的无人艇路径跟踪控制方法,包括以下步骤:
3、1)训练环境搭建;
4、2)建立无人艇路径跟踪控制模型
5、初始化每个无人船路径跟踪控制的深度网络θ和深度网络φ;深度网络θ和深度网络φ对应的是两个多层神经网
6、设置模型策略更新中epsilon-clip的参数值;
7、3)对网络θ进行预训练;
8、3.1)θ网络预训练利用专家知识使用los视线算法搭建无人艇路径跟踪控制专家系统,作为θ网络预训练提供辅助训练的专家系统;
9、3.2)初始化训练环境;
10、3.3)在时隙[t,t+1),路径跟踪控制专家系统根据从训练环境传出的状态进行推演,生成时隙中无人艇的舵令与喷速;
11、3.4)在时隙[t,t+1),根据路径跟踪专家系统发送的各无人艇的舵令与喷速,对训练场景进行推演,生成t时刻的奖励rt、t+1时刻的状态st+1、终止信号done;
12、3.5)在时隙[t,t+1),将路径跟踪专家系统与训练环境交互形成的轨迹储存至经验缓冲器,供网络θ预训练使用;所述轨迹指路径跟踪专家系统与环境交互得到的时序性的动作、状态;
13、3.6)当经验缓冲器未满时,选取下一个时隙继续进行经验积累;当缓冲器充满时,进行θ网络预训练;
14、3.7)将经验缓冲器中的记录顺序打乱,之后从中取出状态st、动作at、奖励rt、θ网络参数πθ、未来价值期望vφ(st)五元组;
15、3.8)根据状态st使用θ网络生成无人艇的动作
16、3.9)逐条利用缓冲器中打乱后的记录,生成各状态下θ网络对应的动作输出;
17、3.10)使用损失函数对网络θ进行更新;
18、3.11)根据预设的预训练轮次,循环重复步骤3.2)至步骤3.10),直至θ网络预训练结束;
19、4)模型训练;
20、4.1)训练环境初始化;
21、选定水域环境和待跟踪路径;设置无人艇的初始位置和初始船头朝向;将训练环境中当前水域环境、待跟踪路径、无人艇位置和船头朝向信息作为t=0时刻的初始状态s0,将训练环境中t时刻的状态,发送至无人船集群路径跟踪控制模型;
22、4.2)在时隙[t,t+1),无人艇路径跟踪控制模型根据收到的状态进行推演,生成无人艇的舵令与喷速:
23、4.3)在时隙[t,t+1),将无人艇路径跟踪控制模型与训练环境交互形成的状态st和动作at,奖励rt、θ网络参数πθ、未来价值期望vφ(st)储存,供无人艇路径跟踪控制模型训练更新使用:
24、5)对更新后无人艇路径跟踪控制模型效果进行评估,若效果满足无人艇路径跟踪控制需求,则结束无人艇路径跟踪控制模型训练,得到预训练好的无人艇路径跟踪控制模型;
25、6)使用预训练好的无人艇路径跟踪控制模型进行无人艇路径跟踪控制。
26、按上述方案,步骤1)中,训练环境搭建具体如下:
27、使用传感器,获取若干不同水域、天气情况下的风、浪、流数据,作为无人艇路径跟踪控制模型的训练环境中的水域环境;
28、使用机理建模方式或者实验方式,对不同水域环境对无人艇运动轨迹的影响进行建模;
29、生成多条待跟踪路径;
30、根据水域环境建模与待跟踪路径,使用python中gym库,搭建无人艇路径跟踪控制模型的训练环境;
31、从测试环境中接收风、浪、流的数据作为场景水域环境设定;
32、设置无人艇的初始位置和初始船头朝向;
33、当前水域环境、待跟踪路径、无人艇位置和船头朝向信息作为t=0时刻的状态s0。
34、按上述方案,步骤3.10)中,使用均方误差损失函数对网络θ进行更新。
35、按上述方案,步骤4.2)具体如下:
36、4.2.1)计算无人艇路径跟踪控制的目标航向;具体做法是首先将los圆半径设置为无人艇与待跟踪路径距离d加两倍船长l、圆心设置为无人艇坐标,然后求出los圆与无人艇待跟踪路径的交点,之后设置向量α的起点为无人艇的坐标、终点为los圆与无人艇待跟踪路径的交点,向量α即为无人艇路径跟踪控制的目标航向;
37、4.2.2)在时隙[t,t+1),根据训练环境传出的无人艇状态,获取t时刻无人艇的状态st;
38、所述状态包括当前水域环境、待跟踪路径、无人艇位置、船头朝向信息和目标航向;
39、将无人艇路径跟踪控制的目标航向向量α并入状态st;
40、4.2.3)将状态st输入无人艇的θ网络πθ,生成无人艇的动作at;
41、4.2.4)将编码动作at解码获得无人艇的舵令与喷速;
42、4.2.5)根据训练环境、状态st和动作at,生成t时刻的奖励rt、t+1时刻的状态st+1、终止信号done;具体如下:
43、先根据当前水域环境风、浪、流对无人艇运动的影响和无无人艇的舵令与喷速,计算出t+1时刻船的位置与船头朝向;
44、将t时刻与t+1时刻无人艇位置坐标连线,计算出无人艇在在时隙[t,t+1)中移动的实际航向;
45、将实际航向与los算法计算出的目标航向之差的绝对值的相反数作为本时隙的奖励rt;
46、将t+1时刻无人艇的当前水域环境、待跟踪路径、无人艇位置和船头朝向信息、实际航向作为状态st+1;
47、无人艇路径跟踪控制模型判断无人艇是否到达终点,若无人艇到达终点,则将本幕终止信号done=true,重新进行模型训练环境初始化,否则向无人艇本文档来自技高网...
【技术保护点】
1.一种知识与数据融合的无人艇路径跟踪控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤1)中,训练环境搭建具体如下:
3.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤3.10)中,使用均方误差损失函数对网络θ进行更新。
4.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤4.2)具体如下:
5.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤4.3)中,对无人艇路径跟踪控制模型进行更新,过程如下;
6.根据权利要求5所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤4.3)中,模型训练采用的损失函数为:
7.根据权利要求5所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,所述步骤4.3)中,利用未来价值函数使用以下损失函数对网络Φ进行更新;
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述的方法。
...【技术特征摘要】
1.一种知识与数据融合的无人艇路径跟踪控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤1)中,训练环境搭建具体如下:
3.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤3.10)中,使用均方误差损失函数对网络θ进行更新。
4.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤4.2)具体如下:
5.根据权利要求1所述的知识与数据融合的无人艇路径跟踪控制方法,其特征在于,步骤4.3)中,对无人艇路径跟踪控制模型进行更新,过程...
【专利技术属性】
技术研发人员:陶浩,朱春佳,黄骁,毛浩,
申请(专利权)人:中国舰船研究设计中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。