System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及工程控制领域,特别是涉及一种无人车编队控制及避障方法、设备、介质及产品。
技术介绍
1、由于其分散性、自主性和合作性,使得多无人车系统在处理复杂任务时表现出很高的效率。一致性、编队控制和集群问题是多无人车领域的关键挑战。针对这些难题的研究可以大大提高多无人车系统的效率和适应性。其中,编队控制作为一致性问题的延伸,更具挑战性,已成为研究的焦点。编队控制是通过使用无人车邻居之间的信息交互实现多无人车系统的整体行为,从而解决全局性的任务。无人车编队控制不仅具有重要的理论意义和应用价值,而且具有广泛的实际应用场景,如目标搜索、灾难救援、军事行动等。
2、然而,在这些实际应用场景中,避障和输入受限问题是不可避免的,有效的解决方案对于确保编队的安全和可靠至关重要。在现有的无人车编队避障研究中,大多数方法均集中在如何实现避障任务上,或者在保守性上进行研究。这些方法均未充分考虑到路径的最优性,即如何在避免碰撞的同时选择最短或最节能的路径实现编队。在实际应用中,尤其是在资源受限或者对效率要求较高的场景下,路径的最优性是一个重要的因素。同时,无人车的控制输入往往受到硬件设备的物理限制。这给编队控制带来了额外的复杂性,使得在保证无人车个体性能的同时实现整体编队的协同控制变得更加困难。现有的研究在处理输入受限问题时,采取了简化假设或者局部优化的方法,这在一定程度上限制了编队控制策略的性能和适应性。更为复杂的是,避障和输入受限问题往往同时出现,这就需要一种能够同时考虑这两个问题并进行全局优化的方法。
1、本专利技术的目的是提供一种无人车编队控制及避障方法、设备、介质及产品,可提高编队控制策略的性能和适应性。
2、为实现上述目的,本专利技术提供了如下方案:
3、第一方面,本专利技术提供了一种无人车编队控制及避障方法,所述无人车编队包括多个无人车,多个所述无人车中一个无人车为领导者,其余的无人车为跟随者,无人车编队控制及避障方法用于对跟随者进行控制,以使无人车编队在行进过程中保持队形,并规避障碍物;所述无人车编队控制及避障方法包括如下步骤:
4、构建每个跟随者的执行网络模块、目标网络模块、评价网络模块和风险惩罚模块;所述执行网络模块用于计算控制参数;目标网络模块用于模拟控制参数对应的内部强化信号,其中,跟随者的内部强化信号用于表征跟随者的控制对无人车编队控制的影响,所述评价网络模型用于模拟不同控制参数对应的性能指标参数,所述风险惩罚模块用于模拟不同控制参数对应的碰撞风险的惩罚参数;
5、分别对每个跟随者的执行网络模块、目标网络模块、评价网络模块和风险惩罚模块,进行联合训练,获得每个跟随者的训练好的执行网络模块;
6、分别基于每个跟随者的训练好的执行网络模块生成每个跟随者的控制参数,对无人车编队进行控制。
7、可选的,分别对每个跟随者的执行网络模块、目标网络模块、评价网络模块和风险惩罚模块,进行联合训练,获得每个跟随者的训练好的执行网络模块,具体包括:
8、复制第i个跟随者的执行网络模块、目标网络模块和评价网络模块,获得第i个跟随者的第一执行网络模块、第二执行网络模块、第一目标网络模块、第二目标网络模块、第一评价网络模块和第二评价网络模块;
9、初始化k的数值,k为联合训练过程中的模拟时刻;
10、将第i个跟随者的k时刻的编队误差和惩罚参数输入第一执行网络模块,获得第i个跟随者的k时刻的控制参数;
11、根据第i个跟随者的k时刻的控制参数,利用编队误差方程,获得第i个跟随者的k+1时刻的编队误差;
12、将第i个跟随者的k时刻的控制参数输入至风险惩罚模块,获得第i个跟随者的k+1时刻的惩罚参数;
13、将第i个跟随者的k+1时刻的编队误差和惩罚参数输入第二执行网络模块,获得第i个跟随者的k+1时刻的控制参数;
14、将第i个跟随者的k时刻的控制参数和编队误差输入至第一目标网络模块,获得第i个跟随者的k时刻的内部强化信号;
15、将第i个跟随者的k+1时刻的控制参数和编队误差输入至第二目标网络模块,获得第i个跟随者的k+1时刻的内部强化信号;
16、将第i个跟随者的k时刻的控制参数、编队误差和内部强化信号输入至第一评价网络模块,获得第i个跟随者的k时刻的性能指标参数;
17、将第i个跟随者的k+1时刻的控制参数、编队误差和内部强化信号输入至第二评价网络模块,获得第i个跟随者的k+1时刻的性能指标参数;
18、根据第i个跟随者的k时刻的惩罚参数、性能指标参数和内部强化信号,及第i个跟随者的k+1时刻的惩罚参数、性能指标参数和内部强化信号,计算执行网络目标函数值、评价网络目标函数值和目标网络目标函数值;
19、基于执行网络目标函数值对第一执行网络模块和第二执行网络模块的参数进行更新,基于评价网络目标函数值对第一评价网络模块和第二评价网络模块的参数进行更新,基于目标网络目标函数值对第一目标网络模块和第二目标网络模块的参数进行更新;
20、令k的数值增加1,返回“将第i个跟随者的k时刻的编队误差和惩罚参数输入第一执行网络模块,获得第i个跟随者的k时刻的控制参数”的步骤,直到满足迭代结束条件,输出最后一次参数更新好的第一执行网络模块或第二网络模块,作为训练好的执行网络模块。
21、可选的,所述编队误差方程为:
22、ei(k+1)=ei(k)+t·h(ei(k))+t·g(ei(k))ui(k);
23、其中,ei(k+1)为第i个跟随者的k+1时刻的编队误差,ei(k)为第i个跟随者的k时刻的编队误差,ui(k)为第i个跟随者的k时刻的控制参数,t为采样时间,h(ei(k))为误差模型常数项矩阵,g(ei(k))为误差模型一次项矩阵;
24、
25、
26、ni为与第i个跟随者相邻的跟随者的数量,aij为无人车编队的邻接矩阵的元素,用于表征第i个跟随者与第j个跟随者是否能够传输信息,vj(k)为与第i个跟随者相邻的第j个跟随者的k时刻的速度,ci用于表征第i个跟随者是否能够接收到领导者的信息,v0(k)为领导者的k时刻的速度,为第i个跟随者相对于与第i个跟随者相邻的第j个跟随者的k时刻的角度跟踪误差,为第i个跟随者相对于领导者的k时刻的角度跟踪误差;
27、ω、γ、π和θ分别为第一中间变量、第二中间变量、第三中间变量和第四中间变量,其中,wj(k)为与第i个跟随者相邻的第j个跟随者的k时刻的转向角速度,ω0(k)为领导者的k时刻的转向角速度,为第i个跟随者相对于与第i个跟随者相邻的第j个跟随者的k时刻的x轴方向跟踪误差,为第i个跟随者相对于与第i个跟随者相邻的第j个跟随者的k时刻的y轴方向跟踪误差,为第i个跟随者相对于领导者的k时刻的y轴方向跟踪误差,为第i个跟随者相对于领导者的k时刻的x轴方向跟踪误差。
2本文档来自技高网...
【技术保护点】
1.一种无人车编队控制及避障方法,其特征在于,所述无人车编队包括多个无人车,多个所述无人车中一个无人车为领导者,其余的无人车为跟随者,无人车编队控制及避障方法用于对跟随者进行控制,以使无人车编队在行进过程中保持队形,并规避障碍物;所述无人车编队控制及避障方法包括如下步骤:
2.根据权利要求1所述的无人车编队控制及避障方法,其特征在于,分别对每个跟随者的执行网络模块、目标网络模块、评价网络模块和风险惩罚模块,进行联合训练,获得每个跟随者的训练好的执行网络模块,具体包括:
3.根据权利要求2所述的无人车编队控制及避障方法,其特征在于,所述编队误差方程为:
4.根据权利要求2所述的无人车编队控制及避障方法,其特征在于,
5.根据权利要求2所述的无人车编队控制及避障方法,其特征在于,
6.根据权利要求2所述的无人车编队控制及避障方法,其特征在于,
7.根据权利要求1或2所述的无人车编队控制及避障方法,其特征在于,风险惩罚模块的公式表示为:
8.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种无人车编队控制及避障方法,其特征在于,所述无人车编队包括多个无人车,多个所述无人车中一个无人车为领导者,其余的无人车为跟随者,无人车编队控制及避障方法用于对跟随者进行控制,以使无人车编队在行进过程中保持队形,并规避障碍物;所述无人车编队控制及避障方法包括如下步骤:
2.根据权利要求1所述的无人车编队控制及避障方法,其特征在于,分别对每个跟随者的执行网络模块、目标网络模块、评价网络模块和风险惩罚模块,进行联合训练,获得每个跟随者的训练好的执行网络模块,具体包括:
3.根据权利要求2所述的无人车编队控制及避障方法,其特征在于,所述编队误差方程为:
4.根据权利要求2所述的无人车编队控制及避障方法,其特征在于,
5.根据权利要求...
【专利技术属性】
技术研发人员:庞中华,王京旭,赵金刚,高胜男,郭海彬,
申请(专利权)人:北方工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。