System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及路径规划,具体的是一种无人机-无人车混合聚类强化学习优化方法及系统。
技术介绍
1、无人机可以提供高海拔和宽视野的优势,而无人车具有更长的电池持续时间,并且可以对地面物体执行精确操作。然而,无人车受限于有限的垂直到达距离,无人机受限于有限的电源供应,导致作战范围和持续时间受到限制。但是,在协作系统中,无人机可以到达无人车无法到达的目的地,无人车可以运输无人机以节省电池寿命,并且能够更好地处理具有更大有效载荷能力的地面物体。协作无人机-无人车系统在情报监视、侦察、目标定位和关键的受阻环境中的路径规划方面显示出了前景。
2、在现有技术中,研究探索了部署多个无人机或无人车来执行特定的复杂任务。有学者设计了一种用于行星探测的uav-ugv协同系统,其目标是在没有任何障碍的环境中将一架无人机分配给一架无人车,到达一组目标点,同时使旅行距离最小,无人机在规划路径和引导协同系统方面发挥着重要作用,使用模仿增强深度强化学习(iadrl),来解决无人机-无人车协作的巨大复杂性问题。尽管以上讨论的工作已经帮助改进和克服了无人机-无人车组合混合系统中的许多挑战,但都没有考虑在障碍物环境中多个无人机和无人车的协作,这增强了车辆的可变性和系统的鲁棒性。
技术实现思路
1、为解决上述
技术介绍
中提到的不足,本专利技术的目的在于提供一种无人机-无人车混合聚类强化学习优化方法及系统。
2、第一方面,本专利技术的目的可以通过以下技术方案实现:一种无人机-无人车混合聚类强化学习优化
3、获取目标点集合,将目标点集合分配到区域,基于修改后的均值偏移聚类算法,结合目标点集合的目标点密度,将区域划分为圆形区域;
4、将uav和ugv部署至圆形区域内,到达区域后,ugv部署uav进行移动,至到达指定目标点;其中,所述uav和ugv基于多智能体深度确定性策略梯度算法进行训练,从而实现优化uav和ugv的路径。
5、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述修改后的均值偏移聚类算法如下:
6、设定uav飞行的区域半径r,环境中目标点的集合p,q是目标点集合的副本,预设最大迭代次数为k,移动阈值为t;
7、创建空集合z;
8、当环境中仍有未分配的目标点时,从集合p中随机选择一个点作为当前聚类窗口的初始中心点;
9、创建以初始点为中心的聚类窗口,并计算窗口内所有点的均值;
10、通过迭代过程,不断移动聚类窗口的中心点,向更高密度的区域移动;过程通过计算窗口内所有点的均值来实现,当聚类窗口中心的移动距离小于预设的阈值,或者达到最大迭代次数时,停止迭代;
11、将最终稳定的聚类窗口中心点添加到区域中心点集z,将所有在聚类窗口内的点从集合p中移除,并标记为已分配;
12、对于环境中剩余的未分配目标点,重复步骤进行分配,直到所有目标点都被分配到相应的区域。
13、算法结束时,返回所有圆形区域的中心点集合z。
14、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述将uav和ugv部署至圆形区域的过程:
15、将uav和ugv部署到各个区域中,形成多个联盟;
16、联盟的数量k发送到一个区域;
17、训练好的无人机和无人车模型对目标进行覆盖,其中,当所有部署的无人机在清除区域后降落在可用的无人车上时,判定联盟可用;
18、清除一个区域时,之前分配的k个联盟可用,然后再分配给下一个目标区域。;
19、重复步骤,直到所有的区域都被清除,随后到达所有的目标。
20、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述形成多个联盟为在每个区域部署多智能体深度强化学习训练的联盟;
21、多智能体深度强化学习训练的制约因素,fa和lg分别为无人机无人车的路径长度,通过以下公式在保持无人机、无人车安全不发生碰撞的情况下缩短路程,表示为:
22、
23、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述基于多智能体深度确定性策略梯度算法包括:状态的动作表示、训练过程以及奖励计算过程。
24、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述状态的动作表示如下:
25、将无人机的行动空间定义为ξa=(ua,va),无人车的行动空间定义为ξg(yg,vg);
26、将无人机的状态空间定义为oa,无人车的行动空间定义为ogog;
27、特定无人车g的状态空间og由相对于地面环境内的所有目标的位置、相对于环境内所有障碍物的位置、无人车g自身的速度和自身的速度以及其他无人车相对于无人车g的位置共同组成;
28、特定无人机a的状态空间oa由所有目标和障碍物的位置、其他无人机相对于无人机a的位置、无人机a自身的速度和自身的速度、与无人机a最近的无人车的相对位置以及一个表示无人机a是否已经达到指定目标的二进制变量共同组成当无人机未达到指定目标时值为0,已经达到指定目标时,变量为1;若这通知无人机已经到达了指定的目标,则进行降落在无人车上的过程。
29、结合第一方面,在第一方面的某些实现方式中,该方法还包括:所述训练过程如下:
30、设有n个智能体在每个训练场景中,每个智能体有自己的确定性策略μi,这些策略参数化为θ={θ1,θ2,...,θn},对于智能体i,确定性策略梯度μi写作为:
31、
32、其中,x表示状态空间{o1,o2,...,on},表示价值函数q,ai是智能体i的行动,oi是对每个智能体i的观察,是所有智能体经验记录(x,x′,a1,a2,...,an,r1,r2,...rn)的回放;当所有智能体都执行完行为后,x′代表环境的新状态,ri是智能体i获得的奖励;损失函数表示为:
33、
34、其中,
35、
36、初始化训练周期数为e,确定每个周期中的时间步数为t,初始化智能体的数量为n,初始化经验回放缓冲区
37、对于每个智能体,初始化一个随机过程用于动作探索,接收初始状态为x′,对于每个时间步,每个智能体根据当前策略和探索选择一个动作执行所有动作a=(a1,a2,...,an)并且观察对应的奖励r和状态x′并将(x,a,r,x′)存入经验回放缓冲区
38、从经验回放缓冲区中随机采样小批量数据样本s(x,a,r,x′)令
39、
40、通过最小化损失函数,式(10)来更新批评者网络;
41、使用从经验回放缓冲区中采样出的数据s通过式(9)来更新行动家网络;
42、重复上述过程,至完成所有训练周期;
43、更新智能体i的目标网络参数
44、θ′i←τθi+(1-τ)θ′i (13)<本文档来自技高网...
【技术保护点】
1.一种无人机-无人车混合聚类强化学习优化方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述修改后的均值偏移聚类算法如下:
3.根据权利要求1所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述将UAV和UGV部署至圆形区域的过程:
4.根据权利要求3所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述形成多个联盟为在每个区域部署多智能体深度强化学习训练的联盟;
5.根据权利要求1所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述基于多智能体深度确定性策略梯度算法包括:状态的动作表示、训练过程以及奖励计算过程。
6.根据权利要求5所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述状态的动作表示如下:
7.根据权利要求6所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述训练过程如下:
8.根据权利要求7所述的一种无人机-无人车混合聚类强化学习优化方法,其
9.根据权利要求8所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,无人机奖励组件:
10.一种无人机-无人车混合聚类强化学习优化系统,其特征在于,包括:
...【技术特征摘要】
1.一种无人机-无人车混合聚类强化学习优化方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述修改后的均值偏移聚类算法如下:
3.根据权利要求1所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述将uav和ugv部署至圆形区域的过程:
4.根据权利要求3所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述形成多个联盟为在每个区域部署多智能体深度强化学习训练的联盟;
5.根据权利要求1所述的一种无人机-无人车混合聚类强化学习优化方法,其特征在于,所述基于多智能体...
【专利技术属性】
技术研发人员:孙雯瑾,熊师洵,朱云霞,江雪,张娜,陈树翰,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。