System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自动编码器的多无人机路径规划和功率分配方法组成比例_技高网
当前位置: 首页 > 专利查询>东北大学专利>正文

基于自动编码器的多无人机路径规划和功率分配方法组成比例

技术编号:43649286 阅读:7 留言:0更新日期:2024-12-13 12:44
本发明专利技术提供一种基于自动编码器的多无人机路径规划和功率分配方法,涉及无人机技术领域。本发明专利技术研究了多无人机场景下的功率分配和路径规划问题,目的是最大化随机用户环境中用户设备的平均数据传输速率。为此,本发明专利技术提出了一个面向分散式多智能体环境的深度强化学习框架,为无人机自主协作提供了解决方案。该框架基于自动编码器使用自监督的表示学习任务来学习无人机的共同通信基础,在此基础上,无人机可以理解并传达彼此观测到的信息,提升了无人机在受限观测条件下的信息获取能力。这种方法适用于完全分散执行的体系结构,并且不需要额外的辅助信息,实现了无人机之间高效的信息传递和交流,从而有效地提高了无人机网络的服务效率。

【技术实现步骤摘要】

本专利技术涉及无人机,尤其涉及一种基于自动编码器的多无人机路径规划和功率分配方法


技术介绍

1、随着物联网技术的迅速发展,各种业务的流量需求正在经历爆炸式的增长,如大数据、云计算等,传统的地面无线网络已逐渐无法适应海量应用的流量需求。并且,受限于网络容量和覆盖范围,当发生森林火灾等野外灾害时,地面基站无法及时部署来提供网络服务。因此,需要一个易部署且易拓展的网络架构,以适应各种恶劣环境,满足海量移动用户的流量需求。考虑到无人机的低成本、易拓展和易部署性,采用无人机作为空中基站已经引起了学术界和工业界的广泛关注,并成为了一个可供选择的有效的解决方案。

2、不同于传统的地面静态基站的无线传输,无人机受限于其能量存储和发射功率,难以进行长期部署,在有限的时间内只能服务有限范围的用户。然而,现实当中用户的位置往往在时刻发生变化,不同区域的网络需求也随之不断变化。在传统的无人机网络中,由于单个无人机只能观测到自身服务范围内的用户信息,且缺乏与其他无人机的协作,往往会出现大量无人机聚集并服务于同一区域的情况,从而导致无人机网络的有效覆盖范围小,无人机资源浪费等问题。因此,为无人机设计合理的飞行轨迹,使其在有限的飞行时间内实现尽可能大的服务覆盖率,对于提高无人机的服务效率和服务质量具有重要意义。

3、深度强化学习(drl)是一种用于控制智能体在随机的环境中自主学习和做出决策的技术,目标是最大化某种累积奖励。最近,drl在一些高维状态观测和规划问题上取得了重大成就,如电子游戏、围棋、机器人控制等。受此启发,drl框架逐渐成为解决无人机网络中传统优化问题的流行方案。现有方法如fanet框架用于优化无人机网络的资源供给问题,将drl与flms结合来解决为提高频谱效率而寻找最优无人机轨迹的复杂问题,使用分布式drl方法来解决uav场景下tsp问题,采用多智能体强化学习方法来解决无人机的路径规划问题等。目前的解决方案大都基于单智能体场景,每个无人机根据自身独立的观测数据进行决策和训练。这类方案忽视了无人机之间的协作性,容易造成资源过度集中等问题。多智能体的解决方案往往会通过直接共享无人机视野来实现协作决策和训练的稳定性。但受限于无人机的物理条件,这类方案难以在现实中应用。


技术实现思路

1、本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于自动编码器的多无人机路径规划和功率分配方法,用于解决无人机作为空中基站服务地面用户场景下的多无人机功率分配和路径规划问题,最大化随机用户环境中用户设备的平均数据传输速率,为无人机自主协作提供解决方案,提升无人机在受限观测条件下的信息获取能力。

2、为解决上述技术问题,本专利技术所采取的技术方案是:

3、一种基于自动编码器的多无人机路径规划和功率分配方法,在无人机辅助的无线网络架构中,服务区域中的k个地面用户由n个无人机和地面基站共同提供服务,稳定高效的网络服务优化目标建模为:

4、

5、||ln(t)-ln′(t)||2≥d′min                        (3)

6、0≤vn(t)≤vmax                           (4)

7、0≤pn(t)≤pnmax                           (5)

8、其中,p={pn(t)|n∈n\{0}},l={ln(t)|n∈n\{0}};rkn(t)表示用户k与无人机n在t时刻的瞬时传输速率,共有k个地面用户和n个无人机,k={1,2,3,…,k},n={0,1,2,3,…,n},n=0表示地面基站;表示无人机的回程速率;ln(t)、ln′(t)分别表示无人机n和其他无人机n′在t时刻的位置,n′∈n\{0,n};d′min表示无人机之间的最小安全距离;vn(t)表示无人机n在t时刻的速度;vmax表示无人机在飞行过程中的最大瞬时速度;pn(t)表示无人机n在t时刻的发射功率;pnmax表示无人机最大发射功率;约束式(2)表示无人机和用户之间的传输速率不能超过无人机的回程速率,约束式(3)限制了无人机之间的最小安全距离,约束式(4)限制了无人机在飞行过程当中的最大瞬时速度,约束式(5)用来确保每个无人机的瞬时发射功率不超过最大发射功率;

9、将无人机的路径规划和功率分配问题建模为一个部分可观测的马尔科夫决策过程,并提出一个带自动编码器的多智能体强化学习算法来寻求近似最优解;将每个无人机视为一个智能体,它们将根据周围的环境状态和其他无人机的信息做出决策,并不断学习和更新策略;这个过程采用集中式训练和分布式执行的方法进行。

10、进一步地,所述无人机辅助的无线网络架构中选择基本的无人机控制和非有效载荷通信(cnpc)作为无人机之间的通信信道模型。

11、进一步地,所述部分可观测的马尔科夫决策过程用一个元组<s,a,r,p,o,γ>表示;

12、s={s1,s2,..,st,..,st}表示一系列环境状态的集合,st表示t时刻环境的状态,定义如下:

13、st={ln(t),lk(t),rkn(t),m(t)},n∈n\{0}

14、其中,lk(t)表示用户k在t时刻的位置,m(t)表示无人机在t时刻的消息;

15、a={a1,a2,…,at,…,at}表示无人机的一系列动作,包括无人机行驶的速度、方向以及发射功率,at表示无人机在t时刻的动作,表示为:

16、

17、其中,表示无人机在t时刻行驶的方向;

18、r={r1,r2,…,rt,…,rt}表示无人机的一系列动作对应的奖励,rt表示无人机在t时刻的动作对应的奖励,奖励函数表示为:

19、

20、其中,rtn表示无人机n在t时刻的动作对应的奖励;表示无人机n在t时刻的动作;

21、表示一系列观察状态的集合,表示无人机n在t时刻的观察状态,表示为

22、

23、其中,mn′(t)表示其它无人机n′在t时刻的消息;

24、p表示处在一个环境状态下的无人机做出动作后转移到另一个环境状态的概率;γ表示累积折扣率。

25、进一步地,每个所述智能体都有一个共同的体系结构,该结构包括一个编码网络和一个解码网络;编码网络根据当前的状态观察值ot生成一条通信消息φξ(ot):ot→φξ(ot)∈rcomm,ξ为编码器参数,解码网络将接收到的消息mt解码成状态信息ψ为解码器参数;编码网络在对观察信息进行编码后试图用解码器将消息重构为观察值:目标是最小化如下重构损失函数:

26、

27、其中,ci表示编码后的消息,表示解码后的消息。

28、进一步地,所述集中式训练和分布式执行中,每个无人机都有一个策略网络和一个评价网络,策略网络根据观察到的环境信息做出决策,评价网络结合环境信息对该决策做出评分,两者都采本文档来自技高网...

【技术保护点】

1.一种基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:在无人机辅助的无线网络架构中,服务区域中的K个地面用户由N个无人机和地面基站共同提供服务,稳定高效的网络服务优化目标建模为:

2.根据权利要求1所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:所述无人机辅助的无线网络架构中选择基本的无人机控制和非有效载荷通信(CNPC)作为无人机之间的通信信道模型。

3.根据权利要求1所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:所述部分可观测的马尔科夫决策过程用一个元组<S,A,R,P,O,γ>表示;

4.根据权利要求3所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:每个所述智能体都有一个共同的体系结构,该结构包括一个编码网络和一个解码网络;编码网络根据当前的状态观察值ot生成一条通信消息φξ(ot):ot→φξ(ot)∈Rcomm,ξ为编码器参数,解码网络将接收到的消息mt解码成状态信息ψ为解码器参数;编码网络在对观察信息进行编码后试图用解码器将消息重构为观察值:目标是最小化如下重构损失函数:

5.根据权利要求4所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:所述集中式训练和分布式执行中,每个无人机都有一个策略网络和一个评价网络,策略网络根据观察到的环境信息做出决策,评价网络结合环境信息对该决策做出评分,两者都采用一个深度神经网络作为函数逼近器;

6.根据权利要求5所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:所述带自动编码器的多智能体强化学习算法来寻求近似最优解的具体步骤如下:

7.根据权利要求6所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:所述编码网络和解码网络都有l1个隐藏层,编码网络输入层包含个节点,隐藏层包含个节点,输出层包含个节点,与之相对的,解码网络的输入层、隐藏层和输出层的节点个数则分别为以及策略网络和评价网络的隐藏层数量均为l2,隐藏层节点数量均为Nhidden,策略网络和评价网络的输入层和输出层的节点数量分别为以及在执行阶段,对消息进行解码和编码的时间复杂度为生成执行动作的时间复杂度为在训练阶段,对策略网络和评价网络进行更新的时间复杂度为

...

【技术特征摘要】

1.一种基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:在无人机辅助的无线网络架构中,服务区域中的k个地面用户由n个无人机和地面基站共同提供服务,稳定高效的网络服务优化目标建模为:

2.根据权利要求1所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:所述无人机辅助的无线网络架构中选择基本的无人机控制和非有效载荷通信(cnpc)作为无人机之间的通信信道模型。

3.根据权利要求1所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:所述部分可观测的马尔科夫决策过程用一个元组<s,a,r,p,o,γ>表示;

4.根据权利要求3所述的基于自动编码器的多无人机路径规划和功率分配方法,其特征在于:每个所述智能体都有一个共同的体系结构,该结构包括一个编码网络和一个解码网络;编码网络根据当前的状态观察值ot生成一条通信消息φξ(ot):ot→φξ(ot)∈rcomm,ξ为编码器参数,解码网络将接收到的消息mt解码成状态信息ψ为解码器参数;编码网络在对观察信息进行编码后试图用解码器将消息重构为观察值:目标是最小化...

【专利技术属性】
技术研发人员:徐张兴林千雯刘旌扬代钰杨雷高振
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1