System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于无人机中继通信领域,尤其涉及一种改进的dqn算法及其在中继无人机多样性资源调度中的应用方法。
技术介绍
0、技术背景
1、在传统的通信网络中,由于地理环境限制和基础设施建设成本等因素,存在通信覆盖不足或通信质量差的问题,尤其在应急救灾、大型活动和偏远地区等场景下更加突出;无人机中继通信技术的出现填补了这一空白,无人机中继通信技术是一种使用无人机作为中继通信节点来为环境复杂地区用户转发通信数据,增强该地区的无线通信可靠性和传输性能的技术,通过无人机灵活的机动性和快速部署能力,可以及时有效地提供通信支持,为人们的生产生活和紧急救援提供了强大的帮助。
2、随着无人机技术的不断发展和成熟,无人机中继通信正在成为通信领域的研究热点之一,吸引了众多研究者的关注和投入,但是他们解决的问题大多忽略了用户需求的多样性以及用户紧迫水平,因此,我们将无人机作为中继节点,在充分考虑多样性通信需求和用户紧迫水平的场景下展开工作,更加切合实际应用场景,具有十分重要的应用价值与研究意义。
3、本专利公开的方法考虑多样性的通信需求与用户紧迫水平,虽然更加贴近实际应用场景,但是往往也使得所研究的问题更加困难,这里主要面临三个挑战:在多样性通信需求的场景下进行通信资源的分配与管理需要在满足多样化需求的同时,确保通信资源的高效利用;在考虑了用户紧迫水平后,问题由单目标优化问题变为了多目标优化问题,需要在不同目标之间进行权衡和折中,导致解空间更加复杂;很多算法在求解已知与静态场景的问题时表现不错,但是对于未知与变化场景
4、在无人机中继通信的服务场景下,通过对无人机轨迹控制与可用通信资源分配来优化不同的目标得到了研究者们的广泛关注;目前常见用来进行路径规划与资源分配的主流方法有分解协调优化方法、启发式方法以及强化学习方法等;其中,分解调优方法能够很好的减少问题的复杂性,简化求解过程,但是不适于解决我们的问题,我们所研究的问题优化目标是相互关联与干扰的,并且问题场景是复杂与变化的,难以找到合适的分解策略确保分解后的子问题相对独立;启发式方法的实现和应用相对简单,适用于快速求解、基于经验的问题,但是在未知、变化、复杂的环境中表现出相对较弱的适应性,不适于求解我们所研究的问题。除分解调优方法与启发式方法以外,使用深度强化学习算法优化无人机行为决策是当前的研究热点,中继环境对于无人机而言是未知且变化的,同时存在延迟奖励的特点,而强化学习算法善于通过与未知环境的不断交互来认识环境,学习环境的变化规律,以获得最大的长期奖励,所以使用强化学习算法来求解该问题模型是十分恰当的选择。
5、深度强化学习是一门融合了深度学习和强化学习的前沿研究领域,其核心概念是通过与环境的交互学习最优的行为策略;dqn是深度强化学习的经典算法之一,它在解决许多复杂的问题上取得了巨大的成功,然而dqn算法也存在一些问题和挑战,例如高度依赖经验重放、选择性偏差、高度敏感的超参数、过高估计等;本专利基于深度强化学习与噪声神经网络,公开了一种带有噪声网络的优先经验重放的ddqn(npd-dqn)方法,用于解决用户多样性需求场景下的无人机中继通信问题。
技术实现思路
1、本专利基于原dqn算法提出了npd-dqn算法,用于解决用户多样性需求场景下的无人机中继通信问题;该方法相较于传统的dqn算法,做出以下调整:针对dqn存在的过渡估计问题,引入了双网络结构,即主网络和目标网络,主网络选出q值最大的动作,目标网络对选出的动作评估;针对dqn原有的随机采样策略,引入重要性采样机制,使用td误差更新样本优先级,训练时将更倾向于选择对当前学习任务更有益的经验进行重放,更好的利用有限的训练资源;将评估网络中的线性层替换为噪声层增加模型的鲁棒性和探索能力,避免过度依赖当前的最优动作;npd-dqn算法具有更好的适应性、稳定性和泛化能力,可以更好的解决无人机中继场景中的问题。
2、一种改进的dqn算法及其在中继无人机多样性资源调度中的应用方法,包括以下步骤:
3、步骤1,根据实际应用场景,为拥有多样性需求的无人机中继通信场景建立数学模型;
4、步骤2,将无人机中继通信数学模型建模为马尔可夫决策过程模型;
5、步骤3,使用所提出的npd-dqn算法求解步骤2,并且使用一系列仿真实验证明npd-dqn算法相比于其他方法的有限性。
6、在步骤1中,具体的多样性通信需求的无人机中继通信场景建模过程分为如下几个子步骤:
7、步骤1.1,对研究场景做出具体假设:假设存在稍远的基站a并且基站a有能力帮助该区域超过负载或者受损的基站b完成通信任务;由于天空很少有物体阻挡,所以假设信号传播是视距链路los传播;在无人机在服务时间内,有能力接入该区域内的任意用户;由于在连续的三维空间内进行无人机动态移动控制过于困难,所以将服务区地图栅格化;用户采用非剥夺式的方式占有通信资源,系统只能等用户申请的时间片消耗完才能收回所分配的资源;所研究的场景不考虑用户的移动,并且将限制无人机的飞行高度;每一个用户通过gps能获得自己的位置并且能够同步分享给无人机;用户在整个服务周期内位置是不变的;我们将采用频分多路复用的方式将用户接入通信,并且假设信道集中的信道为正交信道;在上述场景的设定下,定义本文所研究的无人机中继服务场景。
8、步骤1.2,对多样性通信需求无人机中继通信场景变量及符号进行定义与说明:
9、用户集合表示为k={1,2,3,…,k},其中k个用户分布在通信服务区ψ内;无人机在服务周期t内的位置定义为为了能够向读者更加清晰的展示所定义的模型,在表1中总结了本专利所使用的重要符号的物理含义;
10、表1:重要参数物理含义
11、
12、步骤1.3,为中继通信系统模型建立数学模型;
13、进一步的,步骤1.3具体可以分成以下四个子步骤:
14、步骤1.31,建模用户子模型:
15、用户容忍时间约束,任意用户等待时间不能超过最长等待时间约束具体如公式(1)所示;
16、
17、我们所研究的场景充分考虑用户的中继通信紧迫水平,在等待通信用户中的部分用户由于有着迫切通信需求,我们将该次通信任务用户发起的总通信请求数量定义为ntotal,除了第一次通信请求外再次发起的通信请求数量定义为nreq;nreq与ntotal关系具体如公式(2)所示,用户中继通信期望程度的定义具体如公式(3)所示;使用指标eu平均来反映整个服务周期对用户通信期望程度考虑的水平,具体表达式如公式(4)所示;
18、
19、步骤1.32,建模无人机子模型:
20、不失一般性,无人机从中继服务区ψ起始位置出发,起本文档来自技高网...
【技术保护点】
1.一种改进的DQN算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,包括以下3个步骤:
2.根据权利要求1所述的一种改进的DQN算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,所述步骤1具体包括以下子步骤:
3.根据权利要求2所述的一种改进的DQN算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,所述步骤1.2具体包括以下子步骤:
4.根据权利要求1所述的一种改进的DQN算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,所述步骤2具体包括以下子步骤:
5.根据权利要求1所述的一种改进的DQN算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,所述步骤3具体包括以下子步骤:
6.根据权利要求5所述的一种改进的DQN算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,所述步骤3.4,对通信列表、等待列表和迫切通信列表的管理具体包括以下子步骤:
【技术特征摘要】
1.一种改进的dqn算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,包括以下3个步骤:
2.根据权利要求1所述的一种改进的dqn算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,所述步骤1具体包括以下子步骤:
3.根据权利要求2所述的一种改进的dqn算法及其在中继无人机多样性资源调度中的应用方法,其特征在于,所述步骤1.2具体包括以下子步骤:
4.根据权利要求1所述的一种改...
【专利技术属性】
技术研发人员:陈少淼,彭诚权,蒋黎明,何庭钦,白奥,
申请(专利权)人:湖南科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。