System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种频域二分的无人机数据链抗干扰决策方法技术_技高网

一种频域二分的无人机数据链抗干扰决策方法技术

技术编号:42410508 阅读:8 留言:0更新日期:2024-08-16 16:28
本发明专利技术公开了一种频域二分的无人机数据链抗干扰决策方法,属于抗干扰通信和智能领域,具体包括:构建包括接收机,干扰机和发射机的通信模型;建立抗干扰决策模型;用频域二分方法将通信模型和抗干扰决策模型转换为智能体深度强化学习优化问题;构建SPT‑SAC算法的内部A‑C网络结构;基于干扰和自身状态,通过A‑C网络进行智能体的动作决策并对该动作进行收益评价;计算奖励值和各自网络的损失,对SPT‑SAC算法的A‑C网络进行迭代更新,从而对深度强化学习优化问题进行求解,最终实现无人机数据链的正常通信。本发明专利技术显著提升了扫频干扰情况下无人机数据链的可通率。

【技术实现步骤摘要】

本专利技术属于抗干扰通信和智能领域,具体是一种频域二分的无人机数据链抗干扰决策方法


技术介绍

1、传统的干扰方式包括扫频干扰、梳状干扰和阻塞干扰;

2、扫频干扰为常见的干扰样式,实际应用中对于干扰机而言设置简单且干扰频段宽,一般通过选择合适的通信链路频段来避免扫频干扰。

3、无人机数据链抗干扰能力的高低在一定程度上决定了空-地设备间通信的可靠程度,有必要结合扫频干扰在干扰频点和干扰频段周期性切换的特点,进行智能抗干扰决策以降低空-地设备间的误码率并提高无人机数据链的可通率。

4、随着深度学习技术的发展,深度强化学习被用于抗干扰领域,基于深度强化学习的a3c和ddpg算法采用智能体与环境进行交互,通过不断试错的方式学习最优抗干扰策略,然而在扫频干扰所造成的高动态环境下的最优抗干扰动作探索效率过低,易陷入局部最优解,难以解决复杂干扰环境中的实时在线抗干扰问题。


技术实现思路

1、本专利技术对软演员-批评家(soft actor-critic,sac)算法网络的输入状态进行了频域二分操作,结合滑动窗口采样训练,实现了对扫频干扰时序特征的提取,最终构建了一种频域二分的无人机数据链抗干扰决策方法;可以使抗干扰决策智能体跳出训练过程中的局部最优,从而最大化收发机在扫频干扰下的可通率。

2、具体步骤为:

3、步骤一、构建包括接收机,干扰机和发射机的通信模型;

4、接收机和发射机之间存在通信链路link1和link2,干扰机拥有干扰链路linkj;

5、干扰机通过周期性调整自身的频点、带宽和发射功率([fj,bj,pj])实现对发射机的扫频干扰。发射机和接收机间通过调节通信链路的频点、带宽和发射功率([fi,bi,pi],i=1,2)实现抗干扰通信。

6、一个通信时隙ti包含3个子时隙,分别是ti,com通信子时隙、ti,per频谱感知子时隙和ti,dec抗干扰动作决策子时隙,接收机和发射机间通过检查ack字符方式来进行通讯,干扰机和收发机动作切换在时间上保持同步。

7、步骤二、构建接收机,发射机和干扰机的传输模型,同时建立抗干扰决策模型;

8、传输模型具体为:

9、步骤201,分别计算链路linki和linkj的发射功率;定义为:

10、

11、ui(fi)和uj(fj)分别为通信链路linki(i=1,2)和干扰链路linkj的功率谱密度函数;

12、步骤202,利用链路linki和linkj的发射功率,计算通信链路linki在第t时刻的信干噪比γi(t);表示为:

13、

14、上式中,pi(t)为通信链路linki的发射功率;pj(t)为干扰链路linkj的发射功率;αi代表无人机数据链路路径损耗系数,αj代表干扰链路的路径损耗系数;为接收机自身的噪声功率;

15、步骤203,针对第t时隙,利用信干噪比计算通信链路linki的传输速率vi(t):

16、

17、步骤204,将通信链路linki的传输速率最大化,定义为抗干扰决策模型的优化目标;

18、具体定义如下:

19、

20、s.t.:(a):fmin≤f(t)≤fmax

21、(b):bmin≤b(t)≤bmax

22、(c):0≤p(t)≤pmax

23、

24、上式中,vt表示通信链路linki首次受到干扰后,时间段t内的通信总量;

25、约束条件中:

26、式(a)表示通信链路linki每时刻的可用中心频点不超过链路可用频谱范围;fmin是链路频点的最小值;fmax是链路频点的最大值。

27、式(b)表示通信链路linki每时刻的可用带宽不超过链路最大带宽;bmin是链路带宽的最小值;bmax是链路带宽的最大值。

28、式(c)表示通信链路linki每时刻的发射功率不超过链路最大发射功率pmax;

29、式(d)表示进行抗干扰决策后,在时间t内受到的再次干扰总时长不超过阈值秒。否则,中止本次训练,进行新的抗干扰决策训练。

30、步骤三、用频域二分法将通信模型和抗干扰决策模型转换为智能体深度强化学习优化问题;

31、具体如下:

32、步骤301,定义智能体t时刻的状态为:

33、

34、其中代表对应项相对于其自身中值的变化幅度;

35、步骤302,定义智能体t时刻的动作为:

36、

37、该动作定义表示通信链路linki可通过调节自身频点、带宽和发射功率实现抗干扰;

38、步骤303,定义智能体的奖励函数r(t),抗干扰通信过程的目标是最大化通信总量;

39、t时刻,智能体状态为st时采取动作at的奖励函数r(at,st),为:

40、

41、其中vmin为最低通信速率,当信干噪比γi(t)大于等于通信链路linki的最低解调门限γmin,即γi(t)≥γmin时,认为无人机数据链满足vi(t)≥vmin的要求。

42、步骤四、构建搭载抗干扰决策算法spt-sac的a-c网络结构,并初始化;

43、所述a-c网络结构由5个神经网络组成,依次为:actor网络、critic_1网络、critic_2网络、target_critic_1网络和target_critic_2网络;

44、spt-sac算法采用的熵定义为:

45、

46、其中,π(at|st)表示在状态st情况下动作at执行的概率,表示对当前动作的期望。

47、步骤五、初始化经验回放池;用频域二分法将深度强化学习优化问题中的状态st、动作at、回报rt和采用动作at后的状态st+1存入经验回放池;

48、步骤六、经验回放池到达最低容量后,利用滑动窗口小批次采样;根据采样的数据和各自的损失函数,依次更新a-c网络的权重,从而对深度强化学习优化问题进行求解;

49、具体包括以下步骤:

50、步骤601,基于干扰和自身状态,通过a-c网络进行智能体的动作决策并对该动作进行收益评价;

51、actor网络的输出动作为critic1网络、critic2网络、target_critic1网络和target_critic2网络的输出是当前状态st下采取动作at后的收益q(st,at);

52、其中mut是t时刻动作的均值,是t时刻动作的标准差;

53、步骤602、计算奖励值和各自网络的损失,对spt-sac算法的a-c网络进行迭代更新,从而对深度强化学习优化问题进行求解,最终实现无人机数据链的正常通信。

54、更新权重具体为:

55、1)、从经验池本文档来自技高网...

【技术保护点】

1.一种频域二分的无人机数据链抗干扰决策方法,其特征在于,具体步骤如下:

2.如权利要求1所述的一种频域二分的无人机数据链抗干扰决策方法,其特征在于,所述步骤一中,通信时隙Ti包含3个子时隙,分别是ti,com通信子时隙、ti,per频谱感知子时隙和ti,dec抗干扰动作决策子时隙,接收机和发射机间通过检查ACK字符方式来进行通讯,干扰机和收发机动作切换在时间上保持同步。

3.如权利要求1所述的一种频域二分的无人机数据链抗干扰决策方法,其特征在于,所述步骤二中,传输模型具体为:

4.如权利要求1所述的一种频域二分的无人机数据链抗干扰决策方法,其特征在于,所述步骤三中,具体如下:

5.如权利要求1所述的一种频域二分的无人机数据链抗干扰决策方法,其特征在于,所述步骤四中,SPT-SAC算法采用的熵定义为:

【技术特征摘要】

1.一种频域二分的无人机数据链抗干扰决策方法,其特征在于,具体步骤如下:

2.如权利要求1所述的一种频域二分的无人机数据链抗干扰决策方法,其特征在于,所述步骤一中,通信时隙ti包含3个子时隙,分别是ti,com通信子时隙、ti,per频谱感知子时隙和ti,dec抗干扰动作决策子时隙,接收机和发射机间通过检查ack字符方式来进行通讯,干扰机和收发机动作切换在时间上保持...

【专利技术属性】
技术研发人员:丁文锐马福源张芷兰王玉峰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1