System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及通信对抗领域,具体是一种基于强化学习的通信干扰策略生成方法。
技术介绍
1、近年来,随着认知无线电、新的信号调制样式、新的通信抗干扰技术的发展,传统的干扰方式愈发难以适应灵活多变的通信目标,干扰效能不断降低。传统的干扰方法需要较完备的通信目标信息,然后依据现有的干扰模板实施干扰。对于缺乏相关先验信息的未知信号,只能采用依赖人工经验选择干扰参数,或采取大功率压制,干扰决策缺乏灵活性、针对性。因此,为了有效地干扰未知通信信号,亟需提高干扰算法的智能性。强化学习理论可以在无需先验信息的情况下,通过与环境的持续交互,自主学习最优策略。因此,将强化学习理论应用于干扰策略选择问题,具有极大的研究价值和应用前景。
技术实现思路
1、本专利技术的目的是提供一种基于强化学习的通信干扰策略生成方法,该方法无需掌握通信目标信号的具体信号特征,综合考虑干扰基本原则和通信目标行为变化作为干扰效果的衡量指标,从而实现实时快速干扰的目的。
2、本专利技术采用如下技术方案实现:
3、一种基于强化学习的通信干扰策略生成方法,包括如下步骤:
4、步骤一、构建通信方和通信干扰方的系统模型;
5、步骤二、基于步骤一构建的通信方和通信干扰方的系统模型,采用赢或学习策略爬山法算法对通信方的抗干扰方案进行学习,设计相应的干扰决策模型;
6、步骤三、采用步骤二得出的干扰决策模型,根据“观察-调整-决策-行动”的决策过程,学习通信目标的抗干扰策略并实施干扰。
7、进一步的,步骤一构建通信方和通信干扰方的系统模型具体包括:
8、将通信干扰方与通信方之间的对抗过程,建模为马尔科夫决策过程,马尔科夫决策过程由状态、动作、转移概率、奖励组成的4元组(s,a,p,r)描述;其中状态s表示干扰机和通信目标的工作状态,由干扰机的信道、功率和通信目标的信道、功率组成,记t时刻的状态为st=(fj,t,pj,t,fc,t,pc,t);动作a表示干扰机所采取的动作,由干扰机的信道和功率组成,决定下一时刻干扰机的信道和功率,记t时刻的动作为at=(fj,t+1,pj,t+1);转移概率p表示干扰机在当前状态采取某动作后,转移到下一状态的概率,记t时刻的转移概率为pt(st+1|st,at);奖励r表示干扰机采取动作后所获得的即时奖励;在实际的通信干扰过程中,通过估计接收机处干噪信比是否达到阈值获得通信目标的受扰情况;观察通信方是否采取抗干扰措施,来估计干扰效果;将干扰功率纳入奖励影响因素,干扰功率越大,奖励值越小,记t时刻的即时奖励为:
9、
10、其中
11、
12、分别衡量干扰是否有效、通信目标受扰后是否改频以及通信目标受扰后增大发射功率的情况;pj,t+1/pjmax衡量通信干扰功率的等级,pjmax表示最大干扰功率,w1,w2,w3,w4分别为以上四个奖励影响因素的权重;
13、干扰机通过与通信目标对抗,探索其干扰规避策略,从而获得最优干扰策略,记干扰机的干扰策略为π,其目标是找到最优策略π*,使得累积干扰奖励或回报最大:
14、
15、其中,γ∈(0,1]为折扣因子。
16、进一步的,步骤二具体包括:
17、当干扰机处于“赢”的状态时,采取缓慢的学习速率δlow;当干扰机处于“输”的状态时,采取快速的学习速率δhigh,使得干扰策略快速收敛到最佳策略;“赢”与“输”的标准通过当前策略π(s,a)和平均策略来判断;引入c(s)表示当前状态s出现的次数,平均策略的更新规则为:
18、
19、当前策略π(s,a)的初始值为1/|a|,|a|为动作空间的大小,当前策略的更新规则为:
20、
21、其中
22、
23、学习率δ∈(0,1]调整规则为:
24、
25、进一步的,步骤三具体包括:
26、观察:通过观察干噪信比和通信目标受扰后的状态改变,估计干扰效果,并综合考虑干扰功率的影响,根据式(1)计算即时奖励值rt;
27、调整:以即时奖励值rt为输入,调整q值表,根据式(6)计算平均策略并比较当前策略与平均策略之间的优劣,根据式(7)和式(8)调整当前策略π(s,a),根据式(9)调整学习率δ;
28、决策:令t=t+1,在状态st下,依据策略π(s,a)决定动作at;
29、行动:执行动作at,转移到下一个状态st+1,然后跳转到观察步骤,持续对通信目标进行“观察-调整-决策-行动”。
30、本专利技术具有如下有益效果:
31、1、本专利技术在通信干扰方无法获得通信目标通信质量直接反馈的情况下,提出了一种基于强化学习的通信干扰策略生成方法,采用wolf-phc智能学习算法,提升了学习速率,加快了收敛速度。
32、2、q-learning具有明显的“阶梯型”收敛,这是因为其是一种纯策略算法,以较大的概率选择当前最优策略,以较小的概率随机探索,导致其每隔一定的迭代后才开始更新策略。而本专利技术所采用的wolf-phc算法,是一种混合策略算法,在初始阶段会以一定的概率对所有可能的策略进行探索,因此收敛曲线平滑陡峭,能够更快的学习到最优策略。
本文档来自技高网...【技术保护点】
1.一种基于强化学习的通信干扰策略生成方法,其特征在于:
2.如权利要求1所述的基于强化学习的通信干扰策略生成方法,其特征在于:步骤一构建通信方和通信干扰方的系统模型具体包括:
3.如权利要求2所述的基于强化学习的通信干扰策略生成方法,其特征在于:步骤二具体包括:
4.如权利要求3所述的基于强化学习的通信干扰策略生成方法,其特征在于:步骤三具体包括:
【技术特征摘要】
1.一种基于强化学习的通信干扰策略生成方法,其特征在于:
2.如权利要求1所述的基于强化学习的通信干扰策略生成方法,其特征在于:步骤一构建通信方和通信干扰方的系统模型具体包括:
【专利技术属性】
技术研发人员:周成,马丛珊,满欣,林茜,张若愚,
申请(专利权)人:中国人民解放军海军工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。