基于Q学习的认知无线电抗敌意干扰方法,涉及认知无线电。1)认知源节点初始化学习因子γ和折扣因子β,设置Q值表、V值表值为0;2)认知源节点感知k时刻的状态s,并根据Q值表,选择最优行为a;3)认知源节点观察k+1时刻的状态s',并计算本次信息传输的即时回报us;4)更新Q学习算法的Q值表、V值表;5)认知源节点重复步骤2)~4),直到找到最优策略。基于Q学习实现功率控制,认知源节点和智能干扰机通过不断学习环境,实时调整自身的发射功率,随着迭代学习的延续,最终使得自身的收益最大化。
【技术实现步骤摘要】
本专利技术涉及认知无线电,尤其是涉及一种基于Q学习的认知无线电抗敌意干扰方法。
技术介绍
认知无线电技术的提出是用于解决当前静态频谱分配方案中频率资源利用率不高的问题。由于无线信道的广播特性,使得认知无线电无线网络容易受到敌意干扰攻击。干扰机通过连续或是间断地向无线信道发射干扰信号,以此阻碍认知用户接入到信道或者破坏节点间的信息传输。扩频通信是传统的抗敌意干扰技术,主要的扩频方式有跳频(FrequencyHopping,FH)、直接序列扩频(DirectSequenceSpreadSpectrum,DSSS)和线性调频扩频(ChirpSpreadSpectrum,CSS)[R.A.Poisel.ModernCommunicationsJammingPrinciplesandTechniques.ArtechHousePublishers,2006.]。[LiuY,NingP,DaiH,etal.RandomizeddifferentialDSSS:Jamming-resistantwirelessbroadcastcommunication[C].ProceedingsofIEEEINFOCOM,SanDiego,CA,Unitedstates,2010.]提出随机微分直接扩频机制,而这类扩频不适合预于智能的干扰机。[WangB,WuY,LiuKJR,etal.Ananti-jammingstochasticgameforcognitiveradionetworks[J].SelectedAreasinCommunications,IEEEJournalon,2011,29(4):877-889.]在无线认知网络提出了随机博弈的抗干扰框架。通过学习干扰机的发射功率,进而调整源节点的发射功率,以此抵抗敌意干扰攻击是一种新的抗干扰技术,常用算法有分布式的功率控制算法、最优功率控制、机会主义功率控制策略、启发式算法及一些基于博弈的功率控制算法。[TangN,MaoS,KompellaS.PowerControlinFullDuplexUnderlayCognitiveRadioNetworks:AControlTheoreticApproach[C]//MilitaryCommunicationsConference(MILCOM),2014IEEE.IEEE,2014:949-954.]提出了一种整合比例微分差分proportional-integral-derivative,PID)控制器和功率约束机制的分布式功率控制算法,[S.M.Sanchez,R.D.Souza,E.M.G.Fernandez,andV.A.Reguera,“ImpactofPowerAllocationandAntennaDirectivityintheCapacityofaMultiuserCognitiveAdHocNetwork,”Radioengineering,vol.21,pp.1110-1116,Dec.2012]提出利用位置感知认知节点的最优功率控制,[ChenY,YuG,ZhangZ,etal.Oncognitiveradionetworkswithopportunisticpowercontrolstrategiesinfadingchannels[J].WirelessCommunications,IEEETransactionson,2008,7(7):2752-2761.]提出了一种机会主义(opportunistic)功率控制策略,次级用户调整策略使数据速率最大化。[Y.ZhangandC.Leung,“ResourceallocationinanOFDM-basedcognitiveradiosystem,”IEEETrans.Commun.,vol.57,no.7,pp.1928-1931,July2009.]阐述了一种启发式算法实现次优的解决方案,以此达到最优的功率分配。[D.Yang,G.Xue,J.Zhang,A.Richa,andX.Fang,“Copingwithasmartjammerinwirelessnetworks:Astackelberggameapproach,”IEEETrans.WirelessCommun.,vol.12,no.8,pp.4038–4047,2013]提出了在智能干扰机存在下利用斯塔科尔伯格博弈模型研究功率控制问题,这类智能干扰机能够学习发射机的传输策略然后作出相应的干扰决定,而这种方法在合作的无线网络是无效的。
技术实现思路
本专利技术的目的是为了解决针对认知无线电网络中的敌意干扰攻击,使得认知用户无法接入到空闲信道或者认知用户间的信息传输被破坏等问题,提供一种基于Q学习的认知无线电抗敌意干扰方法。本专利技术包括以下步骤:1)认知源节点初始化学习因子γ和折扣因子β,设置Q值表、V值表值为0;2)认知源节点感知k时刻的状态s,并根据Q值表,选择最优行为a;3)认知源节点观察k+1时刻的状态s',并计算本次信息传输的即时回报us;4)更新Q学习算法的Q值表、V值表;5)认知源节点重复步骤2)~4),直到找到最优策略。在步骤1)中,所述Q值表是一个二维矩阵Q(S,A),其中S是一个非空集合,表示系统的所有可能状态,A表示所有可能行为的集合;所述V值表是一个一维向量,表示在每个状态s∈S下的最大Q值,即在步骤2)中,所述状态s包括授权用户接入状态δ和干扰机发射功率aj,即源节点的状态s=(δ,aj),当授权用户接入到目标信道时,δ=0,否则δ=1;干扰机发射功率aj∈Aj,其中Aj表示干扰机的行为集;所述最优行为表示的是在当前状态s下,使得值函数Q(s,a)最大的行为a,即在步骤4)中,所述Q学习算法的Q值表、V值表的更新算法表示如下:Q(Ssk,Ask)=(1-γ)Q(Ssk,Ask)+γ(us+βV(Ssk+1))V(Ssk)=maxAs∈AQ(Ssk,As)]]>在步骤5)中,所述最优策略指的是每个状态下,使得累计回报函数最大化。与现有技术相比,本专利技术提供了一种基于Q学习的认知无线电抗敌意干扰方法:认知源节点通过观察信道获取授权用户接入情况、干扰机发射功率等状态信息,并根据Q值表选择在当前状态下使得源节点累计回报最大的行为。接收节点将对应的信号干扰噪声比在信息传输结束后反馈给认知源节点,使其更新当前的Q值表,并对下一次发送策略做出不同的调整。该方法充分利用了强化学习机制,使认知源节点的发射功率随干扰机发射功率的变化而主动自适应地变化,从而有效地抵抗敌意干扰攻击。与现有的抗干扰方法不同,本专利技术基于Q学习实现功率控制,从而达到抗干扰的目的。本专利技术中认知源节点和智能干扰机通过不断学习环境,实时调整自身的发射功率,随着迭代学习的延续,最终使得自身的收益最大化。具体实施方式以下实施例将对本专利技术作进一步的说明。本专利技术实施例包括以下步骤:1)认知源节点初始化学习因子γ、折扣因子β、最大时隙m,初始化Q值表和V值表的值为0;2)判断当前时隙k是否为1;3)当k=1时,认知源节点首先检测授权用户的接入状态δk,当授权用户在当前时刻接入到本文档来自技高网...
【技术保护点】
基于Q学习的认知无线电抗敌意干扰方法,其特征在于包括以下步骤:1)认知源节点初始化学习因子γ和折扣因子β,设置Q值表、V值表值为0;2)认知源节点感知k时刻的状态s,并根据Q值表,选择最优行为a;3)认知源节点观察k+1时刻的状态s',并计算本次信息传输的即时回报us;4)更新Q学习算法的Q值表、V值表;5)认知源节点重复步骤2)~4),直到找到最优策略。
【技术特征摘要】
1.基于Q学习的认知无线电抗敌意干扰方法,其特征在于包括以下步骤:1)认知源节点初始化学习因子γ和折扣因子β,设置Q值表、V值表值为0;2)认知源节点感知k时刻的状态s,并根据Q值表,选择最优行为a;3)认知源节点观察k+1时刻的状态s',并计算本次信息传输的即时回报us;4)更新Q学习算法的Q值表、V值表;5)认知源节点重复步骤2)~4),直到找到最优策略。2.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法,其特征在于在步骤1)中,所述Q值表是一个二维矩阵Q(S,A),其中S是一个非空集合,表示系统的所有可能状态,A表示所有可能行为的集合。3.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法,其特征在于在步骤1)中,所述V值表是一个一维向量,表示在每个状态s∈S下的最大Q值,即4.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法,其特征在于在步骤2)中,所述状态s包括授权用户接入状态δ和干扰机发射功率aj,即...
【专利技术属性】
技术研发人员:肖亮,陈桂权,周长华,李燕,
申请(专利权)人:厦门大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。