基于强化学习实现多监听器的合作主动窃听方法技术

技术编号:26734097 阅读:44 留言:0更新日期:2020-12-15 14:41
本申请提出了一种基于强化学习实现多监听器的合作主动窃听方法,本申请考虑到每个合法监听器是一个能源受限的设备,在最大干扰功率约束下,进行协作窃听和干扰。即基于强化学习的方法最大化每个合法监听器的期望窃听能效。其中主要涉及的是利用强化学习解决两个合法监听器合作主动窃听的联合干扰功率分配问题。通过两个合法监听器协作发射干扰功率,以实现成功窃听可疑发射器发送的信息,并使每个合法监听器的期望窃听能效最大。

【技术实现步骤摘要】
基于强化学习实现多监听器的合作主动窃听方法
本专利技术涉及通信领域,尤其涉及基于强化学习实现多监听器的合作主动窃听方法。
技术介绍
许多针对可疑通信的技术得到了发展,合法监听器对可疑链路的窃听,即主动窃听,这对无线通信安全起着重要作用,也是无线通信安全的一个新的研究方向。在主动窃听系统中,现有的研究很多都是利用单一合法监听器对可疑链路进行监听。在包含多个合法监听器的主动窃听系统中,未考虑它们可以以全双工模式同时地进行窃听和干扰以实现成功窃听,提高系统窃听性能。另外,在主动窃听系统中,现有的文章大多数不考虑合法监听器的能量受限问题,然而实际情况通常是,一个合法的监听器是一个功率有限的设备,能量不足还会影响窃听性能,甚至导致窃听失败。
技术实现思路
为了解决上述技术问题,本申请提出了一种基于强化学习实现多监听器的合作主动窃听方法,本申请考虑到每个合法监听器是一个能源受限的设备,在最大干扰功率约束下,进行协作窃听和干扰。即基于强化学习的方法最大化合法监听器的期望窃听能效。其中主要涉及的是利用强化学习解决两个合法监听器合作主动窃听的联合干扰功率分配问题。通过两个合法监听器协作发射干扰功率,以实现成功窃听可疑发射器发送的信息,并使每个合法监听器的期望窃听能效最大。本申请提供的具体技术方案如下:基于强化学习实现多监听器的合作主动窃听方法,所述方法包括:确定所述合作主动窃听系统中的主要参数;在合作主动窃听系统中,根据t时刻信道状态信息以及合法监听器发射干扰功率,生成每个合法监听器的窃听能效函数;在合作主动窃听系统中,根据要解决的两个合法监听器干扰功率分配问题,确定合作场景的多代理强化学习算法——多代理深度确定性策略梯度算法;基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听;其中,所述基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听,具体包括:①合作主动窃听系统中,MADDPG算法的网络结构建立。由于状态维数在提出的合作主动窃听问题中较高,且为连续动作空间问题,所以在使用基于Q值迭代时,枚举状态和动作空间所耗费的时间和内存是无法测量的,因此需要利用深度神经网络(DNN)构建函数逼近器,创建学习的代理。在提出的合作主动窃听系统中,两个合法监听器表示两个代理,每个代理包括4个网络,即actor估计网络、actor目标网络、critic估计网络和critic目标网络,其中估计网络与目标网络的结构是一样的,即为包含两层激活函数为ReLU非线性激活函数的隐藏层并由一组权值参数化的全连接的DNN组成。actor估计网络的参数为θ,critic估计网络的参数为ω;actor目标网络的参数为θ′,critic目标网络的参数为ω′,最后,actor和critic目标网络需要根据其估计网络的参数定时更新目标网络参数,直至其收敛不再进行训练。②在合作主动窃听系统中,MADDPG算法中的状态和动作。状态:对于每个合法监听器i,从环境获得的状态其中表示可疑链路的信道功率增益。表示可疑发射器T到合法监听器i的信道功率增益。表示合法监听器i到可疑接收器D的信道功率增益。代表合法监听器i自干扰信道的功率增益;动作:对于每个合法监听器i,需要根据观察的环境状态来发射干扰功率,动作即为③在合作主动窃听系统中基于MADDPG算法,确定每个合法监听器的目标函数——期望窃听能效。在强化学习中,策略是一种使长期性能最优化的行动选择策略。因此,我们需要将一段时间T内的期望窃听能效作为目标函数。Q值的标准定义为从t时刻开始,在状态s下,代理选择动作a的期望返回值,对于代理i,Q值为:其中rit为代理i的及时奖励,为代理i在状态s下的行为策略,输出的为要执行的动作。最优Q值是对所有决策采取最优行动时可达到的最大值。值函数使用DNN来构建学习代理,得到的值函数逼近器为因此,每个合法监听器的期望窃听能效为:其中γ∈(0,1)为折扣因子,θi为合法监听器i的actor估计网络的参数,为t时刻,合法监听器i的及时窃听能效奖励。最优策略为④初始化网络参数以及所需初始数据。在强化学习中,需要有初始参数来开始网络训练,因此,首先需要随机初始化actor网络和critic网络的参数θ和ω。由于初始时刻还没有奖励值,因此,对于合法窃听器i,其奖励为ri0=0,即初始时刻窃听能效初始化初始时刻状态信息⑤合作主动窃听系统中协作干扰功率决策——两个合法监听器协作发射干扰功率。集中式训练:critic估计网络的输入为两个合法监听器的状态和动作信息,即和这里两个合法监听器的critic网络在训练时可以获得全信息状态,同时也获得了两个合法监听器所采取的策略动作,这样即使actor无法获得全部信息,也无法得知其他actor的策略,每个actor也有一个具有全局信息的critic来指导其来优化策略。这就表现出每个合法监听器在得知另一个合法监听器的策略下更新自己的策略,从而可以实现两个合法监听器之间的合作窃听可疑链路。actor网络更新方式为:其中M表示从经验回放池中随机抽取的样本数,上标j表示对于第i个合法监听器的其他合法监听器值的近似。表示critic网络告知actor的基于全局状态信息的期望奖励值,xj表示对于合法监听器i,包括另一个合法监听器j的状态信息,即xj={s1,s2},actor网络需要根据critic网络所给的期望奖励去更新其策略,即如果采取的动作使得critic告知的期望奖励增加,那么actor会增加这个策略梯度方向的值,反之,则减小。因此,actor网络朝着策略梯度提升的方向,从而更新actor网络的参数θ,表示策略的梯度。critic网络损失函数为:其中,损失函数为真实Q值与估计Q值之间差值的平方,ai表示当前状态下,合法监听器i采取的动作。表示真实值,ri为及时奖励,表示在目标网络参数θ′i下的目标网络策略,x′为下一时刻的全局状态信息,a′i表示下一时刻所采取的行为动作。对于合法监听器i,critic网络的更新方式为通过最小化其损失函数来更新参数ωi,即L(ωi)对ωi求梯度,并随着梯度下降的方向更新。对于合法监听器i,actor目标网络和critic目标网络的参数定期更新并采用软更新的方式:θ′i←τθi+(1-τ)θ′iω′i←τωi+(1-τ)ω′i其中,τ表示保留度参数,即目标网络参数更新过程中保留估计网络参数的程度。分布式执行:当模型训练好后,即参数收敛,不再变化,只需要两个actor与环境交互,即只需要图2中黑实线表示的循环,两个合法监听器根据获得的状态信息采取动作,即所需发射的干扰功率。利用MADDPG算法,集中式训练模型,然后在模型训练好以后分布式执行动作,这样我们就可以在分布式执行动作时利用已经训练好的模型实现两本文档来自技高网...

【技术保护点】
1.基于强化学习实现多监听器的合作主动窃听方法,其特征在于,所述方法包括:/n确定所述合作主动窃听系统中的主要参数;/n在合作主动窃听系统中,根据t时刻信道状态信息以及合法监听器发射干扰功率,生成每个合法监听器的窃听能效函数;/n在合作主动窃听系统中,根据要解决的两个合法监听器干扰功率分配问题,确定合作场景的多代理强化学习算法——多代理深度确定性策略梯度算法;/n基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听;/n其中,所述基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听,具体包括:/n①合作主动窃听系统中,MADDPG算法的网络结构建立。/n由于状态维数在提出的合作主动窃听问题中较高,且为连续动作空间问题,所以在使用基于Q值迭代时,枚举状态和动作空间所耗费的时间和内存是无法测量的,因此需要利用深度神经网络(DNN)构建函数逼近器,创建学习的代理。在提出的合作主动窃听系统中,两个合法监听器表示两个代理,每个代理包括4个网络,即actor估计网络、actor目标网络、critic估计网络和critic目标网络,其中估计网络与目标网络的结构是一样的,即为包含两层激活函数为ReLU非线性激活函数的隐藏层并由一组权值参数化的全连接的DNN组成。actor估计网络的参数为θ,critic估计网络的参数为ω;actor目标网络的参数为θ′,critic目标网络的参数为ω′,最后,actor和critic目标网络需要根据其估计网络的参数定时更新目标网络参数,直至其收敛不再进行训练。/n②在合作主动窃听系统中,MADDPG算法中的状态和动作。/n状态:对于每个合法监听器i,从环境获得的状态...

【技术特征摘要】
1.基于强化学习实现多监听器的合作主动窃听方法,其特征在于,所述方法包括:
确定所述合作主动窃听系统中的主要参数;
在合作主动窃听系统中,根据t时刻信道状态信息以及合法监听器发射干扰功率,生成每个合法监听器的窃听能效函数;
在合作主动窃听系统中,根据要解决的两个合法监听器干扰功率分配问题,确定合作场景的多代理强化学习算法——多代理深度确定性策略梯度算法;
基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听;
其中,所述基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听,具体包括:
①合作主动窃听系统中,MADDPG算法的网络结构建立。
由于状态维数在提出的合作主动窃听问题中较高,且为连续动作空间问题,所以在使用基于Q值迭代时,枚举状态和动作空间所耗费的时间和内存是无法测量的,因此需要利用深度神经网络(DNN)构建函数逼近器,创建学习的代理。在提出的合作主动窃听系统中,两个合法监听器表示两个代理,每个代理包括4个网络,即actor估计网络、actor目标网络、critic估计网络和critic目标网络,其中估计网络与目标网络的结构是一样的,即为包含两层激活函数为ReLU非线性激活函数的隐藏层并由一组权值参数化的全连接的DNN组成。actor估计网络的参数为θ,critic估计网络的参数为ω;actor目标网络的参数为θ′,critic目标网络的参数为ω′,最后,actor和critic目标网络需要根据其估计网络的参数定时更新目标网络参数,直至其收敛不再进行训练。
②在合作主动窃听系统中,MADDPG算法中的状态和动作。
状态:对于每个合法监听器i,从环境获得的状态其中表示可疑链路的信道功率增益。表示可疑发射器T到合法监听器i的信道功率增益。表示合法监听器i到可疑接收器D的信道功率增益。代表合法监听器i自干扰信道的功率增益;
动作:对于每个合法监听器i,需要根据观察的环境状态来发射干扰功率,动作即为
③在合作主动窃听系统中基于MADDPG算法,确定每个合法监听器的目标函数——期望窃听能效。
在强化学习中,策略是一种使长期性能最优化的行动选择策略。因此,我们需要将一段时间T内的期望窃听能效作为目标函数。Q值的标准定义为从t时刻开始,在状态s下,代理选择动作a的期望返回值,对于代理i,Q值为:



其中rit为代理i的及时奖励,为代理i在状态s下的行为策略,输出的为要执行的动作。最优Q值是对所有决策采取最优行动时可达到的最大值。值函数使用DNN来构建学习代理,得到的值函数逼近器为
因此,每个合法监听器的期望窃听能效为:



其中γ∈(0,1)为折扣因子,θi为合法监听器i的actor估计网络的参数,为t时刻,合法监听器i的及时窃听能效奖励。...

【专利技术属性】
技术研发人员:李保罡杨亚欣张淑娥
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1