【技术实现步骤摘要】
基于强化学习实现多监听器的合作主动窃听方法
本专利技术涉及通信领域,尤其涉及基于强化学习实现多监听器的合作主动窃听方法。
技术介绍
许多针对可疑通信的技术得到了发展,合法监听器对可疑链路的窃听,即主动窃听,这对无线通信安全起着重要作用,也是无线通信安全的一个新的研究方向。在主动窃听系统中,现有的研究很多都是利用单一合法监听器对可疑链路进行监听。在包含多个合法监听器的主动窃听系统中,未考虑它们可以以全双工模式同时地进行窃听和干扰以实现成功窃听,提高系统窃听性能。另外,在主动窃听系统中,现有的文章大多数不考虑合法监听器的能量受限问题,然而实际情况通常是,一个合法的监听器是一个功率有限的设备,能量不足还会影响窃听性能,甚至导致窃听失败。
技术实现思路
为了解决上述技术问题,本申请提出了一种基于强化学习实现多监听器的合作主动窃听方法,本申请考虑到每个合法监听器是一个能源受限的设备,在最大干扰功率约束下,进行协作窃听和干扰。即基于强化学习的方法最大化合法监听器的期望窃听能效。其中主要涉及的是利用强化学习解决两个合法监听器合作主动窃听的联合干扰功率分配问题。通过两个合法监听器协作发射干扰功率,以实现成功窃听可疑发射器发送的信息,并使每个合法监听器的期望窃听能效最大。本申请提供的具体技术方案如下:基于强化学习实现多监听器的合作主动窃听方法,所述方法包括:确定所述合作主动窃听系统中的主要参数;在合作主动窃听系统中,根据t时刻信道状态信息以及合法监听器发射干扰功率,生成每个合 ...
【技术保护点】
1.基于强化学习实现多监听器的合作主动窃听方法,其特征在于,所述方法包括:/n确定所述合作主动窃听系统中的主要参数;/n在合作主动窃听系统中,根据t时刻信道状态信息以及合法监听器发射干扰功率,生成每个合法监听器的窃听能效函数;/n在合作主动窃听系统中,根据要解决的两个合法监听器干扰功率分配问题,确定合作场景的多代理强化学习算法——多代理深度确定性策略梯度算法;/n基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听;/n其中,所述基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听,具体包括:/n①合作主动窃听系统中,MADDPG算法的网络结构建立。/n由于状态维数在提出的合作主动窃听问题中较高,且为连续动作空间问题,所以在使用基于Q值迭代时,枚举状态和动作空间所耗费的时间和内存是无法测量的,因此需要利用深度神经网络(DNN)构建函数逼近器,创建学习的代理。在提出的合作主动窃听系统中,两个合法监听器表示两个代理,每个代理包括4个网络,即actor估计网络、actor目标网络、critic估计网络和cri ...
【技术特征摘要】
1.基于强化学习实现多监听器的合作主动窃听方法,其特征在于,所述方法包括:
确定所述合作主动窃听系统中的主要参数;
在合作主动窃听系统中,根据t时刻信道状态信息以及合法监听器发射干扰功率,生成每个合法监听器的窃听能效函数;
在合作主动窃听系统中,根据要解决的两个合法监听器干扰功率分配问题,确定合作场景的多代理强化学习算法——多代理深度确定性策略梯度算法;
基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听;
其中,所述基于多代理深度确定性策略梯度算法的合作主动窃听系统实现两个合法监听器的合作发射干扰功率实现窃听,具体包括:
①合作主动窃听系统中,MADDPG算法的网络结构建立。
由于状态维数在提出的合作主动窃听问题中较高,且为连续动作空间问题,所以在使用基于Q值迭代时,枚举状态和动作空间所耗费的时间和内存是无法测量的,因此需要利用深度神经网络(DNN)构建函数逼近器,创建学习的代理。在提出的合作主动窃听系统中,两个合法监听器表示两个代理,每个代理包括4个网络,即actor估计网络、actor目标网络、critic估计网络和critic目标网络,其中估计网络与目标网络的结构是一样的,即为包含两层激活函数为ReLU非线性激活函数的隐藏层并由一组权值参数化的全连接的DNN组成。actor估计网络的参数为θ,critic估计网络的参数为ω;actor目标网络的参数为θ′,critic目标网络的参数为ω′,最后,actor和critic目标网络需要根据其估计网络的参数定时更新目标网络参数,直至其收敛不再进行训练。
②在合作主动窃听系统中,MADDPG算法中的状态和动作。
状态:对于每个合法监听器i,从环境获得的状态其中表示可疑链路的信道功率增益。表示可疑发射器T到合法监听器i的信道功率增益。表示合法监听器i到可疑接收器D的信道功率增益。代表合法监听器i自干扰信道的功率增益;
动作:对于每个合法监听器i,需要根据观察的环境状态来发射干扰功率,动作即为
③在合作主动窃听系统中基于MADDPG算法,确定每个合法监听器的目标函数——期望窃听能效。
在强化学习中,策略是一种使长期性能最优化的行动选择策略。因此,我们需要将一段时间T内的期望窃听能效作为目标函数。Q值的标准定义为从t时刻开始,在状态s下,代理选择动作a的期望返回值,对于代理i,Q值为:
其中rit为代理i的及时奖励,为代理i在状态s下的行为策略,输出的为要执行的动作。最优Q值是对所有决策采取最优行动时可达到的最大值。值函数使用DNN来构建学习代理,得到的值函数逼近器为
因此,每个合法监听器的期望窃听能效为:
其中γ∈(0,1)为折扣因子,θi为合法监听器i的actor估计网络的参数,为t时刻,合法监听器i的及时窃听能效奖励。...
【专利技术属性】
技术研发人员:李保罡,杨亚欣,张淑娥,
申请(专利权)人:华北电力大学保定,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。