System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度强化学习的分布式动态频谱分配方法和设备组成比例_技高网
当前位置: 首页 > 专利查询>内蒙古大学专利>正文

基于深度强化学习的分布式动态频谱分配方法和设备组成比例

技术编号:41100437 阅读:15 留言:0更新日期:2024-04-25 13:57
本发明专利技术属于通信领域,具体涉及一种基于深度强化学习的分布式动态频谱分配方法及其设备。该方法构建出了具有多用户多信道的CWSN环境,将多用户多信道的用户接入问题建模为一个马尔可夫决策过程,并提出一种用于预测主用户占用状态的深度Q网络模型。本发明专利技术将残差网络结构加入到了DQN中,以解决深度神经网络中由于网络深度导致的性能下降问题。针对构建的DQN模型,每个SU依据感知结果将信道观测值输入到DQN进行训练,以学习最优的频谱接入策略。最后,依据DQN模型输出信道占用状态的预测结果,对每个SU的接入请求进行响应。本发明专利技术解决了采用集中式的DSA方法难以实现对多用户的动态频谱接入问题进行管理的问题。

【技术实现步骤摘要】

本专利技术属于通信领域,具体涉及一种基于深度强化学习的分布式动态频谱分配方法及其设备。


技术介绍

1、认知无线传感器网络(cognitive wireless sensor network,cwsn)将认知无线电技术与无线传感器网络(wireless sensor network,wsn)结合,通过允许大量的传感器节点作为次级用户(secondary user,su)伺机接入主用户(primary user,pu)的空闲频谱来解决wsn网络的频谱资源稀缺问题。其中,动态频谱接入(dynamic spectrum access,dsa)是cwsn的关键技术之一,其任务是根据认知传感器节点的频谱感知数据做出决策,接入某个已授权给pu的空闲频谱。然而,使用该技术时,需要解决的问题是:如何在伺机接入和使用授权频谱的同时,最大限度地减少对pu的干扰;当多个su尝试接入同一频谱时,怎样避免su之间的冲突。

2、传统的解决方法如博弈论、粒子群优化算法和遗传算法等为解决dsa问题提供了解决方案,这些方法虽然实现了频谱复用,但其模型设计复杂、容易陷入局部最优解且灵活性和适应性较差。相比之下,强化学习在面对不确定的动态复杂环境时,可以在没有先验信息的情况下自适应地学习最优策略。

3、将dsa与深度强化学习(deep rainforcement learning,drl)相结合的研究是未来实现pu与su共存的必然趋势,然而目前研究所提出的dsa方法,主要集中在网络环境中只有一个su的场景。在多用户的场景下,为避免su间的干扰,多采用集中式的dsa方法,而采用分布式的dsa方法的解决方案存在算法复杂、收敛速度慢等问题。


技术实现思路

1、为了解决采用集中式的dsa方法难以实现对多用户的动态频谱接入问题进行管理的问题;本专利技术提供一种基于深度强化学习的分布式动态频谱分配方法及其设备。

2、本专利技术采用以下技术方案实现:

3、一种基于深度强化学习的分布式动态频谱分配方法,其用于对认知无线传感器网络中次级用户su对主用户pu的接入请求进行管理,分布式动态频谱分配方法包括如下步骤:

4、s1:通过双状态马尔可夫链表征认知无线传感器网络中次级用户与主用户间信道占用状态,构建一个用于生成双状态马尔可夫链的环境模型。

5、s2:将多用户多信道的频谱接入问题建模为一个部分可观测的马尔可夫决策过程;确定决策过程的状态空间、动作空间、奖励函数以及策略函数。

6、s3:结合环境模型以及深度学习算法(dnn),搭建一个基于深度强化学习框架(dqn)的动态频谱分配模型。

7、动态频谱分配模型包括目标网络、估计网络、环境模型和经验池;环境模型用于向经验池补充用于训练目标网络和估计网络的经验。目标网络和估计网络的参数根据计算出的损失函数按照梯度下降的策略通过反向传播进行更新。

8、s4:对动态频谱分配模型进行训练,训练后的动态频谱分配模型用于预测通信网络中次级用户接入主用户时信道的占用状态。

9、训练过程中,先以ε-greedy策略选择动作,再通过目标网络、估计网络和环境模型生成若干组包含信道观测值、动作和奖励的经验值向量,并将其存储到经验池中。然后,抽取经验池中经验,将信道观测值分别输入到估计网络和目标网络中,得到动作价值;并通过损失函数计算最小化均方误差来更新网络模型的参数。

10、s5:利用训练完成后的动态频谱分配模型预测次级用户接入主用户时信道的占用状态,并根据占用状态响应次级用户的接入请求。

11、作为本专利技术进一步的改进,步骤s1的环境模型中,定义认知无线传感器网络中的主用户pu数量为n,次级用户su的数量为m;则第i个次级用户sui在信道n上的接收信号的表达式如下:

12、

13、上式中,是sui在信道n上的期望信号;和分别表示来自pun和suj的干扰信号;和分别代表从sui、pun和suj的发射机到sui的信道增益;表示接收到的加性高斯白噪声。

14、将授权信道的频谱空洞划分为多个时隙,每个时隙的信道有占用和空闲两种状态;当接入被pu占用的信道时,su将收到信道的警告信号;第n个信道的两状态马尔科夫转移概率pn表示为:

15、

16、其中,马尔科夫链中的每个状态参数满足下式:

17、

18、作为本专利技术进一步的改进,步骤s2中,构建的马尔可夫决策过程的状态空间o的表达式如下:

19、

20、上式中,n表示信道数量;si表示每个时隙中信道状态的真实状态空间;表示信道被pu占用而处于忙碌状态,表示信道n处于空闲状态,n∈n;oi表示sui的观测信道的状态空间;pr(oi)表示信道真实状态值si到sui最终观测的信道状态oi的过程;表示信道n中sui的感知错误概率;表示sui观测到信道n的状态,取值为1和0分别代表空闲和忙碌。

21、作为本专利技术进一步的改进,步骤s2中,构建的马尔可夫决策过程的动作空间a的表达式如下:

22、

23、上式中,ai表示sui在各个信道上传输的动作状态;ai=0表示sui不接入任何信道;ai=n(n∈n)表示sui选择接入信道n进行信息传输。

24、作为本专利技术进一步的改进,步骤s2中,构建的马尔可夫决策过程的奖励函数r的表达式如下:

25、

26、上式中,t表示时隙;γt-1表示上一时隙的折扣因子,γt-1∈[0,1];ri表示sui的动作奖励,其满足下式:

27、

28、上式中,sinri表示第i个次级用户接入时的信干噪比。

29、作为本专利技术进一步的改进,步骤s2中,构建的马尔可夫决策过程的策略函数的表达式如下:

30、

31、上式中,π*表示最优策略;表示最优策略对应的最佳q值。

32、作为本专利技术进一步的改进,步骤s3中,构建的动态频谱分配模型中的目标网络和估计网络采用具有四个隐藏层的resnet结构;每个隐藏层中有64个神经元,激活函数为relu。

33、作为本专利技术进一步的改进,步骤s4中,所述动态频谱分配模型的训练步骤如下:

34、(1)初始化估计网络和目标网络所有参数。

35、(2)次级用户感知信道状态获得观测值,并将其输入到目标网络中。

36、(3)以概率ε随机采取动作,或以概率1-ε选择具有最大q值的动作,并根据观测值和动作生成奖励。

37、(4)生成下一时隙的信道状态观测值,并将包含当前时隙的信道状态观测值、动作、奖励以及下一时隙的信道状态观测值的四元组存储到经验池中。

38、(5)重复步骤(2)-(4)直到经验池中数据量满足要求。

39、(6)随机抽取经验池中经验,将该时隙的信道状态观测值和下一时隙信道状态观测值分别输入到估计网络和目标网络中,得到本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的分布式动态频谱分配方法,其特征在于,其用于对认知无线传感器网络中次级用户SU对主用户PU的接入请求进行管理,所述分布式动态频谱分配方法包括如下步骤:

2.如权利要求1所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤S1的环境模型中,定义认知无线传感器网络中的主用户PU数量为N,次级用户SU的数量为M;则第i个次级用户SUi在信道n上的接收信号的表达式如下:

3.如权利要求2所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤S2中,构建的马尔可夫决策过程的状态空间O的表达式如下:

4.如权利要求3所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤S2中,构建的马尔可夫决策过程的动作空间A的表达式如下:

5.如权利要求4所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤S2中,构建的马尔可夫决策过程的奖励函数R的表达式如下:

6.如权利要求5所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤S2中,构建的马尔可夫决策过程的策略函数的表达式如下:

7.如权利要求1所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤S3中,构建的动态频谱分配模型中的目标网络和估计网络采用具有四个隐藏层的ResNet结构;每个隐藏层中有64个神经元,激活函数为ReLU。

8.如权利要求1所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤S4中,所述动态频谱分配模型的训练步骤如下:

9.如权利要求6所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:所述动态频谱分配模型在训练阶段采用的损失函数如下:

10.一种基于深度强化学习的分布式动态频谱分配设备,其包括存储器、处理器以及存储在存储器上并在处理器上运行的计算机程序,其特征在于:所述处理器执行计算机程序时,实现如权利要求1-9中任意一项所述的基于深度强化学习的分布式动态频谱分配方法的步骤,进行利用训练完成后的动态频谱分配模型预测次级用户接入主用户时信道的占用状态,并根据占用状态响应次级用户的接入请求。

...

【技术特征摘要】

1.一种基于深度强化学习的分布式动态频谱分配方法,其特征在于,其用于对认知无线传感器网络中次级用户su对主用户pu的接入请求进行管理,所述分布式动态频谱分配方法包括如下步骤:

2.如权利要求1所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤s1的环境模型中,定义认知无线传感器网络中的主用户pu数量为n,次级用户su的数量为m;则第i个次级用户sui在信道n上的接收信号的表达式如下:

3.如权利要求2所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤s2中,构建的马尔可夫决策过程的状态空间o的表达式如下:

4.如权利要求3所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤s2中,构建的马尔可夫决策过程的动作空间a的表达式如下:

5.如权利要求4所述的基于深度强化学习的分布式动态频谱分配方法,其特征在于:步骤s2中,构建的马尔可夫决策过程的奖励函数r的表达式如下:

6.如权利要求5所述的基于深度强化学习的分布式动态频谱分配方法,其特征...

【专利技术属性】
技术研发人员:王树彬刘艳超
申请(专利权)人:内蒙古大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1