本发明专利技术公开了一种基于强化学习的能量采集D2D通信资源分配方法。该方法中D2D发送端采用模式A与D2D接收端直接通信,或者采用模式B充当中继协助蜂窝通信的同时应用NOMA技术与D2D接收端通信。首先推导了用户采用不同模式通信时的中断概率表达式;然后假设已知所有时刻的能量采集和信道状态信息,利用KM算法为D2D用户分配信道以及为蜂窝用户选择中继,同时考虑能量因果性约束和最大发送功率限制,利用强化学习方法优化D2D用户的发送功率。本发明专利技术考虑D2D发送端可以充当中继协助边缘蜂窝用户通信,在满足用户服务质量和能量约束的条件下优化D2D用户和蜂窝用户的资源分配,可以提高D2D用户和模式B蜂窝用户的总容量,允许更多的边缘蜂窝用户接入网络。
An energy acquisition D2D communication resource allocation method based on Reinforcement Learning
【技术实现步骤摘要】
一种基于强化学习的能量采集D2D通信资源分配方法
本专利技术属于无线通信
,具体涉及一种基于强化学习的能量采集D2D通信资源分配方法。
技术介绍
随着互联网技术的发展,越来越多的用户需要接入到无线网络中,然而频谱资源是有限的,如何利用有限的频谱资源使得更多的用户可以进行无线通信成为急需解决的问题。D2D通信允许两个物理距离较近的用户终端之间建立直接通信链路,通过复用蜂窝网络的授权频段进行点到点通信。由于共享频谱资源,D2D通信允许更多的用户终端接入到网络中。中继技术通过对信号进行接收和转发,可以提高小区的覆盖范围。将D2D通信与中继技术相结合,可以更好地部署未来网络,提高用户服务质量。因为D2D用户的距离较近,能耗较低,可以考虑使用能量采集技术解决供能问题,实现绿色通信。但是,D2D通信与传统蜂窝通信使用相同频谱资源时,D2D用户与蜂窝用户之间存在互干扰,因此D2D通信系统中需要合理的干扰管理。另外,由于环境的不确定性,能量采集也是资源分配中的重要考虑因素。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于强化学习的能量采集D2D通信资源分配方法,通过为D2D用户分配合理的信道资源、为蜂窝用户选择合适的中继以及优化D2D用户的发送功率,降低边缘用户通信的中断概率,提高D2D用户和蜂窝用户的总容量。技术方案:为实现上述目的,本专利技术提供一种基于强化学习的能量采集D2D通信资源分配方法,具体包括以下步骤:(1):用UCU={UCU1,...,UCUi,...,UCUI}、DCU={DCU1,...,DCUm,...,DCUM}和DU={DU1,...,DUn,...,DUN}分别表示上行蜂窝用户集、下行蜂窝用户集和D2D用户集,其中UCUi、DCUm和DUn分别表示上行蜂窝用户i,下行蜂窝用户m和D2D用户n,I、M和N分别表示系统中上行蜂窝用户数、下行蜂窝用户数和D2D用户对数,每个D2D用户对包括一个D2D发送端和一个D2D接收端;(2):初始化采用模式A、B的D2D用户集采用模式B的下行蜂窝用户集DUn复用UCUi信道在时段k的发送功率取值为系统预设的最大发送功率其中模式A时D2D用户间直接通信、基站与下行蜂窝用户直接通信,模式B时D2D发送端充当中继协助基站与下行蜂窝用户通信的同时应用NOMA技术与D2D接收端通信;(3):对所有D2D用户DUn∈DU和上行蜂窝用户UCUi∈UCU,计算模式A时D2D用户通信的中断概率和上行蜂窝用户通信的中断概率Oin,k,如果成立,则将DUn添加到集合中,并计算DUn复用UCUi信道时K个时段的容量反之DUn不能进行通信,其中ξ表示中断概率阈值,K表示总时段数;(4):将容量作为DUn和UCUi二分图连线的权重,利用KM算法完成D2D用户与上行蜂窝用户的最佳匹配,得到信道分配矩阵Yd;(5):对所有DCUm∈DCU,计算其与基站直接通信时的中断概率如果则对所有D2D用户判断是否成立,若成立,则将DCUm添加到集合中,将DUn添加到集合中并从集合中移除,同时计算DCUm选择作为DTn中继时的容量反之,DCUm不能进行通信,其中On,k表示模式B时第一时隙基站与DTn通信的中断概率,表示模式B时第二时隙DTn与DCUm通信的中断概率,表示模式B时第二时隙DTn与DRn通信的中断概率,或表示模式B时DRn为强用户或弱用户,DTn表示D2D发送端n,DRn表示D2D接收端n;(6):将容量作为DUn和DCUm二分图连线的权重,利用KM算法完成D2D用户与下行蜂窝用户的最佳匹配,得到中继选择矩阵Yc;(7):初始化tnm=1,k=1,Q(sj,ak),Q1=0,其中tnm为迭代次数,表示DTn在时段k的可用能量,Q(sj,ak)为状态-动作值函数,表示从状态sj出发,执行动作ak后再使用策略π所获得的累计奖赏,Q1表示上一状态时Q(sj,ak)的值;(8):当|Q1-Q|<θ时,令Q1=Q,计算DTn在时段k的可用能量并根据可用能量和中断概率阈值约束确定DTn在时段k的可选动作集其中θ表示收敛阈值,表示D2D用户的动作空间,表示量化间隔;(9):根据ε-贪心算法选择DTn在时段k的动作ak,观察下一状态sq并计算其中表示D2D用户处于状态sj时采取动作ak后转移到状态sq的即时奖赏;(10):选择使Q(sq,ak+1)最大的动作ak+1,根据公式更新Q(sj,ak),并更新状态sj=sq和时段k=k+1;(11):重复步骤(8)至步骤(10)直至k=K,当k=K时,根据公式tnm=tnm+1更新迭代次数tnm;(12):重复步骤(8)至步骤(11)直至tnm≥Titer,得到DUn复用上行蜂窝用户i的信道在时段k的优化功率并取其中Titer表示最大迭代次数;进一步地,所述步骤(3)中模式A时DUn复用UCUi信道的中断概率计算公式为其中λn和λin表示信道小尺度衰落的指数分布参数,γd表示D2D接收端的信干噪比阈值,κ和α分别表示路径损耗常数和路径损耗指数,dn和din表示发送端与接收端的距离,ρc表示UCUi的发送功率,σ2表示加性高斯白噪声的功率。进一步地,所述步骤(3)中UCUi信道被DUn复用时的中断概率计算公式为Oin,k=1-(ψ3λiB/(ψ3λiB+γcψ4λnB))exp(-γc/ψ3λiB),其中γc表示蜂窝用户的信干噪比阈值;进一步地,所述步骤(3)中模式A时DUn复用UCUi信道在K个时段的容量计算公式为其中表示模式A时DUn复用UCUi信道在时段k的容量,τA表示模式A时用户的通信时隙长度,ψ6=ρchin,k+σ2,hn,k表示DTn与DRn间的信道增益,hin,k表示UCUi与DRn间的信道增益。进一步地,所述步骤(5)中DCUm与基站直接通信时的中断概率计算公式为其中ρBS表示基站的发送功率;进一步地,所述步骤(5)中模式B时第一时隙基站与DTn通信的中断概率计算公式为进一步地,所述步骤(5)中模式B时第二时隙DTn与DCUm通信的中断概率计算公式为或其中b1和b2分别表示DCUm、DRn所需信号的功率分配因子,η1=b1-γcb2、η2=ψ7ψ8λnmλBn、η3=γc(γc+1)、η4=γcψ7λBn、η5=-γcψ8λnm、η6=-γcψ7λBn、η7=ψ9λim、η8=η12η2+η1η4η7、η9=b1η2+η4η7、η10=b1η5+η6,进一步地,所述步骤(5)中模式B时第二时隙DTn与DRn通信的中断概率计算公式为或其中η11=ψ1(b2-γdb1)λn;进一步地,所述步骤(5)中模式B时DCUm选择DTn作为中继辅助通信时的容量计算公式为其中表示DRn为强用户时DCUm在时段k的容量,表示DRn为弱用户时DCUm在时段k的容量,τB表示模式B时用户的通信时隙长度,ψ10=ρBShBn,k,ψ12=ρchim,k+σ2,hBn,k表示基站与DTn间的信道增本文档来自技高网...
【技术保护点】
1.一种基于强化学习的能量采集D2D通信资源分配方法,其特征在于:包括以下步骤:/n(1):用UCU={UCU
【技术特征摘要】
1.一种基于强化学习的能量采集D2D通信资源分配方法,其特征在于:包括以下步骤:
(1):用UCU={UCU1,...,UCUi,...,UCUI}、DCU={DCU1,...,DCUm,...,DCUM}和DU={DU1,...,DUn,...,DUN}分别表示上行蜂窝用户集、下行蜂窝用户集和D2D用户集,其中UCUi、DCUm和DUn分别表示上行蜂窝用户i,下行蜂窝用户m和D2D用户n,所述I、M和N分别表示系统中上行蜂窝用户数、下行蜂窝用户数和D2D用户对数,每个D2D用户对包括一个D2D发送端和一个D2D接收端;
(2):初始化采用模式A、B的D2D用户集采用模式B的下行蜂窝用户集DUn复用UCUi信道在时段k的发送功率取值为系统预设的最大发送功率其中模式A时D2D用户间直接通信、基站与下行蜂窝用户直接通信,模式B时D2D发送端充当中继协助基站与下行蜂窝用户通信的同时应用NOMA技术与D2D接收端通信;
(3):对所有D2D用户DUn∈DU和上行蜂窝用户UCUi∈UCU,计算模式A时D2D用户通信的中断概率和上行蜂窝用户通信的中断概率Oin,k,当成立,则将DUn添加到集合中,计算DUn复用UCUi信道时K个时段的容量反之DUn不能进行通信,其中ξ表示中断概率阈值,K表示总时段数;
(4):将容量作为DUn和UCUi二分图连线的权重,利用KM算法完成D2D用户与上行蜂窝用户的最佳匹配,得到信道分配矩阵Yd;
(5):对所有DCUm∈DCU,计算其与基站直接通信时的中断概率如则对所有D2D用户判断是否成立,若成立,则将DCUm添加到集合中,将DUn添加到集合中并从集合中移除,同时计算DCUm选择作为DTn中继时的容量反之,DCUm不能进行通信,其中On,k表示模式B时第一时隙基站与DTn通信的中断概率,表示模式B时第二时隙DTn与DCUm通信的中断概率,表示模式B时第二时隙DTn与DRn通信的中断概率,或表示模式B时DRn为强用户或弱用户,DTn表示D2D发送端n,DRn表示D2D接收端n;
(6):将容量作为DUn和DCUm二分图连线的权重,利用KM算法完成D2D用户与下行蜂窝用户的最佳匹配,得到中继选择矩阵Yc;
(7):初始化tnm=1,k=1,Q(sj,ak),Q1=0,其中tnm为迭代次数,表示DTn在时段k的可用能量,Q(sj,ak)为状态-动作值函数,表示从状态sj出发,执行动作ak后再使用策略π所获得的累计奖赏,Q1表示上一状态时Q(sj,ak)的值;
(8):当|Q1-Q|<θ时,令Q1=Q,计算DTn在时段k的可用能量并根据可用能量和中断概率阈值约束确定DTn在时段k的可选动作集其中θ表示收敛阈值,表示D2D用户的动作空间,表示量化间隔;
(9):根据ε-贪心算法选择DTn在时段k的动作ak,观察下一状态sq并计算其中表示D2D用户处于状态sj时采取动作ak后转移到状态sq的即时奖赏;
(10):选择使Q(sq,ak+1)最大的动作ak+1,根据公式更新Q(sj,ak),并更新状态sj=sq和时段k=k+1;
(11):重复步骤(8)至步骤(10)直至k=K,当k=K时,根据公式tnm=tnm+1更新迭代次数tnm;
(12):重复步骤(8)至步骤(11)直至tnm≥Titer,得到DUn复用上行蜂窝用户i的信道在时段k的优化...
【专利技术属性】
技术研发人员:朱琦,苏娜,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。