D2D网络中基于BS强化学习模型的多度量中继选择方法技术

技术编号:35413135 阅读:22 留言:0更新日期:2022-11-03 11:10
一种D2D网络中基于BS强化学习模型的多度量中继选择方法,该方法应用BS强化学习模型对中继选择过程进行建模,将环境的实时反馈定义为信噪比和中继用户设备剩余能量的综合值,与期望反馈进行对比,强化实际反馈高于期望反馈的中继的选择概率,以促使系统选择性能更优的中继,提高网络的生存时间。提高网络的生存时间。提高网络的生存时间。

【技术实现步骤摘要】
D2D网络中基于BS强化学习模型的多度量中继选择方法


[0001]本专利技术属于无线通信领域中的D2D通信
,尤其是一种基于强化学习中继选择方法。

技术介绍

[0002]D2D通信作为一种短距离的通信技术,既可以在基站的控制下进行通信,也可以在无基站控制下直接进行通信。D2D网络中的每个用户设备都配备无线通信收发装置,能发送和接收信号,当用户设备之间距离过远时,可以借助中继设备进行转发。如何选择合适的中继设备,在源设备和目的设备之间建立准确且可靠的数据传输路径是一个值得研究的问题。
[0003]针对不同的需求和应用场景,在进行中继选择时,可以依据多种中继选择的准则来进行,例如,基于位置信息、最小功耗、最大信噪比、最优链路等,这些中继选择策略在选择过程中加入了不同的度量因素,但是都没有综合考虑多方面的因素。除此之外,D2D网络中用户设备的位置会实时变化,网络拓扑结构和信道信息也会随之改变,因此,在复杂多变的D2D网络中如何准确高效地选择中继来转发信息是一个十分关键的问题。近年来强化学习方法常被用于解决中继选择问题,该方法能够综合考虑多方面的度量因素和用户位置实时的变化,从而来选择一条最优的数据传输路径。

技术实现思路

[0004]为了克服现有技术的不足,综合考虑多方面因素选择最优的中继来传输信息,本专利技术提出了一种D2D网络中基于BS强化学习模型的多度量中继选择方法,该方法基于BS强化学习模型对中继选择过程进行建模,在D2D网络环境发生变化和用户设备实时移动的情况下能够快速且准确地找到一条最优路径进行数据传输,保证线路信噪比性能的同时综合考虑用户设备能量有限的特点,有效提高网络的生存时间。
[0005]为了解决上述技术问题,本专利技术提供如下的技术方案:
[0006]一种D2D网络中基于BS强化学习模型的多度量中继选择方法,假设在一个D2D网络场景中,用户设备S要和另一用户设备D进行通信,由于两者距离过大,无法直接进行通信,需要合适的用户设备作为中继来进行转发,假设候选中继集合为R
e
,R
e
中共有M个用户设备,网络中所有的D2D用户设备都处于移动状态,所述D2D网络中基于BS强化学习模型的多度量中继选择方法包括以下步骤:
[0007]1)初始化候选中继的概率向量P(t)和期望反馈Q(t);
[0008]2)根据概率向量P(t)在候选中继集合R
e
中选择一个概率最大的中继来转发信息,然后计算出实际反馈π(t),并将其与期望反馈Q(t)比较,同时计算出强化参数α(t);
[0009]3)根据比较结果更新下一时刻候选中继的概率向量P(t+1)和期望反馈Q(t+1);
[0010]4)循环至步骤2),直至没有中继可以进行选择。
[0011]进一步,所述步骤1)中,概率向量P(t)=[p1(t),p2(t),...,p
M
(t)],其中,p
i
(t),i
∈{1,2,...,M}表示在t时刻选择中继R
i
的概率,且初始值
[0012]所述步骤2)中,实际反馈π(t)根据下式进行计算:
[0013][0014]其中,ω1和ω2分别表示实际反馈中信噪比和剩余能量的权重,并且ω1+ω2=1,和分别表示t时刻选择的中继链路信噪比和中继用户设备的剩余能量经规范化处理后的数值,表示为:
[0015][0016][0017]其中,表示当仅考虑中继在发送和接收状态时需要消耗能量时,t时刻中继R
i
的剩余能量,表示0到t时间内的值的集合,表示t时刻链路的总信噪比,信噪比,和分别表示中继第一阶段和第二阶段接收到的信噪比,表示为:
[0018][0019][0020]其中,p
s
表示源用户设备S的发送功率,表示源用户设备S和中继R
i
之间的信道增益,并且增益,并且表示源用户设备S到中继R
i
的距离,m表示路径损耗指数,表示加性高斯白噪声,p
r
表示中继R
i
的发送功率,表示中继R
i
和目的设备D之间的信道增益,并且D之间的信道增益,并且表示中继R
i
到目的设备D之间的距离,表示加性高斯白噪声;
[0021]强化参数α(t)根据下式进行计算:
[0022]α(t)=|π(t)

Q(t)|
ꢀꢀ
(6)。
[0023]再进一步,所述步骤3)中,下一时刻候选中继的概率向量P(t+1)按照以下方式进行更新:
[0024]如果π(t)≥Q(t),则:
[0025][0026]如果π(t)<Q(t),则:
[0027][0028]其中k表示当前选择了第k个中继进行转发;
[0029]下一时刻的期望反馈Q(t+1)按照以下方式进行更新:
[0030]Q(t+1)=(1

δ)
·
Q(t)+δ
·
π(t)
ꢀꢀ
(9)
[0031]其中,δ表示期望反馈的调整参数,且0<δ<1。
[0032]本专利技术的技术构思为:本专利采用BS强化学习模型对中继选择过程进行建模,通过汲取与环境信噪比和中继用户设备的剩余能量等因素的交互学习得到实际反馈,与期望反馈进行对比,并不断进行概率和反馈的更新,促使系统选择性能更优的中继。
[0033]本专利技术的有益效果主要表现在:将中继选择过程通过BS强化学习模型进行建模,综合考虑了信噪比和能量的因素,选择最优的中继转发信息。
附图说明
[0034]图1是本专利技术方法的系统模型示意图;
[0035]图2是中继平均存活时间随ω2变化图。
具体实施方式
[0036]下面结合附图对本专利技术作进一步描述。
[0037]参照图1和图2,一种D2D网络中基于BS强化学习模型的多度量中继选择方法,利用BS强化学习模型对中继选择过程进行建模,综合考虑了环境信噪比和中继用户设备的剩余能量等因素,促使系统选择最优的中继进行转发,采用以下过程实现:
[0038]本实施方式的方法中,首先初始化候选中继的概率向量P(t)和期望反馈Q(t),概率向量P(t)=[p1(t),p2(t),

,p
M
(t)],其中,p
i
(t),i∈{1,2,...,M}表示在t时刻选择中继R
i
的概率,且初始值根据概率向量在候选中继集合中选择一个概率最大的中继来转发信息;
[0039]然后计算实际反馈π(t)和强化参数α(t):
[0040][0041]α(t)=|π(t)

Q(t)|
ꢀꢀ
(6)其中,ω1和ω2分别表示实际反馈中信噪比和剩余能量的权重,并且ω1+ω2=1,和分别表示t时刻选择的中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种D2D网络中基于BS强化学习模型的多度量中继选择方法,假设在一个D2D网络场景中,用户设备S要和另一用户设备D进行通信,由于两者距离过大,无法直接进行通信,需要合适的用户设备作为中继来进行转发,假设候选中继集合为R
e
,R
e
中共有M个用户设备,网络中所有的D2D用户设备都处于移动状态,其特征在于,所述D2D网络中基于BS强化学习模型的多度量中继选择方法包括以下步骤:1)初始化候选中继的概率向量P(t)和期望反馈Q(t);2)根据概率向量P(t)在候选中继集合R
e
中选择一个概率最大的中继来转发信息,然后计算出实际反馈π(t),并将其与期望反馈Q(t)比较,同时计算出强化参数α(t);3)根据比较结果更新下一时刻候选中继的概率向量P(t+1)和期望反馈Q(t+1);4)循环至步骤2),直至没有中继可以进行选择。2.如权利要求1所述的D2D网络中基于BS强化学习模型的多度量中继选择方法,其特征在于:所述步骤1)中,概率向量P(t)=[p1(t),p2(t),...,p
M
(t)],其中,p
i
(t),i∈{1,2,...,M}表示在t时刻选择中继R
i
的概率,且初始值3.如权利要求1或2所述的D2D网络中基于BS强化学习模型的多度量中继选择方法,其特征在于:所述步骤2)中,实际反馈π(t)根据下式进行计算:其中,ω1和ω2分别表示实际反馈中信噪比和剩余能量的权重,并且ω1+ω2=1,和分别表示t时刻选择的中继链路信噪比和中继用户设备的剩余能量经规范化处理后的数值,表示为:理后的数值,表示...

【专利技术属性】
技术研发人员:卢为党金晶翁丽霞李晨凯黄国兴张昱徐禺昕
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1