D2D网络中基于BS强化学习模型的多度量中继选择方法技术

技术编号：35413135 阅读：30 留言：0更新日期：2022-11-03 11:10

一种D2D网络中基于BS强化学习模型的多度量中继选择方法，该方法应用BS强化学习模型对中继选择过程进行建模，将环境的实时反馈定义为信噪比和中继用户设备剩余能量的综合值，与期望反馈进行对比，强化实际反馈高于期望反馈的中继的选择概率，以促使系统选择性能更优的中继，提高网络的生存时间。提高网络的生存时间。提高网络的生存时间。

全部详细技术资料下载

【技术实现步骤摘要】
D2D网络中基于BS强化学习模型的多度量中继选择方法

[0001]本专利技术属于无线通信领域中的D2D通信
，尤其是一种基于强化学习中继选择方法。

技术介绍

[0002]D2D通信作为一种短距离的通信技术，既可以在基站的控制下进行通信，也可以在无基站控制下直接进行通信。D2D网络中的每个用户设备都配备无线通信收发装置，能发送和接收信号，当用户设备之间距离过远时，可以借助中继设备进行转发。如何选择合适的中继设备，在源设备和目的设备之间建立准确且可靠的数据传输路径是一个值得研究的问题。
[0003]针对不同的需求和应用场景，在进行中继选择时，可以依据多种中继选择的准则来进行，例如，基于位置信息、最小功耗、最大信噪比、最优链路等，这些中继选择策略在选择过程中加入了不同的度量因素，但是都没有综合考虑多方面的因素。除此之外，D2D网络中用户设备的位置会实时变化，网络拓扑结构和信道信息也会随之改变，因此，在复杂多变的D2D网络中如何准确高效地选择中继来转发信息是一个十分关键的问题。近年来强化学习方法常被用于解决中继选择问题，该方法能够综合考虑多方面的度量因素和用户位置实时的变化，从而来选择一条最优的数据传输路径。

技术实现思路

[0004]为了克服现有技术的不足，综合考虑多方面因素选择最优的中继来传输信息，本专利技术提出了一种D2D网络中基于BS强化学习模型的多度量中继选择方法，该方法基于BS强化学习模型对中继选择过程进行建模，在D2D网络环境发生变化和用户设备实时移动的情况下能够快速且准确地找到一...

【技术保护点】

【技术特征摘要】
1.一种D2D网络中基于BS强化学习模型的多度量中继选择方法，假设在一个D2D网络场景中，用户设备S要和另一用户设备D进行通信，由于两者距离过大，无法直接进行通信，需要合适的用户设备作为中继来进行转发，假设候选中继集合为R
e
，R
e
中共有M个用户设备，网络中所有的D2D用户设备都处于移动状态，其特征在于，所述D2D网络中基于BS强化学习模型的多度量中继选择方法包括以下步骤：1)初始化候选中继的概率向量P(t)和期望反馈Q(t)；2)根据概率向量P(t)在候选中继集合R
e
中选择一个概率最大的中继来转发信息，然后计算出实际反馈π(t)，并将其与期望反馈Q(t)比较，同时计算出强化参数α(t)；3)根据比较结果更新下一时刻候选中继的概率向量P(t+1)和期望反馈Q(t+1)；4)循环至步骤2)，直至没有中继可以进行选择。2.如权利要求1所述的D2D网络中基于BS强化学习模型的多度量中继选择方法，其特征在于：所述步骤1)中，概率向量P(t)＝[p1(t),p2(t),...,p
M
(t)]，其中，p
i
(t)，i∈{1,2,...,M}表示在t时刻选择中继R
i
的概率，且初始值3.如权利要求1或2所述的D2D网络中基于BS强化学习模型的多度量中继选择方法，其特征在于：所述步骤2)中，实际反馈π(t)根据下式进行计算：其中，ω1和ω2分别表示实际反馈中信噪比和剩余能量的权重，并且ω1+ω2＝1，和分别表示t时刻选择的中继链路信噪比和中继用户设备的剩余能量经规范化处理后的数值，表示为：理后的数值，表示...

【专利技术属性】
技术研发人员：卢为党，金晶，翁丽霞，李晨凯，黄国兴，张昱，徐禺昕，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人