一种基于NashQ-Learning的多智能异构网络选择方法技术

技术编号:34384563 阅读:60 留言:0更新日期:2022-08-03 21:05
一种基于Nash Q

【技术实现步骤摘要】
一种基于Nash Q

Learning的多智能异构网络选择方法


[0001]本专利技术属于无线通信领域中的异构网络选择
,尤其是一种基于强化学习的网络选择方法。

技术介绍

[0002]下一代无线网络的主要特征之一就是网络成分的异构性。多种不同类型的网络相互融合,相互补充以求给用户带来更佳的体验。其中,如何在不同类型、不同特征的异构网络当中选择出适合用户的最佳网络,即异构网络选择算法,是异构网络融合的关键之一。在异构网络的选择中,要考虑不同网络之间各种属性的优劣,如接收信号强度、吞吐量、覆盖范围和传输速率等,也要考虑保证网络的可用性,对网络的阻塞率,容量进行控制。另外,在异构网络的选择当中,要从用户的需求和偏好出发,选出最适合用户的网络。
[0003]现有的异构网络选择算法,从不同的角度对网络选择算法进行优化,主要有基于单属性决策的网络选择算法、基于多属性的网络选择算法以及基于强化学习的网路选择算法等。这些方法大多只从比较网络优劣和控制网络可用性其中一个角度切入来设计网络选择算法,没有兼顾两个角度来优化算法。同时当用户和网络处于运动状态的情况也没有被考虑。

技术实现思路

[0004]针对现有的方法只考虑了用户和网络静止的情况,且只从比较网络优劣和控制网络可用性其中一个角度切入设计算法,本专利技术提供了一种基于Nash Q

Learning的多智能异构网络选择方法,该方法可以根据用户业务需求和偏好的不同为用户选择合适的网络,同时对网络的可用容量进行控制,保证各个网络的可用性。该算法将网络的吞吐量和可用容量比例作为环境反馈的回报的参数,根据业务类型将用户划分为多个智能体,利用基于Nash Q

Learning的网络选择算法进行学习和决策。
[0005]为了解决上述技术问题,本专利技术提供如下的技术方案:
[0006]一种基于Nash Q

Learning的多智能异构网络选择方法,网络包含Wi

Fi网络、5G车载网络和5G客户终端设备网络,5G客户终端设备网络由一名用户携带,而Wi

Fi网络和5G车载网络则搭载在同一辆车辆上,另外,有K个用户有在异构网络中进行网络连接的需求,他们的业务分属于M中业务类型;
[0007]异构网络中的各个网络覆盖范围不同,且其随着网络的移动而发生变化,各用户从当前时刻其所处的位置能被覆盖的网络中选择一个网络接入,若用户某一时刻不处于任何网络的覆盖范围内时,则不进行网络选择,每个网络有其能接入设备的容量,分别表示为C1,C2,C3,当网络的可用容量变为0时,新的用户将无法接入该网络,所述基于Nash Q

Learning的多智能异构网络选择方法包括以下步骤:
[0008]1)根据用户的业务类型将所有用户分为M个智能体,其中每个智能体中的用户的业务类型一致,初始化参数贪婪算法探索概率ε,折扣因子γ和学习率λ,同时为每个智能体
创建出M个Q值表,初始值均为0;
[0009]2)各智能体中的用户将以队列的形式依次进行网络选择,智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行,动作执行完成后环境会给予回报r,智能体在得到汇报之后将其积累到学习经验中,更新Q值表,帮助将来做出更准确、有效的判断;
[0010]3)各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s,按照基于Nash Q

Learning的网络选择算法选择动作,其中,用户将以ε的概率随机地选择动作,以探索更多的可能性,以1

ε的概率选择满足Nash均衡的动作,以获得更高的收益,执行完动作之后,各智能体根据得到的回报r更新所有的Q值表,并让队列中的下一个用户开始进行网络选择;
[0011]4)循环至步骤3),直到各个智能体队列中的用户都完成了异构网络选择。
[0012]进一步,所述步骤2)中,环境的状态s={c1,c2,c3},分别表示了三个网络的可用容量比例离散量化之后的值,其离散量化规则是可用容量比例处于[0,0.25],(0.25,0.5],(0.5,0.75]和(0.75,1]四个区间的值分别1,2,3和4;
[0013]动作a
i
∈{1,2,3},i∈{1,2,...,N},其中,i表示第i个智能体,a
i
=1,2,3分别表示智能体i选择了Wi

Fi网络、5G车载网络和5G客户终端设备网络;
[0014]智能体i的回报函数定义为
[0015]r
i
=ω
i
p+θv,i∈{1,2,...,N}
ꢀꢀ
(1)
[0016]其中,ω
i
代表了智能体i也就是业务i对于吞吐量的偏好,θ则代表了系统对于网络可用性的控制程度,p为吞吐量经过规范化处理之后的值,v则是网络可用性指标,这里使用可用容量比例的方差经过规范化处理之后的值;
[0017]因为吞吐量和网络可用性指标的量级不同,需要对它们进行规范化处理,它们的规范化公式分别为:
[0018][0019][0020]其中,tp
i
为吞吐量的值,p
i
为吞吐量经过规范化之后的值,tv
i
为可用性指标的值,v
i
为可用性指标经过规范化之后的值,x=min(tp),y=max(tp),f=min(tv),g=max(tv)。
[0021]再进一步,所述步骤3)中,在基于Nash Q

Learning的网络选择算法中,各个智能体同时执行网络选择动作,且每个智能体中有且只有一个用户执行网络选择动作,也就是说,如果有M个智能体,则共有M个用户在同一时刻一起进行异构网络选择,它们的动作组成一个联合动作(a1,a2,...,a
M
),为取得尽可能高的收益,多智能体的联合动作要满足Nash均衡,用Y来表示状态

动作对的价值函数,多智能体的联合动作为符合的动作表明在Nash均衡点处,各个智能体的动作是其它智能体动作确定时的最优动作;
[0022]各个智能体处均具备M个Q值表,分别对应着M个智能体,当各个智能体接收到回报之后,将按照下面的公式更新Q值:
[0023][0024]其中,
[0025][0026](a1,a2,...,a
N
)是多智能体的联合动作,s是环境当前时刻的状态,s

则是环境在多智能体执行完联合动作之后的下一时刻状态,π
i
(s

),i=1,2,..,N是智能体i在状态s

下满足Nash均衡的动作,则是智能体i在状态s

下执行满足Nash均衡的联合动作后的收益。
[0027]本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Nash Q

Learning的多智能异构网络选择方法,网络包含Wi

Fi网络、5G车载网络和5G客户终端设备网络,5G客户终端设备网络由一名用户携带,而Wi

Fi网络和5G车载网络则搭载在同一辆车辆上,另外,有K个用户有在异构网络中进行网络连接的需求,他们的业务分属于M中业务类型;各用户从当前时刻其所处的位置能被覆盖的网络中选择一个网络接入,若用户某一时刻不处于任何网络的覆盖范围内时,则不进行网络选择,每个网络有其能接入设备的容量,分别表示为C1,C2,C3,当网络的可用容量变为0时,新的用户将无法接入该网络;其特征在于,所述基于Nash Q

Learning的多智能异构网络选择方法包括以下步骤:1)根据用户的业务类型将所有用户分为M个智能体,其中每个智能体中的用户的业务类型一致,初始化参数贪婪算法探索概率ε,折扣因子γ和学习率λ,同时为每个智能体创建出M个Q值表,初始值均为0;2)各智能体中的用户将以队列的形式依次进行网络选择,智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行,动作执行完成后环境会给予回报r,智能体在得到汇报之后将其积累到学习经验中,更新Q值表,帮助将来做出更准确、有效的判断;3)各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s,按照基于Nash Q

Learning的网络选择算法选择动作,其中,用户将以ε的概率随机地选择动作,以探索更多的可能性,以1

ε的概率选择满足Nash均衡的动作,以获得更高的收益,执行完动作之后,各智能体根据得到的回报更新所有的Q值表,并让队列中的下一个用户开始进行网络选择;4)循环至步骤3),直到各个智能体队列中的用户都完成了异构网络选择。2.如权利要求1所述的基于Nash Q

Learning的多智能异构网络选择方法,其特征在于:所述步骤2)中,环境的状态s={c1,c2,c3},分别表示了三个网络的可用容量比例离散量化之后的值,其离散量化规则是可用容量比例处于[0,0.25],(0.25,0.5],(0.5,0.75]和(0.75,1]四个区间的值分别1,2,3和4;智能体的动作a
i
∈{1,2,3},i∈{1,2,...,N},其中,i表示第i个智能体,a
i
=1,2,3分别表示智能体i选择了...

【专利技术属性】
技术研发人员:卢为党李晨凯翁丽霞曹江王双双孔德照高原
申请(专利权)人:中国人民解放军军事科学院战争研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1