一种基于NashQ-Learning的多智能异构网络选择方法技术

技术编号：34384563 阅读：75 留言：0更新日期：2022-08-03 21:05

一种基于Nash Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Nash Q
‑
Learning的多智能异构网络选择方法

[0001]本专利技术属于无线通信领域中的异构网络选择
，尤其是一种基于强化学习的网络选择方法。

技术介绍

[0002]下一代无线网络的主要特征之一就是网络成分的异构性。多种不同类型的网络相互融合，相互补充以求给用户带来更佳的体验。其中，如何在不同类型、不同特征的异构网络当中选择出适合用户的最佳网络，即异构网络选择算法，是异构网络融合的关键之一。在异构网络的选择中，要考虑不同网络之间各种属性的优劣，如接收信号强度、吞吐量、覆盖范围和传输速率等，也要考虑保证网络的可用性，对网络的阻塞率，容量进行控制。另外，在异构网络的选择当中，要从用户的需求和偏好出发，选出最适合用户的网络。
[0003]现有的异构网络选择算法，从不同的角度对网络选择算法进行优化，主要有基于单属性决策的网络选择算法、基于多属性的网络选择算法以及基于强化学习的网路选择算法等。这些方法大多只从比较网络优劣和控制网络可用性其中一个角度切入来设计网络选择算法，没有兼顾两个角度来优化算法。同时当用户和网络处于运动状态的情况也没有被考虑。

技术实现思路

[0004]针对现有的方法只考虑了用户和网络静止的情况，且只从比较网络优劣和控制网络可用性其中一个角度切入设计算法，本专利技术提供了一种基于Nash Q
‑
Learning的多智能异构网络选择方法，该方法可以根据用户业务需求和偏好的不同为用户选择合适的网络，同时对网络的可用容量进行控制...

【技术保护点】

【技术特征摘要】
1.一种基于Nash Q
‑
Learning的多智能异构网络选择方法，网络包含Wi
‑
Fi网络、5G车载网络和5G客户终端设备网络，5G客户终端设备网络由一名用户携带，而Wi
‑
Fi网络和5G车载网络则搭载在同一辆车辆上，另外，有K个用户有在异构网络中进行网络连接的需求，他们的业务分属于M中业务类型；各用户从当前时刻其所处的位置能被覆盖的网络中选择一个网络接入，若用户某一时刻不处于任何网络的覆盖范围内时，则不进行网络选择，每个网络有其能接入设备的容量，分别表示为C1,C2,C3,当网络的可用容量变为0时，新的用户将无法接入该网络；其特征在于，所述基于Nash Q
‑
Learning的多智能异构网络选择方法包括以下步骤：1)根据用户的业务类型将所有用户分为M个智能体，其中每个智能体中的用户的业务类型一致，初始化参数贪婪算法探索概率ε，折扣因子γ和学习率λ，同时为每个智能体创建出M个Q值表，初始值均为0；2)各智能体中的用户将以队列的形式依次进行网络选择，智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行，动作执行完成后环境会给予回报r，智能体在得到汇报之后将其积累到学习经验中，更新Q值表，帮助将来做出更准确、有效的判断；3)各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s，按照基于Nash Q
‑
Learning的网络选择算法选择动作，其中，用户将以ε的概率随机地选择动作，以探索更多的可能性，以1
‑
ε的概率选择满足Nash均衡的动作，以获得更高的收益，执行完动作之后，各智能体根据得到的回报更新所有的Q值表，并让队列中的下一个用户开始进行网络选择；4)循环至步骤3)，直到各个智能体队列中的用户都完成了异构网络选择。2.如权利要求1所述的基于Nash Q
‑
Learning的多智能异构网络选择方法，其特征在于：所述步骤2)中，环境的状态s＝{c1,c2,c3}，分别表示了三个网络的可用容量比例离散量化之后的值，其离散量化规则是可用容量比例处于[0,0.25]，(0.25,0.5]，(0.5,0.75]和(0.75,1]四个区间的值分别1，2，3和4；智能体的动作a
i
∈{1,2,3},i∈{1,2,...,N}，其中，i表示第i个智能体，a
i
＝1,2,3分别表示智能体i选择了...

【专利技术属性】
技术研发人员：卢为党，李晨凯，翁丽霞，曹江，王双双，孔德照，高原，
申请(专利权)人：中国人民解放军军事科学院战争研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人