一种基于演化博弈的网络切片接入强化学习方法技术

技术编号：20082139 阅读：55 留言：0更新日期：2019-01-15 03:00

本发明专利技术公开了一种基于演化博弈的网络切片接入强化学习方法，包括以下步骤：S1、选择初始网络切片接入策略，得到网络初始状态；S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值；S3、利用ε‑Greedy算法选择下一个阶段的网络切片策略；S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值；S5、重复步骤S3、S4，提高系统网络效用。本发明专利技术方法可以准确找到合适的网络切片接入用户终端，既保证了用户的使用体验，又为运营商提供了帮助，减低运营商运营成本，简化网络接入操作。

An Enhanced Learning Method for Network Slice Access Based on Evolutionary Game

The invention discloses a network slice access reinforcement learning method based on evolutionary game, which includes the following steps: S1, selecting the initial network slice access strategy to get the initial state of the network; S2, calculating the cumulative return Q value obtained by using the initial network slice access strategy in the initial state; S3, selecting the next stage network slice strategy by using the epsilon Greedy algorithm; Distributed Q_Learning reinforcement learning algorithm in evolutionary game updates Q value; S5, repetitive R and S4 improve the effectiveness of the system network. The method of the invention can accurately find suitable network slices to access user terminals, which not only guarantees the user's use experience, but also provides help for operators, reduces the operation cost of operators and simplifies the operation of network access.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于演化博弈的网络切片接入强化学习方法
本专利技术属于5G无线网络领域的网络切片选择
，主要涉及到一种基于演化博弈的网络切片接入强化学习方法。
技术介绍
现如今网络信息技术发展越来越快，随着5G网络商用在即，整个无线通信网络的运营进入了铁塔模式，运营商们将共享不断成立的铁塔公司的基站服务，根据性能要求最大化其承载负载。网络切片技术作为5G网络提供的一种重要手段，引起了业界和学术界的极大兴趣。网络切片主要运用网络功能虚拟化和软件自定义网络技术构建一个用户需要的逻辑网络，该技术能够解决最大化网络容量的问题。网络切片技术可以针对不同网络用户的需求提供不同的网络服务功能，它还可以使网络拥有高安全性、低时延、高吞吐量等特性；另外，网络切片技术可以延长网络的运营周期，便于网络管理，有效降低运营商的投入成本。目前针对网络切片技术的研究越来越多，一些国际专家提出了一种基于生物发育和进化机制来调节无线接入点的方法，针对多租户异构云无线接入网(H-CRAN)的网络切片研究也已经处于起步阶段，为了解决网络切片和访问控制的问题，部分专家提出基于三个步骤的启发式算法：频谱分配，访问控制，以及空间复用。在CRAN架构的公开空口和灵活SDN控制器上设计和实现网络切片的原型系统。但是网络切片技术还存在诸多实现难点，比如：如何有效地实现无线网络的资源虚拟化；如何接入不同的运营商切片网络切片等。
技术实现思路
针对多运营商网络接入问题，本专利技术提供了一种基于演化博弈的网络切片接入强化学习方法，通过分布式Q_Learning强化学习不断更新系统Q值，提高网络效用，使用户获得更好的体验。...

【技术保护点】
1.一种基于演化博弈的网络切片接入强化学习方法，其特征在于，包括以下步骤：S1、选择初始网络切片接入策略，得到网络初始状态；S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值；S3、利用ε‑Greedy算法选择下一个阶段的网络切片策略；S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值；S5、重复步骤S3、S4，提高系统的网络效用。

【技术特征摘要】
1.一种基于演化博弈的网络切片接入强化学习方法，其特征在于，包括以下步骤：S1、选择初始网络切片接入策略，得到网络初始状态；S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值；S3、利用ε-Greedy算法选择下一个阶段的网络切片策略；S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值；S5、重复步骤S3、S4，提高系统的网络效用。2.根据权利要求1所述的一种基于演化博弈的网络切片接入强化学习方法，其特征在于，通过基于演化博弈的复制动态分布式强化学习算法选择步骤S1中的初始网络切片接入策略，具体步骤如下：S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用其中，是用户选择策略ki时获得的期望效用，是用户选择策略ki时对应的吞吐量，是用户选择策略ki时对应的功耗，ki表示选择网络切片i，ki∈K，K＝{k1,...,ki,...,kT}，i＝1,...,T，T是网络切片总个数，参数λ用以对吞吐量进行归一化，参数μ用以对功耗值进行归一化；S12、计算用户...

【专利技术属性】
技术研发人员：吴国民，盛子明，佘亚威，谭国平，蒋德富，田心阳，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人