当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于演化博弈的网络切片接入强化学习方法技术

技术编号:20082139 阅读:47 留言:0更新日期:2019-01-15 03:00
本发明专利技术公开了一种基于演化博弈的网络切片接入强化学习方法,包括以下步骤:S1、选择初始网络切片接入策略,得到网络初始状态;S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;S3、利用ε‑Greedy算法选择下一个阶段的网络切片策略;S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;S5、重复步骤S3、S4,提高系统网络效用。本发明专利技术方法可以准确找到合适的网络切片接入用户终端,既保证了用户的使用体验,又为运营商提供了帮助,减低运营商运营成本,简化网络接入操作。

An Enhanced Learning Method for Network Slice Access Based on Evolutionary Game

The invention discloses a network slice access reinforcement learning method based on evolutionary game, which includes the following steps: S1, selecting the initial network slice access strategy to get the initial state of the network; S2, calculating the cumulative return Q value obtained by using the initial network slice access strategy in the initial state; S3, selecting the next stage network slice strategy by using the epsilon Greedy algorithm; Distributed Q_Learning reinforcement learning algorithm in evolutionary game updates Q value; S5, repetitive R and S4 improve the effectiveness of the system network. The method of the invention can accurately find suitable network slices to access user terminals, which not only guarantees the user's use experience, but also provides help for operators, reduces the operation cost of operators and simplifies the operation of network access.

【技术实现步骤摘要】
一种基于演化博弈的网络切片接入强化学习方法
本专利技术属于5G无线网络领域的网络切片选择
,主要涉及到一种基于演化博弈的网络切片接入强化学习方法。
技术介绍
现如今网络信息技术发展越来越快,随着5G网络商用在即,整个无线通信网络的运营进入了铁塔模式,运营商们将共享不断成立的铁塔公司的基站服务,根据性能要求最大化其承载负载。网络切片技术作为5G网络提供的一种重要手段,引起了业界和学术界的极大兴趣。网络切片主要运用网络功能虚拟化和软件自定义网络技术构建一个用户需要的逻辑网络,该技术能够解决最大化网络容量的问题。网络切片技术可以针对不同网络用户的需求提供不同的网络服务功能,它还可以使网络拥有高安全性、低时延、高吞吐量等特性;另外,网络切片技术可以延长网络的运营周期,便于网络管理,有效降低运营商的投入成本。目前针对网络切片技术的研究越来越多,一些国际专家提出了一种基于生物发育和进化机制来调节无线接入点的方法,针对多租户异构云无线接入网(H-CRAN)的网络切片研究也已经处于起步阶段,为了解决网络切片和访问控制的问题,部分专家提出基于三个步骤的启发式算法:频谱分配,访问控制,以及空间复用。在CRAN架构的公开空口和灵活SDN控制器上设计和实现网络切片的原型系统。但是网络切片技术还存在诸多实现难点,比如:如何有效地实现无线网络的资源虚拟化;如何接入不同的运营商切片网络切片等。
技术实现思路
针对多运营商网络接入问题,本专利技术提供了一种基于演化博弈的网络切片接入强化学习方法,通过分布式Q_Learning强化学习不断更新系统Q值,提高网络效用,使用户获得更好的体验。为解决上述技术问题,本专利技术采用了如下技术手段:一种基于演化博弈的网络切片接入强化学习方法,在多运营商无线网络场景下,用户终端可以选择单个或多个网络切片接入,所有的网络切片接入策略构成一个网络切片接入策略集合K,K={k1,...,ki,...,kT},ki表示选择网络切片i,ki∈K,i=1,...,T,T是网络切片总个数。本方法具体包括以下步骤:S1、选择初始网络切片接入策略,得到网络初始状态;S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;S3、利用ε-Greedy算法选择下一个阶段的网络切片策略;S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;S5、重复步骤S3、S4,提高系统的网络效用。进一步的,通过基于演化博弈的复制动态分布式强化学习算法选择步骤S1中的初始网络切片接入策略,具体步骤如下:S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用其中,是用户选择策略ki时获得的期望效用,是用户选择策略ki时对应的吞吐量,是用户选择策略ki时对应的功耗,参数λ用以对吞吐量进行归一化,参数μ用以对功耗值进行归一化;S12、计算用户获得的平均效用Uk_i:其中,Pi是用户选择网络切片i的概率;S13、基于演化博弈理论构建网络切片接入的复制动态方程,计算复制动态方程的均衡点;S14、采用雅可比矩阵局部稳定性分析方法获得整个网络切片接入的演化均衡解。进一步的,所述的步骤S13中的复制动态方程如下:其中,t表示当前阶段,ε是策略调整因子,ε∈[0,1]。进一步的,所述的步骤S4更新Q值的方程为:其中,Qt+1(st+1,kj)表示t+1阶段状态st+1下采用策略kj获得的累积回报,Qt(st,ki)表示t阶段状态st下采用策略ki获得的累积回报,kj∈K,j=1,...,T,αt是学习速率,αt∈[0,1],rt是采用策略ki对应的短期回报,γ是折扣系数,γ∈[0,1],表示当前阶段对应的下一阶段中最大的Q值。采用以上技术手段后可以获得以下优势:本专利技术公开了一种基于演化博弈的网络切片接入强化学习方法,通过复制动态方程的进化均衡解获得网络切片初始策略,在初始策略和初始状态下通过分布式Q_Learning强化学习算法不断更新系统Q值,最大化网络切片接入得到的网络效用,使用户获得更好的体验。本专利技术方法可以准确找到合适的网络切片接入用户终端,既保证了用户的使用体验,又为运营商提供了帮助,减低运营商运营成本,简化网络接入操作。附图说明图1为本专利技术一种基于演化博弈的网络切片接入强化学习方法的流程示意图。图2为本专利技术无线网络多个运营商的网络切片场景示意图。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明:一种基于演化博弈的网络切片接入强化学习方法,如图1所示,具体包括以下步骤:S1、选择初始网络切片接入策略,得到网络初始状态;S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;S3、利用ε-Greedy算法选择下一个阶段的网络切片策略;S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;S5、重复步骤S3、S4,提高系统的网络效用。本专利技术无线网络多个运营商的网络切片场景如图2所示,为了方便下面的算法评估,用户终端随机分布在网络场景中且静止的,某个网络终端可以选择一个或多个网络切片来接入网络。当有T个网络切片可以选择,用户选择网络切片的策略集合为K,K={k1,...,ki,...,kT},ki表示选择网络切片i,ki∈K,i=1,...,T;比如,有网络切片1和网络切片2,用户选择网络的策略集合为K={网络切片1,网络切片2}。本专利技术方法通过基于演化博弈的复制动态分布式强化学习算法选择初始网络切片接入策略,将所有的网络切片接入策略随机划分成两两一组进行比较,效果好的策略再进行比较,以此类推,知道找到效果最好的策略。下面通过网络切片1和网络切片2的对比来具体分析:S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用,用户选择网络切片1的期望效果为:用户选择网络切片2的期望效果为:其中,和分别表示用户选择策略网络切片1和网络切片2时对应的吞吐量,和分别表示用户选择网络切片1和网络切片2时对应的功耗,参数λ用以对吞吐量进行归一化,参数μ用以对功耗值进行归一化;S12、在这一组对比计算中,用户选择网络切片1的概率为P1,用户选择网络切片2的概率为P2=1-P1,用户获得的平均效用为:S13、基于演化博弈理论构建网络切片接入的复制动态方程,计算复制动态方程的均衡点;用户选择网络切片1的复制动态方程为:同理可知,用户选择切片2的复制动态方程为:其中,t表示当前阶段,ε是策略调整因子,ε∈[0,1]。当时,可以得到均衡点(P1,P2):(0,1)和(1,0)。S14、采用雅可比矩阵局部稳定性分析方法获得整个网络切片接入的演化均衡解;在复制动态方程中,当其均衡点等于局部渐进稳定点,则这个均衡点就是这个动态体系的进化均衡点ESS。雅克比矩阵如下:其中,当均衡点同时满足行列式det(JAC)>0和迹tr(JAC)<0,该均衡点就是进化均衡点ESS,即满足:在确定了初始网络切片接入策略之后,计算初始状态下采用初始网络切片接入策略获得的累计回报Q值,接着本专利技术方法利用ε-Greedy算法选择下一个阶段的网络切片策略,在该算法中,每个状态下有ε的概率随机选取行动,否则会选取当前状态下Q值较大的动作。马尔可夫决策过程(MDP)是一个网络中的终端用户总体与提供服务的网络切片之间进行互本文档来自技高网...

【技术保护点】
1.一种基于演化博弈的网络切片接入强化学习方法,其特征在于,包括以下步骤:S1、选择初始网络切片接入策略,得到网络初始状态;S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;S3、利用ε‑Greedy算法选择下一个阶段的网络切片策略;S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;S5、重复步骤S3、S4,提高系统的网络效用。

【技术特征摘要】
1.一种基于演化博弈的网络切片接入强化学习方法,其特征在于,包括以下步骤:S1、选择初始网络切片接入策略,得到网络初始状态;S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;S3、利用ε-Greedy算法选择下一个阶段的网络切片策略;S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;S5、重复步骤S3、S4,提高系统的网络效用。2.根据权利要求1所述的一种基于演化博弈的网络切片接入强化学习方法,其特征在于,通过基于演化博弈的复制动态分布式强化学习算法选择步骤S1中的初始网络切片接入策略,具体步骤如下:S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用其中,是用户选择策略ki时获得的期望效用,是用户选择策略ki时对应的吞吐量,是用户选择策略ki时对应的功耗,ki表示选择网络切片i,ki∈K,K={k1,...,ki,...,kT},i=1,...,T,T是网络切片总个数,参数λ用以对吞吐量进行归一化,参数μ用以对功耗值进行归一化;S12、计算用户...

【专利技术属性】
技术研发人员:吴国民盛子明佘亚威谭国平蒋德富田心阳
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1