一种基于近端策略优化算法优化网络流量调度方法技术

技术编号:36183411 阅读:22 留言:0更新日期:2022-12-31 20:41
本发明专利技术涉及深度学习技术领域,具体涉及一种基于近端策略优化算法优化网络流量调度方法,针对软件定义网络的数据平面具有时间特征和空间特征,为了全局地考虑网络的时空相关性,提出了使用门控循环单元和图注意力网络方法提取状态信息中的时序相关性和空间相关性,为深度强化学习的决策提供包含更多环境的隐含信息,从而解决网络流量工程问题,充分利用网络资源动态调整网络负载,有效缓解网络链路拥塞,进而优化网络性能。进而优化网络性能。进而优化网络性能。

【技术实现步骤摘要】
一种基于近端策略优化算法优化网络流量调度方法


[0001]本专利技术涉及深度学习
,具体涉及一种基于近端策略优化算法优化网络流量调度方法。

技术介绍

[0002]近年来,随着互联网快速发展,网络的规模日趋庞大,社交媒体、高清影视、在线游戏以及5G的普及使得网络流量迅速增长,传统的转发网络压力日益见长。为了适应网络规模的持续增长,更灵活、更智能、流量承载能力更高的网络架构,即软件定义网络(Software DefinedNetworking,SDN)应运而生。在对于智能化SDN网络的优化目标中,流量工程(Traffic Engineering,TE)优化是一个重要领域。针对各种网络场景的TE优化目标,存在大量基于流的路由、链路状态协议或覆盖网络等等技术的方案。在相关文献中解决的一个基本TE问题是域内TE,即同一个自治域的网络如运营商网络、数据中心网络或园区网等等,其中经典的优化目标是最小化自管理网络域内的最大链路负载,这已经被证实是一个NP

hard问题。
[0003]在过去的几年里,研究人员将机器学习(Machine Learning,ML)应用于复杂的网络控制和管理问题,尤其是深度强化学习(Deep Reinforcement Learning,DRL)技术应用在网络控制上取得了显著成果。但现有的DRL应用于SDN的研究还没有关注到SDN网络的特性,这使得DRL算法在SDN网络性能优化的表现有所局限。定制化的深度强化学习模型在特定的网络场景下表现较优,但在其他网络环境的场景下的泛化能力有待验证。而通过其他网络如CNN、RNN或GNN进行优化的DRL算法仅考虑到了网络时序相关性或网络空间相关性,没有全局地考虑网络的时空相关性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于近端策略优化算法优化网络流量调度方法,解决现有强化学习方法未考虑网络时序相关性或网络空间相关性,在SDN网络性能优化效果不佳的问题。
[0005]为实现上述目的,本专利技术提供了一种基于近端策略优化算法优化网络流量调度方法,包括下列步骤:
[0006]构建ASTPPO系统架构;
[0007]采集网络链路信息和网络拓扑信息;
[0008]分别生成状态信息和奖励值;
[0009]以所述状态信息和所述奖励值为输入,获得动作值并转发;
[0010]基于所述动作值生成SDN流表,下发所述SDN流表进行流量调度。
[0011]其中,所述ASTPPO系统架构包括数据交换层、控制层和智能决策层,所述数据交换层由支持SDN工作协议的SDN交换机组成,所述控制层与数据交换层通过南向接口连接,与智能决策层通过北向接口连接,所述智能决策层输出链路权重用于路由策略更新。
[0012]其中,在采集网络链路信息和网络拓扑信息的过程中,控制层的信息收集器每隔一段时间通过南向接口从数据交换层的SDN交换机采集网络链路信息,控制层的拓扑发现器每隔一段时间通过南向接口从数据交换层的SDN交换机采集网络拓扑信息。
[0013]其中,分别生成状态信息和奖励值的过程,具体为控制层的信息收集器处理网络链路信息,生成输入智能决策层中智能体的状态信息,控制层的奖励函数模块处理信息收集器采集的网络链路信息,生成输入智能决策层智能体的奖励值,状态信息和奖励值均通过北向接口传输给智能体。
[0014]其中,以所述状态信息和所述奖励值为输入,获得动作值并转发的过程,具体为所述智能体接收状态信息和奖励值作为智能体算法的输入,使用智能体算法生成网络拓扑中的链路权重作为智能体决策的动作值,用于网络流量调度策略优化,随后通过北向接口将动作值传输给控制层的流表下发器。
[0015]其中,所述智能体算法中设计门控循环单元模块、自注意力机制模块和图注意力网络模块进行特征提取,其中通过门控循环单元模块捕获输入状态的时序相关信息,并使用自注意力机制模块计算权重,通过图注意力网络模块捕获输入状态的空间相关信息,最终使输出的动作值具有较好的优化性能和泛化能力。
[0016]其中,在基于所述动作值生成SDN流表,下发所述SDN流表进行流量调度的过程中,控制层的流表下发器接收智能体下发的动作值,并结合拓扑发现器采集的网络拓扑信息生成SDN流表,通过南向接口把SDN流表下发给数据交换层的SDN交换机。
[0017]本专利技术提供了一种基于近端策略优化算法优化网络流量调度方法,针对软件定义网络的数据平面具有时间特征和空间特征,为了全局地考虑网络的时空相关性,提出了使用门控循环单元和图注意力网络方法提取状态信息中的时序相关性和空间相关性,使深度强化学习能够关注到网络的空间信息和时序信息,为强化学习的决策提供包含更多环境的隐含信息,从而解决网络TE问题,充分利用网络资源,实现了在负载均衡上有较高的可用性和较好的性能。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术的一种基于近端策略优化算法优化网络流量调度方法的ASTPPO系统架构示意图。
[0020]图2是本专利技术的ASTPPO基础模型中的智能体架构图。
[0021]图3是本专利技术的门控循环单元模块输入输出示意图。
具体实施方式
[0022]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0023]以下为说明书中对应的术语缩写说明:
[0024]基于注意机制和时空相关性的近端策略优化算法(ASTPPO:Proximal Policy Optimizationbased onAttention mechanism and Spatio

Temporal correlation);
[0025]门控循环单元(GRU:Gate RecurrentUnit);
[0026]自注意力机制模块(self

attention);
[0027]图注意力网络(GAT:GraphAttentionNetwork);
[0028]多层感知器(MLP:Multi

LayerPerceptron);
[0029]深度强化学习(DRL:Deep Reinforcement Learning)。
[0030]本专利技术提供了一种基于近端策略优化算法优化网络流量调度方法,包括下列步骤:
[0031]S1:构建ASTPPO系统架构;
[0032]S2:采集网络链路信息和网络拓扑信息;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化算法优化网络流量调度方法,其特征在于,包括下列步骤:构建ASTPPO系统架构;采集网络链路信息和网络拓扑信息;分别生成状态信息和奖励值;以所述状态信息和所述奖励值为输入,获得动作值并转发;基于所述动作值生成SDN流表,下发所述SDN流表进行流量调度。2.如权利要求1所述的基于近端策略优化算法优化网络流量调度方法,其特征在于,所述ASTPPO系统架构包括数据交换层、控制层和智能决策层,所述数据交换层由支持SDN工作协议的SDN交换机组成,所述控制层与数据交换层通过南向接口连接,与智能决策层通过北向接口连接,所述智能决策层输出链路权重用于路由策略更新。3.如权利要求2所述的基于近端策略优化算法优化网络流量调度方法,其特征在于,在采集网络链路信息和网络拓扑信息的过程中,控制层的信息收集器每隔一段时间通过南向接口从数据交换层的SDN交换机采集网络链路信息,控制层的拓扑发现器每隔一段时间通过南向接口从数据交换层的SDN交换机采集网络拓扑信息。4.如权利要求3所述的基于近端策略优化算法优化网络流量调度方法,其特征在于,分别生成状态信息和奖励值的过程,具体为控制层的信息收集器处理网络链路信息,生成输入智能决策层中智能体的状态信息,控制...

【专利技术属性】
技术研发人员:陈俊彦王勇黄雪锋廖岑卉珊谢小兰李欣梅肖微
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1