一种基于深度Q学习的路由规划方法技术

技术编号：17709641 阅读：56 留言：0更新日期：2018-04-14 21:15

本发明专利技术公开一种基于深度Q学习的路由规划方法，该方法为：根据网络拓扑生成奖励值矩阵，使用一个训练好的深度神经网络模型代替普通Q学习的Q值表进行路由规划。本发明专利技术利用了神经网络抽象化高层数据、自动学习的特点，相比于传统的Dijkstra算法，在大规模应用部署时能更快速地规划出最短路径。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度Q学习的路由规划方法
本专利技术涉及网络通信技术和强化学习领域，具体涉及一种基于深度Q学习的路由规划方法。
技术介绍
近年来，社交网络、移动互联网和物联网等领域正在快速发展，大数据正逐步成为当前关注的焦点。海量数据也对网络服务质量提出了更高的要求。大数据依赖于事先定义好的计算模式，在集中化的管理架构下操作，通常存在着非常大量的数据传输以及聚合和划分的操作。大数据每次聚合划分操作都将会导致服务器之间有海量数据进行交换，从而需要极高网络服务质量支持。传统的网络难以满足云计算和大数据等相关业务所需要的资源需求。正是在上述背景下，SDN概念被大家逐渐广泛接受和认可。SDN的概念由美国斯坦福大学CleanSlate课题组第一次提出。SDN旨在实现网络设备的数据层和控制层的彻底分离。数据层面只关注数据的传输，控制层面则关注网络的管理。随着控制层面需要管理的功能的逐步增多，学术界提出了将控制层管理系统化，抽象化。大致总结一下，SDN的精髓主要是把控制层面管理的复杂度以三种方式抽象出来：第一种是分布状态抽象。一个网络当中的多个状态主要是分散在各个路由器上面，路由器物理层面上的分散导致了处理上的困难。于是，分布状态抽象所做的工作就是将分散在各处的路由器上大量复杂状态抽象出来，然后向外部提供一个集中管理这些复杂状态的方式。这样其他部分就不需要一个一个路由器地去处理路由器查询问题，它们处理的是一个集中化的任务，这便是分布状态抽象。第二种是网络虚拟化。软件定义网络的目标就是希望网络管理员可以通过开放的编程接口来表达自己管理网络的实际需求。他们只要关心自己的网络需求，而...
一种基于深度Q学习的路由规划方法

【技术保护点】
一种基于深度Q学习的路由规划方法，其特征在于，该方法为：根据网络拓扑生成奖励值矩阵，使用一个训练好的深度神经网络模型代替普通Q学习的Q值表进行路由规划。

【技术特征摘要】
1.一种基于深度Q学习的路由规划方法，其特征在于，该方法为：根据网络拓扑生成奖励值矩阵，使用一个训练好的深度神经网络模型代替普通Q学习的Q值表进行路由规划。2.根据权利要求1所述的一种基于深度Q学习的路由规划方法，其特征在于，该方法具体为：对一个已训练完成的三层BP神经网络模型，输入当前状态s，输出当前状态可以执行的动作的q值表Q(s,allactions)，根据q值表决定下一步状态s'，然后，再将状态s'输入BP神经网络，重复上述操作，最终到达终点状态d。3.根据权利要求2所述的一种基于深度Q学习的路由规划方法，其特征在于，所述已训练完成的三层BP神经网络模型通过以下方法训练得到：(1)训练样本m，单个样本是一个六元组{s，a，r，s'，d，done}，其中s代表当前状态，a代表执行动作，r代表奖励值，s'代表下一步状态，d代表终点状态，done代表是否结束，将每个样本中的s'作为一个三层BP神经网络(激活函数Relu，输入节点的数目等于网络节点的个数，输出节点数目等于动作的数目)的输入值，进行批量处理，得到s'状态下选择每个行为的q值组成的表Q(s',allactions)。(2)根据公式计算出q值对应的target_q值，公式...

【专利技术属性】
技术研发人员：李传煌，吴艳，程成，钱正哲，金蓉，王伟明，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人