一种在线规划时间敏感流的方法、装置及存储介质制造方法及图纸

技术编号:33278496 阅读:39 留言:0更新日期:2022-04-30 23:38
本发明专利技术公开了一种在线规划时间敏感流的方法、装置及存储介质,该方法包括:根据Double DQN深度强化学习算法确定预设求解器;获取业务流信息、网络拓扑信息和网络状态信息;根据业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;根据时间敏感流的关键特征和网络的关键特征构建预设求解器求解所需的状态空间;根据循环队列转发机制所对应的调度和路由规则构建预设求解器求解所需要的动作空间;根据优化目标确定预设求解器求解所需的奖励机制;运行预设求解器求解,得到在线规划结果。通过实施本发明专利技术,解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题,提高了网络对动态业务流的适应能力。适应能力。适应能力。

【技术实现步骤摘要】
一种在线规划时间敏感流的方法、装置及存储介质


[0001]本专利技术涉及工业网络
,具体涉及一种在线规划时间敏感流的方法、装置及存储介质。

技术介绍

[0002]时间敏感网络、无线确定性网络等具有时延确定性需求的网络是目前国际产业界正在积极推动的全新通信技术,确定性网络为时间敏感流的传输提供了有界端到端传输时延、低传输抖动和极低数据丢失率的可靠保证,且具有广泛的应用场景,例如工业自动化、移动网络、车联网等,在大部分应用场景下,具有硬实时性需求的时间敏感流都是静态的且提前定义好的,所以现有的规划算法普遍适用于离线的场景。
[0003]然而针对于在线规划动态时间敏感流的问题,传统的算法计算时间长且开销大,容易陷入局部最优,不适合实时调度业务流。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了涉及一种在线规划时间敏感流的方法、装置及存储介质,以解决现有技术中规划时间敏感流的算法不适合实时调度业务流的技术问题。
[0005]本专利技术提出的技术方案如下:
[0006]本专利技术实施例第一方面提供一种在线规划时间敏感流的方法,包括:根据Double DQN深度强化学习算法确定预设求解器;获取业务流信息、网络拓扑信息和网络状态信息;根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;根据优化目标确定预设求解器求解所需的奖励机制;根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果。
[0007]可选地,所述时间敏感流的关键特征包括:当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小;所述网络的关键特征包括:网络中每个节点每个接口上的每个队列的空间占用率。
[0008]可选地,根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间,包括:将提取的网络的关键特征生成状态空间的二维矩阵;将所述二维矩阵拉伸成一维向量;将所述一维向量和所述时间敏感流的关键特征拼接,得到预设求解器求解所需的状态空间。
[0009]可选地,根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间,包括:将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成预设求解器的动作空间。
[0010]可选地,优化目标为使网络容纳的动态时间敏感流的数量最多;根据优化目标确定预设求解器求解所需的奖励机制,包括:每步迭代求解时,如果在该步需要规划的时间敏
感流被网络容纳,增加奖励值;每步迭代求解时,如果在该步需要规划的时间敏感流不能被网络容纳,增加惩罚值。
[0011]可选地,所述预设求解器包括神经网络结构和学习算法,所述神经网络结构包括估计神经网络和目标神经网络,所述估计神经网络和目标神经网络具有相同网络结构和相同初始参数;所述学习算法机制为根据当前的状态特征,以基于Q值的ε贪婪策略映射出一组动作,并在执行该组动作的过程中与环境交互,得到奖励值并转移到下一个状态,同时采用神经网络的反向传播机制,不断更新和优化神经网络参数,映射出更优的动作,所述学习算法在求解过程中重复迭代上述状态转移过程,直到满足停机准则结束。
[0012]可选地,所述神经网络的反向传播机制中,Double DQN的损失函数通过以下公式表示:
[0013][0014]其中,Q(
·
)是估计神经网络的动作价值函数,y
j
是目标价值,s
j
是第j个样本的状态,a
j
是第j个样本的动作,D
b
表示总样本数;
[0015][0016]其中,Q

(
·
)是目标神经网络的动作价值函数,r
j
是环境给予第j个样本的即时奖励,γ是折扣因子,ω和分别表示估计神经网络和目标神经网络的参数,每经过M步迭代,目标神经网络的参数会被估计神经网络的参数直接取代,则
[0017]本专利技术实施例第二方面提供一种在线规划时间敏感流的装置,包括:求解器确定模块,用于根据Double DQN深度强化学习算法确定预设求解器;信息获取模块,用于获取业务流信息、网络拓扑信息和网络状态信息;特征提取模块,用于根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;状态空间确定模块,用于根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;动作空间确定模块,用于根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;奖励机制确定模块,用于根据优化目标确定预设求解器求解所需的奖励机制;求解模块,用于根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果。
[0018]本专利技术实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本专利技术实施例第一方面及第一方面任一项所述的在线规划时间敏感流的方法。
[0019]本专利技术实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本专利技术实施例第一方面及第一方面任一项所述的在线规划时间敏感流的方法。
[0020]本专利技术提供的技术方案,具有如下效果:
[0021]本专利技术实施例提供的在线规划时间敏感流的方法、装置及存储介质,根据深度强化学习算法模型设计预设求解器,通过提取时间敏感流和网络的关键特征信息,以及与环境和优化问题相适配的状态空间、动作空间和奖励机制,来求解网络中对动态时间敏感流和路由的联合调度规划问题,从而得到不同时间敏感流的规划结果。因此,本专利技术实施例提供的在线规划时间敏感流的方法、装置及存储介质,解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题,提高了网络对动态业务流的适应能力。
附图说明
[0022]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是根据本专利技术实施例的在线规划时间敏感流的方法的应用场景示意图;
[0024]图2是根据本专利技术实施例的在线规划时间敏感流的方法的流程图;
[0025]图3是根据本专利技术实施例的在线规划时间敏感流的装置的结构框图;
[0026]图4是根据本专利技术实施例提供的计算机可读存储介质的结构示意图;
[0027]图5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线规划时间敏感流的方法,其特征在于,包括:根据Double DQN深度强化学习算法确定预设求解器;获取业务流信息、网络拓扑信息和网络状态信息;根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;根据优化目标确定预设求解器求解所需的奖励机制;根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果。2.根据权利要求1所述的在线规划时间敏感流的方法,其特征在于,所述时间敏感流的关键特征包括:当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小;所述网络的关键特征包括:网络中每个节点每个接口上的每个队列的空间占用率。3.根据权利要求2所述的在线规划时间敏感流的方法,其特征在于,根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间,包括:将提取的网络的关键特征生成状态空间的二维矩阵;将所述二维矩阵拉伸成一维向量;将所述一维向量和所述时间敏感流的关键特征拼接,得到预设求解器求解所需的状态空间。4.根据权利要求1所述的在线规划时间敏感流的方法,其特征在于,根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间,包括:将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成预设求解器的动作空间。5.根据权利要求1所述的在线规划时间敏感流的方法,其特征在于,优化目标为使网络容纳的动态时间敏感流的数量最多;根据优化目标确定预设求解器求解所需的奖励机制,包括:每步迭代求解时,如果在该步需要规划的时间敏感流被网络容纳,增加奖励值;每步迭代求解时,如果在该步需要规划的时间敏感流不能被网络容纳,增加惩罚值。6.根据权利要求1所述的在线规划时间敏感流的方法,其特征在于,所述预设求解器包括神经网络结构和学习算法,所述神经网络结构包括估计神经网络和目标神经网络,所述估计神经网络和目标神经网络具有相同网络结构和相同初始参数;所述学习算法机制为根据当前的状态特征,以基于Q值的ε贪婪策略映射出一组动作,并在执行该组动作的过程中与环境...

【专利技术属性】
技术研发人员:杨冬程宗荣任杰王洪超高德云张宏科
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1