System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及业务流调度,尤其涉及一种基于深度强化学习的业务流调度方法、装置、设备及介质。
技术介绍
1、时间敏感网络(time-sensitive networking,tsn)在ieee 802.1qbv标准中提出了一种名为时间感知整形器(time-aware shaper,tas)的门控机制。该机制通过预先配置的门控列表(gate control list,gcl)实现了在网络交换机中对传输队列状态的精细级别控制。然而,在传统tsn业务流调度算法中,生成的gcl列表的长度可能过于庞大,超出了现有网络交换机的gcl长度限制。这一限制成为了调度方案实际部署的一个显著瓶颈。现有方案为了解决这一技术问题,设计了一种灵活的门控机制,该机制主要通过对特定业务流开启门控功能,从而有效地减小gcl列表的长度。但是这种灵活的门控机制仍然无法在满足网络传输需求的情况下实现全局业务流的调度。
技术实现思路
1、本专利技术的主要目的在于提供一种基于深度强化学习的业务流调度方法、装置、设备及介质,旨在解决现有技术采用现有灵活的门控机制无法在满足网络传输需求的情况下实现全局业务流的调度的技术问题。
2、为实现上述目的,本专利技术提供了一种基于深度强化学习的业务流调度方法,所述方法包括以下步骤:
3、获取目标数据,其中,所述目标数据包括时间敏感网络的当前目标拓扑状态、当前目标业务流信息以及当前目标链路信息;
4、将所述目标数据输入深度强化学习模型中,得到调度方案,以基于
5、可选地,所述将所述目标数据输入深度强化学习模型中,得到调度方案之前,还包括:
6、确定当前业务流在当前调度网络下的传输路径;
7、获取所述当前调度网络的当前拓扑状态、当前业务流信息以及当前链路信息;
8、在所述环境将所述当前拓扑状态、所述当前业务流信息以及所述当前链路信息编码为观测状态向量后,通过所述环境将所述观测状态向量传输至所述智能体;
9、在所述智能体根据所述观测状态向量输出所述当前业务流在所述传输路径上的决策动作后,确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,根据所述分配结果确定奖励值,并根据所述奖励值更新初始深度强化学习模型的参数,得到所述深度强化学习模型。
10、可选地,所述智能体包括特征提取器以及策略网络,所述策略网络包括actor网络以及critic网络,所述actor网络包括全连接层,所述critic网络包括全连接层;其中,所述在所述智能体根据所述观测状态向量输出所述当前业务流在所述传输路径上的决策动作后,确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,包括:
11、在所述特征提取器将所述观测状态向量转化为特征向量后,通过所述actor网络根据所述特征向量确定各动作的决策概率;
12、在所述critic网络根据所述决策概率输出所述当前业务流在所述传输路径上的决策动作后,确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果。
13、可选地,所述观测状态向量包括第一键值对、第二键值对以及第三键值对,所述第一键值对用来表示网络拓扑状态,所述第二键值对用来表示业务流信息,第三键值对用来表示链路信息,所述特征提取器包括图神经网络编码器以及前馈神经网络,所述图神经网络编码器包括图同构网络,所述图同构网络包括图卷积层以及全局平均池化层,所述前馈神经网络包括线性层和激活函数层;其中,在所述特征提取器将所述观测状态向量转化为特征向量后,通过所述策略网络根据所述特征向量输出所述当前业务流在所述传输路径上的决策动作,包括:
14、在所述图神经网络编码器将所述第一键值对编码为第一输出向量且所述前馈神经网络将所述第二键值对以及所述第三键值编码为第二输出向量后,将所述第一输出向量以及所述第二输出向量进行向量拼接得到所述特征向量,并通过所述策略网络根据所述特征向量输出决策动作。
15、可选地,所述确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,根据所述分配结果确定奖励值,包括:
16、当所述分配结果为无法为所述当前业务流分配合法时隙时,根据固定值确定所述奖励值;
17、当所述分配结果成功为所述当前业务流分配合法时隙时,根据固定奖励、第一负反馈以及第二负反馈确定所述奖励值,其中,所述第一负反馈用于表示对门控列表的负反馈,所述第二负反馈用于表示对时隙编排的负反馈。
18、可选地,所述确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,根据所述分配结果确定奖励值,包括:
19、当所述分配结果为无法为所述当前业务流分配合法时隙时,根据固定值确定所述奖励值;
20、当所述分配结果成功为所述当前业务流分配合法时隙时,根据所述当前链路情况确定门控列表长度、最大门控列表长度、干扰时隙长度,并根据所述门控列表长度、所述最大门控列表长度、所述干扰时隙长度,以及所述当前业务流的端到端时隙需求确定所述奖励值。
21、可选地,所述根据所述奖励值更新初始深度强化学习模型的参数,得到所述深度强化学习模型,包括:
22、在所述分配结果为无法为所述当前业务流分配合法时隙时,根据所述奖励值更新所述初始深度强化学习模型的参数,得到所述深度强化学习模型;或,
23、在确定好所有业务流的决策动作时,根据所述奖励值更新所述初始深度强化学习模型的参数,得到所述深度强化学习模型。
24、此外,为实现上述目的,本专利技术还提出一种基于深度强化学习的业务流调度装置,所述基于深度强化学习的业务流调度装置包括:
25、获取模块,用于获取目标数据,其中,所述目标数据包括时间敏感网络的当前目标拓扑状态、当前目标业务流信息以及当前目标链路详情;
26、输入模块,用于将所述目标数据输入深度强化学习模型中,得到调度方案,以基于所述调度方案实现业务流的调度,其中,所述深度强化学习模型包括智能体以及环境,所述智能体用于确定所述调度方案的门控编排,所述环境用于根据所述门控编排确定所述调度方案的时隙编排。
27、此外,为实现上述目的,本专利技术还提出一种基于深度强化学习的业务流调度设备,所述基于深度强化学习的业务流调度设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度强化学习的业务流调度程序,所述基于深度强化学习的业务流调度程序配置为实现如上文所述的基于深度强化学习的业务流调度方法的步骤。
28、此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有基于深度强化学习的业务流调度程序,所述基于深度强化学习的业务流调度程序被处理器执行时实现如上文所述的基于深度强化学习的业务流调度方法的步骤本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习的业务流调度方法,其特征在于,所述基于深度强化学习的业务流调度方法包括:
2.如权利要求1所述的方法,其特征在于,所述将所述目标数据输入深度强化学习模型中,得到调度方案之前,还包括:
3.如权利要求2所述的方法,其特征在于,所述智能体包括特征提取器以及策略网络,所述策略网络包括Actor网络以及Critic网络,所述Actor网络包括全连接层,所述Critic网络包括全连接层;其中,所述在所述智能体根据所述观测状态向量输出所述当前业务流在所述传输路径上的决策动作后,确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,包括:
4.如权利要求3所述的方法,其特征在于,所述观测状态向量包括第一键值对、第二键值对以及第三键值对,所述第一键值对用来表示网络拓扑状态,所述第二键值对用来表示业务流信息,第三键值对用来表示链路信息,所述特征提取器包括图神经网络编码器以及前馈神经网络,所述图神经网络编码器包括图同构网络,所述图同构网络包括图卷积层以及全局平均池化层,所述前馈神经网络包括线性层和激活函数层;其中,在所述特征提取器将所
5.如权利要求2所述的方法,其特征在于,所述确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,根据所述分配结果确定奖励值,包括:
6.如权利要求2所述的方法,其特征在于,所述确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,根据所述分配结果确定奖励值,包括:
7.如权利要求2所述的方法,其特征在于,所述根据所述奖励值更新初始深度强化学习模型的参数,得到所述深度强化学习模型,包括:
8.一种基于深度强化学习的业务流调度装置,其特征在于,所述基于深度强化学习的业务流调度装置包括:
9.一种基于深度强化学习的业务流调度设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度强化学习的业务流调度程序,所述基于深度强化学习的业务流调度程序配置为实现如权利要求1至7中任一项所述的基于深度强化学习的业务流调度方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于深度强化学习的业务流调度程序,所述基于深度强化学习的业务流调度程序被处理器执行时实现如权利要求1至7任一项所述的基于深度强化学习的业务流调度方法的步骤。
...【技术特征摘要】
1.一种基于深度强化学习的业务流调度方法,其特征在于,所述基于深度强化学习的业务流调度方法包括:
2.如权利要求1所述的方法,其特征在于,所述将所述目标数据输入深度强化学习模型中,得到调度方案之前,还包括:
3.如权利要求2所述的方法,其特征在于,所述智能体包括特征提取器以及策略网络,所述策略网络包括actor网络以及critic网络,所述actor网络包括全连接层,所述critic网络包括全连接层;其中,所述在所述智能体根据所述观测状态向量输出所述当前业务流在所述传输路径上的决策动作后,确定所述环境根据所述决策动作为当前业务流分配时隙的分配结果,包括:
4.如权利要求3所述的方法,其特征在于,所述观测状态向量包括第一键值对、第二键值对以及第三键值对,所述第一键值对用来表示网络拓扑状态,所述第二键值对用来表示业务流信息,第三键值对用来表示链路信息,所述特征提取器包括图神经网络编码器以及前馈神经网络,所述图神经网络编码器包括图同构网络,所述图同构网络包括图卷积层以及全局平均池化层,所述前馈神经网络包括线性层和激活函数层;其中,在所述特征提取器将所述观测状态向量转化为特征向量后,通过所述策略网络根据所述特征向量输出所述当前业务流在所述传输...
【专利技术属性】
技术研发人员:林佳烁,李伟超,汪漪,詹双平,段经璞,仇琛,陶小峰,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。