一种5G差异化场景的下行资源调度方法、装置及存储介质制造方法及图纸

技术编号：44561251 阅读：4 留言：0更新日期：2025-03-11 14:21

本发明专利技术一种5G差异化场景的下行资源调度方法、装置及存储介质公开了获取信息，信息包括每个时隙的时隙网络状态信息；将信息转换为历史状态轨迹信息；将历史状态轨迹信息作为输入向量分别输入DQN和TD3两个神经网络中，输出核心参数；根据历史状态轨迹信息和核心参数分别训练DQN和TD3两个神经网络，得到训练好的DQN神经网络和TD3神经网络；将当前时隙的时隙网络状态信息作为当前输入向量输入训练好的DQN和TD3两个神经网络，输出当前核心参数；根据当前核心参数，基于启发式算法的优先级公式计算每个用户对每个资源块的优先级；根据优先级的大小，基于贪婪策略对资源块进行资源调度。本发明专利技术克服了传统基于优先级调度算法在复杂网络环境中的不足。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无线网络，尤其涉及一种5g差异化场景的下行资源调度方法、装置及存储介质。

技术介绍

1、随着第五代移动通信技术（5g）的快速发展，网络资源的高效调度成为满足多样化服务需求并提升用户体验的关键技术之一。5g网络具有超高速率、超低时延和海量设备连接等特性，对网络资源调度提出了更高的要求。在5g nr（new radio）下行链路中，资源分配面临诸多挑战，尤其是在如何根据实时网络状态动态调整资源分配策略，以最大化系统吞吐量并同时满足用户的服务质量（qos）需求方面。

2、传统的资源调度方法通常依赖于固定优先级策略进行资源分配。比例公平（proportional fair, pf）算法作为一种平衡网络吞吐量和用户公平性的经典资源调度方法，通过动态分配资源，在最大化整体网络吞吐量的同时保持一定的公平性。该算法广泛应用于无线网络中，然而，pf算法的调度决策主要考虑了用户的吞吐需求，却未能充分考虑时延指标。这一缺陷导致其在对时延敏感的5g应用场景下性能表现不足，无法有效满足低时延需求，影响了整体网络性能的优化。

3、为了解决这一问题，一些现有技术开始设计包含时延指标的优先级策略，以提升对时延敏感业务的调度性能。其所设计的优先级公式为：, 其中为吞吐项，为时延项，为优先级项。然而通用公式的设计在面对复杂的现实网络环境和多变的流量需求时表现不佳，无法严格满足用户的qos时延需求。此外，固定参数的优先级公式也难以动态适应网络条件的变化，导致在网络环境和业务负载波动时系统性能下降。

技术实现思路

1、本专利技术提出一种5g差异化场景的下行资源调度方法、装置及存储介质，以解决现有在网络环境和业务负载波动时系统性能下降的问题。

2、本专利技术通过以下技术方案来实现上述目的：

3、本专利技术一种5g差异化场景的下行资源调度方法，包括：

4、获取信息，所述信息包括每个时隙的时隙网络状态信息；

5、将所述信息转换为历史状态轨迹信息；

6、将所述历史状态轨迹信息作为输入向量分别输入dqn和td3两个神经网络中，输出核心参数；

7、根据所述历史状态轨迹信息和所述核心参数分别训练所述dqn和td3两个神经网络，得到训练好的dqn神经网络和td3神经网络；

8、将当前时隙的所述时隙网络状态信息作为当前输入向量输入训练好的dqn和td3两个神经网络，输出当前核心参数；

9、根据所述当前核心参数，基于启发式算法的优先级公式计算每个用户对每个资源块的优先级；

10、根据所述优先级的大小，基于贪婪策略对资源块进行资源调度。

11、具体地，将所述信息转换为历史状态轨迹信息，包括：

12、根据每个用户在每个时隙的数据速率、缓冲区大小、队头延迟和信道质量组成状态向量；

13、根据所有所述用户在每个时隙的所述状态向量组成相应时隙的所述时隙网络状态信息；

14、根据多个时隙的所述时隙网络状态信息组成所述历史状态轨迹信息。

15、具体地，在将所述息转换为历史状态轨迹信息之前，对所述信息进行预处理，所述预处理步骤包括：

16、对所述数据速率进行预处理，预处理公式为：

17、其中为预处理后的数据速率，为数据速率，为每个时隙所有资源块使用最大调制编码方案时计算的最大速率；

18、对缓冲区大小进行预处理，预处理公式为：

19、，为预处理后的缓冲区大小，为缓冲区大小，n表示离散化后的值空间且为自然数集合，将缓冲区大小进行离散化，表示需要多少时隙才能传输完缓冲区中的数据；

20、对队头延迟进行预处理，预处理公式为：

21、，为预处理后的队头延迟，表示队头延迟，表示延迟目标，将队头延迟和延迟目标相除作为一个比例项，代表用户的超时情况，在[0,1]直接则表明当前队头延迟未超出时延目标；

22、对信道质量进行预处理，预处理公式为：

23、，表示预处理后的信道质量标志，表示信道质量标志，

24、其中为用户信道质量标志的最大值。

25、具体地，将所述历史状态轨迹信息作为输入向量分别输入dqn和td3两个神经网络中，输出核心参数，包括：

26、采用门控循环单元捕捉所述输入向量中的时间依赖性特征，得到特征向量；

27、将所述特征向量输入dqn神经网络，输出离散随机变量，所述离散随机变量包括控制时延项因子的初始权重和控制时延项因子的增长趋势；

28、将所述特征向量输入td3神经网络，输出连续随机变量，所述连续随机变量包括用于控制启发式算法中时延项因子和吞吐项因子的权重比例。

29、具体地，根据所述历史时隙网络状态信息和所述历史核心参数分别训练所述dqn和td3两个神经网络，包括：

30、构建马尔可夫决策过程四元组；

31、将当前时隙的输入向量设置为所述马尔可夫决策过程四元组的状态；

32、将当前时隙所述dqn和td3两个神经网络输出的核心参数设置为所述马尔可夫决策过程四元组的动作；

33、将当前时隙的吞吐指标和时延指标结合作为所述马尔可夫决策过程四元组的奖励函数；

34、根据下一个时隙的时隙网络状态信息，基于所述奖励函数计算出所述当前时隙的奖励并构建所述下一个时隙的输入向量；

35、将各时隙的所述马尔可夫决策过程四元组分别存入缓存区；

36、针对每个所述历史时隙从所述经验池中分批次采样四元组，通过分批次采样得到的四元组分别训练所述dqn神经网络和td3神经网络。

37、具体地，针对每个所述历史时隙从所述经验池中分批次采样四元组，通过分批次采样得到的四元组分别训练所述dqn神经网络和td3神经网络，包括：

38、将所述四元组中的状态输入dqn神经网络中，输出dqn状态价值；

39、将所述四元组中的状态输入td3神经网络中，输出td3状态价值；

40、根据所述dqn状态价值和所述td3状态价值计算dqn差分时序和td3差分时序；

41、根据所述dqn差分时序和td3差分时序，基于梯度下降的方法更新所述dqn神经网络的policy网络和td3神经网络的critic网络；

42、根据所述critic网络输出的td3状态价值的负值作为actor网络的损失值，采用梯度下降的方法更新actor网络。

43、具体地，所述奖励函数为：

44、

45、其中为流优先级，n表示用户数量。

46、具体地，所述启发式算法的优先级w的计算公式为：

47、

48、其中为qci优先级因子，为吞吐项因子，为时延项因子，m和k分别控制当用户超出时延预算时延项因子的初始权重大小和时延项因子的增长趋势,则控制时延项因子和吞吐项因子的比例，d表示5g nr协议栈中本文档来自技高网...

【技术保护点】

1.一种5G差异化场景的下行资源调度方法，其特征在于，包括：

2.根据权利要求1所述的一种5G差异化场景的下行资源调度方法，其特征在于，将所述信息转换为历史状态轨迹信息，包括：

3.根据权利要求2所述的一种5G差异化场景的下行资源调度方法，其特征在于，在将所述息转换为历史状态轨迹信息之前，对所述信息进行预处理，所述预处理步骤包括：

4.根据权利要求2所述的一种5G差异化场景的下行资源调度方法，其特征在于，将所述历史状态轨迹信息作为输入向量分别输入DQN和TD3两个神经网络中，输出核心参数，包括：

5.根据权利要求2所述的一种5G差异化场景的下行资源调度方法，其特征在于，根据所述历史时隙网络状态信息和所述历史核心参数分别训练所述DQN和TD3两个神经网络，包括：

6.根据权利要求5所述的一种5G差异化场景的下行资源调度方法，其特征在于，针对每个所述历史时隙从所述经验池中分批次采样四元组，通过分批次采样得到的四元组分别训练所述DQN神经网络和TD3神经网络，包括：

7.根据权利要求5所述的一种5G差异化场景的下行

8.根据权利要求1所述的一种5G差异化场景的下行资源调度方法，其特征在于，所述启发式算法的优先级w的计算公式为：

9.一种5G差异化场景的下行资源调度装置，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质为可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述一种5G差异化场景的下行资源调度方法的步骤。

...

【技术特征摘要】

1.一种5g差异化场景的下行资源调度方法，其特征在于，包括：

2.根据权利要求1所述的一种5g差异化场景的下行资源调度方法，其特征在于，将所述信息转换为历史状态轨迹信息，包括：

3.根据权利要求2所述的一种5g差异化场景的下行资源调度方法，其特征在于，在将所述息转换为历史状态轨迹信息之前，对所述信息进行预处理，所述预处理步骤包括：

4.根据权利要求2所述的一种5g差异化场景的下行资源调度方法，其特征在于，将所述历史状态轨迹信息作为输入向量分别输入dqn和td3两个神经网络中，输出核心参数，包括：

5.根据权利要求2所述的一种5g差异化场景的下行资源调度方法，其特征在于，根据所述历史时隙网络状态信息和所述历史核心参数分别训练所述dqn和td3两个神经网络，包括：

【专利技术属性】
技术研发人员：钟琰，游理钊，付立群，周楠清，刘松涛，
申请(专利权)人：成都爱瑞无线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人