System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于通信,更进一步涉及无线通信中的一种知识数据混合驱动深度强化学习的无线网络资源调度方法。本专利技术可用于无线网络资源的智能化调度,获得更低的计算成本和时间成本。
技术介绍
1、通感算一体化的未来无线通信网络为用户提供稳定且海量的数据服务已成为未来无线通信系统的重要发展方向。无线网络资源调度是指对无线网络的网络状态和无线资源利用情况进行分析,根据用户的需求给用户分配最优的目标无线网络和无线资源,满足用户多样性的业务需求。一方面,无线网络资源优化问题一般是无法在多项式时间内解决的问题,传统优化算法对该问题的数学建模过程复杂,计算难度大。另一方面,以强化学习为基础的优化算法逐渐应用于解决移动通信网络资源调度问题,但随着基站密度和用户设备的快速增加,现有基于强化学习的无线网络资源调度方法的计算成本高、时间成本高的问题逐渐凸显出来。深度强化学习算法可以实时感知环境,通过与环境不断交互学习最优的资源调度策略。然而当网络规模较大时,状态变量和决策变量维度较高,深度强化学习计算成本急剧增加,容易陷入局部最优解。因此,根据先验网络知识,辅助深度强化学习学习和训练,从而提高网络能量利用率并降低算法训练成本,已经成为未来无线通信网络进行资源调度的关键方法。目前,知识和数据混合驱动深度强化学习的网络资源调度较少,大部分的智能化网络资源调度算法只是单一地采用以数据驱动为核心的学习类算法。随着网络规模的不断扩大、接入设备的爆炸式增长,学习类算法的计算成本急剧增高,所以现有的强化学习算法已不再适用未来的无线通信系统。此外,通信网络的规模发生变化时
2、南京邮电大学在其申请的专利文献“一种基于强化学习的异构网络资源分配方法”(申请日:2021年1月5日,申请号:202110006111.3,授权公告号:cn 112351433 b)中公开了一种基于强化学习的无线异构网络资源调度方法。该方法的实现步骤为:第一步,每个基站部署深度神经网络dnn(deep neural network)框架,将信道信息当作网络的权重;第二步,根据基站所得到的数据,即当前的用户关联信息、平均干扰功率,给出当前状态下最佳的资源分配策略;第三步,将每个基站视为独立智能体,基站的状态被作为建模环境。若干智能体观察同一无线网络环境并采取行动,将频谱效率函数设置为代理的奖励,智能体通过与环境交互获取的奖励相互沟通;第四步,智能体根据奖励调节政策。该方法存在两点不足之处:其一,由于每个基站都要部署一个dnn框架,将每个基站视为独立智能体,利用强化学习做出每次资源调度决策都需要复杂的策略计算,并且调度变量的维度过大,导致无线网络资源调度计算成本高、相关开销大;此外,基站从环境中获取的信道信息没有充分利用,智能体的探索和交互学习的过程非常低效,导致无线网络资源调度时间成本高、实时性差。
技术实现思路
1、本专利技术的目的是针对上述现有技术的不足,提出一种知识数据混合驱动深度强化学习的无线网络资源调度方法,用于解决现有无线网络资源调度方法计算成本高、相关开销大和时间成本高、实时性差的问题。
2、为实现上述目的,本专利技术的技术思路是,本专利技术通过无线网络的历史调度信息和实时信道信息计算所有用户选择基站的概率作为“策略知识”,根据“策略知识”对强化学习的探索过程进行调整,缩小了基站可选择的用户范围,并根据基站选择用户的概率进行接入,比原强化学习的ε-greedy方法在最优解集附近生成更多样本集,降低了强化学习的探索次数,进而节约了深度强化学习的神经网络计算和训练成本。本专利技术根据获取的待资源调度无线网络的历史性能指标,计算当前网络状态下的所有基站的性能指标的聚类中心,将所有聚类中心的性能值作为“价值知识”,当前网络的性能越好“价值知识”数值越大,根据“价值知识”对强化学习的奖励函数进行调整,增大了不同资源调度方法的差距,使得最优解集附近的样本更容易被训练。本专利技术根据存储探索样本的样本集的奖励值获取“训练知识”,“训练知识”根据样本集的奖励值中值将样本集中的所有样本分为优秀样本和劣质样本两大类,训练集则按一定比例从两大类样本中分别随机选取一定批次,样本空间的维度较大,但受限于计算资源和时间成本,可训练学习的样本数一般较少,“训练知识”使得所选取的样本既能学习如何避免性能较差的调度方案,又能更快地在最优解集附近学习到最优解,原强化学习的选取方法随机性大,很难保证学习到最优解集附近。本专利技术通过计算所有基站与其可选择用户的接入概率引导智能体探索并生成样本、修正奖励函数的奖励值和对样本集分类取样,在实现深度强化学习的过程中实现了“策略知识”、“价值知识”和“训练知识”的融合,解决了现有技术中无线网络资源调度方法计算成本高、相关开销大和时间成本高、实时性差的问题。
3、为实现上述目的,本专利技术采取的技术方案包括如下步骤:
4、步骤1,通过用户选择每个基站的概率矩阵生成用户与基站的接入矩阵,计算待资源调度无线网络的奖励值。
5、步骤2,以无线网络中每个基站的历史性能等级修正待资源调度无线网络的奖励值。
6、步骤3,以样本集奖励值中值对样本集分类抽样后生成训练集,将待资源调度无线网络的状态输入到训练好的目标actor网络中,输出该无线网络的资源调度方案。
7、本专利技术与现有技术相比,具有如下优点:
8、第一,本专利技术根据获取的无线网络历史调度方案和实时信道信息,缩小了深度强化学习的决策变量范围,通过计算每个用户选择基站的概率对智能体的探索过程进行调整,利用无线网络的历史性能指标修正奖励值,克服了现有技术中无线网络资源调度计算成本高、相关开销大的问题,使得本专利技术快速引导基站智能体接入选择概率更大的用户,降低了无线网络规模扩大带来的深度强化学习较高的神经网络计算成本。
9、第二,本专利技术根据分类取样深度强化学习样本集,加快了actor-critic网络的训练和收敛速度,克服了现有技术中现有技术中无线网络资源调度计算成本高、相关开销大的问题,使得深度强化学习的训练收敛速度更快,更稳定。
本文档来自技高网...【技术保护点】
1.一种知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,生成用户与基站的接入矩阵,利用无线网络的历史性能等级修正奖励值,以样本集奖励值中值分类抽样后生成训练集;该调度方法的步骤包括如下:
2.根据权利要求1所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤1中所述概率矩阵中的元素是由下式得到的:
3.根据权利要求2所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤1中所述接入矩阵中的元素是由下式得到的:
4.根据权利要求1所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤1中所述待资源调度无线网络的奖励值是由下式得到的:
5.根据权利要求4所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤2中所述每个基站的历史频谱效率是由下式得到的:
6.根据权利要求5所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤2中所述无线网络中基站的历史性能等级指的是,将每个基站的历史综合频谱效率聚类分析后得到
7.根据权利要求6所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤2中所述修正待资源调度无线网络的奖励函数值是由下式得到的:
8.根据权利要求1所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤3中所述样本中奖励值的中值指的是,将样本集中的样本奖励值大小排序后,若排序中样本总数i为奇数时,将第个样本的奖励值作为中值,当i是偶数,将第个和第个样本奖励值的平均值作为中值。
9.根据权利要求8所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤3中所述分类取样指的是,将样本集中的样本按照奖励值大小排序后,以奖励值中值作为分界点,分别随机抽取等量的两批样本生成训练集。
...【技术特征摘要】
1.一种知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,生成用户与基站的接入矩阵,利用无线网络的历史性能等级修正奖励值,以样本集奖励值中值分类抽样后生成训练集;该调度方法的步骤包括如下:
2.根据权利要求1所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤1中所述概率矩阵中的元素是由下式得到的:
3.根据权利要求2所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤1中所述接入矩阵中的元素是由下式得到的:
4.根据权利要求1所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤1中所述待资源调度无线网络的奖励值是由下式得到的:
5.根据权利要求4所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤2中所述每个基站的历史频谱效率是由下式得到的:
6.根据权利要求5所述的知识数据混合驱动深度强化学习的无线网络资源调度方法,其特征在于,步骤2中...
【专利技术属性】
技术研发人员:赵晨曦,牛淳隆,李建东,刘俊宇,盛敏,史琰,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。