基于深度强化学习的联合重传URLLC资源调度方法技术

技术编号:24217161 阅读:53 留言:0更新日期:2020-05-20 19:44
本发明专利技术公开了一种基于深度强化学习的联合重传URLLC资源调度方法包括:采集URLLC的数据包信息、信道信息作为训练数据;建立基于深度强化学习的联合重传URLLC资源调度决策模型,并利用训练数据对模型参数进行训练;对所得深度强化学习的URLLC资源调度决策模型进行性能评估直至满足性能需求;收集当前mini‑slot的URLLC数据包信息、信道信息;将所获得的信息输入基于深度强化学习的URLLC资源调度决策模型,获得资源调度决策结果;根据资源调度决策结果,URLLC数据包进行资源分配。本发明专利技术基于深度强化学习的方法对URLLC数据包信息以及信道状态信息进行训练,得到URLLC数据包调度资源决策结果,根据决策结果合理分配调度资源,在满足URLLC传输要求的基础上解决了功率和时频资源浪费问题。

Joint retransmission urllc resource scheduling method based on deep reinforcement learning

【技术实现步骤摘要】
基于深度强化学习的联合重传URLLC资源调度方法
本专利技术涉及无线通信领域,具体而言,涉及一种基于深度强化学习的联合重传URLLC资源调度方法。
技术介绍
为了满足未来不同场景业务对延时、可靠性、移动性等的要求,2015年ITU正式定义了未来5G网络的三大场景:增强移动宽带(eMBB)、海量机器类通信(mMTC)和超可靠低时延(uRLLC)。其中,eMBB场景是指在现有移动宽带业务场景的基础上,对于用户体验等性能的进一步提升,主要还是追求人与人之间极致的通信体验。mMTC和eMTC则是物联网的应用场景,但各自侧重点不同:mMTC主要是人与物之间的信息交互,eMTC主要体现物与物之间的通信需求。现有技术中,URLLC由于其低时延、高可靠的传输性能要求被广泛应用于远程控制、智能驾驶等新兴领域,成为5G研究工作的重点方向,因此,对于URLLC场景业务的研究也是当下的热点话题,为了能够满足URLLC低时延的要求,一种方式为采用60KHz的子载波间隔实现slot长度为原来的1/4(较LTE),为了进一步减小slot长度,ULRLLC采用了将4个符号作为一个mini-slot,减小为LTE一个slot长度的1/14,然而,即时采用mini-slot的传输方式,当URLLC业务数据解调失败时也会带来较大的实验开销,对URLLC的低时延要求带来了挑战。例如中国专利公开号为CN109561504A的专利技术专利公开了一种基于深度强化学习的URLLC和eMBB的资源复用方法,采集M个mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入训练好的模型,获得资源复用决策结果;根据资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。能够满足eMBB与URLLC数据包传输要求下对时频资源以及功率的合理分配利用。现有技术中至少存在以下问题:然而如果采用多冗余副本的联合传输方式又会造成有限时频资源的严重浪费。因此如何能够在有限的资源中对URLLC业务进行分配,在满足URLLC传输要求的同时,实现资源的高效利用是一个亟待解决的问题。针对现有技术中采用多冗余副本的联合传输方式又会造成有限时频资源的严重浪费。因此如何能够在有限的资源中对URLLC业务进行分配,在满足URLLC传输要求的同时,实现资源的高效利用是一个亟待解决的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种基于深度强化学习的联合重传URLLC资源调度方法。所述方法包括下列操作步骤:步骤1,采集URLLC(超可靠低延迟通信)的数据包信息、信道信息作为训练数据,基站获取M个mini-slot(微时隙)到来的URLLC数据包比特数和对应的信道的增益,以第k个mini-slot的数据包信息、信道信息作为训练数据,具体步骤如下:步骤1.1,通过UE(UserEquipment,用户终端设备)周期上传的CQI(ChannelQuallityIndecation,信道质量指示)信息,获取当前mini-slot的下行信道增益gk;步骤1.2,基站对业务队列中的URLLC业务进行封装,生成第k个mini-slot的URLLC业务发送的数据包,并获得URLLC数据包的URLLC数据包比特数Nk;步骤1.3,将获得的信息封装为状态信息:其中表示第k个mini-slot的URLLC数据包的第M个队列长度;步骤2,建立基于深度强化学习的联合重传URLLC资源调度决策模型,并利用训练数据对模型参数进行训练,具体步骤如下:步骤2.1,构建并初始化基于深度强化学习的联合重传URLLC资源调度决策模型中的神经网络,具体步骤如下:步骤2.1.1,设定动作向量空间a=[bool,R1,R2,....RM],其中bool表示当前mini-slot中URLLC业务的传输方式,1表示冗余版本传输,0表示单链路传输,RM表示当前mini-slot处理的第M个队列的比特数;步骤2.1.2,构建eval和next两个相同的神经网络,其中,eval神经网络用于获得当前状态的动作估值函数Q以及选择动作a,next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;步骤2.1.3,设定eval神经网络的参数C=[n,nh,nin,nout,θ,bias,activate],n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin为输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ表示权重并随机初始化为0~w,bias表示偏置并初始化为b,activate表示激活函数,并采用ReLU((RectifiedLinearUnits,线性整流函数)作为激活函数;步骤2.1.4,初始化next神经网络参数C’=C;步骤2.2,将训练数据中的数据输入基于深度强化学习的联合重传URLLC资源调度决策模型,对模型参数进行训练,以训练数据中第k个mini-slot的数据为例,具体步骤如下:步骤2.2.1,将第k个mini-slot的数据输入基于深度强化学习的联合重传URLLC资源调度决策模型的eval神经网络,按照以下公式(1)计算URLLC的第i个队列长度:式中:z表示重传间隔之间对应的mini-slot个数;步骤2.2.2,设定概率εa,以概率εa从动作池中选择随机选择动作ak,以概率(1-εa)从eval神经网络中选择满足条件argmaxaQ(s,a;θ)的动作ak;步骤2.2.3,根据步骤2.2.2计算得到采取动作ak所获得的奖励rk,以及到达的下一个状态sk+1,根据所选动作按照以下公式(2)计算第k个mini-slot的信噪比:式中:表示高斯噪声功率,表示第k个时隙分配的功率;当bool=0时,采用单链路传输,此时有:当bool=1时,采用复制传输方式,此时有:其中:对于URLLC业务,按照以下公式(3)计算其传输速率:其中:表示信道分离;按照以下公式(4)计算URLLC数据在第k个mini-slot的传输错误率:按照以下公式(5)计算URLLC的队列长度:其中:z表示重传间隔之间对应的mini-slot个数;按照以下公式(6)计算传输完当前到达业务所需时间:其中:Count(x本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的URLLC资源调度方法,其特征在于,包括如下步骤:/n步骤1,采集URLLC的数据包信息、信道信息作为训练数据,基站获取M个mini-slot到来的URLLC数据包比特数和对应的信道的增益,以第k个mini-slot的数据包信息、信道信息作为训练数据;/n步骤2,建立基于深度强化学习的联合重传URLLC资源调度决策模型,并利用训练数据对模型参数进行训练;/n步骤3,对所得深度强化学习的联合重传URLLC资源调度决策模型进行性能评估直至满足性能需求;/n步骤4,收集当前mini-slot的URLLC数据包信息、信道信息;/n步骤5,将步骤4中所获得的URLLC数据包信息、信道信息输入基于深度强化学习的联合重传URLLC资源调度决策模型,获得资源调度决策结果,将获得的当前状态信息和队列长度信息组合成状态向量

【技术特征摘要】
1.一种基于深度强化学习的URLLC资源调度方法,其特征在于,包括如下步骤:
步骤1,采集URLLC的数据包信息、信道信息作为训练数据,基站获取M个mini-slot到来的URLLC数据包比特数和对应的信道的增益,以第k个mini-slot的数据包信息、信道信息作为训练数据;
步骤2,建立基于深度强化学习的联合重传URLLC资源调度决策模型,并利用训练数据对模型参数进行训练;
步骤3,对所得深度强化学习的联合重传URLLC资源调度决策模型进行性能评估直至满足性能需求;
步骤4,收集当前mini-slot的URLLC数据包信息、信道信息;
步骤5,将步骤4中所获得的URLLC数据包信息、信道信息输入基于深度强化学习的联合重传URLLC资源调度决策模型,获得资源调度决策结果,将获得的当前状态信息和队列长度信息组合成状态向量并输入训练好的联合重传URLLC的资源调度决策模型,获得资源调度的决策结果;
步骤6,根据资源调度决策结果,对URLLC数据包进行资源分配。


2.根据权利要求1所述的基于深度强化学习的URLLC资源调度方法,其特征在于,步骤1中,还包括如下步骤:
步骤1.1,通过UE周期上传的CQI信息,获取当前mini-slot的下行信道增益gk;
步骤1.2,基站对业务队列中的URLLC业务进行封装,生成第k个mini-slot的URLLC业务发送的数据包,并获得URLLC数据包的URLLC数据包比特数Nk;
步骤1.3,将获得的信息封装为状态信息其中表示第k个mini-slot的URLLC数据包的第M个队列长度。


3.根据权利要求1所述的基于深度强化学习的URLLC资源调度方法,其特征在于,步骤2中,还包括如下步骤:
步骤2.1,构建并初始化基于深度强化学习的联合重传URLLC资源调度决策模型中的神经网络,具体步骤如下:
步骤2.1.1,设定动作向量空间a=[bool,R1,R2,....RM],其中bool表示当前mini-slot中URLLC业务的传输方式,1表示冗余版本传输,0表示单链路传输,RM表示当前mini-slot处理的第M个队列的比特数;
步骤2.1.2,构建eval和next两个相同的神经网络,其中,eval神经网络用于获得当前状态的动作估值函数Q以及选择动作a,next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;
步骤2.1.3,设定eval神经网络的参数C=[n,nh,nin,nout,θ,bias,activate],n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin为输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ表示权重并随机初始化为0~w,bias表示偏置并初始化为b,activate表示激活函数,并采用ReLU作为激活函数;
步骤2.1.4,初始化next神经网络参数C’=C;
步骤2.2,将训练数据中的数据输入基于深度强化学习的联合重传URLLC资源调度决策模型,对模型参数进行训练,以训练数据中第k个mini-slot的数据为例,具体步骤如下:
步骤2.2.1,将第k个mini-slot的数据输入基于深度强化学习的联合重传URLLC资源调度决策模型的eval神经网络,按照以下公式(1)计算URLLC的第i个队列长度:






式中:z表示重传间隔之间对应的mini-slot个数;
步骤2.2.2,设定概率εa,以概率εa从动作池中选择随机选择动作ak,以概率(1-εa)从eval神经网络中选择满足条件argmaxaQ(s,a;θ)的动作ak;
步骤2.2.3,根据步骤2.2.2计算得到采取动作ak所获得的奖励rk,以及到达的下一个状态sk+1,根据所选动作ak=[boolk,R1k,R...

【专利技术属性】
技术研发人员:赵中原李阳高慧慧
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1