【技术实现步骤摘要】
一种基于强化学习的动态视频传输调度方法
[0001]本专利技术属于通信领域,特别是针对视频传输领域的资源分配场景。
技术介绍
[0002]随着新一代无线通信技术的快速发展,机器人集群、车路协同、虚拟现实等应用的逐步落地以及人们对高清视频需求的逐年增加,人们对高速、高可靠、低时延的实时视频数据传输需求逐年上涨。在无线信道环境下,多个用户在同一基站内使用正交频分复用(OFDM)进行视频传输,每一个用户都对包括视频帧传输时延和丢帧率在内的服务质量(Quality of Service,QoS)具有一定需求,但OFDM的资源子块个数及频带等通信资源非常有限,这对当前高清视频的无线传输带来了巨大的挑战。在通信资源一定的情况下,人们希望系统内满足视频服务质量的用户数最大化,尤其是在通信资源不够充裕的情况下。因而,针对该业务场景,亟需一种多用户动态视频传输跨层联合调度优化方案,使通信系统内满足视频服务质量需求的用户数最大化。
技术实现思路
[0003]本专利技术旨在提供一种动态的视频传输跨层联合调度优化算法,以让更多的用户满足其视频服务质量需求。如果只采用传统的资源调度算法(如比例公平算法等),会导致在通信资源缺乏或用户数较多的情况下,所有用户的视频服务质量均无法满足需求。而本专利技术可以根据当前用户的QoS状态、信道状态、视频帧大小与时延需求等参数,对通信系统中的通信资源块进行动态分配,让更多用户的QoS得到满足。
[0004]技术方案
[0005]一种基于强化学习的动态视频传输调度方法,其特征在 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的动态视频传输调度方法,其特征在于,为多用户动态视频传输跨层联合调度优化算法,包括下列步骤:S1获取通信系统参数以供算法训练使用;S2建立优化问题函数:设K为系统服务的用户数,L为系统包含的OFDM资源块数,则优化问题函数为每一个资源块l分给的用户编号,使满足QoS需求的用户数最大化;S3更新通信系统的OFDM资源块分配方式:建立状态、动作以及目标奖励函数,使用强化学习网络输出每一个资源块l分给的用户编号,并组成该通信系统的OFDM资源块分配方式;S4更新强化学习网络参数:利用梯度下降法更新强化学习网络参数;S5判断是否满足优化结束条件:在该算法输出资源块分配结果后,观察是否达到系统满足QoS需求的用户数目标,若未达到,则返回3)进行下一步迭代。2.如权利要求书1所述的一种基于强化学习的动态视频传输调度方法,其特征在于;S1、获取通信系统参数以供算法训练使用,包括系统用户数K、系统OFDM资源块个数L、无线频段、传输时间间隔TTI,系统内每个用户k(k=1,2,
…
,K)的丢帧率需求最大时延容忍度传输视频帧包含的子帧数以及每个用户分别在每个OFDM资源块上的信道信噪比h
k,l
(k=1,2,
…
,K;l=1,2,
…
,L)等参数,以供强化学习算法训练使用。3.如权利要求书1所述的一种基于强化学习的动态视频传输调度方法,其特征在于;S2、建立优化问题函数;设K为系统服务的用户数,L为系统包含的OFDM资源块数,则需要找出一种资源块分配方案,使满足QoS需求的用户数最大化;设A为L行K列的资源块分配矩阵,K
QoS
为已经满足QoS需求的用户数,则优化函数为maxK
QoS
a
ij
∈{0,1},a
ij
∈A,i∈[0,L],j∈[0,K]上式中,a
ij
为资源块分配矩阵A的元素,i,j为角标。4.如权利要求书1所述的一种基于强化学习的动态视频传输调度方法,其特征在于;S3、更新通信系统的OFDM资源块分配方式;(1)利用强化学习算法更新矩阵A;结合本系统应用特点,本发明设计的强化学习状态空间、动作空间和奖励如下:
①
状态空间s:用以表征系统状态的参数集合;记t时刻K个用户的实际丢帧率为O
t
={O
t,1
,O
t,2
,...,O
t,K
},剩余传输时延为T
t
={T
t,1
,T
t,2
,...,T
t,K
}、视频帧剩余子帧数为n
t
={n
t,1
,n
t,2
,...,n
t,K
},信道状态为h
t
=[h1,h2,...,h
K
],其中h
k
={h
t,1
,h
t,2
,...,h
t,L
}表示第k个用户在每一个OFDM资源块上的信噪比;则状态空间可以表示为上式中,表示h
t
的转置矩阵;
②
动作空间:用矩阵A表示通信系统对OFDM资源块的分配状况,是一个L
×
K维的矩阵;
③
奖励:用于引导强...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。