当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于强化学习的动态视频传输调度方法技术

技术编号:34776089 阅读:13 留言:0更新日期:2022-08-31 19:48
一种基于强化学习的动态视频传输调度算法,其特征是,包括下列步骤:1)通信系统参数的获取。2)建立优化问题函数:设K为系统服务的用户数,L为系统包含的OFDM资源块数,则优化问题函数为每一个资源块l分给的用户编号,使满足QoS需求的用户数最大化。3)更新通信系统的OFDM资源块分配方式:建立状态、动作以及目标奖励函数,使用强化学习网络输出每一个资源块l分给的用户编号,并组成该通信系统的OFDM资源块分配方式。4)更新强化学习网络参数:利用梯度下降法更新强化学习网络参数。5)判断是否满足优化结束条件:在该算法输出资源块分配结果后,观察是否达到系统满足QoS需求的用户数目标,若未达到,则返回3)进行下一步迭代。则返回3)进行下一步迭代。则返回3)进行下一步迭代。

【技术实现步骤摘要】
一种基于强化学习的动态视频传输调度方法


[0001]本专利技术属于通信领域,特别是针对视频传输领域的资源分配场景。

技术介绍

[0002]随着新一代无线通信技术的快速发展,机器人集群、车路协同、虚拟现实等应用的逐步落地以及人们对高清视频需求的逐年增加,人们对高速、高可靠、低时延的实时视频数据传输需求逐年上涨。在无线信道环境下,多个用户在同一基站内使用正交频分复用(OFDM)进行视频传输,每一个用户都对包括视频帧传输时延和丢帧率在内的服务质量(Quality of Service,QoS)具有一定需求,但OFDM的资源子块个数及频带等通信资源非常有限,这对当前高清视频的无线传输带来了巨大的挑战。在通信资源一定的情况下,人们希望系统内满足视频服务质量的用户数最大化,尤其是在通信资源不够充裕的情况下。因而,针对该业务场景,亟需一种多用户动态视频传输跨层联合调度优化方案,使通信系统内满足视频服务质量需求的用户数最大化。

技术实现思路

[0003]本专利技术旨在提供一种动态的视频传输跨层联合调度优化算法,以让更多的用户满足其视频服务质量需求。如果只采用传统的资源调度算法(如比例公平算法等),会导致在通信资源缺乏或用户数较多的情况下,所有用户的视频服务质量均无法满足需求。而本专利技术可以根据当前用户的QoS状态、信道状态、视频帧大小与时延需求等参数,对通信系统中的通信资源块进行动态分配,让更多用户的QoS得到满足。
[0004]技术方案
[0005]一种基于强化学习的动态视频传输调度方法,其特征在于,为多用户动态视频传输跨层联合调度优化算法,包括下列步骤:
[0006]S1获取通信系统参数以供算法训练使用。
[0007]S2建立优化问题函数:设K为系统服务的用户数,L为系统包含的OFDM资源块数,则优化问题函数为每一个资源块l分给的用户编号,使满足QoS需求的用户数最大化。
[0008]S3更新通信系统的OFDM资源块分配方式:建立状态、动作以及目标奖励函数,使用强化学习网络输出每一个资源块l分给的用户编号,并组成该通信系统的OFDM资源块分配方式。
[0009]S4更新强化学习网络参数:利用梯度下降法更新强化学习网络参数。
[0010]S5判断是否满足优化结束条件:在该算法输出资源块分配结果后,观察是否达到系统满足QoS需求的用户数目标,若未达到,则返回3)进行下一步迭代。
[0011]S1、获取通信系统参数以供算法训练使用,包括系统用户数K、系统OFDM资源块个数L、无线频段、传输时间间隔TTI,系统内每个用户k(k=1,2,

,K)的丢帧率需求最大时延容忍度传输视频帧包含的子帧数以及每个用户分别在每个OFDM资源块上的信道信噪比h
k,l
(k=1,2,

,K;l=1,2,

,L)等参数,以供强化学习算法训练使用。
[0012]S2、建立优化问题函数。设K为系统服务的用户数,L为系统包含的OFDM资源块数,则需要找出一种资源块分配方案,使满足QoS需求的用户数最大化。设A为L行K列的资源块分配矩阵,K
QoS
为已经满足QoS需求的用户数,则优化函数为
[0013]max K
QoS
[0014]a
ij
∈{0,1},a
ij
∈A,i∈[0,L],j∈[0,K][0015][0016]上式中,a
ij
为资源块分配矩阵A的元素,i,j为角标。
[0017]S3、更新通信系统的OFDM资源块分配方式。
[0018](1)本专利技术利用强化学习算法更新矩阵A。结合本系统应用特点,本专利技术设计的强化学习状态空间、动作空间和奖励如下:
[0019]①
状态空间s:用以表征系统状态的参数集合。记t时刻K个用户的实际丢帧率为O
t
={O
t,1
,O
t,2
,

,O
t,K
},剩余传输时延为T
t
={T
t,1
,T
t,2
,

,T
t,K
}、视频帧剩余子帧数为n
t
={n
t,1
,n
t,2
,

,n
t,K
},信道状态为h
t
=[h1,h2,

,h
K
],其中h
k
={h
t,1
,h
t,2
,

,h
t,L
}表示第k个用户在每一个OFDM资源块上的信噪比。则状态空间可以表示为
[0020][0021]上式中,表示h
t
的转置矩阵。
[0022]②
动作空间:用矩阵A表示通信系统对OFDM资源块的分配状况,是一个L
×
K维的矩阵。
[0023]③
奖励:用于引导强化学习网络的学习过程,以实现满足QoS需求的用户最大化的目标。本专利技术使用的奖励函数为
[0024]r=∑
k
R
1,k
+R
2,k
[0025]上式中,R
1,k
为表征用户k的丢帧率的奖励,仅在视频帧传输完毕时给予奖励。当用户恰好满足丢帧率要求时给予奖励,不满足时不给予奖励;若其实际丢帧率远低于丢帧率需求,则代表该用户占用了过多的通信资源,因此给予一个衰减的奖励。R
2,k
为表征用户k当前传输速率的奖励,在每一个TTI结束后都给予奖励,若当前系统给予用户的传输速度可以在时延需求内传输完毕,则给予奖励,否则给予惩罚。
[0026]对于奖励函数的第一部分,在用户k剩余传输时延T
t,k
=0时刻进行判定,若此时用户剩余子帧数n
t,k
≤0则判定该视频帧传输完毕。此时记则R
1,k
的表达式为
[0027][0028]上式中,r1为奖励数值,p为该用户每传输一帧平均占用的OFDM资源块个数,q
k
用来将用户k的丢帧率限制在其需求附近,由算法使用者自行设置,m为比例系数,需要根据训练结果进行调整。
[0029]对于奖励函数的第二部分,在每一个传输时间间隔(TTI)都计算并给予奖励,R
2,k
的表达式为
[0030][0031]上式中,r2为奖励数值,v
need,k
为用户k若不丢帧则需要系统分配的最小传输速率,v
k
为当前系统向用户k分配的传输速率。
[0032](2)本专利技术所述强化学习算法为深度Q网络。对于每一个OFDM资源块,均建立一个深度Q网络模型,输出该资源块分给的用户编号,即矩阵A的一行,模型如图2所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的动态视频传输调度方法,其特征在于,为多用户动态视频传输跨层联合调度优化算法,包括下列步骤:S1获取通信系统参数以供算法训练使用;S2建立优化问题函数:设K为系统服务的用户数,L为系统包含的OFDM资源块数,则优化问题函数为每一个资源块l分给的用户编号,使满足QoS需求的用户数最大化;S3更新通信系统的OFDM资源块分配方式:建立状态、动作以及目标奖励函数,使用强化学习网络输出每一个资源块l分给的用户编号,并组成该通信系统的OFDM资源块分配方式;S4更新强化学习网络参数:利用梯度下降法更新强化学习网络参数;S5判断是否满足优化结束条件:在该算法输出资源块分配结果后,观察是否达到系统满足QoS需求的用户数目标,若未达到,则返回3)进行下一步迭代。2.如权利要求书1所述的一种基于强化学习的动态视频传输调度方法,其特征在于;S1、获取通信系统参数以供算法训练使用,包括系统用户数K、系统OFDM资源块个数L、无线频段、传输时间间隔TTI,系统内每个用户k(k=1,2,

,K)的丢帧率需求最大时延容忍度传输视频帧包含的子帧数以及每个用户分别在每个OFDM资源块上的信道信噪比h
k,l
(k=1,2,

,K;l=1,2,

,L)等参数,以供强化学习算法训练使用。3.如权利要求书1所述的一种基于强化学习的动态视频传输调度方法,其特征在于;S2、建立优化问题函数;设K为系统服务的用户数,L为系统包含的OFDM资源块数,则需要找出一种资源块分配方案,使满足QoS需求的用户数最大化;设A为L行K列的资源块分配矩阵,K
QoS
为已经满足QoS需求的用户数,则优化函数为maxK
QoS
a
ij
∈{0,1},a
ij
∈A,i∈[0,L],j∈[0,K]上式中,a
ij
为资源块分配矩阵A的元素,i,j为角标。4.如权利要求书1所述的一种基于强化学习的动态视频传输调度方法,其特征在于;S3、更新通信系统的OFDM资源块分配方式;(1)利用强化学习算法更新矩阵A;结合本系统应用特点,本发明设计的强化学习状态空间、动作空间和奖励如下:

状态空间s:用以表征系统状态的参数集合;记t时刻K个用户的实际丢帧率为O
t
={O
t,1
,O
t,2
,...,O
t,K
},剩余传输时延为T
t
={T
t,1
,T
t,2
,...,T
t,K
}、视频帧剩余子帧数为n
t
={n
t,1
,n
t,2
,...,n
t,K
},信道状态为h
t
=[h1,h2,...,h
K
],其中h
k
={h
t,1
,h
t,2
,...,h
t,L
}表示第k个用户在每一个OFDM资源块上的信噪比;则状态空间可以表示为上式中,表示h
t
的转置矩阵;

动作空间:用矩阵A表示通信系统对OFDM资源块的分配状况,是一个L
×
K维的矩阵;

奖励:用于引导强...

【专利技术属性】
技术研发人员:李晨曦王睿
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1