一种基于强化学习的数据块传输准时性提升方法技术

技术编号:33630497 阅读:22 留言:0更新日期:2022-06-02 01:33
本发明专利技术公开了一种基于强化学习的数据块传输准时性提升方法,其步骤包括:1)延迟敏感多媒体应用收集当前时刻t的网络状态s

【技术实现步骤摘要】
一种基于强化学习的数据块传输准时性提升方法


[0001]本专利技术涉及多媒体领域,具体为用于延迟敏感多媒体应用的一种基于强化学习的数据块传输准时性提升方法。

技术介绍

[0002]目前,实时或交互式媒体应用程序(如在线课程、视频会议等)需要低延迟以满足其多种服务的要求。这些延迟敏感多媒体应用程序通常用数据块来传输数据。数据块不能按时到达会严重影响用户体验,如视频会议过程中卡顿可能导致用户更换视频会议应用。延迟敏感应用程序应该在最大可接受的端到端延迟内将每个数据块传输完毕,保证每个数据块的传输都具有准时性。
[0003]数据块的发送速率是影响数据块准时性的一个重要因素,可以通过调整发送速率使更多的数据块准时到达。数据块的发送速率与网络当前时刻的可用带宽紧密相关,例如在网络可用带宽紧张时,如果增加发送速率,会导致数据块中的数据包大量丢失,从而验证用户体验。数据块的调度是影响数据块准时性的另一个重要因素,选择一个数据块传输可能会导致其他数据块超时过期,从而影响用户体验。
[0004]数据块的发送速率通常通过拥塞控制算法进行调整,但需要工程师的手动调整才能适应延迟敏感多媒体应用,这可能花费几个月甚至几年的时间。目前缺少在延迟敏感多媒体应用数据块调度方向上的研究,需要合理设计数据块调度算法,以让更多的数据块准时到达。考虑已有技术,应提出综合控制数据块发送速率并对数据块进行调度能够提升数据块传输准时性的方法,从而提高用户体验质量。

技术实现思路

[0005]为了克服现有技术中延迟敏感多媒体应用数据块传输准时性的不足,本专利技术提供一种基于强化学习的数据块传输准时性提升方法,包括发送速率控制模块和数据块调度模块。发送速率控制模块根据不同的网络状况控制数据块的发送速率,减少因网络拥塞丢失的数据块中数据包的数量;数据块调度模块根据发送速率控制模块得到的发送速率,根据数据块调度算法,选择当前时刻最适合发送的数据块,从而减少超时过期的数据块的数量;两个模块共同协作,在不同的网络状况下,尽可能多地使数据块在其过期时间前到达,从而提升数据块的准时性,保证用户体验质量。
[0006]发送速率控制模块,用于基于深度Q网络(Deep Q

learning Network,DQN)强化学习算法根据当前时刻的网络状态(State)选择当前时刻调整数据块发送速率的动作(Action),执行动作得到当前时刻的发送速率。发送速率控制模块设置深度Q网络(DQN)算法的代理(Agent)、状态(State)、奖励(Reward)和动作(Action),然后根据动作选择策略(Policy)调整发送速率。
[0007]代理(Agent):代理观察状态(State)并根据动作选择策略(Policy)选出动作(Action)来控制发送速率,得到执行此动作后的新状态和奖励(Reward),然后将状态、选择
的动作、新状态和奖励存入经验池。代理(Agent)是深度Q网络(DQN)算法的执行单元。发送速率控制模块共包含一个代理。
[0008]状态(State):我们设置3个状态(State),分别是一定时间间隔内的最大带宽(max_bw)、当前时刻的带宽(bw)、当前时刻的往返时间(rtt)。状态(State)是深度Q网络(DQN)算法的输入。
[0009]动作(Action):动作(Action)用于控制发送速率,是一条更改发送速率值的命令,执行动作即按照动作更改发送速率的值。动作是深度Q网络(DQN)算法的输出。深度Q网络算法中的动作是离散的,我们根据一定时间间隔内的最大带宽(max_bw),设置八个动作来调整发送速率,动作和发送速率的值的对应关系如下表:
[0010]动作发送速率的值02*ln2*p*max_bw11.15*p*max_bw20.85*p*max_bw30.3*p*max_bw4,5,6,7k*p*max_bw
[0011]其中p是限制发送速率的一个参数,可以根据具体应用场景进行设置,k是发送速率保持列表[1.25,0.75,1,1,1,1,1,1]中的一个随机值。
[0012]奖励(Reward):代理(Agent)执行不同的动作会获得不同的奖励(Reward)。奖励(Reward)用来计算执行动作的价值,价值是根据马尔可夫决策过程得到的未来所有的奖励和,也可以称作“动作效用值”,表示在当前状态s
t
选择动作a
t
能够获得的全局收益,用于帮助深度Q网络(DQN)算法调整动作选择策略(Policy)中的神经网络的参数。我们根据以下三种情况设置奖励函数:
[0013](1)如果往返时间没有改变,则说明执行动作后网络状况良好,数据块中的数据包能够继续正常传输,不会丢失,奖励应当增加;
[0014](2)如果往返时间在没有丢失数据包的情况下变得更长,说明在执行动作后网络发生拥塞,奖励应当略有减少;
[0015](3)如果估计的往返时间变长并且丢失了一些数据包,说明在执行动作后网络发生严重拥塞,则奖励应当根据丢失数据包的数量显着减少。
[0016]根据上述三种情况,设置奖励(Reward)的计算公式如下:
[0017]Reward=α(last_rtt

rtt+γ)

β(drop_packet_nums)
[0018]其中rtt是这一时刻的往返时间,last_rtt是上一时刻的往返时间。drop_packet_nums是这两个时刻之间丢失的数据包数。α和γ在网络未发生拥塞时称为增益系数,在网络发生拥塞时称为惩罚系数。β是网络已经发生丢包时的惩罚系数。α>0,增益系数和惩罚系数用于表明它在不同情况下的含义,其值并不变,在奖励为正值时称为增益系数,在奖励为负值时称为惩罚系数。last_rtt

rtt的值可能是正数也可能是负数,当last_rtt

rtt的值是正数时,说明此数据包的往返时延比上一个数据包的往返时延小,说明网络状况变好,对应的,奖励值Reward是正数,之后计算的动作价值将会增加;当last_rtt

rtt的值是负数时,说明此数据包的往返时延比上一个数据包的往返时延大,说明网络发生拥塞,对应的,奖励值Reward是负数,之后计算的动作价值将会减小。γ>0,用于防止last_rtt

rtt值为0,导致
网络不拥塞但奖励却不增加。β>0,用于衡量网络的丢包程度,丢包越多说明越拥塞。
[0019]深度Q网络(DQN)算法的动作选择策略以ε概率用ε

贪心探索方法、以1

ε概率用神经网络来选择动作,从而调整发送速率,0<ε≤1。
[0020]ε

贪心探索方法即从前面所述的八个动作中随机选择一个动作。ε

贪心探索方法的执行概率为ε,ε本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的数据块传输准时性提升方法,其步骤包括:1)延迟敏感多媒体应用收集当前时刻t的网络状态s
t
,并将其与待发送的数据块一起发送发送速率控制模块;2)所述发送速率控制模块基于强化学习算法根据当前时刻t的网络状态s
t
,选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作,执行动作得到当前时刻t的发送速率并发送给数据块调度模块;3)所述数据块调度模块选择当前时刻t最先发送的数据块,然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用。2.根据权利要求1所述的方法,其特征在于,所述强化学习算法为基于深度Q网络强化学习算法。3.根据权利要求2所述的方法,其特征在于,所述发送速率控制模块在深度Q网络算法中设置代理、状态、奖励和动作;然后根据动作选择策略调整发送速率并基于所述奖励计算所得价值调整动作选择策略中的参数;其中,所述代理为深度Q网络算法的执行单元,用于根据所述网络状态s
t
和动作选择策略选取一动作,并得到执行此动作后的新状态和奖励;然后将所述网络状态s
t
、选择的动作、新状态和奖励存入经验池;所述状态包括一定时间间隔内的最大带宽max_bw、当前时刻的带宽bw、当前时刻的往返时间rrt;所述动作用于控制发送速率,是一条更改发送速率值的命令,执行动作即按照动作更改发送速率的值。4.根据权利要求3所述的方法,其特征在于,根据所述网络状态s
t
和动作选择策略选取一动作的方法为:所述动作选择策略根据所述网络状态s
t
,以概率ε执行ε

贪心探索方法或以1

ε概率通过神经网络计算输出动作a
t
。5.根据权利要求3所述的方法,其特征在于,所述奖励Reward=α(last_rtt

rtt+γ)

β(drop_packet_nums);其中,last_rtt是上一时刻的往返时间,drop_pack...

【专利技术属性】
技术研发人员:杨威李玉冰姜萍周舟刘庆云
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1