System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于5g及6g通信,具体涉及基于云的扩展现实(xr)视频和触觉协同传输场景下的资源分配方法,尤其涉及深度强化学习(drl)和转化器(transformer网络)结合的自适应宽带资源分配方法。
技术介绍
1、随着智能手机和头戴式设备的广泛普及,包含虚拟现实(vr)、增强现实(ar)和混合现实(mr)等沉浸式技术的扩展现实(xr)技术和应用正迅速发展。其中,基于云的xr服务利用计算能力更强、能效更高的云服务器来处理xr内容,然后通过5g或6g网络传输到各种用户设备,从而降低对xr终端的算力要求。xr传输中的超低时延和超高可靠性的需求对5g或6g的传输提出了很大的挑战,由于无线频谱资源的稀缺,仅仅为xr应用增加网络带宽是不可行的。因此,必须在xr用户之间进行有效的资源分配,从而提高资源利用率。传统的资源分配方法(如博弈论和元启发式)难以应对复杂的多用户信道特征和巨大的解空间所带来的挑战。因此,研究人员多转向具有强大建模和决策能力的深度强化学习(drl)来设计动态资源分配策略。
2、为给用户提供更丰富、沉浸式的服务质量(qos)体验,多业务流协同传输是xr应用的重要场景,包括为同一用户同步传输不同的感官信号(如视觉和触觉)。但目前的大多数研究仅侧重于xr中单一视频流的服务,而如何通过资源分配来协调多种业务流的同步传输仍是实现丰富xr体验的关键挑战。此外,目前的drl模型虽然能根据不同的信道状态信息(csi)有效地为用户分配资源,但是大多数研究都局限于同一基站内服务固定用户个数的场景,或将不同用户数作为单独的案例去处
技术实现思路
1、本专利技术旨在提供一种能自适应用户数量变化的xr视频和触觉协同传输场景下的通用无线带宽资源(资源块rb)分配方法,以让更多的用户能同时满足他们的视频和触觉的qos可靠性要求,即被成功服务的用户数越多越好。
2、本专利技术提出的云xr视频和触觉协同传输场景下的资源分配方法,是一种将深度强化学习(drl)和转换器(transformer网络)结合的自适应带宽资源分配方法,具体步骤为:
3、步骤1:设计马尔科夫决策(mdp)问题模型,即该模型包含状态空间、动作空间及奖励函数,具体为:
4、(1.1)状态空间设计:在任意给定的时刻t,假设系统中有n个用户,其中n是动态变化的,用户编号为u={1,2,...,n},所有用户的当前视频帧成功传输率(fsr)为ov,t={ot,1,ot,2,...,ot,n},所有用户的当前触觉fsr为oh,t={o′t,1,o′t,2,...,o′t,n},当前视频帧剩余的待传视频子帧数为nv,t={nt.1,nt,2...,nt,n},当前触觉帧剩余的待传触觉子帧数为nh,t={n′t,1,n′t,2,...,n′t,n},当前视频帧剩余的传输时延为tv,t={tt,1,tt,2,...,tt,n},总的状态空间记为:
5、st={u,ov,t,oh,t,nv,t,nh,t,tv,t} , (1)
6、其中,状态空间st会随着用户数n的变化而动态变化。
7、(1.2)动作空间设计:考虑正交频分复用(ofdm)技术下的资源块(rb)的空间复用,即一个rb在同一传输时隙(tti)内最多允许个用户同时占用因此,在时刻t,每个rb所有可能的分配动作个数为其中表示从n个用户中任意选k个用户的组合数;每个rb的分配动作记为假设基站共有m个rb,表示在当前时刻t,第i个rb分给了第k个用户使用,表示第i个rb未分给第k个用户使用。总的rb分配策略表示为:
8、
9、(1.3)奖励函数设计:触觉帧的qos可靠性要求高且数据量小,采取优先传递触觉帧的策略,即一个用户得到rb资源后,优先传输触觉帧,剩下的资源再传输视频帧。以视频帧传输的角度设计如下奖励函数:
10、(1.3.1)满足qos要求的奖励:
11、用xk=ot,k-qosk表示第k个用户的实际视频fsr与qos要求的差值,当xk不大于理想差值x′时,给一个正奖励c;如果xk超出理想值x′,则给一个比c小的线性衰减正奖励值;针对任意用户k,设计的关于满足qos要求的奖励用公式表示为:
12、
13、其中,a,b,c为可调节的超参数。
14、(1.3.2)信道速率奖励:
15、在给定的时刻t,第k个用户的视频帧传输速率表示为在一个时长为pv,k传输时间窗口传完一个大小为dv,k视频帧所需要的平均速率为当低于时,奖励函数为一个开口向上的二次函数,在速率远小于或很接近时,我们给予很小的惩罚值,即负奖励,旨在鼓励放弃信道速率极低的用户,或接纳很接近平均速率的用户来提高成功服务该用户的概率。当速率大于时,给予正的奖励,而此时当该用户还没满足qos要求时,即xk,t<0,给于指数函数增长速率的正奖励值;若该用户已满足qos要求,则给予恒定的正奖励值。针对任意用户k,设计的用户速率的奖励用公式表示为:
16、
17、其中,a1,b1,b2,c1是可调节的超参数。
18、(1.3.3)考虑用户数量的动态变化,使用所有用户的平均奖励作为最终奖励rt:
19、
20、步骤2:设计分布式多智能体模型框架:假设一个基站共有m个rb,将每个rb视为一个智能体(agent),记为rb-agent。在给定的时刻t,每个rb-agent观测到的外部环境状态st相同,每个rb-agent输出自己的分配动作ai,t,然后所有rb-agent的动作集成为最终的rb分配策略at=[a1,t,a2,t,…,am,t]t,该分配策略与环境交互,收到环境的反馈rt和下一时刻t+1的状态st+1,此为多智能体和环境的一次完整交互,形成一条经验[st,ai,t,rt,st+1],存入每个rb-agent各自的经验池di,用于训练各自的模型参数。
21、步骤3:构建单个rb-agent模型,每个rb-agent模型由状态划分模块、编码器、解码器三个模块构成。每个模型的框架相同,仅参数不同。具体构建步骤如下:
22、(3.1)状态划分模块构建:对每个rb-agent的状态si,t按每个用户分组,任意用户k包含自己的编号及视频和触觉信息,记为st,k={k,ot,k,o′t,k,nt,k,n′t,k,tt,k},状态si,t的维度从(b,nagent,n*6)维变为(b,nagent,n,6)维,其中b是一个批次(batch)的大小,nagent=1是指每个rb是一个智能体,n本文档来自技高网...
【技术保护点】
1.一种将深度强化学习(DRL)和转换器(Transformer网络)结合的自适应带宽资源分配方法,其特征在于,具体步骤为:
2.根据权利要求1所述的自适应带宽资源分配方法,其特征在于,步骤4中所述ADMA-DcT的训练或测试回合用Episode表示,每个Episode中包含LS个训练步长,记为Steps,每个Episode开始时,随机初始化用户数目N∈[Nmin,Nmax],N在同一Episode内保持不变;根据初始化的数目N动态创建每个RB-Agent的经验池在给定的训练步长Stept,每个RB-Agent观测到的外部环境状态St相同,每个RB-Agent同时输出自己的分配动作然后所有RB-Agent的动作集成为最终的RB分配策略At=[a1,t,a2,t,…,aM,t]T,该分配策略与环境交互,收到环境的奖励rt和下一步长t+1的状态St+1,此为多智能体和环境的一次完整交互,形成一条经验[St,ai,t,rt,St+1],存入每个RB-Agent各自的经验池Di;等智能体与环境交互完LS个Steps后,开始进行模型训练;
3.根据权利要求2所述的自
...【技术特征摘要】
1.一种将深度强化学习(drl)和转换器(transformer网络)结合的自适应带宽资源分配方法,其特征在于,具体步骤为:
2.根据权利要求1所述的自适应带宽资源分配方法,其特征在于,步骤4中所述adma-dct的训练或测试回合用episode表示,每个episode中包含ls个训练步长,记为steps,每个episode开始时,随机初始化用户数目n∈[nmin,nmax],n在同一episode内保持不变;根据初始化的数目n动态创建每个rb-agent的经验池在给定的训练步长stept,每个rb-agent观测到的外部环境状态st相同,每个rb-agent同时输出自己的分配动作然后所有rb-agent的动作集成为最终的rb分配策略at=[a1,t,a2,t,…,am,t]t,该分配策略与环境交互,收到环境的奖励rt和下一步长t+1的状态st+1,此为多智能体和环境的一次完整交互,形成一条经验[st,ai,t,rt,st...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。