一种深度强化学习和转化器结合的自适应宽带资源分配方法组成比例

技术编号：41819868 阅读：17 留言：0更新日期：2024-06-24 20:35

本发明专利技术属于5G及6G通信技术领域，具体为一种深度强化学习和转化器结合的自适应宽带资源分配方法。本发明专利技术在基于云的扩展现实(XR)的视频和触觉协同传输场景下，基于深度强化学习方法设计一种自适应分布式多智能体DRL结合转化器的动态资源分配方法，能在保证视频和触觉的服务质量(QoS)要求满足的同时，适应接入系统的用户数量的动态变化，使得更多的用户被成功服务；本发明专利技术方法与其他资源分配方案的平均满足用户数的性能比较表明，本发明专利技术方法收敛更快且能满足的平均用户数更多。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于5g及6g通信，具体涉及基于云的扩展现实(xr)视频和触觉协同传输场景下的资源分配方法，尤其涉及深度强化学习(drl)和转化器(transformer网络)结合的自适应宽带资源分配方法。

技术介绍

1、随着智能手机和头戴式设备的广泛普及，包含虚拟现实(vr)、增强现实(ar)和混合现实(mr)等沉浸式技术的扩展现实(xr)技术和应用正迅速发展。其中，基于云的xr服务利用计算能力更强、能效更高的云服务器来处理xr内容，然后通过5g或6g网络传输到各种用户设备，从而降低对xr终端的算力要求。xr传输中的超低时延和超高可靠性的需求对5g或6g的传输提出了很大的挑战，由于无线频谱资源的稀缺，仅仅为xr应用增加网络带宽是不可行的。因此，必须在xr用户之间进行有效的资源分配，从而提高资源利用率。传统的资源分配方法(如博弈论和元启发式)难以应对复杂的多用户信道特征和巨大的解空间所带来的挑战。因此，研究人员多转向具有强大建模和决策能力的深度强化学习(drl)来设计动态资源分配策略。

2、为给用户提供更丰富、沉浸式的服务质量(qos)体验，多业务流协同传输是xr应用的重要场景，包括为同一用户同步传输不同的感官信号(如视觉和触觉)。但目前的大多数研究仅侧重于xr中单一视频流的服务，而如何通过资源分配来协调多种业务流的同步传输仍是实现丰富xr体验的关键挑战。此外，目前的drl模型虽然能根据不同的信道状态信息(csi)有效地为用户分配资源，但是大多数研究都局限于同一基站内服务固定用户个数的场景，或将不同用户数作为单独的案例去处

技术实现思路

1、本专利技术旨在提供一种能自适应用户数量变化的xr视频和触觉协同传输场景下的通用无线带宽资源(资源块rb)分配方法，以让更多的用户能同时满足他们的视频和触觉的qos可靠性要求，即被成功服务的用户数越多越好。

2、本专利技术提出的云xr视频和触觉协同传输场景下的资源分配方法，是一种将深度强化学习(drl)和转换器(transformer网络)结合的自适应带宽资源分配方法，具体步骤为：

3、步骤1：设计马尔科夫决策(mdp)问题模型，即该模型包含状态空间、动作空间及奖励函数，具体为：

4、(1.1)状态空间设计：在任意给定的时刻t，假设系统中有n个用户，其中n是动态变化的，用户编号为u＝{1,2,...,n}，所有用户的当前视频帧成功传输率(fsr)为ov,t＝{ot,1,ot,2,...,ot,n}，所有用户的当前触觉fsr为oh,t＝{o′t,1,o′t,2,...,o′t,n}，当前视频帧剩余的待传视频子帧数为nv,t＝{nt.1,nt,2...,nt,n}，当前触觉帧剩余的待传触觉子帧数为nh,t＝{n′t,1,n′t,2,...,n′t,n}，当前视频帧剩余的传输时延为tv,t＝{tt,1,tt,2,...,tt,n}，总的状态空间记为：

5、st＝{u,ov,t,oh,t,nv,t,nh,t,tv,t} ， (1)

6、其中，状态空间st会随着用户数n的变化而动态变化。

7、(1.2)动作空间设计：考虑正交频分复用(ofdm)技术下的资源块(rb)的空间复用，即一个rb在同一传输时隙(tti)内最多允许个用户同时占用因此，在时刻t，每个rb所有可能的分配动作个数为其中表示从n个用户中任意选k个用户的组合数；每个rb的分配动作记为假设基站共有m个rb，表示在当前时刻t，第i个rb分给了第k个用户使用，表示第i个rb未分给第k个用户使用。总的rb分配策略表示为：

8、

9、(1.3)奖励函数设计：触觉帧的qos可靠性要求高且数据量小，采取优先传递触觉帧的策略，即一个用户得到rb资源后，优先传输触觉帧，剩下的资源再传输视频帧。以视频帧传输的角度设计如下奖励函数：

10、(1.3.1)满足qos要求的奖励：

11、用xk＝ot,k-qosk表示第k个用户的实际视频fsr与qos要求的差值，当xk不大于理想差值x′时，给一个正奖励c；如果xk超出理想值x′，则给一个比c小的线性衰减正奖励值；针对任意用户k，设计的关于满足qos要求的奖励用公式表示为：

12、

13、其中，a,b,c为可调节的超参数。

14、(1.3.2)信道速率奖励：

15、在给定的时刻t，第k个用户的视频帧传输速率表示为在一个时长为pv,k传输时间窗口传完一个大小为dv,k视频帧所需要的平均速率为当低于时，奖励函数为一个开口向上的二次函数，在速率远小于或很接近时，我们给予很小的惩罚值，即负奖励，旨在鼓励放弃信道速率极低的用户，或接纳很接近平均速率的用户来提高成功服务该用户的概率。当速率大于时，给予正的奖励，而此时当该用户还没满足qos要求时，即xk,t＜0，给于指数函数增长速率的正奖励值；若该用户已满足qos要求，则给予恒定的正奖励值。针对任意用户k，设计的用户速率的奖励用公式表示为：

16、

17、其中，a1,b1,b2,c1是可调节的超参数。

18、(1.3.3)考虑用户数量的动态变化，使用所有用户的平均奖励作为最终奖励rt：

19、

20、步骤2：设计分布式多智能体模型框架：假设一个基站共有m个rb，将每个rb视为一个智能体(agent)，记为rb-agent。在给定的时刻t，每个rb-agent观测到的外部环境状态st相同，每个rb-agent输出自己的分配动作ai,t,然后所有rb-agent的动作集成为最终的rb分配策略at＝[a1,t,a2,t,…,am,t]t，该分配策略与环境交互，收到环境的反馈rt和下一时刻t+1的状态st+1，此为多智能体和环境的一次完整交互，形成一条经验[st,ai,t,rt,st+1]，存入每个rb-agent各自的经验池di，用于训练各自的模型参数。

21、步骤3：构建单个rb-agent模型，每个rb-agent模型由状态划分模块、编码器、解码器三个模块构成。每个模型的框架相同，仅参数不同。具体构建步骤如下：

22、(3.1)状态划分模块构建：对每个rb-agent的状态si,t按每个用户分组，任意用户k包含自己的编号及视频和触觉信息，记为st,k＝{k,ot,k,o′t,k,nt,k,n′t,k,tt,k}，状态si,t的维度从(b,nagent,n*6)维变为(b,nagent,n,6)维，其中b是一个批次(batch)的大小，nagent＝1是指每个rb是一个智能体，n本文档来自技高网...

【技术保护点】

1.一种将深度强化学习(DRL)和转换器(Transformer网络)结合的自适应带宽资源分配方法，其特征在于，具体步骤为：

2.根据权利要求1所述的自适应带宽资源分配方法，其特征在于，步骤4中所述ADMA-DcT的训练或测试回合用Episode表示，每个Episode中包含LS个训练步长，记为Steps，每个Episode开始时，随机初始化用户数目N∈[Nmin,Nmax]，N在同一Episode内保持不变；根据初始化的数目N动态创建每个RB-Agent的经验池在给定的训练步长Stept，每个RB-Agent观测到的外部环境状态St相同，每个RB-Agent同时输出自己的分配动作然后所有RB-Agent的动作集成为最终的RB分配策略At＝[a1,t,a2,t,…,aM,t]T，该分配策略与环境交互，收到环境的奖励rt和下一步长t+1的状态St+1，此为多智能体和环境的一次完整交互，形成一条经验[St,ai,t,rt,St+1]，存入每个RB-Agent各自的经验池Di；等智能体与环境交互完LS个Steps后，开始进行模型训练；

3.根据权利要求2所述的自

...

【技术特征摘要】

1.一种将深度强化学习(drl)和转换器(transformer网络)结合的自适应带宽资源分配方法，其特征在于，具体步骤为：

2.根据权利要求1所述的自适应带宽资源分配方法，其特征在于，步骤4中所述adma-dct的训练或测试回合用episode表示，每个episode中包含ls个训练步长，记为steps，每个episode开始时，随机初始化用户数目n∈[nmin,nmax]，n在同一episode内保持不变；根据初始化的数目n动态创建每个rb-agent的经验池在给定的训练步长stept，每个rb-agent观测到的外部环境状态st相同，每个rb-agent同时输出自己的分配动作然后所有rb-agent的动作集成为最终的rb分配策略at＝[a1,t,a2,t,…,am,t]t，该分配策略与环境交互，收到环境的奖励rt和下一步长t+1的状态st+1，此为多智能体和环境的一次完整交互，形成一条经验[st,ai,t,rt,st...

【专利技术属性】
技术研发人员：王兆诚，王睿，张宝晔，任浩琪，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人