一种多智能体深度Q网络优化室内VLC-RF资源能效分配方法组成比例

技术编号：43954939 阅读：10 留言：0更新日期：2025-01-07 21:40

本发明专利技术涉及一种多智能体深度Q网络优化室内VLC‑RF资源能效分配方法，属于光无线通信技术领域。本发明专利技术为提高VLC‑RF异构网络的系统能效，将用户抽象为深度Q网络的智能体，用户选择VLC‑RF接入点、功率分配和子载波资源分配抽象为智能体的动作，设计兼顾用户对通信速率联盟满意或对信道可靠性联盟满意的比例公平满意度值和系统能耗利润值的乘积作为深度Q网络的奖励Q值，使用一个可变贪婪因子控制智能体的联盟转换，获得用户侧重的接入AP信道状态；然后，采用深度Q网络为用户选择Q值最大的动作，优化VLC‑RF系统中多个用户关联接入点、接入点发射功率和子载波资源分配。所提方法在增加用户满意度同时，可以提高VLC‑RF的系统能效。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于光无线通信，涉及一种多智能体深度q网络优化室内vlc-rf资源能效分配方法。

技术介绍

1、近年来，基于led(lighting emitting diode，发光二极管)的可见光通信(visible light communication,vlc)技术，在满足室内照明同时，由于具有低功耗、高安全性、无电磁干扰通信的优点，并可提供大约400thz无需授权的频谱，受到研究人员的广泛关注。vlc可以利用波长为380nm-780nm的可见光波，通过编码好的信息控制led的亮和灭，可以实现数据信息的高速率传输。在接收端，利用光电探测器，捕捉高速闪烁的led的亮和灭情况，并经过一系列的信号处理，能解码发送端传输的原始信息。

2、但是，vlc同样有其局限性，如数据传输依赖视距链路(line of sight,los)、vlc接入点(access point，ap)覆盖范围小，多个vlc ap密集部署易造成严重干扰等。为克服上述vlc缺点，近年来有学者提出将vlc和传统rf(radio frequency，射频)通信技术相结合，这一想法引起了许多相关领域学者的兴趣。一方面，vlc ap可以提供高速率的数据通信服务，另一方面，rf ap可以进一步保证连接的稳定性和链路可靠性。这对于提高具有不同满意度要求的用户的满意度体验是有力的，这里的满意度要求包括：高速率需求用户或高可靠性需求用户。在vlc-rf(visible light communication-radio frequency，可见光通信-射频)异构网络中，用

3、对于vlc-rf异构网络，传统资源分配方法，如凸优化、线性规划方法等需要提前获取信道状态信息，这在用户设备室内移动的情况下常常是比较困难的。深度学习算法在处理优化问题的时候，相比凸优化方法，深度学习算法的普适性更高、鲁棒性更强，其主要原理是将代表用户设备作为智能体，放在一个未知信道状态的环境中，智能体通过最大化长期奖励的原则与当前环境进行交互，类似于趋利避害机制，获得一个用户设备接入某个vlcap或rf ap、控制ap的发射功率值和选择ap的子载波信道的最大奖励值对应的最优策略，这个最优策略将指导智能体调整所接入ap、调整ap发射功率和调整子载波分配的动作。vlc-rf网络的信道状态和资源状态随着时间变化，智能体的策略也需要不断调整。智能体可以借助迭代算法，不断探索和试错动作的选择，以获取最优的接入ap、控制ap发射功率和分配子载波的动作。因此，在vlc-rf网络中，启发式算法以及凸优化算法所面临的困境，如由于vlc-rf网络资源动态变化，导致用户和中央控制器无法获取全局的信道状态信息和资源可用情况，室内设备数较多时用户接入ap和分配资源的算法复杂度过高等困境，深度学习算法都可以较好地解决上述问题。

技术实现思路

1、鉴于此，本专利技术的核心在于提供一种多智能体深度q网络优化室内vlc-rf资源能效分配方法，在保证用户公平性的同时提升系统的能效。

2、为达到上述目的，本专利技术提供如下技术方案：

3、s1：输入用户设备集合m，各用户请求速率值，1个rf ap(radio frequency accesspoint，射频接入点)和n个vlc ap保存在ap集合n中，rf ap在集合n中序号为0，ap的子信道集合为k，vlc ap的发射功率pv，rf ap的发射功率为pr；设置观测时隙数t，sinr阈值，折扣因子γ，单位通信可达速率的利润值ζ,单位发射功率所需的代价值σ，通信速率需求被系统满足的权重因子κ；分别计算用户设备接入vlc ap和rf ap的信道增益及可实现的可达速率值，计算系统的总可达速率值；

4、s2：根据可达速率值，计算各ap的单位调度周期平均可达速率和平均功耗，构造ap的能耗利润函数；构造评价用户请求接入不同ap的满意度比例公平函数，采用联盟博弈的方法，根据链路状态和满意度需求，采用概率优化方法优化用户的联盟转换，构造反映系统能效和用户满意度的优化目标函数；

5、s3：将vlc-rf接入用户和分配资源用一个马尔可夫决策过程表示，用户抽象为智能体，构造智能体的状态空间、动作空间、状态转移概率矩阵、以及智能体的q函数值作为智能体根据链路状态信息，决策动作为：用户选择ap接入、ap发射功率和分配ap的子载波资源的状态-动作策略的奖励，所设计的奖励函数为系统优化目标函数；通过dqn(deep q-learning network，深度q学习网络)优化马尔可夫决策过程，采用一个可变贪婪因子控制智能体在不同资源分配阶段采用可调整的概率探索策略，优化系统中用户关联vlc-ap接入点、接入点发射功率和子载波资源分配的q函数值，获得优化的各用户的资源分配方案。

6、具体地，本申请提供的一种多智能体深度q网络优化室内vlc-rf资源能效分配方法，所述s1的具体步骤为：

7、s101：根据朗伯辐射模型，计算用户接入vlc ap的信道增益；

8、其中，在第t时隙，用户m接入vlc ap n的信道增益为：

9、

10、在式(1)中，代表朗伯辐射系数，且φ1/2表示vlc ap的半功率辐射角，φ表示vlc ap的辐射角，ar表示ue的接收机光探测器(photo detector，pd)的接收面积,表示ue m与ap n的直线距离，ψm,n为ue m接收vlc ap n信号时的入射角，ψc为ue接收机的视场角，ts(ψm,n)和g(ψm,n)分别表示ue m以ψm,n接收光线信号时的光学滤波器和光学聚光器的增益；

11、s102：计算用户接入vlc ap的信干噪比值；

12、由香农公式，用户m接入vlc ap n的子信道k的sinr(signal to interferenceplus noise ratio，信干噪比)值为：

13、

14、在式(2)中，分别为第n个和第n’个vlc ap在第t时隙连接ue m时分配的第k个子载波光功率值；η为ue的pd光电转换系数；nv,分别是vlc噪声的功率谱密度和vlc ap的第k个子信道的信道带宽，其中，bv为每个vlc ap可通信的总调制带宽，且每个vlc ap的子信道总数为k；n\0表示除rf ap外的所有vlc ap集合，其中，0是rf ap在集合n中索引符号；

15、s103：计算用户接入vlc ap能获得的可达速率值；

16、其中，在第t时隙，用户m接入vlc ap n的子信道k获得的可达速率值为：

17、

18、s104：计算vlc ap的可达速率值；

19、其中，在第t时隙，第n个vlc ap能实现的可达速率值可以通过下式计算：

本文档来自技高网...

【技术保护点】

1.一种多智能体深度Q网络优化室内VLC-RF资源能效分配方法，其特征在于：该方法包括以下步骤：

2.如权利要求1所述的一种多智能体深度Q网络优化室内VLC-RF资源能效分配方法，其特征在于：所述S2具体方法为：

3.如权利要求1所述的一种多智能体深度Q网络优化室内VLC-RF资源能效分配方法，其特征在于：所述S3具体方法为：

【技术特征摘要】

1.一种多智能体深度q网络优化室内vlc-rf资源能效分配方法，其特征在于：该方法包括以下步骤：

2.如权利要求1所述的一种多智能体深度q网络优化室内vlc-rf资...

【专利技术属性】
技术研发人员：刘焕淋，候杨洋，陈勇，陈科，陈浩楠，谢裕欣，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人