一种基于深度强化学习的无线传输空时频资源配置方法技术

技术编号：35896930 阅读：54 留言：0更新日期：2022-12-10 10:31

本发明专利技术涉及无线空口资源领域，具体说是一种基于深度强化学习的无线传输空时频资源配置方法，该方法包括：首先根据用户的位置和与基站的角度信息采用密度聚类算法对用户进行聚类，在不同聚类中的用户使用不同的波束为不同用户分配空域无线资源；然后，在一个时隙内基于用户的位置、用户与基站的角度、用户移动速度、用户移动方向、被基站的覆盖情况、聚类情况，采用深度强化学习为不同的用户分配不同的频带资源。本发明专利技术基于用户多方面的信息提出了空时频多域关联的资源分配方法，利用迫零波束成形将空域资源分配给不同聚类中的用户，在一个时隙内利用深度强化学习方法将频率资源分配给不同的用户。本发明专利技术提出的基于深度强化学习的无线传输空时频资源配置方法对资源的分配明显优于随机分配和决斗的深度强化学习方案，适用于动态条件下无线通信领域的空时频资源分配场景。源分配场景。源分配场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的无线传输空时频资源配置方法

[0001]本专利技术涉及无线空口资源领域，具体说是一种基于深度强化学习的无线传输空时频资源配置方法。

技术介绍

[0002]未来6G技术的发展世界各国尚未达成共识，但总体来看，6G技术将会在5G现有技术基础上，进一步融合卫星通信、AI与大数据，构成面向2030年之后的泛在移动通信基础设施。受新应用需求与技术需求的驱动，6G需要引入新的性能指标，如更高的频谱效率/能效/成本效率、更高的传输速率、更低的时延、更大的连接数密度、覆盖率、智能化程度、安全性等。为了满足新需求与性能指标要求，6G采取全覆盖、全频谱、全应用、强安全的新范式。因此，6G将支持泛在异构场景，在空天地海各领域，借助各类传感器并基于大数据和深度学习，提供一个万物互联的网络。
[0003]然而，由于6G支持跨海空天地的连接，其传输环境非常复杂。如何分析空时频多域资源的尺度特性和耦合关系，挖掘多域资源的关联性和互易性，实现资源统一编排管理，是一项重要的技术挑战。
[0004]目前已有案例基于Q强化学习的无线网络配置方案，主要利用Q网络强化学习根据网络状态优化无线网络资源的分配，但不清楚分配到是何种无线资源。基于强化学习的资源分配优化方法和系统实现方案，主要是为根据下行链路的带宽、物理资源块数量、待传输的用户业务数量、资源块特征、下行链路特征等信息，为用户业务分配资源块。现有方案主要是利用强化学习针对无线传输单域(空域、时域或频域)进行的资源分配。对于无线传输空时频多域资源的研究甚少。
>
技术实现思路

[0005]针对现有技术中存在的缺陷，本专利技术的目的在于提供一种基于深度强化学习的无线传输空时频资源配置方法，解决无线传输空时频多域关联的资源分配问题。
[0006]为达到以上目的，本专利技术采取的技术方案是：
[0007]一种基于深度强化学习的无线传输空时频资源配置方法，包括如下步骤：
[0008]S1、采用密度聚类算法对用户聚类，所述密度聚类算法的输入包括用户位置信息、用户与基站之间的角度正弦值，输出为用户聚类标签；
[0009]S2、采用迫零波束成形方法为步骤S1中的不同聚类在空域上配置不同波束，所述迫零波束成形所需要的信道状态信息为每个聚类中用户的平均信道状态信息；
[0010]S3、以用户的位置、行驶速度、行驶方向、用户被哪个基站覆盖、用户与基站的角度和用户聚类标签作为状态，以选择子载波作为动作，以传输速率作为奖励，为了使得系统的总传输速率最大，利用深度强化学习算法为不同的用户学习一种一个时隙内子载波资源的分配方法。
[0011]在上述方案的基础上，所述步骤S1中用户的初始位置信息在基站覆盖范围内随机
生成，车辆用户位置在道路上生成，行人用户在非道路上生成。
[0012]在上述方案的基础上，所述步骤S1中密度聚类算法的实施主体为基站上的边缘服务器。
[0013]在上述方案的基础上，所述步骤S2中聚类的平均信道状态信息矩阵为H，利用迫零波束成形方案得到的波束矩阵W＝H
T
(HH
T
)
‑1。
[0014]在上述方案的基础上，所述步骤S2中用户的信道状态信息由基站采集。
[0015]在上述方案的基础上，所述步骤S3深度强化学习算法具体包括经验存储过程、Q估计网络训练过程和推理过程；
[0016]所述经验存储过程包括以下步骤：
[0017]S311、将当前用户状态信息输入Q估计网络，Q估计网络输出各动作的Q值，以概率ε选择Q值最大的动作；
[0018]S312、将动作作用于环境，得到奖励值与下一个状态；
[0019]S313、将由当前状态、动作、奖励和下一个状态组成的元组储存在经验回放池中，所述经验回放池用于神经网络的训练；
[0020]所述Q估计网络训练过程包括以下步骤：
[0021]S321、从步骤S313所述经验回放池中抽取小批量数据，数据的当前状态s
t
输入到Q估计网络，估计当前状态下各个动作的Q估计值Q估计(s
t
)；
[0022]S322、数据中的下一个状态s
t+1
输入到Q目标网络中，得到相应的Q值Q(s
t+1
)，并依据Q
现实
(s
t+1
)＝r
t
+γmaxQ(s
t+1
)得到Q现实值，其中，r
t
为上一状态的奖励值，γ为奖励衰减值。其次，所述Q目标网络的结构与所述Q估计网络的结构相同，当系统传输速率增大时，Q估计网络的权重参数赋给Q目标网络；
[0023]S323、以Q现实值与Q估计值的均方差作为损失函数计算损失；
[0024]S324、将损失值反馈至Q估计网络，利用优化器优化Q估计网络中的权重参数；
[0025]所述推理过程包括：
[0026]将用户状态信息输入给Q估计网络来选择Q值最大的子载波。
[0027]在上述方案的基础上，所述步骤S3中深度强化学习算法在基站上的边缘服务器中运行。
[0028]在上述方案的基础上，所述Q估计网络和Q目标网络均由三层神经网络构成，两层隐藏层的节点数均为10，激活函数为ReLu函数。
[0029]在上述方案的基础上，所述传输速率通过以下公式计算：
[0030]第i个基站到第k个用户在波束c下的第m个子载波上的下行信道表示为：
[0031][0032]式中，M为子载波个数，PL为路径损耗，为路径数，为路径增益，为第p条路径的发射角，为与发射角相关的响应向量；
[0033]第i个基站到第k个用户在波束c下的第m个子载波上的信道干扰噪声比表示为：
[0034][0035]式中，Po、和N0分别表示发送功率、被同一基站覆盖的用户间干扰、被不同基站覆盖的用户使用相同子载波的干扰以及高斯噪声，为波束矩阵W的分量；
[0036]用户的通信速率表示为：
[0037][0038]式中，B为系统带宽，M为子载波数量。
[0039]本专利技术所述的基于深度强化学习的无线传输空时频资源配置方法，具有以下有益效果：
[0040]1、本专利技术所针对的资源范围更广，包括空、时、频资源。
[0041]2、本专利技术方法对资源的分配明显优于随机分配和决斗的深度强化学习方案，适用于动态条件下无线通信领域的空时频资源分配场景。
附图说明
[0042]本专利技术有如下附图：
[0043]图1本专利技术基于深度强化学习无线资源分配方法的总流程图；
[0044]图2(a)本专利技术采用的密度聚类方案操作图；
[0045]图2(b)本专利技术采用的神经网络结构图；
[0046]图3本专利技术深度强化学习结构框图；
[0047]图4本专利技术和决斗的深度强化学习方法的在训练过程中收敛性对比图；
[0048]图5本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无线传输空时频资源配置方法，其特征在于，包括如下步骤：S1、采用密度聚类算法对用户聚类，所述密度聚类算法的输入包括用户位置信息、用户与基站之间的角度正弦值，输出为用户聚类标签；S2、采用迫零波束成形方法为步骤S1中的不同聚类在空域上配置不同波束，所述迫零波束成形所需要的信道状态信息为每个聚类中用户的平均信道状态信息；S3、以用户的位置、行驶速度、行驶方向、用户被哪个基站覆盖、用户与基站的角度和用户聚类标签作为状态，以选择子载波作为动作，以传输速率作为奖励，为了使得系统的总传输速率最大，利用深度强化学习算法为不同的用户学习一种一个时隙内子载波资源的分配方法。2.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法，其特征在于，所述步骤S1中用户的初始位置信息在基站覆盖范围内随机生成，车辆用户位置在道路上生成，行人用户在非道路上生成。3.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法，其特征在于，所述步骤S1中密度聚类算法的实施主体为基站上的边缘服务器。4.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法，其特征在于，所述步骤S2中聚类的平均信道状态信息矩阵为H，利用迫零波束成形方案得到的波束矩阵W＝H
T
(HH
T
)
‑1。5.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法，其特征在于，所述步骤S2中用户的信道状态信息由基站采集。6.如权利要求1所述的基于深度强化学习的无线传输空时频资源配置方法，其特征在于，所述步骤S3深度强化学习算法具体包括经验存储过程、Q估计网络训练过程和推理过程；所述经验存储过程包括以下步骤：S311、将当前用户状态信息输入Q估计网络，Q估计网络输出各动作的Q值，以概率ε选择Q值最大的动作；S312、将动作作用于环境，得到奖励值与下一个状态；S313、将由当前状态、动作、奖励和下一个状态组成的元组储存在经验回放池中，所述经验回放池用于神经网络的训练；所述Q估计网络训练过程包括以下步骤：S321、从步骤S313所述...

【专利技术属性】
技术研发人员：赵军辉，张欢，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人