使用基于强化学习的深度Q网络(DQN)的单发多用户多输入多输出(MU-MIMO)资源配对制造技术

技术编号：29688184 阅读：23 留言：0更新日期：2021-08-13 22:13

提供了用于在一组一个或多个用户设备(UE)之间调度无线电资源的系统、方法、装置和计算机程序产品。一种方法可以包括将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值，将Q值添加到编码后的数值中以产生经Q编码的值(Q

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用基于强化学习的深度Q网络(DQN)的单发多用户多输入多输出(MU-MIMO)资源配对
一些示例实施例总体上可以涉及移动或无线电信系统(诸如长期演进(LTE)或第五代(5G)无线电接入技术或新无线电(NR)接入技术)或其他通信系统。例如，某些实施例可以涉及在这样的通信系统中用于用户设备(UE)的无线电资源的调度。
技术介绍
移动或无线电信系统的示例可以包括通用移动电信系统(UMTS)陆地无线电接入网(UTRAN)、长期演进(LTE)演进型UTRAN(E-UTRAN)、高级LTE(LTE-A)、MulteFire、LTE-APro和/或第五代(5G)无线电接入技术或新无线电(NR)接入技术。第五代(5G)无线系统是指下一代(NG)无线电系统和网络架构。5G主要建立在新无线电(NR)上，但是5G(或NG)网络也可以建立在E-UTRA无线电上。据估计，NR将提供10-20G比特/s量级或更高的比特率，并且将至少支持增强型移动宽带(eMBB)和超可靠低延迟通信(URLLC)以及大型机器类型通信(mMTC)。预计NR将提供超宽带和超鲁棒的低时延连接性以及大规模联网以支持物联网(IoT)。随着IoT和机器对机器(M2M)通信的日益普及，对能够满足低功耗、低数据速率和长电池寿命需求的网络的需求将日益增长。注意，在5G中，可以向用户设备提供无线电接入功能的节点(即，类似于E-UTRAN中的节点B或LTE中的eNB)在建立在NR无线电上时可以被称为gNB，而在建立在E-UTRA无线电上时可以被称为NG-eNB。>
技术实现思路
另一实施例涉及一种方法，该方法可以包括：将多用户多输入多输出(MUMIMO)波束组合的每个序列编码为唯一数值；将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)；为波束组合的序列中的每个波束组合提供唯一指定仓(bin)；通过深度Q网络(DQN)传递包括状态表示的矩阵；以及通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。另一实施例涉及一种装置，该装置可以包括至少一个处理器和包括计算机程序代码的至少一个存储器。至少一个存储器和计算机程序代码被配置为与至少一个处理器一起引起该装置至少：将多用户多输入多输出(MUMIMO)波束组合的每个序列编码为唯一数值；将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)；为波束组合的序列中的每个波束组合提供唯一指定仓；通过深度Q网络(DQN)传递包括针对波束组合中的每个波束组合的状态表示的矩阵；以及通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。另一实施例涉及一种装置，该装置可以包括：编码部件，用于将多用户多输入多输出(MUMIMO)波束组合的每个序列编码为唯一数值；添加部件，用于将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)；提供部件，用于为波束组合的序列中的每个波束组合提供唯一指定仓；传递部件，用于通过深度Q网络(DQN)传递包括针对波束组合中的每个波束组合的状态表示的矩阵；以及输出部件，用于通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。另一实施例涉及一种装置，该装置可以包括：被配置用于将多用户多输入多输出(MUMIMO)波束组合的每个序列编码为唯一数值的电路系统；被配置用于将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)的电路系统；被配置用于为波束组合的序列中的每个波束组合提供唯一指定仓的电路系统；被配置用于通过深度Q网络(DQN)传递包括针对波束组合中的每个波束组合的状态表示的矩阵的电路系统；以及被配置用于通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)的电路系统。另一实施例涉及一种计算机可读介质，该计算机可读介质包括存储在其上的程序指令，该程序指令用于至少执行一种方法，该方法包括：将多用户多输入多输出(MUMIMO)波束组合的每个序列编码为唯一数值；将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)；为波束组合的序列中的每个波束组合提供唯一指定仓；通过深度Q网络(DQN)传递包括状态表示的矩阵；以及通过深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。附图说明为了适当地理解示例实施例，应当参考附图，在附图中：图1示出了根据实施例的系统，该系统描绘了形成多个波束以将信号能量聚焦在不同方向上的子小区；图2示出了根据实施例的方法的示例，该方法使用比例公平(PF)值的矩阵(D)和指定的一组规则来通过在基于强化学习的深度Q网络(DQN)公式中将矩阵条目视为像素值来提供解决方案；图3示出了根据实施例的给定的从产生一定奖励的状态矩阵中选择动作的示例；图4示出了根据实施例的将每个状态描绘为图像(即，PF度量作为像素值)的示例矩阵；图5示出了基于一个示例的描绘编码和解码操作的示例的表；图6示出了根据某些实施例的方法的示例流程图；以及图7示出了根据某些实施例的装置的示例框图。具体实施方式将容易理解，如本文中的附图中一般性地描述和示出的某些示例实施例的组件可以以多种不同配置来布置和设计。因此，对于用于在一组UE之间调度无线电资源(例如，应用多用户多输入多输出(MU-MIMO))的系统、方法、装置和计算机程序产品的一些示例实施例的以下详细描述并非旨在限制某些实施例的范围，而是代表所选择的示例实施例。在整个说明书中描述的示例实施例的特征、结构或特性可以在一个或多个示例实施例中以任何合适的方式组合。例如，在整个说明书中，短语“某些实施例”、“一些实施例”或其他类似语言的使用是指以下事实：结合一个实施例而描述的特定特征、结构或特性可以被包括在至少一个实施例中。因此，在整个说明书中短语“在某些实施例中”、“在一些实施例中”、“在其他实施例中”或其他类似语言的出现不一定全都是指同一组实施例，并且在一个或多个示例实施例中，所描述的特征、结构或特性可以以任何合适的方式组合。另外，如果需要，下面讨论的不同功能或步骤可以以不同的顺序和/或彼此同时执行。此外，如果需要，所描述的功能或步骤中的一个或多个可以是可选的或可以组合。这样，以下描述应当被认为仅是对某些示例实施例的原理和教导的说明，而不是对其的限制。本文中描述的某些实施例涉及例如以非迭代(单发(one-shot))方式在一组一个或多个争用UE之间调度无线电资源以使整个该组UE中的总吞吐量最大化的主题。一些实施例可以适用于5G以及其他类型的RAN和MU-MIMO。另外，某些实施例可以利用基于强化学习、Q学习和/或卷积神经网络的深度Q学习作为机器学习框架。在多用户MIMO(MU-MIMO)系统中，具有多个天线的基站(BS)可以与多个用户通信。通常，BS在每个天线处放大和移动传输或接收信号的相位，以改善数据流的信号质量(即，分集合并)或者同时向一个或多个用户发送或接收多个数据流(即，空间复用)。天线处信号的放大、相移和合本文档来自技高网...

【技术保护点】
1.一种方法，包括：/n将多用户多输入多输出(MU MIMO)波束组合的每个序列编码为唯一数值；/n将Q值添加到编码后的数值中以产生经Q编码的值(Q

【技术特征摘要】
【国外来华专利技术】20181105 FI 201859371.一种方法，包括：
将多用户多输入多输出(MUMIMO)波束组合的每个序列编码为唯一数值；
将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)；
为波束组合的所述序列中的每个波束组合提供唯一指定仓；
通过深度Q网络(DQN)传递包括状态表示的矩阵；以及
通过所述深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。

2.根据权利要求1所述的方法，其中所述输出还包括输出所述一个或多个最佳波束的所述经Q编码的值(Qencoded)。

3.根据权利要求1或2所述的方法，还包括向所述用户设备(UE)指配通过所述深度Q网络(DQN)被输出的所述一个或多个最佳波束。

4.根据权利要求1至3中任一项所述的方法，其中所述深度Q网络(DQN)被训练，使得在经训练的所述深度Q网络(DQN)的第一阶段，所有所述一个或多个最佳波束被预测。

5.根据权利要求1至4中任一项所述的方法，还包括训练所述深度Q网络(DQN)，其中所述训练包括：
将动作序列Ak编码为代码使得逆得到唯一Ak，所述Ak表示向所述用户设备(UE)的(多个)波束的指配；
其中每个所述动作序列Ak具有Ak＝[a0，a1，...，ak-1]的形式，1≤k≤n，并且ai∈{0，1，...M-1}代表在迭代i中选择的所述波束，0≤i≤k-1；
其中可能动作序列的总数由下式给出：

其中代表在从M个波束中选择k个波束时的可能组合的数目；并且
其中M表示波束的总数，并且n表示要被选择的波束的最大数目。

6.根据权利要求5所述的方法，其中将序列的所述总数限制为L包括：在重新布置Ak＝[a0，a1，...，ak-1]中的所述动作使得ai＜ai+1之后对动作序列进行编码。

7.根据权利要求1至6中任一项所述的方法，其中针对波束组合的每个序列的所述指定仓的大小由下式给出：其中表示在任何迭代处遇到的所述Q值的上界，并且β≥1代表用于增加仓间隔的比例因子，使得为整数。

8.根据权利要求5至7中任一项所述的方法，其中针对动作序列Ak的所述代码跨所有可能动作序列Ak是唯一的，并且针对动作序列Ak的所述指定仓由给出。

9.根据权利要求7或8中任一项所述的方法，还包括将Q(S)编码为其中Q(S)代表针对状态S的所述Q值，其中Q实现动作序列为Ak。

10.根据权利要求9所述的方法，给定Qencoded，所述方法还包括：
如下解码所述Q值Q(S)：以及
如下解码

11.根据权利要求5至10中任一项所述的方法，其中所述深度Q网络(DQN)的所述训练还包括：
计算其中Snext(a)是在状态S下采取动作a之后的结果状态，Q(Snext(a))和Ak是通过对Qencoded(Snext(a)，Ak)进行解码而被获取的；
将Q(S)编码为：

其中Ak+1＝[a0＝a*，Ak]，其中a*为最大实现动作；以及
在所述深度Q网络(DQN)批量拟合过程中使用Qencoded(S)值(称为回归方法)来获取经训练的深度Q网络(DQN)。

12.根据权利要求5至10中任一项所述的方法，其中所述深度Q网络(DQN)的所述训练替代地包括(称为分类方法)：
将转换为二进制比特流表示并且训练所述深度Q网络(DQN)以学习和预测所述二进制比特流。

13.一种装置，包括：
至少一个处理器；以及
包括计算机程序代码的至少一个存储器，
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：
将多用户多输入多输出(MUMIMO)波束组合的每个序列编码为唯一数值；
将Q值添加到编码后的数值中以产生经Q编码的值(Qencoded)；
为波束组合的所述序列中的每个波束组合提供唯一指定仓；
通过深度Q网络(DQN)传递矩阵，所述矩阵包括针对所述波束组合中的每个波束组合的状态表示；以及
通过所述深度Q网络(DQN)输出一个或多个最佳波束以指配给用户设备(UE)。

14.根据权利要求13所述的装置，其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述装置至少：输出所述一个或多个最佳波束的所述经Q编码的值(Qencoded)。

15.根据权利要求13或14所述的装置，其中所述至...

【专利技术属性】
技术研发人员：C·桑卡兰，
申请(专利权)人：诺基亚通信公司，
类型：发明
国别省市：芬兰;FI

全部详细技术资料下载我是这个专利的主人