mMTC制造技术

技术编号:39725059 阅读:7 留言:0更新日期:2023-12-17 23:30
本发明专利技术提供一种

【技术实现步骤摘要】
mMTC场景中终端设备的接入方法、装置及网络设备


[0001]本专利技术涉及大规模机器类型通信
,尤其涉及一种
mMTC
场景中终端设备的接入方法

装置及网络设备


技术介绍

[0002]5G
及其他移动网络的部署大大推动了机器类型通信网络的发展,同时,也给机器类型通信网络带来了更高的要求,比如需要支持大量高密度部署的设备的接入

随着
mMTC(Massive Machine Type Communication
,大规模机器类型通信
)
设备数目和部署密度的急剧上升,传统的随机接入技术已经渐渐无法满足
MTC
通信的需求,因此迫切需要一个能够利用有限的频谱资源来实现尽可能多的
MTC
设备接入基站的接入方案

[0003]在接入方案的探索中,目前已经提出的方法有利用
Q

Learning
的强化学习方法,通过使用每个时隙的设备冲突次数作为奖励来训练出尽量避免设备冲突的接入方案,从而提高设备成功接入概率,然而,这个方法的复杂度较高,不仅需要确定冲突设备数量,还需要来自基站的大量反馈,这并不能满足
5G

mMTC
场景的低功耗需求,并且还会导致下行链路的拥堵

另一个方法是通过在基站使用
Q

Learning
动态调整接入等级限制方案的限制因子来限制设备接入,以降低设备发生冲突的概率,这种方案还是使用的传统的随机接入方法,虽然提高了设备的接入成功率,但它是通过限制设备接入来实现的,随着
mMTC
设备数量不断增加,这种方法将不再适用

[0004]因此,相关技术中还没有能够在
mMTC
场景下实现大量
MTC
设备接入基站的有效接入方法


技术实现思路

[0005]本专利技术实施例提供了一种
mMTC
场景中终端设备的接入方法

装置及网络设备,以解决相关技术中无法在
mMTC
场景下实现大量
MTC
设备接入基站的问题

[0006]第一方面,本专利技术实施例提供了一种
mMTC
场景中终端设备的接入方法,包括:
[0007]获取大规模机器类通信
mMTC
场景的需求信息

系统架构以及参数信息,以及每个终端设备的属性信息;其中,参数信息包括切片信息

时隙信息和发射功率等级信息,每个终端设备的属性信息包括每个终端设备的发射功率信息;
[0008]根据
mMTC
场景的需求信息

系统架构以及参数信息构建多智能体强化学习模型;其中,多智能体强化学习模型中将每个终端设备作为独立的智能体,对应一个
Q
网络;多智能体强化学习模型的状态矩阵根据属性信息和参数信息确定;
[0009]基于多智能体强化学习模型确定
mMTC
场景中的每个终端设备接入网络设备的选择策略

[0010]在一种可能的实现方式中,基于多智能体强化学习模型确定
mMTC
场景中的每个终端设备接入网络设备的选择策略,包括:
[0011]将状态矩阵
S
中的状态
S
i
‑1输入到第
i
个智能体的
Q
网络中;
[0012]第
i
个智能体对应的
Q
网络选取动作矩阵
A
i
中的动作
a
i
并执行,使得状态
S
i
‑1转化为状态
S
i

[0013]将状态
S
i
输入到第
i+1
个智能体对应的
Q
网络中,直到遍历完全部智能体对应的
Q
网络,得到该次迭代的状态矩阵
S


[0014]根据该次迭代的状态矩阵
S

和奖励函数计算每个智能体的奖励值;
[0015]根据每个智能体的奖励值和损失函数更新每个智能体的
Q
网络,并跳转执行将状态矩阵中的状态
S
i
‑1输入到第
i
个智能体的
Q
网络中步骤,直到多智能体强化学习模型满足预设条件后,输出最终的状态矩阵;
[0016]根据每个智能体的状态确定
mMTC
场景中的每个终端设备接入网络设备的选择策略

[0017]在一种可能的实现方式中,切片信息包括切片数;时隙信息包括时隙数;发射功率等级信息包括发射功率等级数;
[0018]状态矩阵为一个
N
S
×
N
T
×
N
P
的矩阵,其中
N
S
为切片数,
N
T
为时隙数,
N
P
为发射功率等级数;
[0019]动作矩阵为一个
N
S
×
N
T
×
N
P
的矩阵;
[0020]在动作矩阵中,第
i
个智能体选取的切片

时隙和发射功率对应的元素置1,其余元素置
0。
[0021]在一种可能的实现方式中,奖励函数为:
[0022][0023]在一种可能的实现方式中,损失函数为:
[0024][0025]其中,
r
i
为第
i
个智能体得到的奖励值,
Q
i
为第
i
个智能体的
Q
网络,
s
i
‑1为
Q
i
输入的状态,
a
i
为第
i
个智能体选取的动作,
ω
i
为第
i
个智能体的网络权重;
[0026]根据每个智能体的奖励值和损失函数更新每个智能体的
Q
网络,包括:
[0027]根据每个智能体的奖励值计算每个智能体对应的损失量;
[0028]根据每个智能体的损失量更新每个智能体的
Q
网络中的
ω
参数

[0029]在一种可能的实现方式中,根据该次迭代的状态矩阵
S

和奖励函数计算每个智能体的奖励值,包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种
mMTC
场景中终端设备的接入方法,其特征在于,包括:获取大规模机器类型通信
mMTC
场景的需求信息

系统架构以及参数信息,以及每个终端设备的属性信息;其中,所述参数信息包括切片信息

时隙信息和发射功率等级信息,所述每个终端设备的属性信息包括每个终端设备的发射功率信息;根据所述
mMTC
场景的需求信息

系统架构以及参数信息构建多智能体强化学习模型;其中,所述多智能体强化学习模型中将每个终端设备作为独立的智能体,对应一个
Q
网络;所述多智能体强化学习模型的状态矩阵根据所述属性信息和所述参数信息确定;基于所述多智能体强化学习模型确定所述
mMTC
场景中的每个终端设备接入网络设备的选择策略
。2.
根据权利要求1所述的
mMTC
场景中终端设备的接入方法,其特征在于,所述基于所述多智能体强化学习模型确定所述
mMTC
场景中的每个终端设备接入网络设备的选择策略,包括:将所述状态矩阵
S
中的状态
S
i
‑1输入到第
i
个智能体的
Q
网络中;所述第
i
个智能体对应的
Q
网络选取动作矩阵
A
i
中的动作
a
i
并执行,使得状态
S
i
‑1转化为状态
S
i
;将所述状态
S
i
输入到第
i+1
个智能体对应的
Q
网络中,直到遍历完全部智能体对应的
Q
网络,得到该次迭代的状态矩阵
S

;根据该次迭代的状态矩阵
S

和奖励函数计算每个智能体的奖励值;根据每个智能体的奖励值和损失函数更新每个智能体的
Q
网络,并跳转执行将所述状态矩阵中的状态
S
i
‑1输入到第
i
个智能体的
Q
网络中步骤,直到所述多智能体强化学习模型满足预设条件后,输出最终的状态矩阵;根据每个智能体的状态确定所述
mMTC
场景中的每个终端设备接入网络设备的选择策略
。3.
根据权利要求2所述的
mMTC
场景中终端设备的接入方法,其特征在于,所述切片信息包括切片数;所述时隙信息包括时隙数;所述发射功率等级信息包括发射功率等级数;所述状态矩阵为一个
N
S
×
N
T
×
N
P
的矩阵,其中
N
S
为切片数,
N
T
为时隙数,
N
P
为发射功率等级数;所述动作矩阵为一个
N
S
×
N
T
×
N
P
的矩阵;在所述动作矩阵中,第
i
个智能体选取的切片

时隙和发射功率对应的元素置1,其余元素置
0。4.
根据权利要求2所述的
mMTC
场景中终端设备的接入方法,其特征在于,所述奖励函数为:
5.
根据权利要求2所述的
mMTC
场景中终端设备的接入方法,其特征在于,所述损失函数为:
其中,
r
i
为第
i
个智能体得...

【专利技术属性】
技术研发人员:吴军英张鹏飞王玉贞尹晓宇李艳军王金朔刘佳宜杨清海卢艳艳刘俊岭
申请(专利权)人:西安电子科技大学广州研究院国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1