System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于通信系统接入流程控制领域,具体涉及一种基于深度强化学习的动态随机接入通信方法。
技术介绍
1、随着大规模机器类通信场景下设备数量的快速增长,物联网技术进入了高速发展的阶段,数以亿计的机器类通信设备需要频繁且大规模地进行无线接入,导致出现高并发的接入请求。传统的基于授权的接入协议,由于需要多步骤的复杂交互流程,其信令开销和接入时延在面对海量设备时急剧增加,显然无法满足物联网场景下大量设备快速接入的需求。为此,随机接入技术成为研究的焦点。随机接入通过简化或省略传统授权过程中繁琐的多步交互,大幅度减少了调度开销和接入时延,为海量设备提供了一种更加灵活、高效的接入方式。然而,这种接入模式也伴随着显著的挑战,尤其是在高并发场景下,随机接入的随机性可能导致用户间的资源竞争加剧,从而引发碰撞和数据包丢失问题,降低了整体通信效率和可靠性。
2、aloha是最早提出的一种随机接入协议,用于解决无线通信中多用户共享信道的问题。它具有简单、灵活的特点,但在频谱利用率和冲突避免方面存在一定局限。slottedaloha是对原始aloha的改进版,通过引入时隙机制显著降低了冲突概率。理论上slottedaloha系统最大吞吐量可达36.8%,约为原始aloha的两倍。slotted aloha算法通过固定时隙数减少部分碰撞,提高识别效率,但无法动态调整时隙数。当标签多时,时隙不足导致碰撞率上升,识别效率和信道利用率下降;当标签少时,空时隙增多,造成资源浪费。因此,为了满足高质量移动互联网和物联网业务对可靠性、时延和效率的更高要求
技术实现思路
1、本专利技术的目的是提出一种基于深度强化学习的动态随机接入通信方法,有效解决多用户间的数据包碰撞问题,且即使在发生碰撞的情况下仍能正常解码,显著提升系统吞吐量。
2、本专利技术通过以下技术方案实现:
3、一种基于深度强化学习的动态随机接入通信方法,包括:
4、用户在当前帧中的随机接入流程包括:
5、步骤s11、用户在当前帧开始阶段,等待并接收接收端发送的发送数据包数量概率分布,其中,发送数据包数量概率分布由接收端根据前一帧的传输情况,通过深度强化学习获取;
6、步骤s12、用户根据接收到的发送数据包数量概率分布确定本次传输中需要发送数据包的数量;
7、步骤s13、用户根据步骤s12所得到需要发送数据包的数量,在当前帧中均匀选择对应数量的时隙,并在选定的时隙中逐一发送数据包,即实现随机接入;
8、接收端的接收机对于用户的随机接入信号的接收流程包括:
9、步骤s21、接收机在接收到的当前帧随机接入信号中,按时隙逐个对能够解码的数据包进行解码;
10、步骤s22、利用已解码的数据包消除当前帧随机接入信号中的干扰,得到干扰消除后的信号;
11、步骤s23、对于干扰消除后的信号,按时隙逐个对能够解码的数据包进行解码,并按照步骤s22继续进行干扰消除,不断重复本步骤,直至当前帧随机接入信号中所有数据包均成功解码或者不能再进一步解码;
12、步骤s24、当所有数据包均被成功解码时,接收机再次获取数据包数量概率分布并发送至所有用户,以进行新的数据的传输;当仍存在未解码数据包且不能再进一步解码时,接收机向未解码数据包对应的用户发送新的发送数据包数量概率分布,这部分用户按照所述随机接入流程重新传输数据包,直至所有数据包均被成功解码或者达到重新传输次数上限。
13、进一步的,所述步骤s11中,接收端包括学习模块和接收机,所述接收端获取发送数据包数量概率分布具体包括如下步骤:
14、步骤s111、学习模块获取前一帧的传输矩阵作为通信系统当前的环境状态,根据强化学习模型的策略网络做出决策,即得到发送数据包数量的概率分布,其中,,,表示第 n个用户在第 k个时隙的激活状态, n表示用户数量, k表示每一帧中时隙的数量,1≤ k≤ k,π表示决策网络的策略,表示策略网络的参数;
15、步骤s112、学习模块模拟用户根据发送数据包数量的概率分布 p t均匀选择时隙发送数据包,并对接收到的数据包进行解码,此时因传输矩阵变化故环境状态变化为,则基于环境状态的转换,根据公式得到反馈奖励,其中, m表示在一帧中所有用户发送的数据包个数, a为单用户一个子帧内包含的时隙数, n为该时隙成功发送数据包的用户数, t now为当前传输耗时, t total为一帧的总长度;
16、步骤s113、使用强化学习模型的价值网络为进行如公式的打分,其中,为当前价值网络的参数,表示价值网络估计的动作状态价值,q()表示神经网络模拟出的动作状态价值函数;
17、步骤s114、使用强化学习模型的目标网络为进行如公式的打分,其中,表示 t+1时刻的动作,表示目标网络的参数,表示目标网络对于 t+1时刻估计的动作状态价值;
18、步骤s115、分别根据公式和计算时分目标和时分误差,其中,表示对于未来预期奖励的折扣系数;
19、步骤s116、分别根据公式更新强化学习模型的价值网络和强化学习模型的策略网络,其中,表示价值网络的学习率,表示函数对于价值网络参数w的梯度,表示策略网络的学习率,表示函数对于策略网络参数的梯度,表示更新后的价值网络参数,表示更新后的决策网络参数;
20、步骤s117、学习模块不断重复步骤s111至步骤s116以进行训练,直至强化学习模型收敛,将最终得到的发送数据包数量的概率分布传输至接收机。
21、进一步的,所述步骤s12具体为:所述发送数据包数量概率分布中包含数量等级以及对应于各数量等级的多个概率,用户接收到发送数据包数量概率分布后,根据各概率以及设定的整数区间确定多个分别对应于各数量等级的子区间,并在设定的整数区间内生成一随机整数,根据该随机整数所属的子区间确定对应的数量等级,该数量等级即为用户本次传输中需要发送数据包的数量。
22、进一步的,所述步骤s13中,用户根据所述需要发送数据包的数量,在当前帧中基于均匀分布选择对应数量的时隙。
23、进一步的,所述步骤s21中,接收机将当前帧以及当前帧之前的v帧组成虚拟帧,当前帧以及当前帧之前的v帧作为虚拟帧的子帧,接收机在本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习的动态随机接入通信方法,其特征在于:包括:
2.根据权利要求1所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤S11中,接收端包括学习模块和接收机,所述接收端获取发送数据包数量概率分布具体包括如下步骤:
3.根据权利要求1所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤S12具体为:所述发送数据包数量概率分布中包含数量等级以及对应于各数量等级的多个概率,用户接收到发送数据包数量概率分布后,根据各概率以及设定的整数区间确定多个分别对应于各数量等级的子区间,并在设定的整数区间内生成一随机整数,根据该随机整数所属的子区间确定对应的数量等级,该数量等级即为用户本次传输中需要发送数据包的数量。
4.根据权利要求1或2或3所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤S13中,用户根据所述需要发送数据包的数量,在当前帧中基于均匀分布选择对应数量的时隙。
5.根据权利要求1或2或3所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤S21
6.根据权利要求1或2或3所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤S22具体为:接收机将当前帧随机接入信号中已解码的数据包去除,以得到干扰消除后的信号。
7.根据权利要求6所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述接收流程中,所述接收机采用联合译码机制对当前帧随机接入信号中的数据包进行处理。
...【技术特征摘要】
1.一种基于深度强化学习的动态随机接入通信方法,其特征在于:包括:
2.根据权利要求1所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤s11中,接收端包括学习模块和接收机,所述接收端获取发送数据包数量概率分布具体包括如下步骤:
3.根据权利要求1所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤s12具体为:所述发送数据包数量概率分布中包含数量等级以及对应于各数量等级的多个概率,用户接收到发送数据包数量概率分布后,根据各概率以及设定的整数区间确定多个分别对应于各数量等级的子区间,并在设定的整数区间内生成一随机整数,根据该随机整数所属的子区间确定对应的数量等级,该数量等级即为用户本次传输中需要发送数据包的数量。
4.根据权利要求1或2或3所述的一种基于深度强化学习的动态随机接入通信方法,其特征在于:所述步骤s13中,用户根据所...
【专利技术属性】
技术研发人员:郭婧,杜晨阳,王琦,于含笑,费泽松,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。