【技术实现步骤摘要】
一种受限边缘网络的低时延同步资源卸载方法、装置
[0001]本专利技术涉及通信领域,尤其涉及一种受限边缘网络的低时延同步资源卸载方法
、
装置
。
技术介绍
[0002]近年来,移动通信技术不断发展,随着第五代
(5G)
网络的问世,大量新型业务出现,如自动驾驶
、
工业控制
、
增强
/
虚拟现实等
。
这些新型业务为人们的生活和工作带来了更多的便利和效率
。
然而,这些业务场景对带宽
、
时延
、
能耗
、
可靠性等指标提出了更高的要求
。
另一方面,智能终端的大规模普及,联网的终端设备海量增加,网络边缘侧需要处理的流量数据海量增长,增加了网络运维的负担
。
[0003]当前,边缘计算在移动通信网络中得到广泛应用,成功地解决了传统的云服务器集中式处理业务所导致的工作负载问题
。
针对工业和专用网络等特定场景,终端设备能够快速地将任务卸载到位于移动网络边缘的服务器上执行,以降低业务处理时延并减轻服务器集群的负载
。
然而,边缘服务器的计算资源受限,存储容量有限,这提高了资源同步的难度
。
同时移动边缘网络的网络拓扑动态复杂,网络连接不稳定,影响了资源同步的稳定性
。
而且边缘网络中的设备通常分布多个地理位置,存在多个边缘节点和边缘服务器,资源同步困难,这都
【技术保护点】
【技术特征摘要】
1.
一种受限边缘网络的低时延同步资源卸载方法,其特征在于,包括:获取定义的
Actor
网络和
Critic
网络的结构,初始化网络参数;初始化移动边缘计算系统的仿真参数,获得环境的初始观测状态;将所述初始观测状态输入到
Actor
当前网络进行循环训练,实时输出智能体获得的奖励;当奖励在预设步长内没有发生明显变化时,判定算法达到收敛;输出
Actor
当前网络参数,作为计算卸载和资源分配方案
。2.
根据权利要求1所述的方法,其特征在于,所述将所述初始观测状态输入到
Actor
当前网络进行循环训练,实时输出智能体获得的奖励,具体包括:将初始观测状态输入到
Actor
当前网络,输出第一动作并加上噪声得到第二动作;每个智能体执行对应的第二动作和环境交互作用获得奖励,并观测到下一时刻的状态以及任务完成标志
done
;根据智能体和环境交互作用得到的经验数据进行经验回放;计算预测的
Q
值,根据预测的
Q
值通过最小化损失函数更新
Critic
当前网络的参数;根据所述经验回放中采样的策略梯度更新
Actor
当前网络的参数;根据所述
Q
值更新
Actor
目标网络的参数和
Critic
目标网络的参数;根据不断更新的
Critic
当前网络和
Actor
当前网络实时输出智能体的奖励
。3.
根据权利要求1所述的方法,其特征在于,所述初始化网络参数,具体包括:初始化移动边缘计算环境中的智能体数量;初始化
Actor
网络学习率
、Critic
网络学习率
、
折扣因子
、
软更新参数
、
经验回放池容量
、
经验数据样本大小
、
总输入集数和均匀白噪声
Ornstein
‑
Uhlenbeck
噪声;确定智能体需要观测的状态空间的维度和动作空间的维度,初始化
Actor
网络和
Critic
网络的结构;使用
Xavier
初始化
Actor
当前网络参数和
Critic
当前网络参数;初始化
Actor
目标网络参数和
Critic
目标网络参数;初始化经验回放池
。4.
根据权利要求2所述的方法,其特征在于,所述根据智能体和环境交互作用得到的经验数据进行经验回放,具体包括:将智能体与环境进行交互生成的经验数据存储至经验回放池中;若确定所述经验回放池的存储空间有剩余,则存放存储状态转移表至所述经验回放池中;若确定经验回放池的存储量大于预设阈值,则随机抽取预设数量的经验数据样本,根据所述经验数据样本训练
Q
值函数和策略函数的参数,更新智能体的策略
。5.
根据权利要求2所述的方法,其特征在于,所述计算预测的
Q
值,具体包括:根据以下公式计算预测的
Q
值:
y
j
=
r
j
+
γ
Q'(s
j+1
,
μ
'(s
j+1
|
θ
μ
′
),
θ
Q
′
)
其中,
y<...
【专利技术属性】
技术研发人员:喻鹏,肖哲,沈德锋,杨杨,刘晓东,周凡钦,
申请(专利权)人:中国电子科技集团公司第五十四研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。