当前位置: 首页 > 专利查询>东南大学专利>正文

雾无线接入网中基于策略的联邦强化学习的协作缓存方法技术

技术编号:32130276 阅读:22 留言:0更新日期:2022-01-29 19:28
本发明专利技术公开了一种雾无线接入网中基于策略的联邦强化学习的协作缓存方法,包括:1、初始化缓存边缘雾网络中节点的本地缓存内容,初始化全局模型训练周期和模型权重参数并分发给每个节点的本地模型;2、每一个缓存节点分享自身的缓存内容状态信息给邻近的缓存节点和云端服务器;3、根据每个时隙内接收到的用户请求信息,缓存节点会在本地缓存,临近节点缓存和云端服务器之间做出决策应答用户请求;4、计算缓存命中率和用户的内容请求延迟;5、缓存节点根据本地内容缓存状态和用户的内容请求信息,更新本地缓存内容和训练模型参数。6、对各节点的训练模型权重参数进行联合更新。本发明专利技术降低用户请求延迟,保护用户隐私。保护用户隐私。保护用户隐私。

【技术实现步骤摘要】
雾无线接入网中基于策略的联邦强化学习的协作缓存方法


[0001]本专利技术属于移动通信系统中边缘网络的协作缓存领域,尤其涉及一种雾无线接入网中基于策略的联邦强化学习的协作缓存方法。

技术介绍

[0002]随着5G时代的到来,移动设备和应用数量迅速增加,产生的海量数据给无线蜂窝网络带来了巨大的流量压力。雾无线接入网是解决蜂窝网络通信链路拥塞问题的一种很有前景的方法。在雾无线接入网中,边缘缓存将流行的内容放在离用户更近的雾无线接入点中,也称为缓存节点。缓存节点的引入可以有效降低回程链路的负载压力和内容传输延迟。由于缓存节点的通信资源和本地存储容量有限,如何缓存最流行的内容是目前边缘缓存研究的重要方向。
[0003]近年来,强化学习已成为优化雾无线接入网中内容协作缓存的重要工具。但是,大多数应用于雾无线接入网中协边缘缓存问题的强化学习算法都是基于Q值的,它们需要计算出所有可能的动作状态对Q值从而来获取最优的动作选择,当动作空间维度增高时,需要计算的动作状态对Q值也更多,因此,这类算法在处理动作空间维度较大的问题时性能不佳。此外,大多数强化学习算法需要用户将自己的数据上传至云端进行训练,忽视了对用户敏感数据的保护。最后,在雾无线接入网中训练强化学习网络的传统方式是将学习体布置在云端进行单独训练,造成了各节点运算资源的浪费和较慢的收敛速度。

技术实现思路

[0004]本专利技术目的在于提供一种雾无线接入网中基于策略的联邦强化学习的协作缓存方法,以解决用户内容请求延迟高,资源加性浪费高,网络不适应高维度动作空间,网络收敛慢和不能很好保护用户隐私的技术问题。
[0005]为解决上述技术问题,本专利技术的具体技术方案如下:
[0006]一种雾无线接入网中基于联邦深度确定性策略梯度学习协作缓存方法,包括以下步骤:
[0007]步骤1、根据全局内容流行度初始化总缓存内容状态s(0),单个训练周期步长l,模型的总周期数T,模型的网络参数,包括在线Q值网络 Q(s,a|θ
Q
)的参数θ
Q
,在线策略网络μ(s|θ
μ
)的参数θ
μ
以及目标Q值网络 Q

(s,a|θ
Q

)的参数θ
Q

和目标策略网络μ

(s|θ
μ

)的参数θ
μ

,其中s代表输入网络的状态参数,a代表输入网络的动作选择参数,此外初始化的目标Q值网络参数θ
Q

等于初始化的在线Q值网络参数θ
Q
,初始化的目标策略网络参数θ
μ

等于θ
μ

[0008]步骤2、选取流行度估计算法计算时隙t的全局内容流行度其中P
f
(t)为内容f的流行度;各个基站作为缓存节点,收集用户的内容请求信息,并基于所有基站的本地内容缓存状态集合,做出动作选择,获取下
一状态;
[0009]步骤3、基于步骤2缓存节点做出的动作选择和周期内的内容流行度计算出用户的内容平均请求延迟D
F

U
(t),D
F

F

U
(t)和D
C

F

U
(t),其中D
F

U
(t)表示用户直接从本地缓存节点获取它的请求内容所产生的请求延迟,D
F

F

U
(t)表示用户需要从邻近的缓存节点获取它的请求内容所产生的请求延迟,D
C

F

U
(t)表示用户需要从云端服务器获取它的请求内容所产生的请求延迟;
[0010]步骤4、计算步骤3中不同内容获取方式下该状态动作对的奖励值;
[0011]步骤5、将转换组存入经验回放池中,并从经验回放池中随机采样转换组用于网络参数更新,更新完毕后进入下个时隙;
[0012]步骤6、一个训练周期结束后,上传各个缓存节点的模型网络参数至云端,并在云端生成全局网络参数分发给各节点,进入下一个训练周期。
[0013]进一步的,所述步骤2具体包括以下步骤:
[0014]步骤2.1、在每个缓存节点中的本地在线策略网络μ(s|θ
μ
)根据当前的总缓存状态s(t)生成动作选择a(t),即a(t)=μ(s(t)|θ
μ
)其中 s(t)={s1(t),...,s
n
(t),...,s
N
(t)},N表示雾网络中缓存节点的总个数, s
n
(t)=[n1,n2,...,n
c
,...,n
C
],为在第t个时隙,缓存节点n的状态空间,n
c
表示内容c在缓存节点n中的缓存索引,F表示内容库中内容的总个数;
[0015]步骤2.2、若缓存节点n在时隙t收到某内容请求,将该内容记为f,将在时隙t该节点未缓存的流行度最高的内容记为f

;该节点根据a(t)执行缓存替换动作,将C记为此节点的缓存容量;执行替换动作时有如下三类情况:若f已缓存在该节点,a(t)=c,c≠C+1表示节点n将其缓存的n
c
内容替换为f

;若f未缓存在该节点,a(t)=c,c≠C+1表示节点n将其缓存的n
c
内容替换为f; a(t)=C+1表示节点n在第t个时隙不做缓存内容的替换;
[0016]步骤2.3、缓存节点n完成步骤2.2的缓存替换后,更新其本地状态空间,并且将其状态空间中的缓存内容索引按流行度进行降序排序,获得下一时隙t+1的状态空间s
n
(t+1),综合各节点的状态空间获取总的新状态空间 s(t+1)。
[0017]进一步的,所述步骤3具体包括以下步骤:
[0018]步骤3.1、节点n收到用户发出请求内容f,若内容f缓存在本地节点中,那么本地节点直接将内容f发送给用户,产生的内容请求延迟为d
n1
,d
n1
表示将内容从本地节点发送给用户所需要的时间,从而可以计算在时隙t本模型中所有节点的平均本地请求延迟D
F

U
(t)为:
[0019][0020]其中N表示缓存节点的个数,c
f,n
(t)=1表示内容f被缓存在节点n中;
[0021]步骤3.2、若本地节点没有缓存内容f,而邻近的缓存节点存储了内容f,那么用户将从邻近的缓存节点中去得到它的请求内容f,产生的内容请求延迟为d
n1
+d
n2
,d
n2
表示两个相邻的节点之间传输内容所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种雾无线接入网中基于联邦深度确定性策略梯度学习协作缓存方法,其特征在于,包括以下步骤:步骤1、根据全局内容流行度P(0),初始化总缓存内容状态s(0),单个训练周期步长l,模型的总周期数T,模型的网络参数,包括在线Q值网络Q(s,a|θ
Q
)的参数θ
Q
,在线策略网络μ(s|θ
μ
)的参数θ
μ
以及目标Q值网络Q

(s,a|θ
Q

)的参数θ
Q

和目标策略网络μ

(s|θ
μ

)的参数θ
μ

,其中s代表输入网络的状态参数,a代表输入网络的动作选择参数,此外初始化的目标Q值网络参数θ
Q

等于初始化的在线Q值网络参数θ
Q
,初始化的目标策略网络参数θ
μ

等于θ
μ
;步骤2、选取流行度估计算法计算时隙t的全局内容流行度P(t),其中P
f
(t)为内容f的流行度;各个基站作为缓存节点,收集用户的内容请求信息,并基于所有基站的本地内容缓存状态集合,做出动作选择,获取下一状态;步骤3、基于步骤2缓存节点做出的动作选择和周期内的内容流行度计算出用户的内容平均请求延迟D
F

U
(t),D
F

F

U
(t)和D
C

F

U
(t),其中D
F

U
(t)表示用户直接从本地缓存节点获取它的请求内容所产生的请求延迟,D
F

F

U
(t)表示用户需要从邻近的缓存节点获取它的请求内容所产生的请求延迟,D
C

F

U
(t)表示用户需要从云端服务器获取它的请求内容所产生的请求延迟;步骤4、计算步骤3中不同内容获取方式下该状态动作对的奖励值;步骤5、将转换组存入经验回放池中,并从经验回放池中随机采样转换组用于网络参数更新,更新完毕后进入下个时隙;步骤6、一个训练周期结束后,上传各个缓存节点的模型网络参数至云端,并在云端生成全局网络参数分发给各节点,进入下一个训练周期。2.根据权利要求1所述的雾无线接入网中基于策略的联邦强化学习的协作缓存方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1、在每个缓存节点中的本地在线策略网络μ(s|θ
μ
)根据当前的总缓存状态s(t)生成动作选择a(t),即a(t)=μ(s(t)|θ
μ
)其中s(t)={s1(t),...,s
n
(t),...,s
N
(t)},N表示雾网络中缓存节点的总个数,s
n
(t)=[n1,n2,...,n
c
,...,n
C
],为在第t个时隙,缓存节点n的状态空间,n
c
表示内容c在缓存节点n中的缓存索引,F表示内容库中内容的总个数;步骤2.2、若缓存节点n在时隙t收到某内容请求,将该内容记为f,将在时隙t该节点未缓存的流行度最高的内容记为f

;该节点根据a(t)执行缓存替换动作,将C记为此节点的缓存容量;执行替换动作时有如下三类情况:若f已缓存在该节点,a(t)=c,c≠C+1表示节点n将其缓存的n
c
内容替换为f

;若f未缓存在该节点,a(t)=c,c≠C+1表示节点n将其缓存的n
c
内容替换为f;a(t)=C+1表示节点n在第t个时隙不做缓存内容的替换;步骤2.3、缓存节点n完成步骤2.2的缓存替换后,更新其本地状态空间,并且将其状态空间中的缓存内容索引按流行度进行降序排序,获得下一时隙t+1的状态空间s
n
(t+1),综合各节点的状态空间获取总的新状态空间s(t+1)。3.根据权利要求2所述的雾无线接入网中基于策略的联邦强化学习的协作缓存方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1、节点n收到用户发出请求内容f,若内容f缓存在本地节点中,那么本地节点直接将内容f发送给用户,产生的内容请求延迟为d
n1<...

【专利技术属性】
技术研发人员:蒋雁翔王宇
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1