一种基于垂直联邦的智能路由决策保护方法和系统技术方案

技术编号:32503990 阅读:19 留言:0更新日期:2022-03-02 10:13
本发明专利技术提出一种基于垂直联邦的智能路由决策保护方法和系统。所述方法包括:步骤S1、通过采样获取应用场景中的智能体的采样状态数据,所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端,N≥2且为正整数;步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据,利用构建的客户端模型,来生成所述采样子状态数据的特征数据,并将所述特征数据发送至服务器端;步骤S3、所述服务器端利用构建的服务器端模型,基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。对所述智能体的整体任务的路由决策。对所述智能体的整体任务的路由决策。

【技术实现步骤摘要】
一种基于垂直联邦的智能路由决策保护方法和系统


[0001]本专利技术属于针对智能路由的数据处理领域,尤其涉及一种基于垂直联邦的智能路由决策保护方法和系统。

技术介绍

[0002]在网络系统连接对象海量化、连接关系复杂化的背景下,传统基于人工配置的路由决策方法导致在有限时间内无法配置出最优的路由决策,促使研究人员将人工智能算法引入到智能路由决策过程中。随着深度强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被成功应用,研究人员将深度强化学习应用到智能路由决策领域,提升网络流量调度效能、网络资源分配合理性等方面。
[0003]尽管深度强化学习可以有效提高路由决策的水平,但其训练过程容易受到攻击,导致其训练集数据异常,进而影响了智能路由在学习过程中对于决策的判断或者动作的选择,最终使智能路由朝着失败的方向学习动作。在智能路由决策模型安全防护领域,面向深度强化学习的模型保护技术还没有很多的新进展,如何保护智能路由决策模型安全性成为了安全应用领域中的重要挑战。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一种基于垂直联邦的智能路由决策保护方案,目的在于保护基于深度强化学习的路由决策模型不受自身决策漏洞或者恶意攻击的影响。
[0005]本专利技术第一方面公开了一种基于垂直联邦的智能路由决策保护方法。所述方法包括:步骤S1、通过采样获取应用场景中的智能体的采样状态数据,所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端,N≥2且为正整数;步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据,利用构建的客户端模型,来生成所述采样子状态数据的特征数据,并将所述特征数据发送至服务器端;步骤S3、所述服务器端利用构建的服务器端模型,基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。
[0006]根据本专利技术第一方面的方法,在所述步骤S2中,构建的N个客户端模型具有相同的模型结构,每个客户端模型都包含两个客户端子模型,各个客户端子模型也具有相同的模型结构,每个客户端子模型都包含两个全连接层和两个激活函数层。
[0007]根据本专利技术第一方面的方法,在所述步骤S3中,所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理,以获得完整特征数据,所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策,所述服务器端模型包含一个全连接层和一个Tanh激活函数层。
[0008]根据本专利技术第一方面的方法,在所述步骤S1至所述步骤S3之前,所述方法还包括:步骤S0、对所述服务器端模型和N个所述客户端模型进行预训练,所述预训练具体包括:步骤S0

1、通过预采样获取所述应用场景中的所述智能体的训练状态数据,所述训练状态数据分为N组训练子状态数据,在N组训练子状态数据中的第k组训练子状态数据中加入表征恶意攻击的干扰噪声,随后将所述第k组训练子状态数据和其他N

1组训练子状态数据分别发送至N个客户端,1≤k≤N且k为正整数;步骤S0

2、所述N个客户端中的每一个客户端都基于接收到的训练子状态数据,利用所述客户端模型,来生成所述训练子状态数据的训练特征数据,并将所述训练特征数据发送至所述服务器端;步骤S0

3、所述服务器端利用所述服务器端模型,基于接收到的来自于所述N个客户端的N组训练特征数据生成针对所述智能体的训练任务的路由决策;步骤S0

4、获取所述智能体的训练任务的真实决策,基于所述训练任务的路由决策和所述训练任务的真实决策计算损失函数;步骤S0

5、所述损失函数被反馈至所述N个客户端,所述N个客户端在接收到所述损失函数后,重复所述步骤S0

1至所述步骤S0

4,直到计算得到的损失函数低于阈值,随后利用经预训练的所述服务器端模型和所述N个客户端模型执行所述步骤S1至所述步骤S3。
[0009]根据本专利技术第一方面的方法,在所述步骤S0

4中:利用如下公式表示所述损失函数:其中,表示所述客户端模型中动作网络的损失函数,表示所述客户端模型中判别网络的损失函数,表示所述客户端模型的模型参数;所述动作网络的损失函数为:其中,表示所述动作网络的状态转移概率,表示动作网络的前次状态转移概率,表示所述客户端模型的当前模型参数,表示所述客户端模型的前次模型参数,表示截取函数,截取范围内的值,表示超参数,表示时间步时的估计优势,表示在所述客户端模型的前次模型参数下所述时间步时的估计优势;所述判别网络的损失函数为:其中,是目标值函数,是预测值,和分别表示状态和动作,和表示超参数。
[0010]根据本专利技术第一方面的方法,在获取所述采样状态数据和所述训练状态数据时,均采用近段策略优化算法,来采集多个时刻的状态、动作、奖励值;具体包括:在第一时刻,所述智能体从所述应用场景的仿真环境中获取状态数据,所述动作网络基于所述状态数据
做出对应的动作,所述判别网络针对所述动作网络做出的动作给出奖励值;在其他时刻,以同样的方式获取某一时刻下的状态、动作、奖励值。
[0011]本专利技术第二方面公开了一种基于垂直联邦的智能路由决策保护系统。所述系统包括:状态采样模块,被配置为,通过采样获取应用场景中的智能体的采样状态数据,所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端,N≥2且为正整数;特征生成模块,被配置为,基于所述N个客户端中的每一个客户端接收到的采样子状态数据,利用构建的客户端模型,来生成所述采样子状态数据的特征数据,并将所述特征数据发送至服务器端;路由决策模块,被配置为,利用构建的服务器端模型,基于所述服务器端接收到的来自于所述N个客户端的N组特征数据,来生成针对所述智能体的整体任务的路由决策。根据本专利技术第二方面的系统,构建的N个客户端模型具有相同的模型结构,每个客户端模型都包含两个客户端子模型,各个客户端子模型也具有相同的模型结构,每个客户端子模型都包含两个全连接层和两个激活函数层。
[0012]根据本专利技术第二方面的系统,所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理,以获得完整特征数据,所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策,所述服务器端模型包含一个全连接层和一个Tanh激活函数层。
[0013]根据本专利技术第二方面的系统,所述系统包括:预处理模块,被配置为,对所述服务器端模型和N个所述客户端模型进行预训练,所述预训练具体包括:通过预采样获取所述应用场景中的所述智能体的训练状态数据,所述训练状态数据分为N组训练子状态数据,在N组训练子状态数据中的第k组训练子状态数据中加入表征恶意攻击的干扰噪声,随后将所述第k组训练子状态数据和其他N

1组训练子状态数据分别发送至N个客户端,1≤k≤N且k为正整数;所述N个客户端中的每一个客户端都基于接收到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于垂直联邦的智能路由决策保护方法,其特征在于,所述方法包括:步骤S1、通过采样获取应用场景中的智能体的采样状态数据,所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端,N≥2且为正整数;步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据,利用构建的客户端模型,来生成所述采样子状态数据的特征数据,并将所述特征数据发送至服务器端;步骤S3、所述服务器端利用构建的服务器端模型,基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。2.根据权利要求1所述的一种基于垂直联邦的智能路由决策保护方法,其特征在于,在所述步骤S2中,构建的N个客户端模型具有相同的模型结构,每个客户端模型都包含两个客户端子模型,各个客户端子模型也具有相同的模型结构,每个客户端子模型都包含两个全连接层和两个激活函数层。3.根据权利要求2所述的一种基于垂直联邦的智能路由决策保护方法,其特征在于,在所述步骤S3中,所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理,以获得完整特征数据,所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策,所述服务器端模型包含一个全连接层和一个Tanh激活函数层。4.根据权利要求3所述的一种基于垂直联邦的智能路由决策保护方法,其特征在于,在所述步骤S1至所述步骤S3之前,所述方法还包括:步骤S0、对所述服务器端模型和N个所述客户端模型进行预训练,所述预训练具体包括:步骤S0

1、通过预采样获取所述应用场景中的所述智能体的训练状态数据,所述训练状态数据分为N组训练子状态数据,在N组训练子状态数据中的第k组训练子状态数据中加入表征恶意攻击的干扰噪声,随后将所述第k组训练子状态数据和其他N

1组训练子状态数据分别发送至N个客户端,1≤k≤N且k为正整数;步骤S0

2、所述N个客户端中的每一个客户端都基于接收到的训练子状态数据,利用所述客户端模型,来生成所述训练子状态数据的训练特征数据,并将所述训练特征数据发送至所述服务器端;步骤S0

3、所述服务器端利用所述服务器端模型,基于接收到的来自于所述N个客户端的N组训练特征数据生成针对所述智能体的训练任务的路由决策;步骤S0

4、获取所述智能体的训练任务的真实决策,基于所述训练任务的路由决策和所述训练任务的真实决策计算损失函数;步骤S0

5、所述损失函数被反馈至所述N个客户端,所述N个客户端在接收到所述损失函数后,重复所述步骤S0

1至所述步骤S0

4,直到计算得到的损失函数低于阈值,随后利用经预训练的所述服务器端模型和所述N个客户端模型执行所述步骤S1至所述步骤S3。5.根据权利要求4所述的一种基于垂直联邦的智能路由决策保护方法,其特征在于,在所述步骤S0

4中:利用如下公式表示所述损失函数:
其中,表示所述客户端模型中动作网络的损失函数,表示所述客户端模型中判别网络的损失函数,表示所述客户端模...

【专利技术属性】
技术研发人员:杨林高先明冯涛张京京陶沛琳王雯
申请(专利权)人:军事科学院系统工程研究院网络信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1