当前位置: 首页 > 专利查询>军事科学院系统工程研究院网络信息研究所专利>正文

一种基于垂直联邦的智能路由决策保护方法和系统技术方案

技术编号：32503990 阅读：31 留言：0更新日期：2022-03-02 10:13

本发明专利技术提出一种基于垂直联邦的智能路由决策保护方法和系统。所述方法包括：步骤S1、通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端；步骤S3、所述服务器端利用构建的服务器端模型，基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。对所述智能体的整体任务的路由决策。对所述智能体的整体任务的路由决策。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于垂直联邦的智能路由决策保护方法和系统

[0001]本专利技术属于针对智能路由的数据处理领域，尤其涉及一种基于垂直联邦的智能路由决策保护方法和系统。

技术介绍

[0002]在网络系统连接对象海量化、连接关系复杂化的背景下，传统基于人工配置的路由决策方法导致在有限时间内无法配置出最优的路由决策，促使研究人员将人工智能算法引入到智能路由决策过程中。随着深度强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被成功应用，研究人员将深度强化学习应用到智能路由决策领域，提升网络流量调度效能、网络资源分配合理性等方面。
[0003]尽管深度强化学习可以有效提高路由决策的水平，但其训练过程容易受到攻击，导致其训练集数据异常，进而影响了智能路由在学习过程中对于决策的判断或者动作的选择，最终使智能路由朝着失败的方向学习动作。在智能路由决策模型安全防护领域，面向深度强化学习的模型保护技术还没有很多的新进展，如何保护智能路由决策模型安全性成为了安全应用领域中的重要挑战。

技术实现思路

[0004]为了解决上述技术问题，本专利技术提供了一种基于垂直联邦的智能路由决策保护方案，目的在于保护基于深度强化学习的路由决策模型不受自身决策漏洞或者恶意攻击的影响。
[0005]本专利技术第一方面公开了一种基于垂直联邦的智能路由决策保护方法。所述方法包括：步骤S1、通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；步骤S2、所述N个...

【技术保护点】

【技术特征摘要】
1.一种基于垂直联邦的智能路由决策保护方法，其特征在于，所述方法包括：步骤S1、通过采样获取应用场景中的智能体的采样状态数据，所述采样状态数据分为N组采样子状态数据分别被发送至N个客户端，N≥2且为正整数；步骤S2、所述N个客户端中的每一个客户端都基于接收到的采样子状态数据，利用构建的客户端模型，来生成所述采样子状态数据的特征数据，并将所述特征数据发送至服务器端；步骤S3、所述服务器端利用构建的服务器端模型，基于接收到的来自于所述N个客户端的N组特征数据生成针对所述智能体的整体任务的路由决策。2.根据权利要求1所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S2中，构建的N个客户端模型具有相同的模型结构，每个客户端模型都包含两个客户端子模型，各个客户端子模型也具有相同的模型结构，每个客户端子模型都包含两个全连接层和两个激活函数层。3.根据权利要求2所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S3中，所述服务器端对接收到的来自于所述N个客户端的所述N组特征数据进行拼接处理，以获得完整特征数据，所述服务器端模型根据所述完整特征数据生成针对所述智能体的整体任务的路由决策，所述服务器端模型包含一个全连接层和一个Tanh激活函数层。4.根据权利要求3所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S1至所述步骤S3之前，所述方法还包括：步骤S0、对所述服务器端模型和N个所述客户端模型进行预训练，所述预训练具体包括：步骤S0
‑
1、通过预采样获取所述应用场景中的所述智能体的训练状态数据，所述训练状态数据分为N组训练子状态数据，在N组训练子状态数据中的第k组训练子状态数据中加入表征恶意攻击的干扰噪声，随后将所述第k组训练子状态数据和其他N
‑
1组训练子状态数据分别发送至N个客户端，1≤k≤N且k为正整数；步骤S0
‑
2、所述N个客户端中的每一个客户端都基于接收到的训练子状态数据，利用所述客户端模型，来生成所述训练子状态数据的训练特征数据，并将所述训练特征数据发送至所述服务器端；步骤S0
‑
3、所述服务器端利用所述服务器端模型，基于接收到的来自于所述N个客户端的N组训练特征数据生成针对所述智能体的训练任务的路由决策；步骤S0
‑
4、获取所述智能体的训练任务的真实决策，基于所述训练任务的路由决策和所述训练任务的真实决策计算损失函数；步骤S0
‑
5、所述损失函数被反馈至所述N个客户端，所述N个客户端在接收到所述损失函数后，重复所述步骤S0
‑
1至所述步骤S0
‑
4，直到计算得到的损失函数低于阈值，随后利用经预训练的所述服务器端模型和所述N个客户端模型执行所述步骤S1至所述步骤S3。5.根据权利要求4所述的一种基于垂直联邦的智能路由决策保护方法，其特征在于，在所述步骤S0
‑
4中：利用如下公式表示所述损失函数：
其中，表示所述客户端模型中动作网络的损失函数，表示所述客户端模型中判别网络的损失函数，表示所述客户端模...

【专利技术属性】
技术研发人员：杨林，高先明，冯涛，张京京，陶沛琳，王雯，
申请(专利权)人：军事科学院系统工程研究院网络信息研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人