基于注意力机制及残差网络的密码资源分配方法及系统技术方案

技术编号：44820516 阅读：1 留言：0更新日期：2025-03-28 20:09

本发明专利技术公开了一种基于注意力机制及残差网络的密码资源分配方法及系统，涉及基于深度Q网络的密码分配领域。本申请旨在应对高并发、多任务的复杂网络决策需求。密码服务场景涵盖了多种任务类型，包括加解密操作、大规模签名验证、密钥管理以及跨服务的安全计算。这些任务对系统的计算资源、通信带宽以及任务调度提出了极高的实时性和准确性要求。本申请通过引入深度强化学习方法，动态适配不同密码服务任务的特性，能够基于实时的系统状态和服务需求进行智能决策，从而显著提升了资源利用效率。同时，通过优化任务路径规划、减少系统时延以及实现负载均衡，有效保障了密码服务在高并发场景下的性能稳定性和任务响应能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及密码分配领域，尤其涉及一种基于注意力机制及残差网络的密码资源分配方法及系统。

技术介绍

1、在现代网络环境中，密码服务作为一种重要的安全保障手段，要求高效的资源调度来满足不同用户的需求。然而，由于密码服务需要多种不同的计算资源，且这些资源分布在多种不同的密码计算设备上，使得资源调度问题变得极为复杂和具有挑战性。传统的资源调度算法如sjf(最短作业优先算法，shortest job first)、srtf(最短剩余时间优先算法，shortest remaining time first)、fcfs(先来先服务算法，first come firstserved)等，虽然在某些特定场景中表现良好，但在面对动态和不确定的网络环境时，往往显得力不从心。

2、现有的解决方案都忽略了两个问题：1)使用平均算力预测时间的局限性：在密码服务场景中，直接使用平均算力来预测任务的完成时间可能会导致误差。密码计算的复杂性往往因算法和硬件支持的差异而变化巨大，平均算力无法准确反映不同设备在执行特定算法时的性能。这样就忽略了细粒度的性能建模和预测，尤其是对不同硬件平台和算法类型的差异性分析。2)动态调整与自适应调度策略：研究专注于静态的调度策略设计，而忽略了根据实时负载情况动态调整调度策略的需求。在复杂的云环境中，资源负载和需求是不断变化的，静态策略难以应对多变的环境。对于需要长时间运行的密码服务任务，没有充分考虑自适应调度方法，尤其是在面对不可预测的任务需求和突发负载时。

3、因此，在动态密码服务部署场景中，需要考虑一个

技术实现思路

1、针对密码服务调度问题，本申请提供一种基于注意力机制及残差网络的密码资源分配方法及系统，其通过将强化学习方法引入到密码服务资源分配中，通过基于注意力机制及残差网络的高效深度强化学习对密码资源进行分配，实现密码资源决策的多目标优化，以应对复杂的云计算环境下的资源调度问题。

2、本申请第一方面提供一种基于注意力机制及残差网络的密码资源分配方法，该方法包括下列步骤：

3、步骤1：对待分配的密码服务计算资源以马尔科夫决策过程进行建模，得到密码资源分配模型；

4、步骤2：采用注意力机制及残差网络搭建基于深度q网络(deep q-network,dqn)的密码资源分配模型的网络结构，并进行深度强化学习，以实现对搭建的网络结构网络参数调优训练，得到训练好的密码资源分配模型；

5、再基于训练好的密码资源分配模型获取待分配的密码服务计算资源的密码资源分配结果，实现决策的多目标优化。

6、进一步的，密码资源分配模型采用五元组(s,a,p,r,γ)表示；

7、其中，s表示模型的状态空间，包含环境中所有可能的状态集合，在本申请中，环境包括任务t、服务srv和服务节点node；

8、a表示模型的动作空间，包含智能体在不同状态下所有可以采取的动作的集合；

9、p表示模型的状态转移概率，即在状态s∈s下，执行动作α∈a后转移到下一状态s′∈s的概率p(s′|s,a)；

10、r表示模型的奖励函数，即深度q网络的智能体在状态s∈s下执行动作α∈a后获得的即时奖励r＝r(s,a)；

11、γ表示模型的折扣因子，以用于控制长期奖励与短期奖励的重要性。

12、进一步的，步骤1中，构建的密码资源分配模型包括两个网络结构保持一致的神经网络：评估网络和目标网络；其中，评估网络(也称价值网络)用于根据当前的环境状态预测采取某个动作预期回报值，即q值；目标网络则用于计算目标q值；评估网络的参数会随着深度强化学习不断更新，目标网络的参数则定期从评估网络同步更新；

13、在步骤2中对密码资源分配模型进行深度强化学习时，具体包括：

14、深度q网络的智能体与环境交互，收集样本(s,a,r,s′)，并存入深度q网络的经验回放池中；

15、从经验回放池中随机采样一批数据，并用评估网络预测q值；并基于目标网络输出的目标q值计算目标值：y＝r+γqtarget，其中qtarget为目标网络输出的目标q值；

16、通过最小化目标值y与评估网络的预测q值之间的误差来更新评估网络参数，再基于更新后的评估网络对下一批采样数据继续进行深度强化学习；

17、当满足目标网络的参数更新周期时，将评估网络的参数拷贝给目标网络。如每当智能体完成指定次数的交互，则触发一次目标网络的参数更新。

18、进一步的，评估网络和目标网络的网络结构依次包括：输入层、注意力机制层、残差层、全连接层和输出层；

19、其中，输入层用于接收当前环境状态，构建高维状态向量其中，表示第i个密码服务节点在时刻t的状态向量，n表示密码服务节点数量；每个的状态信息包括：用户请求的任务信息、当前节点的设备性能参数、当前节点的状态信息，如节点负载和节点地理位置等；

20、注意力机制层用于计算各密码服务节点之间的相关性，以量化密码服务节点的重要性，得到密码服务节点的重要度；

21、残差层通过堆叠残差块来增强网络的深度，学习节点状态与任务分配策略之间的关系；

22、全连接层用于将残差层输出的特征映射为高维特征；

23、输出层生成每个可能任务分配方案的预期回报值。

24、进一步的，注意力机制层具体为：

25、将状态向量st映射到查询矩阵q、键矩阵k和值矩阵v上：

26、q＝wqst,k＝wkst,v＝wvst

27、其中，wq、wk和wv分别为可学习查询权重矩阵、键权重矩阵和值权重矩阵；

28、通过注意力机制计算出注意力权重矩阵：

29、

30、基于注意力权重矩阵得到加权后的状态向量：

31、

32、其中，softmax(·)为归一化指数函数，dk为键权重矩阵wk的维度，为加权后的状态向量。

33、进一步的，残差层的每一个残差块由至少两个全连接层组成，每一个残差块的输出特征为至少两个全连接层的非线性变换加上前一个残差块的输出特征本文档来自技高网...

【技术保护点】

1.基于注意力机制及残差网络的密码资源分配方法，其特征在于，包括下列步骤：

2.如权利要求1所述的方法，其特征在于，密码资源分配模型采用五元组(S,A,P,R,γ)表示；

3.如权利要求2所述的方法，其特征在于，步骤1中，构建的密码资源分配模型包括两个网络结构保持一致的神经网络：评估网络和目标网络；其中，评估网络用于根据当前的环境状态预测采取某个动作预期回报值，即Q值；目标网络则用于计算目标Q值；

4.如权利要求1所述的方法，其特征在于，评估网络和目标网络的网络结构依次包括：输入层、注意力机制层、残差层、全连接层和输出层；

5.如权利要求4所述的方法，其特征在于，当前节点的状态信息包括节点负载和节点地理位置。

6.如权利要求4所述的方法，其特征在于，注意力机制层的处理过程包括：

7.如权利要求4所述的方法，其特征在于，残差层的每一个残差块由至少两个全连接层组成，每一个残差块的输出特征为至少两个全连接层的非线性变换加上前一个残差块的输出特征；其中，首个残差块的输入为加权后的状态向量其余残差块的输入为前一个残差块的输出特征。

8.如权利要求4所述的方法，其特征在于，在全连接层中，通过多层全连接层进行非线性变换，得到高维特征：

9.如权利要求4所述的方法，其特征在于，输出层的处理过程包括：

10.一种基于注意力机制及残差网络的密码资源分配系统，其特征在于，包括一个中央服务器和若干个密码服务资源节点；

...

【技术特征摘要】

1.基于注意力机制及残差网络的密码资源分配方法，其特征在于，包括下列步骤：

2.如权利要求1所述的方法，其特征在于，密码资源分配模型采用五元组(s,a,p,r,γ)表示；

3.如权利要求2所述的方法，其特征在于，步骤1中，构建的密码资源分配模型包括两个网络结构保持一致的神经网络：评估网络和目标网络；其中，评估网络用于根据当前的环境状态预测采取某个动作预期回报值，即q值；目标网络则用于计算目标q值；

4.如权利要求1所述的方法，其特征在于，评估网络和目标网络的网络结构依次包括：输入层、注意力机制层、残差层、全连接层和输出层；

5.如权利要求4所述的方法，其特征在于，当前节点的状态信息包括节点负载和节点地理位...

【专利技术属性】
技术研发人员：刘丹，廖天翔，胥杰，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人