一种基于弱监督持续学习的边缘设备加密流量分类方法技术

技术编号：42874455 阅读：17 留言：0更新日期：2024-09-30 15:00

本发明专利技术公开一种基于弱监督持续学习的边缘设备加密流量分类方法，首先获取已有的真实加密流量数据，包括少量的有标记数据和大量的无标记数据；随机初始化一个加密流量分类模型，然后利用当前加密流量数据训练模型并存储少量的核心有标记数据；当出现一批新类别的加密流量时，在旧模型基础上动态地分配计算资源分别用于使用新类流量的少量标注的有标记数据训练模型，充足的无标记数据训练模型以及所存储的其他旧类流量的核心有标记加密流量数据训练模型，并保存少量的核心有标记数据。本发明专利技术缓解标记数据的需求压力并解决新旧类别加密流量无法同时获得的难点，并且在实施过程中对资源要求较低且能充分利用有限的资源配额，易于在边缘设备进行部署。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于弱监督持续学习的边缘设备加密流量分类方法，涉及深度半监督学习和持续学习技术，特别涉及在边缘设备资源有限的情况下动态分配资源，对持续可能出现新类别的加密流量进行分类的方法。

技术介绍

1、随着通信网络的高速发展，流量数据的规模和类型呈日益增长的趋势。针对这些规模庞大且来源复杂的网络流量数据，对其进行鲁棒的分类已成为网络资源调度等领域的紧迫需求。传统的加密流量分类方法通常需要专家进行繁琐的特征工程，并依赖于不同加密算法之间的统计量差异来进行分类。然而，这种传统方法对专家知识的要求较高，需要耗费大量人力资源。

2、为了解决这一问题，深度加密流量分类技术逐渐成为主流。得益于深度半监督学习和无监督学习的发展，深度神经网络能够在仅使用极少的有标记的数据的情况下无需额外的特征工程就能获得良好的特征提取能力，并进一步实现端到端的加密流量分类，从而减轻了人力成本和时间成本。然而，随着物联网等技术的发展和对隐私保护关注的增加，边缘设备个体需要处理的加密流量类型也在不断增加。与此同时，边缘设备的计算和存储资源往往总量受限且可供使用的资源配额动态变化，无法存储大量数据或支持固定的高昂计算开销。面对这些实际挑战，本专利技术致力于提供一种模型迭代计算资源要求较低、持续可用的鲁棒的加密流量分类方法。

技术实现思路

1、专利技术目的：针对现有技术中存在的对标记样本需求较高而标记成本较高，新旧类别加密流量无法同时获得导致难以实现长久有效地分类，计算存储资源要求较高但边缘设备资源受限

2、技术方案：一种基于弱监督持续学习的边缘设备加密流量分类方法，所述基于弱监督持续学习的边缘设备加密流量分类方法适用于边缘设备流经、处理的加密流量数据会随着场景、时间推移发生变化的场景，它包含数据采集、弱监督持续学习和加密流量分类器预测。

3、数据采集的步骤为：

4、步骤100，收集流经边缘设备的加密流量数据；

5、步骤101，对少部分加密流量数据进行标注并进行数据预处理，得到有标记数据集合s0和无标记数据集合u0；

6、步骤102，收集流经边缘设备的新类别的加密流量数据；

7、步骤103，对少部分的新类别加密流量数据进行标注并进行数据预处理，得到有标记数据集合s1和无标记数据集合u1；

8、弱监督持续学习的步骤为：

9、步骤200，随机初始化训练模型m，该模型m以预处理后的加密流量数据为输入，可输出一个加密流量的特征向量，并据此特征向量得到加密流量类别的分类结果或重建的加密流量数据；

10、步骤201，基于当前计算资源配额，优先分配资源给有标记数据集合s0直至资源达到阈值t0，将剩余不超过某一阈值t1的资源分配给无标记数据集合u0，得到一批有标记数据和一批无标记数据；

11、步骤202，基于交叉熵损失和重建损失，使用当前批次的有标记数据和无标记数据更新模型m，并统计损失函数的平均值，重复若干次步骤201及本步骤后，损失函数均值基本不下降则进入步骤203；

12、步骤203，保存模型m，并使用模型m在s1上计算得到各类别加密流量特征空间中的类中心；

13、步骤204，计算有标记数据集合s1中各加密流量数据与其对应类中心的余弦相似度，选取余弦相似度大小位于中间位置的t2个数据保存到缓冲区集合d；

14、步骤205，根据新类别数量扩展模型m的分类器；

15、步骤206，基于当前计算资源配额，优先分配资源给有标记数据集合s1和缓冲区集合d直至s1和d所占用的资源同步达到阈值t0，将剩余不超过阈值t1的资源分配给无标记数据集合u1，得到一批新类有标记数据、一批旧类有标记数据和一批新类无标记数据；

16、步骤207，基于交叉熵损失和重建损失，使用当前批次的新类有标记数据、旧类有标记数据和新类无标记数据更新模型m，并统计损失函数的平均值，重复若干次步骤206及本步骤后，损失函数均值基本不下降则进入步骤208；

17、步骤208，输出训练好的模型m；

18、加密流量分类器预测的步骤为：

19、步骤300，收集流经边缘设备包含新、旧类别的加密流量测试数据并进行预处理；

20、步骤301，利用训练好的模型m进行预测，可对流经边缘设备的新、旧类别加密流量数据进行分类。

21、所述加密流量分类模型m一般可指定为神经网络，该模型需包括一个编码器，一个重建器和一个分类器。对于具体的编码器、重建器和分类器的类型、结构等均可由用户指定。如何设计该模型与本技术无关，即，本技术可以用于任意包含上述三个功能部件的神经网络。

22、所述计算得到加密流量特征空间中的类中心是指通过模型得到有标记样本集合的欧几里得归一化后的特征向量，然后对各类别样本的特征向量求算数平均得到各个类别的类中心。

23、有益效果：与现有技术相比，本专利技术所提供的基于弱监督持续学习的边缘设备加密流量分类方法可以缓解标记数据的需求压力，并能应对边缘设备流经、处理的加密流量类别可能会增加的情况。同时，本专利技术能动态分配边缘设备的硬件资源，在实施过程中对资源要求较低且能充分利用有限的资源配额，易于在边缘设备进行部署，适用性强。

本文档来自技高网...

【技术保护点】

1.一种基于弱监督持续学习的边缘设备加密流量分类方法，其特征在于：首先收集流经边缘设备的新旧类别加密流量数据并对少量数据进行标注，然后使用弱监督范式完成模型持续学习；具体流程包括数据采集、弱监督持续学习和加密流量分类器预测；

2.根据权利要求1所述的基于弱监督持续学习的边缘设备加密流量分类方法，其特征在于：所述加密流量分类模型M为神经网络，该模型需包括一个编码器，一个重建器和一个分类器。

3.根据权利要求1所述的基于弱监督持续学习的边缘设备加密流量分类方法，其特征在于：所述计算得到加密流量特征空间中的类中心是指通过模型得到有标记样本集合的欧几里得归一化后的特征向量，然后对各类别样本的特征向量求算数平均得到各个类别的类中心。

4.根据权利要求1所述的基于弱监督持续学习的边缘设备加密流量分类方法，其特征在于：所述基于弱监督持续学习的边缘设备加密流量分类方法适用于边缘设备流经、处理的加密流量数据会随着场景、时间推移发生变化的场景。

【技术特征摘要】

2.根据权利要求1所述的基于弱监督持续学习的边缘设备加密流量分类方法，其特征在于：所述加密流量分类模型m为神经网络，该模型需包括一个编码器，一个重建器和一个分类器。

3.根据权利要求1所...

【专利技术属性】
技术研发人员：詹德川，叶翰嘉，江楠，周大蔚，周志华，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人