System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种在线漂移检测和自适应的可持续网络流量分类方法技术_技高网

一种在线漂移检测和自适应的可持续网络流量分类方法技术

技术编号:42983370 阅读:3 留言:0更新日期:2024-10-15 13:17
本发明专利技术公开了一种在线漂移检测和自适应的可持续网络流量分类方法,首先构建原始模型,完成流量数据工程和流量特征工程,并训练分类模型;然后进行漂移检测,通过漂移检测器检测网络流量数据是否发生漂移,若数据发生漂移,采集变化后的网络流量作为新数据,使用改进的旧知识蒸馏和偏差校正方法,进行数据漂移后的持续学习;最后,用调整后的新模型替代旧模型,完成网络流量数据漂移后模型自动检测和更新。本发明专利技术方法能够实时监测网络流量数据的变化,及时发现数据漂移的发生,并使用合适的更新策略快速适应新的数据分布,保持良好的性能;同时考虑数据选取和存储,减小了存储所有数据造成的资源浪费,提高了更新模型的实时性和灵敏度。

【技术实现步骤摘要】

本专利技术涉及网络流量分析,特别涉及一种在线漂移检测和自适应的可持续网络流量分类方法


技术介绍

1、作为网络管理和安全的重要手段,网络流量分类(traffic classification,tc)自上世纪九十年代末开始就得到学术界和工业界的高度关注,在qos/qoe管理、网络资源优化、拥塞控制、入侵检测等方面都取得了很好的应用。随着新一代网络技术(b5g/6g、物联网、天地一体化网络等)的快速发展,网络技术正朝着“自愈、自管理、自优化和自保护”的高度自治化方向发展,网络流量分类技术作为网络业务和安全管理的决策手段之一,扮演着关键角色。很多研究将ai技术应用于网络流量分类,在分类性能上相较传统机器学习得到了很大的提升。

2、随着海量异构终端的泛在接入,网络呈现出高度的“动态性”、“异质性”和“复杂性”,这给网络流量分类技术带来了一系列新的挑战。尤其是活跃应用频繁升级、新应用不断出现、沉默应用持续下架等问题始终阻碍着ai技术在流量分类中的落地应用,容易造成数据漂移问题,导致流量分类模型性能下降,无法跟上应用动态变化的步伐。因此,迫切需要研究网络流量数据分布漂移问题,提供有效的漂移检测和应对方法,使得模型能够快速适应新的数据分布,保持良好的性能。


技术实现思路

1、本专利技术所要解决的问题是:提供一种在线漂移检测和自适应的可持续网络流量分类方法,用于解决缺少有效的针对网络流量数据漂移检测和处理方法的问题,实时监测网络流量数据的变化,及时发现数据漂移的发生,并使用合适的更新策略,快速适应新的数据分布。。

2、本专利技术采用如下技术方案:一种在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,包括如下步骤:

3、s1、构建原始模型:基于输入的网络流量数据,进行数据处理,完成流量数据工程和流量特征工程;并用处理后的流量数据训练分类模型,得到识别流量数据所属应用类别的原始模型;

4、s2、漂移检测:基于训练好的原始模型,对不断输入的网络流量进行识别和流量分类;通过漂移检测器检测网络流量数据是否发生漂移,若数据发生漂移,启动模型更新;

5、s3、训练数据集成:检测到数据发生漂移后,采集变化后的网络流量作为新数据,重复步骤s1得到新训练数据集,并将上一次的训练数据作为旧数据样本,对旧数据样本进行样本选择,选取代表性的样本保留作为旧训练集,与新训练集合并,用于模型更新;

6、s4、模型更新:利用步骤s3得到的训练数据集更新模型,通过微调的方式对模型进行调整,使用改进的旧知识蒸馏和偏差校正方法,进行数据漂移后的持续学习;用调整后的新模型替代旧模型,进行流量识别,并重复步骤s2持续进行漂移检测,完成网络流量数据漂移后模型自动检测和更新。

7、具体地,步骤s1中,所述流量数据工程,包括:流量采集、预处理和流量标注;

8、所述流量采集,在所服务的网络中采集网络流量数据,包括数据包的头部信息和有效载荷;

9、所述预处理,包括流量提纯和流重组,去除流数据中的噪声数据,过滤与流特征提取无关的分组,形成完整tcp/udp流和会话流;

10、所述流量标注,将流量数据标记为具体应用或服务,作为流数据的真实标签用于模型训练。

11、具体地,步骤s1中,所述流量特征工程,包括:特征提取、选择、表达及压缩;

12、从原始分组中进行特征提取,形成包含多个双向流的关键特征集合,采用自动编码机和主成分分析降维方法对关键特征进行压缩,减少原始模型参数;通过特征表达形成可供原始模型训练的特征集;并通过cnn分类模型进行训练,得到原始模型,进行流量所属应用类别的有效识别;

13、所述关键特征包括:包级特征、流级特征、统计特征;所述特征表达的方式,包括:二维向量、图像、字节序列、图。

14、特别地,步骤s1还在原始模型中划分两种数据存储,分别为短期内存s和长期内存l,进行网络流量数据的存储;所述短期内存s存储在最后一个时间间隔内获得的流量数据实例,所述长期内存l存储目前为止每个类别的流量数据样本,用于训练和更新原始模型。

15、具体地,步骤s2中所述漂移检测器基于改进的beta分布的漂移检测,使用距离函数量化历史数据分布和新数据分布之间的差异,通过检测模型置信度分布变化检测漂移,包括如下子步骤:

16、s2.1、对于新的数据样本i,获取特征向量xi,计算当前模型对数据样本i的置信度si,将si添加到短期内存s中,其中s采用滑动窗口,n表示当前s的长度;

17、s2.2、设置参数δ,对s中从δ到n-δ的每个数据k,将s划分为两个子窗口sa和sb,sa中为最新数据,(s1﹕sk)为sb,(sk+1﹕sn)为sa;

18、当达到触发漂移检测计算条件时,计算sa和sb中置信度的平均值,分别为ma和mb;当ma≤λ×mb时,搜索变化点,λ表示对变化的敏感性;

19、s2.3、分别估算sa和sb的beta分布参数(αa,βa)和(αb,βb),计算对数似然比绝对值的和pk,公式如下:

20、

21、其中,si∈s,α,β>0,是beta分布的两个形状参数,α代表分布的形状,决定了概率密度函数的变化趋势;β代表分布的范围,决定了概率密度函数的宽度。

22、函数f(si|α,β)为概率密度函数,公式如下:

23、

24、函数b(α,β)为beta函数,用于归一化以确保总概率为1,公式如下:

25、

26、其中,函数γ表示gamma函数,dsi为si的积分表示。

27、s2.4、对δ≤k≤n-δ内所有的数据k,在达到触发漂移检测计算的条件后计算pk,取pk的最大值pf,设置阈值th为-log(λ),若pf>th,判定为发生漂移,否则未发生漂移。

28、具体地,步骤s3中,对旧数据样本的选择包括:应用内聚类和集群内抽样;

29、根据聚类规则,对数据进行应用内聚类,捕获应用程序的固有通信模式,分别将每个应用的所有数据聚类为多个集群;

30、对每个集群进行集群内抽样,从每个已识别的通信模式集群中选择最能代表总体数据分布的样本;将每个应用从不同集群中选取的样本合并,作为该应用的保留数据进行存储,其余数据丢弃,减少冗余存储;

31、所述聚类规则为:将具有相同的{目的ip,目的端口,协议}元组的网络流数据聚类为一个集群。

32、具体地,所述集群内抽样,选取样本的方式为:计算平均特征向量,确定需要选取的样本数量k,对于从1到k的所有整数j,选择最接近当前平均特征向量的样本bj:

33、

34、其中,argmin表示使目标函数取最小值时的变量值,z为当前集群,m'表示当前还未进行更新的旧模型,d'表示整个旧数据集,ξ为索引映射函数,η为平均特征向量;集群z中最终选取的代表性样本为:bz={b1,b2,..本文档来自技高网...

【技术保护点】

1.一种在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤S1中,所述流量数据工程,包括:流量采集、预处理和流量标注;

3.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤S1中,所述流量特征工程,包括:特征提取、选择、表达及压缩;

4.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤S1中,在原始模型中划分两种数据存储,分别为短期内存S和长期内存L,进行网络流量数据的存储;所述短期内存S存储在最后一个时间间隔内获得的流量数据实例,所述长期内存L存储目前为止每个类别的流量数据样本,用于训练和更新原始模型。

5.根据权利要求4所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤S2中所述漂移检测器基于改进的Beta分布的漂移检测,使用距离函数量化历史数据分布和新数据分布之间的差异,通过检测模型置信度分布变化检测漂移,包括如下子步骤:

>6.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤S3中,对旧数据样本的选择包括:应用内聚类和集群内抽样;

7.根据权利要求6所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,所述集群内抽样,选取样本的方式为:计算平均特征向量,确定需要选取的样本数量K,对于从1到K的所有整数i,选择最接近当前平均特征向量的样本Bj:

8.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤S4中,使用改进的旧知识蒸馏和偏差校正方法,进行数据漂移后的持续学习,方法包括如下子步骤:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时,实现权利要求1至8中任一项所述的在线漂移检测和自适应的可持续网络流量分类方法中的步骤。

...

【技术特征摘要】

1.一种在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤s1中,所述流量数据工程,包括:流量采集、预处理和流量标注;

3.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤s1中,所述流量特征工程,包括:特征提取、选择、表达及压缩;

4.根据权利要求1所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤s1中,在原始模型中划分两种数据存储,分别为短期内存s和长期内存l,进行网络流量数据的存储;所述短期内存s存储在最后一个时间间隔内获得的流量数据实例,所述长期内存l存储目前为止每个类别的流量数据样本,用于训练和更新原始模型。

5.根据权利要求4所述的在线漂移检测和自适应的可持续网络流量分类方法,其特征在于,步骤s2中所述漂移检测器基于改进的beta分布的漂移检测,使用距离函数量化历史数据...

【专利技术属性】
技术研发人员:刘敏瑶王攀
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1