System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机网络与信息安全,尤其涉及一种基于流量时序特征的不良应用分类识别方法。
技术介绍
1、目前,随着网络通信的不断发展,尤其是在互联网应用和服务的广泛普及中,网络流量的种类和复杂性也日益增加。为了有效管理和监控网络流量,确保网络的安全性和高效性,流量分类技术成为了网络安全、流量管理和数据分析领域的重要技术之一。特别是在处理加密流量时,如何准确识别流量的类型和来源成为一个关键问题。
2、在一种现有技术中,通过人工统计加密流量特征,来实现加密流量的分类。基于人工统计加密流量特征的流量分类方法在一定程度上能够完成加密流量的分类,但存在准确性不足的缺陷。尤其在面对复杂的代理通信环境时,流量的加密方式和混淆技术导致了传统统计加密流量特征方法的失效。
3、综上,传统基于人工统计加密流量特征的流量分类方法分类精度低,难以面对复杂的代理通信环境。
技术实现思路
1、本专利技术提供了一种基于流量时序特征的不良应用分类识别方法、装置、电子设备及存储介质,以解决传统基于统计特征的流量分类方法分类精度低,难以面对复杂的代理通信环境的问题。
2、第一方面,为了解决上述技术问题,本专利技术提供了一种基于流量时序特征的不良应用分类识别方法,包括:
3、获取训练流量数据、标记数据和待识别流量数据;
4、将所述训练流量数据输入基于transformer架构的模型进行无监督预训练,得到通用流量识别模型;
5、从所述待识别流量数据中提
6、通过所述标记数据对所述通用流量识别模型进行调整得到专用流量识别模型,对所述待识别流量数据进行代理分类,得到代理分类结果;
7、将所述有效载荷和数据包方向序列输入所述专用流量识别模型,得到载荷嵌入表示特征和序列嵌入表示特征;
8、根据所述载荷嵌入表示特征和序列嵌入计算得到各个网站类别概率值,将所述网站类别概率值最大的网站类别作为网站分类结果;
9、输出所述代理分类结果和网站分类结果。
10、在一种可选的实施方式中, 所述从所述待识别流量数据中提取得到单流数据,包括:
11、从待识别流量数据中提取每个数据包的ip、端口和协议;
12、将具有相同ip、端口和协议的数据包整合得到单流数据。
13、在一种可选的实施方式中, 所述从所述单流数据中提取得到有效载荷和数据包方向序列,包括:
14、所述单流数据包括数据包、数据包的源ip和目标ip;
15、去除所述数据包的协议头信息,保留实际的通信内容作为有效载荷;
16、根据所述源ip和目标ip,判断所述数据包的传输方向,用+1表示客户端发送给服务器的数据包,用-1表示服务器返回给客户端的数据包,通过顺序记录数据包的方向,得到数据包方向序列。
17、在一种可选的实施方式中, 通过所述标记数据对所述通用流量识别模型进行调整得到专用流量识别模型,对所述待识别流量数据进行代理分类,得到代理分类结果,包括:
18、所述标记数据包括每条流量数据的代理类型标签;
19、将标记数据输入所述通用流量识别模型,通过有监督训练对模型进行调整,得到专用流量识别模型;
20、使用调整后的模型对待识别流量数据进行代理分类。
21、在一种可选的实施方式中,所述对所述待识别流量数据进行代理分类,得到代理分类结果,包括:
22、将所述有效载荷和数据包方向序列输入模型;
23、通过softmax分类器计算得到每种代理类型的概率密度;
24、选择代理类型概率值最大的代理类型,作为分类结果。
25、在一种可选的实施方式中,所述通过softmax分类we器计算得到每种代理类型的概率密度,包括:
26、将有效载荷和数据包方向序列通过多个全连接层处理得到第一特征向量;
27、将所述第一特征向量通过线性层映射到每个类别得到第一logits值;
28、对所述第一logits值应用softmax函数,得到各个代理类型概率值,所述代理类型概率值的计算方式为:
29、
30、其中,为第种代理类型的代理类型概率值,为第种代理类型的第一logits值,为第种代理类型的第一logits值,表示第种代理类型,表示第种代理类型,代表代理类型的总个数。
31、在一种可选的实施方式中,所述将所述有效载荷和数据包方向序列输入所述专用流量识别模型,得到载荷嵌入表示特征和序列嵌入表示特征,包括:
32、将所述有效载荷和数据包方向序列输入专用流量识别模型中;
33、通过所述专用流量识别模型中的transformer编码器处理有效载荷,提取其中的关键特征作为载荷嵌入表示特征;
34、将所述数据包方向序列输入所述专用流量识别模型中的transformer特征提取器,捕捉数据包交互的时序模式作为序列嵌入表示特征。
35、在一种可选的实施方式中,所述根据所述载荷嵌入表示特征和序列嵌入计算得到各个网站类别概率值,将所述网站类别概率值最大的网站类别作为网站分类结果,包括:
36、将所述载荷嵌入表示特征和序列嵌入表示特征拼接得到综合特征;
37、将所述综合特征输入到softmax分类器中进行计算,得到各个网站类型概率值;
38、将所述网站类型概率值最大的网站类别作为网站分类结果。
39、在一种可选的实施方式中,所述将所述综合特征输入到softmax分类器中进行计算,得到各个网站类型概率值,包括:
40、将综合特征通过多个全连接层处理得到第二特征向量;
41、将所述第二特征向量通过线性层映射到每个网站类别得到第二logits值;
42、对所述第二logits值应用softmax函数,得到各个网站类型概率值,所述网站类型概率值的计算方式为:
43、
44、其中,为第种网站类型的网站类型概率值,为第种网站类型的第二logits值,为第种网站类型的第二logits值,表示第种网站类型,种第种网站类型,代表网站类型的总个数。
45、第二方面,本专利技术提供了一种基于流量时序特征的不良应用分类识别装置,包括:
46、初始数据获取模块,用于获取训练流量数据、标记数据和待识别流量数据;
47、无监督预训练模块,用于将所述训练流量数据输入基于transformer架构的模型进行无监督预训练,得到通用流量识别模型;
48、数据切分与特征提取模块,用于从所述待识别流量数据中提取得到单流数据,从所述单流数据中提取得到有效载荷和数据包方向序列;
49、调整与代理分类模块,用于通过所述标记数据对所述通用流量识别模型进行调整得到专用流量识别模型本文档来自技高网...
【技术保护点】
1.一种基于流量时序特征的不良应用分类识别方法,其特征在于,由计算机执行,包括:
2.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述从所述待识别流量数据中提取得到单流数据,包括:
3.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述从所述单流数据中提取得到有效载荷和数据包方向序列,包括:
4.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述通过所述标记数据对所述通用流量识别模型进行调整得到专用流量识别模型,对所述待识别流量数据进行代理分类,得到代理分类结果,包括:
5.根据权利要求4所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述使用调整后的模型对待识别流量数据进行代理分类,得到代理分类结果,包括:
6.根据权利要求5所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述通过Softmax分类器计算得到每种代理类型的概率密度,包括:
7.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征
8.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述根据所述载荷嵌入表示特征和序列嵌入计算得到各个网站类别概率值,将所述网站类别概率值最大的网站类别作为网站分类结果,包括:
9.根据权利要求8所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述将所述综合特征输入到Softmax分类器中进行计算,得到各个网站类型概率值,包括:
10.一种基于流量时序特征的不良应用分类识别装置,其特征在于,包括:
...【技术特征摘要】
1.一种基于流量时序特征的不良应用分类识别方法,其特征在于,由计算机执行,包括:
2.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述从所述待识别流量数据中提取得到单流数据,包括:
3.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述从所述单流数据中提取得到有效载荷和数据包方向序列,包括:
4.根据权利要求1所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述通过所述标记数据对所述通用流量识别模型进行调整得到专用流量识别模型,对所述待识别流量数据进行代理分类,得到代理分类结果,包括:
5.根据权利要求4所述的基于流量时序特征的不良应用分类识别方法,其特征在于,所述使用调整后的模型对待识别流量数据进行代理分类,得到代理分类结果,包括:
6.根据权利要求5所述...
【专利技术属性】
技术研发人员:李珂,沐华平,毕文冲,王翔,孙志恒,
申请(专利权)人:海南离岸数据研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。