一种面向空天地信息网络的加密流量非均衡处理方法技术

技术编号:39000599 阅读:13 留言:0更新日期:2023-10-07 10:32
本发明专利技术公开了一种面向空天地信息网络的加密流量非均衡处理方法,包括:构建Borderline

【技术实现步骤摘要】
一种面向空天地信息网络的加密流量非均衡处理方法


[0001]本专利技术涉及卫星通信
,特别涉及一种面向空天地信息网络的加密流量非均衡处理方法。

技术介绍

[0002]真实的空天地信息网络不同类型加密流量数据分布差异极大,由于深度学习算法模型倾向于对非均衡的样本流量中的少数类样本类型识别为多数类样本,识别结果可靠性大幅度下滑。

技术实现思路

[0003]本专利技术针对现有技术的缺陷,提供了一种面向空天地信息网络的加密流量非均衡处理方法,在同一会话中选择少数类近邻生成样本,通过对算法存在的对少数类样本的边界选取问题进行条件限制,解决了加密流量应用识别的非均衡问题。
[0004]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0005]一种面向空天地信息网络的加密流量非均衡处理方法,包括以下步骤:
[0006]S1:构建Borderline

SMOTE算法;
[0007]Borderline

SMOTE通过设置规则来判断有哪些少数类样本需要依据规则合成新数据,从而解决了没有考虑真实加密流量数据分布情况,对近邻的样本盲目生成的问题。设训练集合的少数类别的样本集合为T,然后在训练集合中确定每个样本x
i
的最邻近k采样样本,并将含有多数类别采样的数量表示为k

。如果。如果样本周围少数类样本超过一半,样本安全,不需要进行过采样;如果k=k

,此时近邻样本全部为多数类样本,判定为噪声,不进行处理;剩下的少数类样本均被判定为危险样本,处于多数类样本和少数类样本的边界。
[0008]S2:流量分割;
[0009]将连续的原始流量数据文件被分割为若干个独立的流量。连续的原始流量数据中包含不同大小的包p
i
,P={p1,p2,...,p
N
},其中N表示原始流量中数据包的数量。对于一个单独的数据包p
i
来说,定义为式(1)所示:
[0010]p
i
=(x
i
,t
i
,b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0011]x
i
表示五元组,分别是源IP、目的IP、源端口、目的端口、传输层协议。t
i
表示第i个数据包开始的时间,b
i
表示其大小。有两种常见的分割流量的方式,基于网络流(flow)或是基于会话(session)来进行分割。
[0012]S3:流量清洗;
[0013]原始流量数据中对会话的IP地址和MAC地址填充0X00,去除IP和MAC的信息。流量清洗过滤以下流量:握手信息不完整导致载荷内容没有任何可以提取有效特征信息的流量;用DNS协议等的流量数据包;应用层数据为空的流量;重复出现的流量。
[0014]S4:统一长度;
[0015]对会话统一为784个字节。如果P
flow
大于784字节,只保留前784个字节。如果P
flow

于784字节,添加0x00进行补充。
[0016]S5:数据划分;
[0017]将原始流量数据划分为80%训练集和20%测试集。
[0018]S6:将流量数据转换为IDX文件;
[0019]S7:IDX文件通过基于表1Borderline

SMOTE算法对数据集进行均衡处理。
[0020]进一步地,所述Borderline

SMOTE算法的训练流程如表1所示;在表1中,综合考虑加密流量识别的研究场景,提出基于会话特征共享采样算法。由于会话的特征是由数据包共享来实现的,从同一条会话的数据集中抽取每个少数类样本的k近邻采样。该非均衡处理算法最大的改变在于不仅考虑了少数样本和多数类样本的分布情况,同时考虑加密流量数据包与会话之间的关系。
[0021]表1
[0022][0023]进一步地,S2中网络流是指有一组相同五元组的数据包组合而成的流量,网络流被定义如式(2)所示:
[0024]P
flow
={p1=(x1,t1,b1),...,p
n
=(x
n
,t
n
,b
n
)} (2)
[0025]S2中会话与网络流的区别是源IP,源端口和目的IP,目的端口可以互换,会话是双向流。将原始的流量文件使用会话方式进行切割。
[0026]与现有技术相比,本专利技术的优点在于:
[0027]通过对算法存在的对少数类样本的边界选取问题进行条件限制,解决了加密流量应用识别的非均衡问题。
附图说明
[0028]图1是本专利技术实施例Borderline

SMOTE算法训练流程图;
[0029]图2是本专利技术实施例Borderline

SMOTE原理图;
[0030]图3是本专利技术实施例加密流量非均衡处理方法流程图;
[0031]图4是本专利技术实施例对比算法与本专利技术算法在加密流量识别模型的测试的精度和损失值对比图。
具体实施方式
[0032]为使本专利技术的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本专利技术做进一步详细说明。
[0033]如图1所示,基于会话特征共享采样的非均衡算法。包括:
[0034]综合考虑加密流量识别的研究场景,提出了基于会话(session)特征共享采样(Borderline

SMOTE)的算法,简称S

BSMO。由于会话的特征是由数据包共享来实现的,所以在基于S

BSMO的非均衡算法中,每一个数据包的K近邻采样都从同一条会话的数据集中抽取的。基于S

BSMO算法最大的改变在于同时考虑了少数样本和多数类样本的分布情况,考虑了来自于同一条会话的样本数据,综合的平衡了流量。会话特征共享采样算法如图1所示。
[0035]如图2所示,Borderline

SMOTE通过设置规则来判断有哪些少数类样本需要依据规则合成新数据,从而解决了没有考虑真实加密流量数据分布情况,对近邻的样本盲目生成的问题。设训练集合的少数类别的样本集合为T,然后在训练集合中确定每个样本的最邻近采样样本,并将含有多数类别采样的数量表示为。如果,样本周围少数类样本超过一半,不需要进行过采样;如果,此时近邻样本全部为多数类样本,判定为噪声,不进行处理;剩下的少数类样本均被判定为危险样本,处于多数类样本和少数类样本的边界。
[0036]Borderline

SMOTE处理少数类样本对边界样本被误判的情况更具有针对性,取得不错的效果。
[0037]如图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向空天地信息网络的加密流量非均衡处理方法,其特征在于,包括以下步骤:S1:构建Borderline

SMOTE算法;Borderline

SMOTE通过设置规则来判断有哪些少数类样本需要依据规则合成新数据,从而解决了没有考虑真实加密流量数据分布情况,对近邻的样本盲目生成的问题;设训练集合的少数类别的样本集合为T,然后在训练集合中确定每个样本x
i
的最邻近k采样样本,并将含有多数类别采样的数量表示为k

;如果;如果样本周围少数类样本超过一半,样本安全,不需要进行过采样;如果k=k

,此时近邻样本全部为多数类样本,判定为噪声,不进行处理;剩下的少数类样本均被判定为危险样本,处于多数类样本和少数类样本的边界;S2:流量分割;将连续的原始流量数据文件被分割为若干个独立的流量;连续的原始流量数据中包含不同大小的包p
i
,P={p1,p2,...,p
N
},其中N表示原始流量中数据包的数量;对于一个单独的数据包p
i
来说,定义为式(1)所示:p
i
=(x
i
,t
i
,b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)x
i
表示五元组,分别是源IP、目的IP、源端口、目的端口、传输层协议;t
i
表示第i个数据包开始的时间,b
i
表示其大小;有两种常见的分割流量的方式,基于网络流(flow)或是基于会话(sessi...

【专利技术属性】
技术研发人员:王哓龙李源徐佳康许海涛
申请(专利权)人:北京鹏鹄物宇科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1