本申请提出了一种半监督加密流量分类方法、装置及存储介质,计算机设备获得包含少量标记样本和大量未标记样本的流量样本集后,将依据层次聚类算法对其包含的大量加密流量样本进行聚类处理,快速得到多个聚类簇,之后,为了提高加密流量分类模型的分类结果可靠性和准确性,可以先对每个聚类簇包含的未标记样本进行类别映射,即采用对各聚类簇包含的加密流量样本的分类检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,得到大量标记样本后,再对融合多个机器学习算法的集成分类模型进行监督训练,快速得到具有较高分类准确率的加密流量分类模型,由此实现对采集到的待分类加密流量数据的快速分类,保证分类结果高准确率。分类结果高准确率。分类结果高准确率。
【技术实现步骤摘要】
一种半监督加密流量分类方法、装置及存储介质
[0001]本申请主要涉及人工智能应用领域,更具体地说是涉及一种半监督加密流量分类方法、装置及存储介质。
技术介绍
[0002]随着电商、网络视频、网络办公、智能手机等互联网应用及电子设备的普及,网络流量日益增大,在为广大网民提供便利的同时,也给网络运营管理与服务质量提供提出了很多挑战。因此,为了保证为网民提供更好的服务能力,并确保对网络的有效监控,需要针对不同类型的网络应用采用不同的网络管理措施,从而满足网民对如网络畅通、网络办公以及视频会议等应用无卡顿现象等高质量服务要求,同时实现网络流量有效控制、链路拥堵的有效排障、网络用户行为监控、防入侵和恶意攻击等高标准监控要求。
[0003]对此,目前通常是采用如深度包检测技术(Deep Packet Inspection,DPI),通过判断流量的应用层载荷信息特征是否包含网络协议或网络应用的特征字符串,实现网络流量的准确分类,但这种网络流量分类方式无法识别加密流量,并不适用于加密流量分类场景。
[0004]为了满足加密流量分类需求,提出采用基于机器学习的深度流检测技术(Deep Flow Inspection,DFI)实现,不需要提取应用层载荷特征,只需要提取通信双方网络数据包的头部信息,通过对网络流的行为特征进行分析,实现加密流量的识别和分类。但这种网络流量分类方法需要大量标记类别的样本进行模型训练,而这些带流量类别标记的样本必须在严苛的实验条件下获得,导致无法获得大量样本,影响了依赖于该类样本训练所得模型的可靠性和模型训练效率,从而降低了加密流量分类的准确性和效率。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了以下技术方案:
[0006]一方面,本申请提出了一种半监督加密流量分类方法,所述方法包括:
[0007]获得待分类的流量样本集;所述流量样本集包含多个标记样本和多个未标记样本;所述标记样本是指具有类别标签的加密流量样本,所述未标记样本是指不具有类别标签的加密流量样本;
[0008]依据层次聚类算法,对所述流量样本集进行聚类处理,得到多个聚类簇;每个所述聚类簇包含多个所述加密流量样本;
[0009]对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果;
[0010]依据与所述检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,得到对应的标记样本;
[0011]利用得到的所述标记样本,对集成分类模型进行监督训练,得到加密流量分类模型;所述集成分类模型由多个机器学习算法融合得到。
[0012]可选的,所述对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果,包括:
[0013]检测每个所述聚类簇包含的不同类别的标记样本各自的第一样本数量;
[0014]对同一所述聚类簇的多个所述第一样本数量进行排序,得到该聚类簇包含的同一类别标记样本的最多样本数量和次多样本数量;
[0015]检测所述最多样本数量和所述次多样本数量是否满足预设比例关系,得到对应的第一检测结果。
[0016]可选的,所述依据与所述检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,包括:
[0017]确定所述第一检测结果为所述最多样本数量和所述次多样本数量满足预设比例关系,按照所述最多样本数量对应标记样本具有的所述类别标签,配置相应所述聚类簇包含的未标记样本的类别标签;
[0018]确定所述第一检测结果为所述最多样本数量和所述次多样本数量不满足所述预设比例关系,输出针对相应所述聚类簇的第一标记提示信息;
[0019]其中,所述第一标记提示信息用于指示标记人员对相应所述聚类簇包含的未标记样本配置对应的类别标签。
[0020]可选的,所述对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果,还包括:
[0021]检测到任一所述聚类簇包含的多个加密流量样本中仅存在一种标记样本;
[0022]所述依据与所述检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,包括:
[0023]按照该聚类簇中存在的一种标记样本的类别标签,配置该聚类簇包含的未标记样本的类别标签。
[0024]可选的,所述对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果,还包括:
[0025]获得所述多个聚类簇各自包含的所述标记样本的第二样本数量;
[0026]检测所述第二样本数量是否大于对应的数量阈值,得到对应的第二检测结果;所述数量阈值基于对应的所述聚类簇包含的所述加密流量样本的总样本数量确定;
[0027]确定所述第二检测结果为任一所述聚类簇的所述第二样本数量大于所述数量阈值,检测该聚类簇包含的多个加密流量样本中是否仅存在一种标记样本,得到对应的第三检测结果;
[0028]所述依据与所述检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,包括:
[0029]确定所述第二检测结果为任一所述聚类簇的所述第二样本数量小于或等于所述数量阈值,输出针对相应所述聚类簇的第二标记提示信息。
[0030]可选的,所述对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果,还包括:
[0031]检测所述多个聚类簇包含的加密流量样本中是否存在所述标记样本,得到对应的第四检测结果;
[0032]确定所述第四检测结果为对应的所述聚类簇中存在标记样本,执行步骤所述获得所述多个聚类簇各自包含的所述标记样本的第二样本数量;
[0033]确定所述第四检测结果为对应的所述聚类簇仅包含未标记样本,输出针对相应所述聚类簇的第三标记提示信息。
[0034]可选的,所述依据层次聚类算法,对所述流量样本集进行聚类处理,得到多个聚类簇,包括:
[0035]将所述流量样本集包含的各所述加密流量样本输入层次聚类模型,输出多个聚类簇;
[0036]其中,所述层次聚类模型是基于层次聚类算法BIRCH构建的聚类特征树,所述聚类特征树的每个节点包含至少一个聚类特征信息;
[0037]所述机器学习算法包括随机森林算法。
[0038]可选的,所述方法还包括:
[0039]获得待分类的加密流量数据;
[0040]对所述加密流量数据进行归一化和降维处理,得到待分类加密流量特征;
[0041]将所述待分类加密流量特征输入所述加密流量分类模型,输出对应所述加密流量数据的分类结果。
[0042]又一方面,本申请还提出了一种半监督加密流量分类装置,所述装置包括:
[0043]流量样本集获得模块,用于获得待分类的流量样本集;所述流量样本集包含多个已标样本和多个未标记样本;所述标记样本是指具有类别标签的加密流量样本,所述未标记样本是指不具有类别标签的加本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种半监督加密流量分类方法,其特征在于,所述方法包括:获得待分类的流量样本集;所述流量样本集包含多个标记样本和多个未标记样本;所述标记样本是指具有类别标签的加密流量样本,所述未标记样本是指不具有类别标签的加密流量样本;依据层次聚类算法,对所述流量样本集进行聚类处理,得到多个聚类簇;每个所述聚类簇包含多个所述加密流量样本;对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果;依据与所述检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,得到对应的标记样本;利用得到的所述标记样本,对集成分类模型进行监督训练,得到加密流量分类模型;所述集成分类模型由多个机器学习算法融合得到。2.根据权利要求1所述的方法,其特征在于,所述对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果,包括:检测每个所述聚类簇包含的不同类别的标记样本各自的第一样本数量;对同一所述聚类簇的多个所述第一样本数量进行排序,得到该聚类簇包含的同一类别标记样本的最多样本数量和次多样本数量;检测所述最多样本数量和所述次多样本数量是否满足预设比例关系,得到对应的第一检测结果。3.根据权利要求2所述的方法,其特征在于,所述依据与所述检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,包括:确定所述第一检测结果为所述最多样本数量和所述次多样本数量满足预设比例关系,按照所述最多样本数量对应标记样本具有的所述类别标签,配置相应所述聚类簇包含的未标记样本的类别标签;确定所述第一检测结果为所述最多样本数量和所述次多样本数量不满足所述预设比例关系,输出针对相应所述聚类簇的第一标记提示信息;其中,所述第一标记提示信息用于指示标记人员对相应所述聚类簇包含的未标记样本配置对应的类别标签。4.根据权利要求2或3所述的方法,其特征在于,所述对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果,还包括:检测到任一所述聚类簇包含的多个加密流量样本中仅存在一种标记样本;所述依据与所述检测结果对应的类别映射方式,配置对应聚类簇包含的未标记样本的类别标签,包括:按照该聚类簇中存在的一种标记样本的类别标签,配置该聚类簇包含的未标记样本的类别标签。5.根据权利要求4所述的方法,其特征在于,所述对所述多个聚类簇各自包含的加密流量样本进行分类检测,得到对应所述聚类簇的检测结果,还包括:获得所述多个聚类簇各自包含的所述标记样本的第二样本数量;检测所述第二样本数量是否大于对应的数量阈值,得到对应的第二检测结果;所述数
量阈值基于对应的所述聚类簇包含的所述加密流量样本的总样本数量确定;确定所述第二检测结果为任一所述聚类簇的所述第二样本数量大于所...
【专利技术属性】
技术研发人员:申进,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。