流量数据库构建方法和流量检测模型训练方法技术

技术编号:32972917 阅读:13 留言:0更新日期:2022-04-09 11:43
本申请提供了一种流量数据库构建方法和流量检测模型训练方法,其中,该方法包括:获取流量数据集,所述流量数据集中的每一组流量数据包括:多类型日志;根据所述流量数据集中的流量数据的多类型日志,确定出聚合数据集;对所述聚合数据集中的各聚合数据进行特征提取,以形成特征数据集;对所述特征数据集进行分类处理,以得到多类特征数据集;基于所述多类特征数据集,构建特征数据库,所述特征数据库中的特征数据用于训练流量检测模型。的特征数据用于训练流量检测模型。的特征数据用于训练流量检测模型。

【技术实现步骤摘要】
流量数据库构建方法和流量检测模型训练方法


[0001]本申请涉及网络安全
,具体而言,涉及一种流量数据库构建方法和流量检测模型训练方法。

技术介绍

[0002]网络安全问题是网络环境中需要重点关注的问题,虽然已经采取了各种网络安全防护措施,但是单一的安全防护措施,并不能满足目前对于网络评估的需求。为了提高安全防护的响应能力,一些安全厂商在大数据的基础上利用一些机器学习和人工智能(Artificial Intelligence,简称:AI)算法解决网络安全问题。但是目前的采用机器学习对网络安全的识别还是存在一些不足。

技术实现思路

[0003]本申请的目的在于提供一种流量数据库构建方法和流量检测模型训练方法,以改善目前的采用机器学习对网络安全的识别上的不足。
[0004]第一方面,本专利技术提供一种流量数据库构建方法,包括:
[0005]获取流量数据集,所述流量数据集中的每一组流量数据包括:多类型日志;
[0006]根据所述流量数据集中的流量数据的多类型日志,确定出聚合数据集;
[0007]对所述聚合数据集中的各聚合数据进行特征提取,以形成特征数据集;
[0008]对所述特征数据集进行分类处理,以得到多类特征数据集;
[0009]基于所述多类特征数据集,构建特征数据库,所述特征数据库中的特征数据用于训练流量检测模型。
[0010]在可选的实施方式中,所述根据所述流量数据集中的流量数据的多类型日志,确定出聚合数据集,包括:
[0011]根据所述流量数据集中的流量数据的多类型日志,确定出所述流量数据集中各条流量数据的四元组数据;
[0012]将所述流量数据集中四元组数据相同的流量数据进行聚合处理,得到聚合数据集。
[0013]在可选的实施方式中,所述多类型日志包括:连接通信日志、SSL(Secure Sockets Layer,中文称:安全套接字协议)协议日志和证书日志;所述根据所述流量数据集中的流量数据的多类型日志,确定出四元组数据集,包括:
[0014]针对所述流量数据集中的目标流量数据,从所述目标流量数据中的目标连接通信日志获取目标连接标识,所述目标流量数据为所述流量数据集中任意一项流量数据;
[0015]根据所述目标连接标识,连接所述目标流量数据的目标SSL协议日志;
[0016]从所述目标SSL协议日志获取目标证书路径;
[0017]根据所述目标证书路径,获得所述目标流量数据的目标证书日志;
[0018]从所述目标连接通信日志、目标SSL协议日志和目标证书日志,确定出所述目标流
量数据的目标四元组数据。
[0019]在可选的实施方式中,所述多类型日志包括:连接通信日志、SSL协议日志和证书日志;所述对所述聚合数据集中的各聚合数据进行特征提取,以形成特征数据集,包括:
[0020]针对聚合数据集中的目标聚合数据,从所述目标聚合数据中的所有连接通信日志中,提取通信特征,所述目标聚合数据为所述聚合数据集中任意一组聚合数据;
[0021]从所述目标聚合数据中的所有SSL协议日志中,提取协议特征;
[0022]从所述目标聚合数据中的所有证书日志中,提取证书特征。
[0023]在可选的实施方式中,所述对所述特征数据集进行分类处理,以得到多类特征数据集,包括:
[0024]根据所述特征数据集中各项特征数据,确定出各项特征数据所表征的特征数据所属通信来源;
[0025]根据所述特征数据集中各项特征数据,确定出各项特征数据所表征的特征数据是否属于攻击流量;
[0026]根据所述特征数据集中的各项特征数据的通信来源,以及是否属于攻击流量进行流量划分,将所述特征数据集中各项特征数据划分为:加密通信流量、恶意攻击流量或恶意加密应用的通信流量三类。
[0027]第二方面,本专利技术提供一种流量检测模型训练方法,包括:
[0028]从前述实施方式任意一项所述的流量数据库构建方法构建的特征数据库获取训练数据集;
[0029]使用所述训练数据集,对预构建的初始模型进行训练,以得到流量检测模型。
[0030]第三方面,本专利技术提供一种流量检测方法,包括:
[0031]将待检测流量输入前述实施方式所述的流量检测模型训练方法得到的流量检测模型中进行检测,以确定所述待检测流量是否为安全流量。
[0032]第四方面,本专利技术提供一种流量数据库构建装置,包括:
[0033]第一获取模块,用于获取流量数据集,所述流量数据集中的每一组流量数据包括:多类型日志;
[0034]确定模块,用于根据所述流量数据集中的流量数据的多类型日志,确定出聚合数据集;
[0035]形成模块,用于对所述聚合数据集中的各聚合数据进行特征提取,以形成特征数据集;
[0036]分类模块,用于对所述特征数据集进行分类处理,以得到多类特征数据集;
[0037]构建模块,用于基于所述多类特征数据集,构建特征数据库,所述特征数据库中的特征数据用于训练流量检测模型。
[0038]第五方面,本专利技术提供一种流量检测模型训练装置,包括:
[0039]第二获取模块,用于从前述实施方式任意一项所述的流量数据库构建方法构建的特征数据库获取训练数据集;
[0040]训练模块,用于使用所述训练数据集,对预构建的初始模型进行训练,以得到流量检测模型。
[0041]第六方面,本专利技术提供一种流量检测装置,包括:
[0042]检测模块,用于将待检测流量输入前述实施方式所述的流量检测模型训练方法得到的流量检测模型中进行检测,以确定所述待检测流量是否为安全流量。
[0043]第七方面,本专利技术提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。
[0044]第八方面,本专利技术提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。
[0045]本申请实施例的有益效果是:通过先收集流量数据,再基于对流量数据的分析确定出流量数据所包含的特征,再对流量特征进行分类,最后根据分类后的特征数据构建出特征数据库,该特征数据库可以更好地表示各种类型的流量;进一步地,使用该特征数据库中的各种特征数据训练的检测模型能够更全面地实现对网络的安全进行检测,从而也可以进一步地提高网络的安全。
附图说明
[0046]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0047]图1为本申请实施例提供的电子设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流量数据库构建方法,其特征在于,包括:获取流量数据集,所述流量数据集中的每一组流量数据包括:多类型日志;根据所述流量数据集中的流量数据的多类型日志,确定出聚合数据集;对所述聚合数据集中的各聚合数据进行特征提取,以形成特征数据集;对所述特征数据集进行分类处理,以得到多类特征数据集;基于所述多类特征数据集,构建特征数据库,所述特征数据库中的特征数据用于训练流量检测模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述流量数据集中的流量数据的多类型日志,确定出聚合数据集,包括:根据所述流量数据集中的流量数据的多类型日志,确定出所述流量数据集中各条流量数据的四元组数据;将所述流量数据集中四元组数据相同的流量数据进行聚合处理,得到聚合数据集。3.根据权利要求2所述的方法,其特征在于,所述多类型日志包括:连接通信日志、SSL协议日志和证书日志;所述根据所述流量数据集中的流量数据的多类型日志,确定出四元组数据集,包括:针对所述流量数据集中的目标流量数据,从所述目标流量数据中的目标连接通信日志获取目标连接标识,所述目标流量数据为所述流量数据集中任意一项流量数据;根据所述目标连接标识,连接所述目标流量数据的目标SSL协议日志;从所述目标SSL协议日志获取目标证书路径;根据所述目标证书路径,获得所述目标流量数据的目标证书日志;从所述目标连接通信日志、目标SSL协议日志和目标证书日志,确定出所述目标流量数据的目标四元组数据。4.根据权利要求1所述的方法,其特征在于,所述多类型日志包括:连接通信日志、SSL协议日志和证书日志;所述对所述聚合数据集中的各聚合数据进行特征提取,以形成特征数据集,包括:针对聚合数据集中的目标聚合数据,从所述目标聚合数据中的所有连接通信日志中,提取通信特征,所述目标聚合数据为所述聚合数据集中任意一组聚合数据;从所述目标聚合数据中的所有SSL协议日志中,提取协议特征;从所述目标聚合数据中的所有证书日志中,提取证书特征。5.根据权利要求1所述的方法,其特征在于,所述对所述特征数据集进行分类处理,以得到多类特征数据集,包括:根据所述特征数据集中各项特征数据,确定出各项特征数据所表征的特征数据所属通信来源;根据所述特征数据集中各项...

【专利技术属性】
技术研发人员:尹立
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1