检测模型的训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35749723 阅读:10 留言:0更新日期:2022-11-26 18:55
本申请涉及一种检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。涉及机器学习算法技术领域。方法包括:获取第一网络数据集和第二网络数据集,并将所述两种数据集进行融合,得到样本数据集;对各所述样本网络特征数据进行特征提取,得到网络特征数据集;基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新,并基于更新后的权重构建目标网络特征数据集;基于所述目标网络特征数据集和各目标样本网络特征数据对应的数据类型标识,对机器学习模型进行训练,得到检测模型,所述检测模型用于检测网络数据的数据类型标识。采用本方法能够及时有效的完成网络入侵检测。成网络入侵检测。成网络入侵检测。

【技术实现步骤摘要】
检测模型的训练方法、装置、计算机设备和存储介质


[0001]本申请涉及机器学习算法
,特别是涉及一种检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着互联网的日益发展和成熟,互联网信息技术的广泛应用范围在逐渐扩大,逐渐渗透到日常生活的各个方面。在大数据时代,计算机网络安全技术包含了丰富的网络数据内容,但由于计算机网络自由、开放,其中数据信息可能会遭到恶意攻击、非法窃取等网络攻击,信息的数据完整性可能会受到破坏并造成严重后果。
[0003]传统技术中,基于深度神经网络可以通过大量参数的训练计算,利用多核CPU和GPU来提高入侵检测系统的性能,自主提取特征并进行学习来检测网络入侵。
[0004]然而由于深度神经网络对于设备要求高,往往需要使用GPU进行计算推理,如果使用CPU进行推理,需要占用较大的计算资源,这会使得设备性能降低,推理时间长,存在检测网络入侵攻击时及时性差的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高网络入侵检测及时性,且对设备要求较低的检测模型的训练方法、装置、计算机设备和计算机可读存储介质。
[0006]第一方面,本申请提供了一种检测模型的训练方法。所述方法包括:
[0007]获取第一网络数据集以及第二网络数据集,并将所述第一网络数据集和所述第二网络数据集进行融合处理,得到样本数据集;所述样本数据集包括样本网络数据和所述样本网络数据的数据类型标识,所述数据类型标识包括正常数据类型标识和攻击数据类型标识;
[0008]对各所述样本网络数据进行特征提取,得到网络特征数据集;所述网络特征数据集包含提取出的各样本网络特征数据、以及各所述样本网络特征数据对应的初始权重;
[0009]基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新,并基于更新后的权重构建目标网络特征数据集;所述目标网络特征数据集包括目标样本网络特征数据、所述目标样本网络特征数据的数据类型标识以及各所述样本网络特征数据对应的权重;
[0010]基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识,对机器学习模型进行训练,得到检测模型,所述检测模型用于检测网络数据的数据类型标识。
[0011]在其中一个实施例中,所述获取第一网络数据集以及第二网络数据集,并将所述第一网络数据集和所述第二网络数据集进行融合处理,得到样本数据集,包括:
[0012]获取网络公开数据集作为所述第一网络数据集,并通过预设数据抓取策略,抓取得到所述第二网络数据集;
[0013]将所述第一网络数据集中各网络数据与所述第二网络数据集中各网络数据进行拼接,得到所述样本数据集,所述第一网络数据集中各网络数据与所述第二网络数据集中各网络数据的数据类型标识满足预设相似度条件。
[0014]在其中一个实施例中,所述对各所述样本网络数据进行特征提取,得到网络特征数据集,包括:
[0015]对所述样本数据集中的所述各所述样本网络数据进行数据预处理,得到数据预处理后的各所述样本网络特征数据;
[0016]使用随机森林算法对所述数据预处理后的各所述样本网络数据进行特征提取,得到所述网络特征数据集。
[0017]在其中一个实施例中,所述对所述样本数据集中的所述各所述样本网络数据进行数据预处理,得到数据预处理后的各所述样本网络数据,包括:
[0018]识别所述样本数据集中的噪声值并进行删除,得到数据清洗后的所述各样本网络数据;
[0019]对所述数据清洗后的所述各样本网络数据进行标准化处理,得到所述预处理后的样本网络数据。
[0020]在其中一个实施例中,所述基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新,包括:
[0021]获取预先定义的权重字典,所述权重字典包括所述攻击数据类型标识和权重值;
[0022]通过所述权重调整算法和所述权重字典,对各所述样本网络特征数据对应的初始权重进行更新。
[0023]在其中一个实施例中,所述基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识,对机器学习模型进行训练,得到检测模型之后,还包括:
[0024]获取测试数据集,所述测试数据集包括各测试网络特征数据和各所述测试网络特征数据的数据类型标识;
[0025]将所述测试数据集输入所述检测模型中进行模型测试,得到测试结果;
[0026]将所述测试结果与所述测试数据集中的所述攻击数据类型标识对比,判断是否符合预设的相关度条件,如果满足所述预设的相关度条件则保存所述检测模型作为最终的检测模型。
[0027]第二方面,本申请提供了一种网络数据的检测方法。所述方法包括:
[0028]获取待检测的网络数据;
[0029]对所述待检测的网络数据进行特征提取,得到网络特征数据;
[0030]将所述网络特征数据输入预先训练的检测模型,得到所述待检测的网络数据对应的数据类型标识;
[0031]其中,所述检测模型采用如上述第一方面中检测模型的训练方法训练得到。
[0032]第三方面,本申请还提供了一种检测模型的训练装置。所述装置包括:
[0033]第一获取模块,用于获取第一网络数据集以及第二网络数据集,并将所述第一网络数据集和所述第二网络数据集进行融合处理,得到样本数据集;所述样本数据集包括样本网络数据和所述样本网络数据的数据类型标识,所述数据类型标识包括正常数据类型标识和攻击数据类型标识;
[0034]提取模块,用于对各所述样本网络数据进行特征提取,得到网络特征数据集;所述网络特征数据集包含提取出的各样本网络特征数据、以及各所述样本网络特征数据对应的初始权重;
[0035]更新模块,用于基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新,并基于更新后的权重构建目标网络特征数据集;所述目标网络特征数据集包括目标样本网络特征数据、所述目标样本网络特征数据的数据类型标识以及各所述样本网络特征数据对应的权重;
[0036]训练模块,用于基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识,对机器学习模型进行训练,得到检测模型,所述检测模型用于检测网络数据的数据类型标识。
[0037]在其中一个实施例中,所述第一获取模块具体用于:
[0038]获取网络公开数据集作为所述第一网络数据集,并通过预设数据抓取策略,抓取得到所述第二网络数据集;
[0039]将所述第一网络数据集中各网络数据与所述第二网络数据集中各网络数据进行拼接,得到所述样本数据集,所述第一网络数据与所述第二网络数据的数据类型标识满足预设相似度条件。
[0040]在其中一个实施例中,所述提取模块具体用于:
[0041]对所述样本数据集中的所述各所述样本网络数据进行数据预处理,得到数据预处理后的各所述样本网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测模型的训练方法,其特征在于,所述方法包括:获取第一网络数据集以及第二网络数据集,并将所述第一网络数据集和所述第二网络数据集进行融合处理,得到样本数据集;所述样本数据集包括样本网络数据和所述样本网络数据的数据类型标识,所述数据类型标识包括正常数据类型标识和攻击数据类型标识;对各所述样本网络数据进行特征提取,得到网络特征数据集;所述网络特征数据集包含提取出的各样本网络特征数据、以及各所述样本网络特征数据对应的初始权重;基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新,并基于更新后的权重构建目标网络特征数据集;所述目标网络特征数据集包括目标样本网络特征数据、所述目标样本网络特征数据的数据类型标识以及各所述样本网络特征数据对应的权重;基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识,对机器学习模型进行训练,得到检测模型,所述检测模型用于检测网络数据的数据类型标识。2.根据权利要求1所述的方法,其特征在于,所述获取第一网络数据集以及第二网络数据集,并将所述第一网络数据集和所述第二网络数据集进行融合处理,得到样本数据集,包括:获取网络公开数据集作为所述第一网络数据集,并通过预设数据抓取策略,抓取得到所述第二网络数据集;将所述第一网络数据集中各网络数据与所述第二网络数据集中各网络数据进行拼接,得到所述样本数据集,所述第一网络数据与所述第二网络数据的数据类型标识满足预设相似度条件。3.根据权利要求1所述的方法,其特征在于,所述对各所述样本网络数据进行特征提取,得到网络特征数据集,包括:对所述样本数据集中的所述各所述样本网络数据进行数据预处理,得到数据预处理后的各所述样本网络数据;使用随机森林算法对所述数据预处理后的各所述样本网络数据进行特征提取,得到所述网络特征数据集。4.根据权利要求1所述的方法,其特征在于,所述基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新,包括:获取预先定义的权重字典,所述权重字典包括所述攻击数据类型标识和权重值;通过所述权重调整算法和所述权重字典,对各所述样本网络特征数据对应的初始权重进行更新。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识,对机器学习模型进行训练,得到检测模型之后,还包括:获取测试数据集,所述测试数据集包括各测试网络特征数据和各所述测试网络特征数据的数据类型标识...

【专利技术属性】
技术研发人员:袁俊杰韩丽娜韩世龙张英伟王波潘彭丹吴潇裴军崔恩泽
申请(专利权)人:国科华盾北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1