域名识别模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34845168 阅读:15 留言:0更新日期:2022-09-08 07:43
本申请提供了一种域名识别模型的训练方法、装置、电子设备及存储介质,训练方法包括:将真实恶意域名和恶意域名生成模型中生成网络输出的生成恶意域名输入恶意域名生成模型的判别网络中,根据判别网络以及生成网络输出的真实数据分布和生成数据分布之间的相似度,对判别网络以及生成网络进行对抗训练,在训练结束后,将生成网络输出的接近真实恶意域名的生成恶意域名,加入到历史恶意域名集合中,作为域名识别模型的训练样本,以扩充训练样本中的恶意域名。采用本申请提供的技术方案能够通过扩充后的训练样本为域名识别模型的训练过程提供更多的参考,强化了域名识别模型的识别性能,有助于提高识别恶意域名的准确性。有助于提高识别恶意域名的准确性。有助于提高识别恶意域名的准确性。

【技术实现步骤摘要】
域名识别模型的训练方法、装置、电子设备及存储介质


[0001]本申请涉及网络安全
,尤其是涉及一种域名识别模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]域名系统(Domain Name System,DNS)是互联网的重要组成部分,为用户提供域名与IP相互映射的域名解析服务,因其应用的广泛性以及缺乏内置的安全检测机制,常被攻击者利用,进行网络攻击;早期的安全检测系统较容易发现此类恶意域名,会迅速阻断通信并将其列入黑名单,为逃避域名黑名单的检测,当前攻击者采用域名生成算法(Domain generation Algorithm,DGA),生成随机域名,且攻击者仅随机挑取其中几个域名进行注册,可以有效绕过黑名单检测。
[0003]目前,由于攻击者使用的DGA算法种子具有动态性和随机性,逆向工程不仅要分析DGA生成算法,还要分析算法种子,加大了恶意域名的检测难度,而恶意域名识别方法大多都基于大量的历史DNS数据,对于不断更新的DGA算法产生的新域名无法快速识别出恶意域名。因此,如何能够快速识别出更多的恶意域名,成为了亟待解决的问题。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种域名识别模型的训练方法、装置、电子设备及存储介质,能够将真实恶意域名和恶意域名生成模型中生成网络输出的生成恶意域名输入恶意域名生成模型的判别网络中,根据判别网络以及生成网络输出的真实数据分布和生成数据分布之间的相似度,对判别网络以及生成网络进行对抗训练,在训练结束后,将生成网络输出的接近真实恶意域名的生成恶意域名,加入到历史恶意域名集合中,作为域名识别模型的训练样本,以扩充训练样本中的恶意域名,通过扩充后的训练样本为域名识别模型的训练过程提供更多的参考,强化了域名识别模型的识别性能,有助于提高识别恶意域名的准确性。
[0005]本申请主要包括以下几个方面:
[0006]第一方面,本申请实施例提供了一种域名识别模型的训练方法,所述训练方法包括:
[0007]获取历史恶意域名集合中的真实恶意域名;
[0008]将所述真实恶意域名和恶意域名生成模型的生成网络输出的生成恶意域名进行处理后,作为输入数据输入至所述恶意域名生成模型的判别网络中,获取所述判别网络输出的与所述真实恶意域名对应的真实数据分布和与所述生成恶意域名对应的生成数据分布,根据所述真实数据分布和所述生成数据分布之间的相似度训练所述判别网络,得到训练后的判别网络;
[0009]根据所述训练后的判别网络的输出,在确定所述真实数据分布和所述生成数据分布之间的相似度小于预设最小阈值时,将所述生成网络确定为目标生成网络;
[0010]获取目标生成网络输出的生成恶意域名,将所述生成恶意域名加入到所述历史恶意域名集合中进行扩展,获得样本恶意域名,根据所述样本恶意域名训练得到域名识别模型,根据所述域名识别模型识别出恶意域名。
[0011]进一步的,通过以下步骤确定输入数据:
[0012]将所述真实恶意域名和所述生成恶意域名按预设的编码方式进行编码;其中,所述编码方式是将所述真实恶意域名和所述生成恶意域名中所包含的所有字符转换为在预设区间内且具有连续性的数字的编码方式;
[0013]将编码后的所述真实恶意域名和所述生成恶意域名确定为输入数据。
[0014]进一步的,通过以下步骤训练所述判别网络:
[0015]确定所述真实数据分布和所述生成数据分布之间的相似度是否大于预设最大阈值;
[0016]若否,则在预设范围内调整所述判别网络的参数,得到训练后的判别网络,直至所述相似度大于所述预设最大阈值时停止训练。
[0017]进一步的,所述根据所述样本恶意域名训练得到域名识别模型的步骤,包括:
[0018]将所述样本恶意域名和合法域名作为样本数据输入至域名识别模型中;
[0019]得到所述域名识别模型输出的所述样本数据是恶意域名标签或合法域名标签的目标概率;
[0020]根据所述目标概率,调整所述域名识别模型的参数,更新所述域名识别模型,直至所述目标概率达到对应的预设分类阈值时,得到训练好的域名识别模型。
[0021]进一步的,所述得到训练好的域名识别模型后,所述训练方法还包括:
[0022]在接收到待识别域名后,将所述待识别域名输入至训练好的域名识别模型中,得到与所述待识别域名对应的域名识别结果;
[0023]若所述域名识别结果指示所述待识别域名为恶意域名,则拒绝访问;
[0024]若所述域名识别结果指示所述待识别域名为合法域名,则接受访问。
[0025]第二方面,本申请实施例还提供了一种域名识别模型的训练装置,所述训练装置包括:
[0026]获取模块,用于获取历史恶意域名集合中的真实恶意域名;
[0027]训练模块,用于将所述真实恶意域名和恶意域名生成模型的生成网络输出的生成恶意域名进行处理后,作为输入数据输入至所述恶意域名生成模型的判别网络中,获取所述判别网络输出的与所述真实恶意域名对应的真实数据分布和与所述生成恶意域名对应的生成数据分布,根据所述真实数据分布和所述生成数据分布之间的相似度训练所述判别网络,得到训练后的判别网络;
[0028]更新模块,用于根据所述训练后的判别网络的输出,在确定所述真实数据分布和所述生成数据分布之间的相似度小于预设最小阈值时,将所述生成网络确定为目标生成网络;
[0029]识别模块,用于获取目标生成网络输出的生成恶意域名,将所述生成恶意域名加入到所述历史恶意域名集合中进行扩展,获得样本恶意域名,根据所述样本恶意域名训练得到域名识别模型,根据所述域名识别模型识别出恶意域名。
[0030]进一步的,所述训练装置还包括编码模块,所述编码模块用于:
[0031]将所述真实恶意域名和所述生成恶意域名按预设的编码方式进行编码;其中,所述编码方式是将所述真实恶意域名和所述生成恶意域名中所包含的所有字符转换为在预设区间内且具有连续性的数字的编码方式;
[0032]将编码后的所述真实恶意域名和所述生成恶意域名确定为输入数据。
[0033]进一步的,所述训练模块在用于训练所述判别网络时,所述训练模块具体用于:
[0034]确定所述真实数据分布和所述生成数据分布之间的相似度是否大于预设最大阈值;
[0035]若否,则在预设范围内调整所述判别网络的参数,得到训练后的判别网络,直至所述相似度大于所述预设最大阈值时停止训练。
[0036]第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的域名识别模型的训练方法的步骤。
[0037]第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种域名识别模型的训练方法,其特征在于,所述训练方法包括:获取历史恶意域名集合中的真实恶意域名;将所述真实恶意域名和恶意域名生成模型的生成网络输出的生成恶意域名进行处理后,作为输入数据输入至所述恶意域名生成模型的判别网络中,获取所述判别网络输出的与所述真实恶意域名对应的真实数据分布和与所述生成恶意域名对应的生成数据分布,根据所述真实数据分布和所述生成数据分布之间的相似度训练所述判别网络,得到训练后的判别网络;根据所述训练后的判别网络的输出,在确定所述真实数据分布和所述生成数据分布之间的相似度小于预设最小阈值时,将所述生成网络确定为目标生成网络;获取目标生成网络输出的生成恶意域名,将所述生成恶意域名加入到所述历史恶意域名集合中进行扩展,获得样本恶意域名,根据所述样本恶意域名训练得到域名识别模型,根据所述域名识别模型识别出恶意域名。2.根据权利要求1所述的训练方法,其特征在于,通过以下步骤确定输入数据:将所述真实恶意域名和所述生成恶意域名按预设的编码方式进行编码;其中,所述编码方式是将所述真实恶意域名和所述生成恶意域名中所包含的所有字符转换为在预设区间内且具有连续性的数字的编码方式;将编码后的所述真实恶意域名和所述生成恶意域名确定为输入数据。3.根据权利要求1所述的训练方法,其特征在于,通过以下步骤训练所述判别网络:确定所述真实数据分布和所述生成数据分布之间的相似度是否大于预设最大阈值;若否,则在预设范围内调整所述判别网络的参数,得到训练后的判别网络,直至所述相似度大于所述预设最大阈值时停止训练。4.根据权利要求1所述的训练方法,其特征在于,所述根据所述样本恶意域名训练得到域名识别模型的步骤,包括:将所述样本恶意域名和合法域名作为样本数据输入至域名识别模型中;得到所述域名识别模型输出的所述样本数据是恶意域名标签或合法域名标签的目标概率;根据所述目标概率,调整所述域名识别模型的参数,更新所述域名识别模型,直至所述目标概率达到对应的预设分类阈值时,得到训练好的域名识别模型。5.根据权利要求4所述的训练方法,其特征在于,所述得到训练好的域名识别模型后,所述训练方法还包括:在接收到待识别域名后,将所述待识别域名输入至训练好的域名识别模型中,得到与所述待识别域名对应的域名识别结果;若所述域名识别结果指示所述待识别域名为恶意域名,则拒...

【专利技术属性】
技术研发人员:张凯欣黄兵吴云峰韩庆敏柴处处张久发郝娇李末军石春竹魏利卓
申请(专利权)人:中国电子信息产业集团有限公司第六研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1