恶意网址的分类方法、装置、计算机设备和可读存储介质制造方法及图纸

技术编号:26791156 阅读:15 留言:0更新日期:2020-12-22 17:06
本发明专利技术提供了一种恶意网址的分类方法、装置、计算机设备和可读存储介质。该恶意网址的分类方法包括:获取目标网址对应的网络资源;提取网络资源中的静态资源和动态资源;通过预设的第一分类模型分类静态资源,以得到目标网址对应的第一分类信息;通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息;以及根据第一分类信息和第二分类信息确定目标网址所属的恶意网址类别。通过本发明专利技术,能够提升分类准确性。

【技术实现步骤摘要】
恶意网址的分类方法、装置、计算机设备和可读存储介质
本专利技术涉及人工智能和网络安全
,尤其涉及一种恶意网址的分类方法、装置、计算机设备和可读存储介质。
技术介绍
域名、ip、URL等均对应互联网中不同的网络资源,为了鉴定其中的不安全资源,传统做法是对该网络资源进行爬虫抓取后,根据其网络资源中的ip地域、域名后缀以及爬取到的文本或源码片段等,依赖人工经验制定人工规则,通过规则来识别和分类恶意网址。而基于人工规则的分类引擎,对人工经验的依赖大,分类准确性低。
技术实现思路
本专利技术的目的是提供一种恶意网址的分类方法、装置、计算机设备和可读存储介质,用于解决现有技术中的上述技术问题。一方面,为实现上述目的,本专利技术提供了一种恶意网址的分类方法。该恶意网址的分类方法包括:获取目标网址对应的网络资源;提取所述网络资源中的静态资源和动态资源;通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。进一步地,所述静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,所述第一分类模型为文本分类模型,通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息的步骤包括:根据所述静态资源构建词序列;将所述词序列输入所述文本分类模型,其中,所述文本分类模型用于根据所述词序列确定所述第一分类信息。进一步地,根据所述静态资源构建词序列的步骤包括:将所述静态资源划分为至少两个文本类;对所述文本类进行分词得到词序列;所述文本分类模型包括第一卷积层、第一池化层和第一全连接层,所述第一卷积层包括至少两个串联的文本卷积核,将所述词序列输入所述文本分类模型的步骤包括:将每个所述文本类对应的所述词序列作为一维向量输入至第一个文本卷积核;将最后一个所述文本卷积核的输出输入至所述第一池化层;将所述第一池化层的输出输入至所述第一全连接层,其中,所述第一全连接层输出所述第一分类信息。进一步地,将所述静态资源划分为至少两个文本类的步骤包括:将所述页面标题划分为标题文本类,将所述meta字段划分为头文本类,将所述页面body标签内的文字划分为内容文本类。进一步地,所述动态资源包括页面加载的脚本程序和/或css资源文件,所述第二分类模型为二进制分类模型,通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息的步骤包括:根据所述动态资源构建二进制片段序列;将所述二进制片段序列输入所述二进制分类模型,其中,所述二进制分类模型用于根据所述二进制片段序列确定所述第二分类信息。进一步地,根据所述动态资源构建二进制片段序列的步骤包括:将所述动态资源转化为二进制流;以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列,其中,不同的所述二进制片段序列中的二进制片段的字节长度不同,同一个所述二进制片段序列中的二进制片段的字节长度相同且在相邻两个二进制片段中同一位置的字节为相邻字节;所述二进制分类模型包括第二卷积层、第二池化层和第二全连接层,所述第二卷积层包括至少两个并联的二进制卷积核,将所述二进制片段序列输入所述二进制分类模型的步骤包括:将每个所述二进制片段序列输入至一个二进制卷积核;将各个所述二进制卷积核的输出分别输入至所述第二池化层;将所述第二池化层的输出输入至所述第二全连接层,其中,所述第二全连接层输出所述第二分类信息。进一步地,以相邻的不同字节长度作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到至少两个二进制片段序列的步骤包括:分别以n+1、n+2、…、n+m个字节作为二进制片段单位,对所述二进制流按照单字节长度作为滑动步长进行切分,得到m个二进制片段序列,其中,n大于或等于0,m大于或等于3;所述第二卷积层包括m个尺寸不同的所述二进制卷积核,所述二进制片段序列中二进制片段包括的字节数越多,对应的所述二进制卷积核的尺寸越大。另一方面,为实现上述目的,本专利技术提供了一种恶意网址的分类装置。该恶意网址的分类装置包括:获取模块,用于获取目标网址对应的网络资源;提取模块,用于提取所述网络资源中的静态资源和动态资源;第一分类模块,用于通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;第二分类模块,用于通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及确定模块,用于根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。又一方面,为实现上述目的,本专利技术还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。又一方面,为实现上述目的,本专利技术还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。本专利技术提供的恶意网址的分类方法、装置、计算机设备和可读存储介质,获取目标网址对应的网络资源后,一方面,提取网络资源的静态资源,并通过预设的第一分类模型分类该静态资源,以得到目标网址对应的第一分类信息,也即基于对网页静态特征的分类确定目标网址的类别信息;另一方面,提取网络资源的动态资源,通过预设的第二分类模型分类动态资源,以得到目标网址对应的第二分类信息,也即基于对网页动态特征是分类确定目标网址的类别信息,最终结合第一分类信息和第二分类信息两个方面,确定出目标网址所属的恶意网址类别。通过本专利技术,从网络资源的静态特征和动态特征两方面出发,利用预构建的两个分类模型,自动分类和分类各种恶意网址,相比基于人工规则的分类方法,减少了对人工经验的依赖,降低了人工干预,使用两个独立模型分别分类,有助于提高整体识别的鲁棒性,有效应对互联网数据的大规模噪声,从而提高整体分类的准确度和召回率。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例一提供的恶意网址的分类方法的流程图;图2为本专利技术实施例二提供的恶意网址的分类装置的框图;图3为本专利技术实施例三提供的计算机设备的硬件结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了减小恶意网址分类对人工经验的依赖,提升分类的准确性,本专利技术提出一种恶意本文档来自技高网...

【技术保护点】
1.一种恶意网址的分类方法,其特征在于,包括:/n获取目标网址对应的网络资源;/n提取所述网络资源中的静态资源和动态资源;/n通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;/n通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及/n根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。/n

【技术特征摘要】
1.一种恶意网址的分类方法,其特征在于,包括:
获取目标网址对应的网络资源;
提取所述网络资源中的静态资源和动态资源;
通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息;
通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息;以及
根据所述第一分类信息和所述第二分类信息确定所述目标网址所属的恶意网址类别。


2.根据权利要求1所述的恶意网址的分类方法,其特征在于,
所述静态资源包括页面head标签内的meta字段、页面标题和/或页面body标签内的文字,所述第一分类模型为文本分类模型,
通过预设的第一分类模型分类所述静态资源,以得到所述目标网址对应的第一分类信息的步骤包括:
根据所述静态资源构建词序列;
将所述词序列输入所述文本分类模型,其中,所述文本分类模型用于根据所述词序列确定所述第一分类信息。


3.根据权利要求2所述的恶意网址的分类方法,其特征在于,
根据所述静态资源构建词序列的步骤包括:
将所述静态资源划分为至少两个文本类;
对所述文本类进行分词得到词序列;
所述文本分类模型包括第一卷积层、第一池化层和第一全连接层,所述第一卷积层包括至少两个串联的文本卷积核,将所述词序列输入所述文本分类模型的步骤包括:
将每个所述文本类对应的所述词序列作为一维向量输入至第一个文本卷积核;
将最后一个所述文本卷积核的输出输入至所述第一池化层;
将所述第一池化层的输出输入至所述第一全连接层,其中,所述第一全连接层输出所述第一分类信息。


4.根据权利要求3所述的恶意网址的分类方法,其特征在于,将所述静态资源划分为至少两个文本类的步骤包括:
将所述页面标题划分为标题文本类,将所述meta字段划分为头文本类,将所述页面body标签内的文字划分为内容文本类。


5.根据权利要求1所述的恶意网址的分类方法,其特征在于,
所述动态资源包括页面加载的脚本程序和/或css资源文件,所述第二分类模型为二进制分类模型,
通过预设的第二分类模型分类所述动态资源,以得到所述目标网址对应的第二分类信息的步骤包括:
根据所述动态资源构建二进制片段序列;
将所述二进制片段序列输入所述二进制分类模型,其中,所述二进制分类模型用于根据所述二进制片段序列确定所述第二分类信息。


6.根据权利要求5所...

【专利技术属性】
技术研发人员:陈劲
申请(专利权)人:奇安信科技集团股份有限公司网神信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1