【技术实现步骤摘要】
本申请涉及通信及计算机领域,尤其涉及一种网页入侵脚本特征的识别方法及设备。
技术介绍
网页入侵脚本(Webshell)是指网页脚本里面具有一定危害性的特定字符串内容的组合,会导致网站被攻击、数据泄露等严重后果。简单的说来,网页入侵脚本就是一个ASP(动态服务器页面,Active Server Page)或PHP(超文本预处理器,Hypertext Preprocessor)的木马后门,黑客在入侵了一个网站后,常常在将这些ASP或PHP木马后门文件放置在网站服务器的web目录中,与正常的网页文件混在一起,然后,黑客就可以用web(网页)的方式,通过ASP或PHP木马后门控制网站服务器,包括上传下载文件、查看数据库、执行任意程序命令等,再通过dos命令或者植入后门木马通过服务器漏洞等达到提权的目的。对于网页入侵脚本来说,网页入侵脚本特征就是那些具有危害性的代码字符串。根据网页入侵脚本特征为分类依据,可以将网页脚本划分为多个特征类型。目前对网页入侵脚本特征的处理,普遍采取大量采集样本数据放入数据库,然后以正则表达式方式进行特征字符串的查找识别。然而,随着参考网页脚本数量不断增加,参考网页脚本占用磁盘和内存空间高,可以从几兆字节到几百兆字节,因此存在库体积的瓶颈;并且,当体积到一定程度后,整个库在网页入侵脚本特征识别过程中,CPU(内存)占用率越来越高,甚至可达100%占用率,无法满足生产场景中对CPU使用率的限制要求;此外,识别速度慢,平均单个网页脚本文件识别时间大概在500毫秒至1秒,进而失去使用价值。
技术实现思路
本申请的目的是提供一种内存占用率低、识别速度 ...
【技术保护点】
一种网页入侵脚本特征的识别方法,其中,所述识别方法包括:基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量,其中,所述参考向量的赋值根据对应参考网页脚本的网页入侵脚本特征类型确定;根据所述参考向量及其赋值的分布,获取多维空间中赋值的分布模型;基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量;以及根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值,并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。
【技术特征摘要】
1.一种网页入侵脚本特征的识别方法,其中,所述识别方法包括:基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量,其中,所述参考向量的赋值根据对应参考网页脚本的网页入侵脚本特征类型确定;根据所述参考向量及其赋值的分布,获取多维空间中赋值的分布模型;基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量;以及根据所述多维空间中赋值的分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值,并根据该赋值确定对应待测网页脚本的网页入侵脚本特征类型。2.根据权利要求1所述的识别方法,其中,将所述参考网页脚本映射至多维空间的参考向量以及将所述待测网页脚本映射至多维空间的待测向量基于相同的映射规则。3.根据权利要求1或2所述的识别方法,其中,基于每个参考网页脚本的特征信息将所述参考网页脚本映射至多维空间的参考向量包括:获取若干所述参考网页脚本;对所述参考网页脚本进行采样和量化,以获取所述参考网页脚本的特征值集合;以及将每一所述参考网页脚本的特征值集合映射至所述多维空间的参考向量。4.根据权利要求3所述的识别方法,其中,对所述参考网页脚本的特征进行采样和量化包括:从每个所述参考网页脚本中截取相同文本容量的参考网页脚本;以及对所述截取的参考网页脚本的字符进行采样和量化,以获取所述参考网页脚本的特征值集合。5.根据权利要求4所述的识别方法,其中,对从所述参考网页脚本截取的字符依次赋予特征值包括:根据ASCII码规则将所采样的所述参考网页脚本的字符量化成相应特征值。6.根据权利要求4或5所述的特征识别方法,其中,所述识别方法还包括:利用从每个所述参考网页脚本中截取之后剩余的参考网页脚本确定所述待测网页脚本的网页入侵脚本特征类型。7.根据权利要求6所述的识别方法,其中,所述识别方法还包括:采用正则表达式对从每个所述参考网页脚本中截取之后剩余的参考网页脚本进行处理和存储。8.根据权利要求1或7中任一项所述的识别方法,其中,基于待测网页脚本的特征信息将所述待测网页脚本映射至多维空间的待测向量包括:获取所述待测网页脚本;对所述待测网页脚本进行采样和量化,以获取所述待测网页脚本的特征值集合;以及将所述待测网页脚本的特征值集合映射至所述多维空间的待测向量。9.根据权利要求8所述的识别方法,其中,对所述待测网页脚本的特征进行采样和量化包括:从所述待测网页脚本中截取与所述参考网页脚本所截取的参考网页脚本相同文本容量的待测网页脚本;以及对所述截取的待测网页脚本的字符进行采样和量化,以获取所述待测网页脚本的特征值集合。10.根据权利要求9所述的识别方法,其中,对所述截取的待测网页脚本的字符进行量化包括:根据ASCII码规则将所采样的所述待测网页脚本的字符量化成相应特征值。11.根据权利要求1至10中任一项所述的识别方法,其中,将所述多维空间进行划分包括:利用分类算法获取所述多维空间中赋值的分布模型。12.根据权利要求11所述的识别方法,其中,所述分类算法包括支持向量机算法。13.根据权利要求1至12中任一项所述的识别方法,其中,所述多维空间中赋值的分布模型包括若干多维函数关系组。14.根据权利要求13所述的识别方法,其中,根据所述多维空间中赋值的
\t分布模型确定所述待测向量所映射在所述多维空间中所对应的赋值包括:将所述待测向量的赋值代入所述若干多维函数关系组,利用解析几何原理获取所述待测向量所映射在所述多维空间中所对应的赋值。15.根据权利要求1至14中任一项所述的识别方法,其中,所述网页入侵脚本特征类型包括正常类型、异常类型及待定类型中的一种或任意组合。16.一种网页入侵脚本特征的识别设...
【专利技术属性】
技术研发人员:周燃,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。