一种网页后门检测方法、装置、终端及存储介质制造方法及图纸

技术编号:22025040 阅读:24 留言:0更新日期:2019-09-04 02:06
本发明专利技术涉及一种网页后门检测方法、装置、终端及存储介质,所述方法包括:获取待检测文件;提取所述待检测文件的特征;将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;其中,所述预测模型的生成方法包括:计算黑白样本集合的词向量;碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;使用所述词向量对所述分类特征进行扩充。本发明专利技术能够自动实现特征的自动提取,并且具有语义信息,使得特征更加客观有效;人工干预少,效率高,在检出率和误报率方面有一定的精度。

A Backdoor Detection Method, Device, Terminal and Storage Media for Web Pages

【技术实现步骤摘要】
一种网页后门检测方法、装置、终端及存储介质
本专利技术涉及信息安全
,尤其涉及一种网页后门检测方法、装置、终端及存储介质。
技术介绍
webshell,顾名思义:web指的是在web服务器上,而shell是用脚本语言编写的脚本程序,webshell就是web的一个管理工具,可以对web服务器进行操作的权限,也叫webadmin。webshell一般是被网站管理员用于网站管理、服务器管理等等一些用途,但是由于webshell的功能比较强大,可以上传下载文件,查看数据库。甚至可以调用一些服务器上系统的相关命令(比如创建用户,修改删除文件之类的),通常被黑客利用,黑客通过一些上传方式,将自己编写的webshell上传到web服务器的页面的目录下,然而通过页面访问的形式进行入侵,或者通过插入一句话连接本地的一些相关工具直接对服务器进行入侵操作。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种网页后门检测方法、装置、终端及存储介质,可实现自动化选取特征,并且具有语义信息,使得特征更加客观有效。为了解决上述技术问题,第一方面,本专利技术提供了一种网页后门检测方法,包括:获取待检测文件;提取所述待检测文件的特征;将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;其中,所述预测模型的生成方法包括:计算黑白样本集合的词向量;碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;使用所述词向量对所述分类特征进行扩充。第二方面,本专利技术提供了一种网页后门检测装置,包括:获取模块,用于获取待检测文件;提取模块,用于提取所述待检测文件的特征;检测模块,用于将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;预测模型生成模块,包括特征选取模块,用于从样本集合中选取分类特征,所述特征选取模块包括:词向量计算模块,用于计算黑白样本集合的词向量;黑白样本碰撞模块,用于碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;特征扩充模块,用于使用所述词向量对所述分类特征进行扩充。第三方面,本专利技术提供了一种终端,包括:处理器和存储器,其中,所述处理器用于调用并执行所述存储器中存储的程序,所述存储器用于存储程序,所述程序用于:获取待检测文件;提取所述待检测文件的特征;将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;其中,所述预测模型的生成方法包括:计算黑白样本集合的词向量;碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;使用所述词向量对所述分类特征进行扩充。第四方面,本专利技术提供了一种计算机存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令有处理器加载并执行以下步骤:获取待检测文件;提取所述待检测文件的特征;将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;其中,所述预测模型的生成方法包括:计算黑白样本集合的词向量;碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;使用所述词向量对所述分类特征进行扩充。实施本专利技术实施例,具有如下有益效果:本专利技术通过建立预测模型来对待检测的文件进行检测,其中预测模型的建立包括分类特征的选取,具体通过词向量的方法选取特征。本专利技术能够自动实现特征的自动提取,并且具有语义信息,使得特征更加客观有效;增加了webshell检测的能力,对于对抗webshell的变形更加有效;人工干预少,效率高,在检出率和误报率方面有一定的精度。附图说明图1是本专利技术实施例提供的机器学习类的方法流程图;图2是本专利技术实施例提供的本专利技术的应用场景图;图3是本专利技术实施例提供的一种特征选取方法的流程图;图4是本专利技术实施例提供的一种模型训练方法的流程图;图5是本专利技术实施例提供的一种模型训练流程框图;图6是本专利技术实施例提供的一种模型生成方法示意图;图7是本专利技术实施例提供的一种网页后门检测方法流程图;图8是本专利技术实施例提供的一种网页后门检测流程框图;图9是本专利技术实施例提供的一种网页后门检测装置结构示意图;图10是本专利技术实施例提供的预测模型生成模块结构示意图;图11是本专利技术实施例提供的选取模块结构示意图;图12是本专利技术实施例提供的模型训练模块结构示意图;图13是本专利技术实施例提供的一种终端的结构示意图;图14是本专利技术实施例提供的对样本检测的实验结果图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。首先对本说明书中涉及到的相关术语做以下解释:webshell:以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境,也可以将其称做为一种网页后门。黑客在入侵了一个网站后,通常会将asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起,然后就可以使用浏览器来访问asp或者php后门,得到一个命令执行环境,以达到控制网站服务器的目的。机器学习:一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。词向量:通过训练将某种语言中的每一个词映射成一个固定长度的短向量(当然这里的“短”是相对于one-hotrepresentation的“长”而言的),将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性了。词向量技术是将词转化为稠密向量,并且对于相似的词,其对应的词向量也相近。词向量的用法最常见的有两种:(1)直接用于神经网络模型的输入层。(2)作为辅助特征扩充现有模型。SVM(SupportVectorMachine)指的是支持向量机,是常见的一种判别方法,在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类及回归分析。支持向量机(SVM)的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。(2)它基于结构风险最小化理论之上在特征空间中构建最优超平面,使得学习器得到全局最优化,并且在整个样本空间的期望以某个概率满足一定上界。N-gram是大词汇连续语音识别中常用的一种语言模型,该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都本文档来自技高网...

【技术保护点】
1.一种网页后门检测方法,其特征在于,包括:获取待检测文件;提取所述待检测文件的特征;将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;其中,所述预测模型的生成方法包括:计算黑白样本集合的词向量;碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;使用所述词向量对所述分类特征进行扩充。

【技术特征摘要】
1.一种网页后门检测方法,其特征在于,包括:获取待检测文件;提取所述待检测文件的特征;将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;其中,所述预测模型的生成方法包括:计算黑白样本集合的词向量;碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;使用所述词向量对所述分类特征进行扩充。2.根据权利要求1所述的一种网页后门检测方法,其特征在于,所述计算黑白样本集合的词向量具体包括:获取所述黑白样本,对所述黑白样本的文本进行分词;统计所述文本中的每个词的词频;根据所述词频进行哈夫曼编码;根据所述哈夫曼编码对所述文本进行词向量训练。3.根据权利要求1所述的一种网页后门检测方法,其特征在于,所述使用所述词向量对所述分类特征进行扩充包括:计算所述分类特征所对应的词向量与其他词向量的距离;选取与所述分类特征的距离小于预设阈值的词作为所述分类特征的同义词,并将所述同义词扩充为所述分类特征。4.根据权利要求3所述的一种网页后门检测方法,其特征在于,所述预测模型生成方法还包括模型训练,所述模型训练包括:采用监督学习对黑样本和白样本进行特征提取;将所述特征输入支持向量机进行训练学习;生成所述预测模型。5.根据权利要求1所述的一种网页后门检测方法,其特征在于,当所述待检测文件经检测后确认为webshell时,将所述待检测文件和所述样本集合重新进行深度学习,以更新所述预测模型。6.一种网页后门检测装置,其特征在于,包括:获取模块,用于获取待检测文件;提取模块,用于提取所述待检测文件的特征;检测模块,用于将所述待检测文件的特征输入支持向量机预测模型,并通过所述预测模型输出检测结果;预测模型生成模块,包括特征选取模块,用于从样本集合中选取分类特征,所述特征选取模块包括:词向量计算模块,用于计算黑白样本集合的词向量;黑白样本碰撞模块,用于碰撞所述黑白样本集合,以获得能够分类所述黑白样本集合的分类特征;特征扩充模块,用于使用所述词向量对所述分类特征进行扩充。7.根据权利要求6所述的一种网页后门检测装置,其特征在于,所述词向量计算模块包括:分词模块...

【专利技术属性】
技术研发人员:张壮董志强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1