一种网页请求识别方法及装置制造方法及图纸

技术编号:19548429 阅读:34 留言:0更新日期:2018-11-24 21:24
本申请实施例提供了一种网页请求识别方法及装置,方法包括:获取多个标记有标签的样本网页请求,标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;确定每一样本网页请求的结构特征,获得对每一样本网页请求的文本词语,计算每一样本网页请求的每一文本词语的权重,根据每一样本网页请求的结构特征和每一文本词语的权重,确定每一样本网页请求的特征向量,基于机器学习算法,根据每一样本网页请求的特征向量和标签训练网页请求识别模型;当获取到待识别网页请求时,利用网页请求识别模型识别待识别网页请求,确定待识别网页请求是否为恶意网页请求。应用本申请实施例,提高了网页请求识别的准确率。

A Method and Device for Web Page Request Recognition

The embodiment of this application provides a method and device for identifying web page requests. The method includes acquiring a plurality of tagged sample web page requests, including tags used to indicate that a web page request is a malicious web page request or a non-malicious web page request, and determining the content of each sample web page request. Structural features are used to obtain the text words for each sample web page request, calculate the weight of each text word for each sample web page request, and determine the feature vectors for each sample web page request according to the structural features of each sample web page request and the weight of each text word. Based on machine learning algorithm, according to each sample web page request, the weight of each text word is calculated. The feature vectors and tags of the web page requests are used to train the web page request recognition model. When the web page requests to be identified are obtained, the web page requests to be identified are identified by the web page request recognition model to determine whether the web page requests to be identified are malicious web page requests. The application embodiment improves the accuracy of web page request recognition.

【技术实现步骤摘要】
一种网页请求识别方法及装置
本申请涉及通信
,特别是涉及一种网页请求识别方法及装置。
技术介绍
随着互联网技术的发展,各种网络服务便捷了人们的生活,但也给攻击者提供了更多的攻击机会。恶意网页请求为攻击者进行攻击的一种形式。恶意网页请求利用网络服务的漏洞,通过问卷上传、跨站脚本、HTTP(HyperTextTransferProtocol,超文本传输协议)请求欺骗、SQL(StructuredQueryLanguage,结构化查询语言)注入等方式攻击网络服务器,达到窃取信息、瘫痪服务等目目的。为了提高网络安全,保证服务质量,对准确的识别出恶意网页请求提出了要求。目前,网页请求识别主要利用隐马尔科夫模型,具体为:获取标记为恶意网页请求或非恶意网页请求的样本网页请求,将样本网页请求的文本信息转换为状态的形式;对于每个状态,统计该状态之后一个状态为某一状态的概率,例如,“今天”这一状态之后为“天气”这一状态的概率,今天”这一状态之后为“吃饭”这一状态的概率等,进而确定每个状态之后一个状态的概率分布;根据确定的概率分布构建状态转移模型,即网页请求识别模型;通过网页请求识别模型确定待识别网页请求为非恶意网页请求的概率和待识别网页请求为恶意网页请求的概率;若非恶意网页请求的概率大于恶意网页请求的概率,则确定待识别网页请求为非恶意网页请求;否则,确定待识别网页请求为恶意网页请求。采用隐马尔科夫模型识别网页请求时,仅仅考虑网页请求的文本信息,使得网页请求识别的准确率较低。
技术实现思路
本申请实施例的目的在于提供一种网页请求识别方法及装置,以提高网页请求识别的准确率。具体技术方案如下:一方面,本申请实施例提供了一种网页请求识别方法,所述方法包括:获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;确定每一样本网页请求的结构特征;对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;计算每一样本网页请求的每一文本词语的权重;对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。二方面,本申请实施例提供了一种网页请求识别装置,所述装置包括:获取单元,用于获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;第一确定单元,用于确定每一样本网页请求的结构特征;分词单元,用于对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;计算单元,用于计算每一样本网页请求的每一文本词语的权重;第二确定单元,用于对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;训练单元,用于基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;识别单元,用于当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。三方面,本申请实施例提供了一种电子设备,包括处理器和机器可读存储介质,处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使实现上述网页请求识别方法。四方面,本申请实施例提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现上述网页请求识别方法。本申请实施例中,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,能够有效地提高网页请求识别的准确率。当然,实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的网页请求识别方法的一种流程示意图;图2为本申请实施例提供的网页请求识别装置的一种结构示意图;图3为本申请实施例提供的电子设备的一种结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。目前,网页请求识别主要利用隐马尔科夫模型,而采用隐马尔科夫模型识别网页请求时,仅考虑了网页请求的文本信息,这使得网页请求识别的准确率较低。为了提高网页请求识别的准确率,本申请实施例提供了一种网页请求识别方法。参考图1,图1为本申请实施例提供的网页请求识别方法的一种流程示意图,该方法包括:步骤101:获取多个标记有标签的样本网页请求;其中,标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;步骤102:确定每一样本网页请求的结构特征;步骤103:对每一样本网页请求的文本信息进行进行分词,获得每一样本网页请求的文本词语;步骤104:计算每一样本网页请求的每一文本词语的权重;步骤105:对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;步骤106:基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;步骤107:当获取到待识别网页请求时,利用网页请求识别模型识别待识别网页请求,确定待识别网页请求是否为恶意网页请求。本申请实施例中,根据文本词语的权重和网页请求的结构特征训练网页请求识别模型,训练网页请求识别模型时,不仅考虑网页请求的文本信息,还考虑了网页请求的结构特征,增加了训练网页请求识别模型的特征的种类,在识别待识别网页请求时,同样提取待识别网页请求的文本词语的权重和结构特征,确定待识别网页请求是否为恶意网页请求,有效提高了网页请求识别的准确率。本申请实施例中,网页请求可以为URL(UniformResourceLocator,统一资源定位符)。为了保证训练获得网页请求识别模型的准确可靠,可以获取大量的标记有标签的样本网页请求来训练网页请求识别模型。网页请求的结构特征可以包括参数个数、参数值平均长度、参数值最大字节数和非法参数个数等。这里,非法参数为网页请求中不允许包括的字符,例如,汉字、空格等。在获取到一样本网页请求后,可以根据网页请求中参数个数、参数值平均长度、参数值最大字节数和非法参数个数等结构特点,确定该样本网页请求的结构特征。例如,本文档来自技高网...

【技术保护点】
1.一种网页请求识别方法,其特征在于,所述方法包括:获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;确定每一样本网页请求的结构特征;对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;计算每一样本网页请求的每一文本词语的权重;对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。

【技术特征摘要】
1.一种网页请求识别方法,其特征在于,所述方法包括:获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;确定每一样本网页请求的结构特征;对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;计算每一样本网页请求的每一文本词语的权重;对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。2.根据权利要求1所述的方法,其特征在于,所述确定每一样本网页请求的结构特征的步骤,包括:根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。3.根据权利要求1所述的方法,其特征在于,所述对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语的步骤,包括:利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。4.根据权利要求1所述的方法,其特征在于,所述计算每一样本网页请求的每一文本词语的权重的步骤,包括:对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的逆向文件频率IDF:IDF=log(M/m);其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;根据以下公式确定该文本词语的权重δ:δ=TF*IDF;其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。5.根据权利要求1所述的方法,其特征在于,所述基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型的步骤,包括:基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。6.一种网页请求识别装置,其特征在于,所述装置包括:获取单元,用于获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的...

【专利技术属性】
技术研发人员:贾若然顾成杰
申请(专利权)人:新华三信息安全技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1