The embodiment of this application provides a method and device for identifying web page requests. The method includes acquiring a plurality of tagged sample web page requests, including tags used to indicate that a web page request is a malicious web page request or a non-malicious web page request, and determining the content of each sample web page request. Structural features are used to obtain the text words for each sample web page request, calculate the weight of each text word for each sample web page request, and determine the feature vectors for each sample web page request according to the structural features of each sample web page request and the weight of each text word. Based on machine learning algorithm, according to each sample web page request, the weight of each text word is calculated. The feature vectors and tags of the web page requests are used to train the web page request recognition model. When the web page requests to be identified are obtained, the web page requests to be identified are identified by the web page request recognition model to determine whether the web page requests to be identified are malicious web page requests. The application embodiment improves the accuracy of web page request recognition.
【技术实现步骤摘要】
一种网页请求识别方法及装置
本申请涉及通信
,特别是涉及一种网页请求识别方法及装置。
技术介绍
随着互联网技术的发展,各种网络服务便捷了人们的生活,但也给攻击者提供了更多的攻击机会。恶意网页请求为攻击者进行攻击的一种形式。恶意网页请求利用网络服务的漏洞,通过问卷上传、跨站脚本、HTTP(HyperTextTransferProtocol,超文本传输协议)请求欺骗、SQL(StructuredQueryLanguage,结构化查询语言)注入等方式攻击网络服务器,达到窃取信息、瘫痪服务等目目的。为了提高网络安全,保证服务质量,对准确的识别出恶意网页请求提出了要求。目前,网页请求识别主要利用隐马尔科夫模型,具体为:获取标记为恶意网页请求或非恶意网页请求的样本网页请求,将样本网页请求的文本信息转换为状态的形式;对于每个状态,统计该状态之后一个状态为某一状态的概率,例如,“今天”这一状态之后为“天气”这一状态的概率,今天”这一状态之后为“吃饭”这一状态的概率等,进而确定每个状态之后一个状态的概率分布;根据确定的概率分布构建状态转移模型,即网页请求识别模型;通过网页请求识别模型确定待识别网页请求为非恶意网页请求的概率和待识别网页请求为恶意网页请求的概率;若非恶意网页请求的概率大于恶意网页请求的概率,则确定待识别网页请求为非恶意网页请求;否则,确定待识别网页请求为恶意网页请求。采用隐马尔科夫模型识别网页请求时,仅仅考虑网页请求的文本信息,使得网页请求识别的准确率较低。
技术实现思路
本申请实施例的目的在于提供一种网页请求识别方法及装置,以提高网页请求识别的准确率。具体 ...
【技术保护点】
1.一种网页请求识别方法,其特征在于,所述方法包括:获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;确定每一样本网页请求的结构特征;对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;计算每一样本网页请求的每一文本词语的权重;对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。
【技术特征摘要】
1.一种网页请求识别方法,其特征在于,所述方法包括:获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;确定每一样本网页请求的结构特征;对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;计算每一样本网页请求的每一文本词语的权重;对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。2.根据权利要求1所述的方法,其特征在于,所述确定每一样本网页请求的结构特征的步骤,包括:根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。3.根据权利要求1所述的方法,其特征在于,所述对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语的步骤,包括:利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。4.根据权利要求1所述的方法,其特征在于,所述计算每一样本网页请求的每一文本词语的权重的步骤,包括:对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的逆向文件频率IDF:IDF=log(M/m);其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;根据以下公式确定该文本词语的权重δ:δ=TF*IDF;其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。5.根据权利要求1所述的方法,其特征在于,所述基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型的步骤,包括:基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。6.一种网页请求识别装置,其特征在于,所述装置包括:获取单元,用于获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的...
【专利技术属性】
技术研发人员:贾若然,顾成杰,
申请(专利权)人:新华三信息安全技术有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。