一种网站分类方法技术

技术编号:9718850 阅读:65 留言:0更新日期:2014-02-27 05:38
本发明专利技术公开了一种网站分类方法,包括:获取网站的多维属性,利用集合对多维属性进行表示;针对表示多维属性的集合,进行自编码特征学习;利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将该结构输入到步骤S103得到的SVM中,进行网站分类,得到网站的类别。本发明专利技术的网站分类方法能高效准确的按照行业类别对网站进行分类,并且能快速侦测具有恶意特征的钓鱼网页;采用多维属性描述的方式,增加系统的便利性与通用性;且系统具有极强的稳定性。

【技术实现步骤摘要】
一种网站分类方法
本专利技术涉及网络安全
,特别是涉及一种网站分类方法。
技术介绍
伴随着互联网产业的蓬勃发展,钓鱼欺诈、木马暗链和隐私泄露等网络安全事件频发,对网络用户造成了严重的财产、精神伤害。如何能够快速智能的识别钓鱼网站,以及针对不同类型网站给出合适的隐私保护等级,成为当前安全领域研究的热点。这就需要一种智能准确的网站分类的技术来处理海量互联网网站。目前,对于网站分类技术,国内外的研究并不算很广泛,而且分析中使用的网站特征描述较为单一。总体而言,主要有如下几个研究方向:(1)基于网页文本。JohnPierre最早提出将整个网站上网页的文字或标签集合为一个整体构造空间向量,利用文本分类的方法进行分类,实验结果并不理想。(2)基于网站结构。Hans-PeterKriegel等人利用网站中各类类别网页的出现频率来进行网站分类,MajidYazdani等人在此基础上提出了隐马尔科夫的模型。这类网站分类模型特别适用单个类别网站的选取和判断。(3)基于用户HTTP行为分析。这一方法绕开了网页本身的处理,利用HTTP协议的行为来处理网站分类问题。在网站分类的类别划分上,还没有一个统一的标准。但是,用户在同一类别网站上的业务使用过程是类似的,而且针对钓鱼网站之间也具有较强相似性。目前,最大的国际性人工网站分类目录是OpenDirectoryProject,其中包含部分中文网站。就英文网站分类目录而言,Yahoo!Directory和Alexa是比较著名的。深度学习(DeepLearning)是最近兴起的一种新的机器学习模型,其能够得到更好地表示复杂数据的特征,同时由于模型的层次、参数很多,效率足够,因此,深度学习模型有能力表示类型互联网网站这样大规模数据,能够在大规模训练数据上取得更好的效果。此外,从模式识别特征和分类器的角度,深度学习框架将特征选取和分类器结合到一个框架中,用数据去学习特征,在使用中减少了手工选取特征的巨大工作量(这是目前工业界工程师付出努力最多的方面),因此,不仅仅效果可以更好,而且,使用起来也有很多方便之处,因此,是十分合适的一套解决方案框架,自编码(AutoEncoder)方法是深度学习方法中最常用的一种算法。该算法通过设置一个神经网络的输出层矢量等于输入矢量,并使隐层神经元的数量少于输入层,然后训练调整其参数,得到每一层中的权重。训练好的网络在隐层即为输入特征向量的压缩表示方法。这些压缩后的特征在解决分类问题时有较好的效果。
技术实现思路
本专利技术要解决的技术问题是提供一种网站分类方法,用以解决现有技术中网站分类效果不佳的问题。为解决上述技术问题,本专利技术提供一种网站分类方法,包括:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;步骤S102,针对表示多维属性的集合,进行自编码特征学习;步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别。进一步,步骤S101具体包括:步骤S1011,提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩;步骤S1012,对所述HTML标题和HTML正文进行分词处理,得到单词向量集合B={w1,w2,…,wn},n为正整数;步骤S1013,对每一个在向量B的单词wi,统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量集合B’={w’1,w’2,…,w’m};其中i=1,2,……,n;m为正整数,m<=n;步骤S1014,统计所述CSS主题色彩中使用最多的3种颜色类别,得到色彩向量描述集合C,C={c1,c2,c3};步骤S1015,获取属性值,建立属性描述集合S;其中,属性值包括下述中的一项或多项:网站服务器类型、Poweredby信息(驱动信息)、脚本语言类型、返回状态码、跳转次数、网站出处、外域个数、内域个数和页面大小;步骤S1016,根据集合B’、C和S,建立网站多维属性样本集合V,V=B’∪C∪S;其中∪表示并集。进一步,步骤S102具体包括:步骤S1021,构建三层神经网络N,其输入特征数量等于输出数量,并且输入特征数量等于步骤S1016中得到网站多维属性集合V的特征数量;步骤S1022,用网站多维属性集合V作为三层神经网络N的输入值Input,计算当前三层神经网络环境下的输出值Output;步骤S1023,比较输入值Input与输出值Output,计算二之差是否达到目标阈值;如果是,则转步骤S1025,如果否,则转步骤S1024;步骤S1024,根据梯度下降法调整三层神经网络N的参数,并返回到步骤S1022;步骤S1025,完成学习,中间隐层节点向量V’即为自编码学习结果。进一步,步骤S103具体包括:步骤S1031,构建支持向量机SVM,使用向量V’作为输入;步骤S1032,利用开源数据库,标记设定数量的样本网站的行业类别,得到已标注样本集L;步骤S1033,利用SVM对已标注样本集L中的标记数据样本进行训练与学习;判断该SVM的分类结果是否满足设定要求,如果是,则以该SVM作为进行分类的SVM;如果否,则修改SVM的参数,然后对该SVM继续进行训练和学习,通过迭代训练,直至其分类结果满足设定要求,则以最终得到SVM作为进行分类的SVM。本专利技术有益效果如下:本专利技术的网站分类方法,能高效准确的按照行业类别对网站进行分类,并且对于具有恶意特征的钓鱼网页,能快速侦测出来;采用多维属性描述的方式,增加系统的便利性与通用性;采用机器学习的方法,并且采样的样本较为广泛,系统具有极强的稳定性。附图说明图1是本专利技术实施例中一种网站分类方法的流程图;图2是本专利技术实施例中三层神经网络的结构示意图;图3是本专利技术实施例中进行网站聚类学习及网站分类的流程图;图4是本专利技术实施例中一个建立网站多维描述与聚集分类的示意图。具体实施方式以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。如图1所示,本专利技术实施例涉及一种基于自编码深度学习模型的网站分类方法,包括以下步骤:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示:本步骤具体包括以下步骤:步骤S1011,对网站首页进行HTML(HyperTextMarkupLanguage,超文本标记语言)处理,提取出首页HTML标题、HTML正文和CSS(CascadingStyleSheets,层叠样式表)主题色彩;步骤S1012,对步骤S1011获得的HTML标题和HTML正文进行分词处理,按照出现频率由高到底统计预定比例(例如,前50%)的所有名词,并得到单词向量B={w1,w2,…,wn},n为正整数;步骤S1013,对每一个在向量B的单词wi本文档来自技高网
...
一种网站分类方法

【技术保护点】
一种网站分类方法,其特征在于,包括:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;步骤S102,针对表示多维属性的集合,进行自编码特征学习;步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别。

【技术特征摘要】
1.一种网站分类方法,其特征在于,包括:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;步骤S102,针对表示多维属性的集合,进行自编码特征学习;步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别;所述步骤S101具体包括:步骤S1011,提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩;步骤S1012,对所述HTML标题和HTML正文进行分词处理,得到单词向量集合B={w1,w2,…,wn},n为正整数;步骤S1013,对每一个在向量B的单词wi,统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量集合B’={w’1,w’2,…,w’m};其中i=1,2,……,n;m为正整数,m<=n;步骤S1014,统计所述CSS主题色彩中使用最多的3种颜色类别,得到色彩向量描述集合C,C={c1,c2,c3};步骤S1015,获取属性值,建立属性描述集合S;其中,属性值包括下述中的一项或多项:网站服务器类型、Pow...

【专利技术属性】
技术研发人员:胡俊王明华云晓春李佳贺敏纪玉春何能强高胜朱天
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1