本发明专利技术公开了一种基于特征向量模型识别钓鱼网页的方法及装置,特征向量模型是根据大量样本网页的站点特征信息获取样本网页的特征向量,并对样本网页的特征向量组成的矩阵进行训练得到的,通过特征向量模型将样本空间划分多个特征空间;方法包括:提取浏览器所打开第一网页的URL,根据URL得到第一网页所属站点的站点特征信息;根据第一网页的站点特征信息,确定第一网页的特征向量;将第一网页的特征向量输入到特征向量模型中,得到第一网页所属的特征空间,根据第一网页所属的特征空间识别第一网页是否为钓鱼网页。本发明专利技术无需提前下载该第一网页,从而规避了钓鱼作者对钓鱼网站所设的防护,通过自动的方式对第一网页进行识别,节省了人力资源。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于特征向量模型识别钓鱼网页的方法及装置,特征向量模型是根据大量样本网页的站点特征信息获取样本网页的特征向量,并对样本网页的特征向量组成的矩阵进行训练得到的,通过特征向量模型将样本空间划分多个特征空间;方法包括:提取浏览器所打开第一网页的URL,根据URL得到第一网页所属站点的站点特征信息;根据第一网页的站点特征信息,确定第一网页的特征向量;将第一网页的特征向量输入到特征向量模型中,得到第一网页所属的特征空间,根据第一网页所属的特征空间识别第一网页是否为钓鱼网页。本专利技术无需提前下载该第一网页,从而规避了钓鱼作者对钓鱼网站所设的防护,通过自动的方式对第一网页进行识别,节省了人力资源。【专利说明】基于特征向量模型识别钓鱼网页的方法及装置
本专利技术涉及互联网
,具体涉及一种基于特征向量模型识别钓鱼网页的方 法及装置。
技术介绍
随着互联网的发展,基于WEB的应用日益普及,人们通过浏览器可以查询银行账 户、网上购物、电子商务、查询信息、获取知识、进行娱乐等,WEB为人们提供了方便和快捷的 交互方式。然而,人们在上网冲浪浏览网页的同时,经常会遭遇到恶意网站的侵袭,导致计 算机被病毒、木马等感染。 恶意网站,例如钓鱼网站、或者是欺诈,仿冒网站等,主要是通过仿冒真实网站的 URL地址或是网页内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程 序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡 账号、密码等私人资料。恶意网页中包含着许多敏感的特征,例如,金融欺诈类的恶意网页 会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚 假购物等信息,这些特征大多以文本串的形式出现在网页中。 现有的为了防范恶意网站的主要手段是当用户访问某网站时,客户端将网站的 URL发送至服务器端的黑白名单数据库进行查询,然而由于钓鱼网站不断更新换代,这种方 法对钓鱼网站等恶意网站的检出率不高并具有滞后性。或者是通过基于文本的方法进行识 另IJ,例如通过提取页面中关键词,并将关键词上传至服务器,在黑名单数据库中匹配,这种 方法效率比较低下,而且容易受文字顺序等因素的影响,误判率较高。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上 述问题的基于特征向量模型识别钓鱼网页的方法和相应的基于特征向量模型识别钓鱼网 页的装置。 根据本专利技术的一个方面,提供了一种基于特征向量模型识别钓鱼网页的方法,所 述特征向量模型是根据大量样本网页的站点特征信息获取各个样本网页的特征向量,并对 各个样本网页的特征向量组成的矩阵进行训练得到的,通过所述特征向量模型将样本空间 划分多个特征空间; 所述方法包括: 提取浏览器所打开第一网页的URL,根据所述URL得到所述第一网页所属站点的 站点特征信息; 根据所述第一网页的站点特征信息,确定所述第一网页的特征向量; 将所述第一网页的特征向量输入到所述特征向量模型中,得到所述第一网页所属 的特征空间,根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页。 根据本专利技术的另一方面,提供了一种基于特征向量模型识别钓鱼网页的装置。所 述装置包括: 特征向量模型训练模块,适于根据大量样本网页的站点特征信息获取各个样本网 页的特征向量,并对各个样本网页的特征向量组成的矩阵进行训练得到特征向量模型,通 过所述特征向量模型将样本空间划分多个特征空间; 提取模块,适于提取浏览器所打开第一网页的URL ; 获取模块,适于根据所述URL得到所述第一网页所属站点的站点特征信息; 确定模块,适于根据所述第一网页的站点特征信息,确定所述第一网页的特征向 量; 输入模块,适于将所述第一网页的特征向量输入到所述特征向量模型中,得到所 述第一网页所属的特征空间; 识别模块,适于根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网 页。 根据本专利技术提供的方案,提取浏览器所打开第一网页的URL,根据所述URL得到所 述第一网页所属站点的站点特征信息;根据所述第一网页的站点特征信息,确定所述第一 网页的特征向量;将所述第一网页的特征向量输入到所述特征向量模型中,得到所述第一 网页所属的特征空间,根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页。 本专利技术无需提前下载该第一网页,从而规避了钓鱼作者对钓鱼网站所设的防护,此外,节省 了人力资源,不需要人工加规则,通过自动的方式对第一网页进行识别。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段, 而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够 更明显易懂,以下特举本专利技术的【具体实施方式】。 【专利附图】【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 图1示出了根据本专利技术一个实施例的基于特征向量模型识别钓鱼网页的方法的 流程图; 图2示出了根据本专利技术另一个实施例的基于特征向量模型识别钓鱼网页的方法 的流程图; 图3示出了根据本专利技术一个实施例的基于特征向量模型识别钓鱼网页的装置的 结构框图; 图4示出了根据本专利技术另一个实施例的基于特征向量模型识别钓鱼网页的装置 的结构框图。 【具体实施方式】 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。 本申请的专利技术人在研究钓鱼网页识别方法的过程中,注意到钓鱼作者为了防止其 钓鱼网站被检测到而采取了一些"保护措施",例如拒绝网络爬虫访问或者拒绝某个地域内 IP的访问或者经常修改其钓鱼内容,而使得其钓鱼网站不被检测到,并且基于内容检测钓 鱼网页的方法只有在钓鱼网页内容发生变化后,才能进行钓鱼检测,使得检测相对于钓鱼 网页变化具有一定的滞后性,基于此,本申请的专利技术人提出了基于特征向量模型识别钓鱼 网页的方法。 其中,特征向量模型是根据大量样本网页的站点特征信息获取各个样本网页的特 征向量,并对各个样本网页的特征向量组成的矩阵进行训练得到的,通过特征向量模型将 样本空间划分多个特征空间。这里,多个特征空间分为钓鱼类特征空间和非钓鱼类特征空 间,钓鱼类特征空间包括淘宝钓鱼类特征空间、中奖钓鱼类特征空间,其中,淘宝钓鱼类特 征空间主要由淘宝类钓鱼网页组成,中奖钓鱼类特征空间主要由中奖类钓鱼网页构成。本 申请的特征向量模型是通过批量学习模式或增量学习模式训练得到的。批量学习模式指每 隔预设时间段对该预设时间段之前获取的所有样本网页通过获取各个样本网页的特征向 量,对各个样本网页的特征向量组成的矩阵进行训练,从而在每个预设时间段得到一特征 向量模型本文档来自技高网...
【技术保护点】
一种基于特征向量模型识别钓鱼网页的方法,所述特征向量模型是根据大量样本网页的站点特征信息获取各个样本网页的特征向量,并对各个样本网页的特征向量组成的矩阵进行训练得到的,通过所述特征向量模型将样本空间划分多个特征空间;所述方法包括:提取浏览器所打开第一网页的URL,根据所述URL得到所述第一网页所属站点的站点特征信息;根据所述第一网页的站点特征信息,确定所述第一网页的特征向量;将所述第一网页的特征向量输入到所述特征向量模型中,得到所述第一网页所属的特征空间,根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页。
【技术特征摘要】
【专利技术属性】
技术研发人员:李晓波,尹露,杨晶,郭峰,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。