本申请提供了一种检测钓鱼网站的方法及客户端装置,以解决目前的检测方法存在延后性,无法检测出新出现的钓鱼网站的问题。所述方法包括:获取目标网站的网址,并根据所述网址获取目标网站的页面信息;从目标网站的页面信息中提取出关键区域特征,并与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配;如果界面图像相似度的匹配度符合第二预设条件,则确定目标网站为钓鱼网站,否则确定目标网站为正常网站。本申请完全以局部的特征为标志,无需进行图像切割和距离匹配,所以本申请支持图像的模糊变换,即使钓鱼网站的图像出现变形和扭曲依然能够有效识别。
【技术实现步骤摘要】
本申请涉及网络安全技术,特别是涉及一种检测钓鱼网站的方法及客户端装置。
技术介绍
钓鱼网站是一种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料或敏感信息的恶意网站。钓鱼网站的传播性很强,并且对用户的危害也很大,因此现有技术提出了多种检测钓鱼网站的方法。其中,普遍采用的检测方法是:设置黑名单,在客户端浏览器访问服务端的时候,首先检查客户端浏览器要访问的网站是否在所述黑名单中,如果是,则直接判定要访问的网站为钓鱼网站;如果否,则判定为正常网站,可以访问。上述检测方法能够百分之百地检测出已列入黑名单中的钓鱼网站,但是黑名单的收集存在一定的延后性,对于新出现的钓鱼网站,不能及时收录到黑名单中,因此现有的这种方法无法检测出来。
技术实现思路
本申请提供了一种检测钓鱼网站的方法及客户端装置,以解决目前的检测方法存在延后性,无法检测出新出现的钓鱼网站的问题。为了解决上述问题,本申请公开了一种检测钓鱼网站的方法,包括:获取目标网站的网址,并根据所述网址获取目标网站的页面信息;从目标网站的页面信息中提取出关键区域特征,并与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配;如果界面图像相似度的匹配度符合第二预设条件,则确定目标网站为钓鱼网站,否则确定目标网站为正常网站。其中,所述界面图像相似度的匹配度符合第二预设条件,包括:界面图像相似度的匹配度超过第二预设值,则符合第二预设条件。优选的,所述从目标网站的页面信息中提取出关键区域特征,包括:在所述目标网站的页面图像上确定出一个或多个关键区域;在每个关键区域中提取出由两个特征点构成一组的η组特征点;将上述每组特征点中的两个特征点连成一条直线,并在所述直线上提取出m个特征点,由此每个关键区域表示成一个nXm的特征点阵列,其中η和m均为自然数;将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相结合,得到用来描述所述目标网站页面的关键区域特征。优选的,在每个关键区域中按照特殊点提取出由两个特征点构成一组的η组特征点,其中所述特殊点包含角点、边缘点、亮点和暗点。优选的,所述相结合包括:将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相加。优选的,所述界面图像相似度的匹配之前,还包括:从目标网站的页面信息中提取出文档结构特征,并与真实文档特征库中的文档结构特征进行文档结构相似度的匹配;如果文档结构相似度的匹配度符合第一预设条件,则确定目标网站为钓鱼网站,如果不符合预设条件,则进行界面图像相似度的匹配。优选的,所述文档结构相似度的匹配度符合第一预设条件,包括:文档结构相似度的匹配度超过第一预设值,则符合第一预设条件。优选的,所述文档结构相似度的匹配包括:将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行比对,并对匹配上的文档结构特征加上相应的权值;将目标网站页面的所有文档结构特征的权值累加,得到总分值;将所述总分值作为文档结构相似度的匹配度。优选的,所述获取目标网站的网址之后,还包括:检测所述目标网站是否在预设的白名单中,当所述目标网站不在所述白名单中时,根据所述网址获取目标网站的页面信息;否则,确定目标网站为正常网站。优选的,所述方法还包括:依据所述白名单建立真实文档特征库和真实关键区域特征库。本申请还提供了一种检测钓鱼网站的客户端装置,包括:网页获取模块,用于获取目标网站的网址,并根据所述网址获取目标网站的页面信息;关键区域特征提取模块,用于从目标网站的页面信息中提取出关键区域特征;关键区域特征匹配模块,用于将目标网站页面的关键区域特征与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配;如果界面图像相似度的匹配度符合第二预设条件,则确定目标网站为钓鱼网站,否则确定目标网站为正常网站。优选的,所述关键区域特征提取模块包括:关键区域确定子模块,用于在所述目标网站的页面图像上确定出一个或多个关键区域;特征点提取子模块,用于在每个关键区域中提取出由两个特征点构成一组的η组特征点;将上述每组特征点中的两个特征点连成一条直线,并在所述直线上提取出m个特征点,由此每个关键区域表示成一个nXm的特征点阵列,其中η和m均为自然数;关键区域特征确定子模块,用于将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相结合,得到用来描述所述目标网站页面的关键区域特征。优选的,所述装置还包括:文档结构特征提取模块,用于从目标网站的页面信息中提取出文档结构特征;文档结构特征匹配模块,用于将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行文档结构相似度的匹配;如果文档结构相似度的匹配度符合第一预设条件,则确定目标网站为钓鱼网站,如果不符合预设条件,则触发关键区域特征提取模块。优选的,所述文档结构特征匹配模块包括:匹配子模块,用于将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行比对,并对匹配上的文档结构特征加上相应的权值;权值计算子模块,用于将目标网站页面的所有文档结构特征的权值累加,得到总分值;将所述总分值作为文档结构相似度的匹配度。优选的,所述装置还包括:白名单筛选模块,用于检测所述目标网站是否在预设的白名单中,当所述目标网站不在所述白名单中时,触发所述网页获取模块根据所述网址获取目标网站的页面信息;否则,确定目标网站为正常网站。优选的,所述装置还包括:特征库建立模块,用于依据所述白名单建立真实文档特征库和真实关键区域特征库。与现有技术相比,本申请包括以下优点:首先,本申请在进行界面图像相似度的匹配计算时,主要将网站页面的关键区域,比如登录区域、支付区域的位置,局部弯曲特征等作为匹配要素,这种图像识别方法完全以局部的特征为标志,无需进行图像切割和距离匹配,所以本申请支持图像的模糊变换,即使钓鱼网站的图像出现变形和扭曲依然能够有效识别。其次,本申请从网站的文档结构和UI界面两方面进行相似度计算,先将目标网站与真实文档特征库进行文档结构相似度的匹配,如果匹配度符合第一预设条件,则确定为钓鱼网站;否则,继续将目标网站与真实关键区域特征库进行界面图像相似度的匹配,如果匹配度符合第二预设条件,则确定为钓鱼网站,否则确定为正常网站。经过上述两个部分的共同判断,即使目标网站是新出现的钓鱼网站,只要目标网站模仿的真实网站的特征都收录在真实文档特征库或真实关键区域特征库中,就可以及时检测出来。因此,本申请可以及时检测出钓鱼网站,并拦截访问提示用户。再次,本申请还可以先检测目标网站是否在预设的白名单中,当所述目标网站不在所述白名单中时,再从文档结构和Π界面两方面进行相似度计算。这样可以预先过滤出大量的正常网站,而只针对数量相对较少的钓鱼网站进行有针对性的检测,从而提高了检测效率。当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。附图说明图1是本申请实施例所述一种检测钓鱼网站的方法流程图;图2是本申请实施例中提取关键区域特征的流程图;图3是本申请另一实施例所述一种检测钓鱼网站的方法流程图;图4是本申请实施例所述一种检测钓鱼网站的客户端装置结构图;图5是本文档来自技高网...
【技术保护点】
一种检测钓鱼网站的方法,其特征在于,包括:获取目标网站的网址,并根据所述网址获取目标网站的页面信息;从目标网站的页面信息中提取出关键区域特征,并与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配;如果界面图像相似度的匹配度符合第二预设条件,则确定目标网站为钓鱼网站,否则确定目标网站为正常网站。
【技术特征摘要】
1.一种检测钓鱼网站的方法,其特征在于,包括: 获取目标网站的网址,并根据所述网址获取目标网站的页面信息; 从目标网站的页面信息中提取出关键区域特征,并与真实关键区域特征库中的关键区域特征进行界面图像相似度的匹配; 如果界面图像相似度的匹配度符合第二预设条件,则确定目标网站为钓鱼网站,否则确定目标网站为正常网站。2.根据权利要求1所述的方法,其特征在于,所述界面图像相似度的匹配度符合第二预设条件,包括: 界面图像相似度的匹配度超过第二预设值,则符合第二预设条件。3.根据权利要求1所述的方法,其特征在于,所述从目标网站的页面信息中提取出关键区域特征,包括: 在所述目标网站的页面图像上确定出一个或多个关键区域; 在每个关键区域中提取出由两个特征点构成一组的η组特征点; 将上述每组特征点中的两个特征点连成一条直线,并在所述直线上提取出m个特征点,由此每个关键区域表示成一个nXm的特征点阵列,其中η和m均为自然数; 将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相结合,得到用来描述所述目标网站页面的关键区域特征。4.根据权利要求 3所述的方法,其特征在于: 在每个关键区域中按照特殊点提取出由两个特征点构成一组的η组特征点,其中所述特殊点包含角点、边缘点、亮点和暗点。5.根据权利要求3所述的方法,其特征在于,所述相结合包括: 将每个关键区域对应的特征点阵列与根据页面图像的大小获取的随机数组相加。6.根据权利要求1所述的方法,其特征在于,所述界面图像相似度的匹配之前,还包括: 从目标网站的页面信息中提取出文档结构特征,并与真实文档特征库中的文档结构特征进行文档结构相似度的匹配; 如果文档结构相似度的匹配度符合第一预设条件,则确定目标网站为钓鱼网站,如果不符合预设条件,则进行界面图像相似度的匹配。7.根据权利要求6所述的方法,其特征在于,所述文档结构相似度的匹配度符合第一预设条件,包括: 文档结构相似度的匹配度超过第一预设值,则符合第一预设条件。8.根据权利要求6所述的方法,其特征在于,所述文档结构相似度的匹配包括: 将目标网站页面的文档结构特征与真实文档特征库中的文档结构特征进行比对,并对匹配上的文档结构特征加上相应的权值; 将目标网站页面的所有文档结构特征的权值累加,得到总分值; 将所述总分值作为文档结构相似度的匹配度。9.根据权利要求1所述的方法,其特征在于,所述获取目标网站的网址之后,还包括: 检测所述目标网站是否在预设的白名单中,当所述目标网站不在所述白名单中时,根据所述网址获取目...
【专利技术属性】
技术研发人员:聂万泉,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。