一种基于logo图像的钓鱼页面识别方法及相关设备技术

技术编号:23025334 阅读:15 留言:0更新日期:2020-01-03 17:01
本发明专利技术实施例提供了一种基于logo图像的钓鱼页面识别方法及相关设备。本发明专利技术实施例中,从多维度对待检测登录页面进行防伪识别,一方面,服务器可以将预置安全logo图像集合中的每个logo图像的各个SURF特征向量关联存储,形成各自的标准SURF特征向量集合,将待检测登录页面的页面截图对应的SURF特征向量集合与各个标准SURF特征向量集合进行匹配,基于匹配的结果可以为待检测页面分配第一权值,另一方面,可以判断匹配成功的SURF特征向量集合是否满足缩放映射,基于判断的结果可以为待检测页面分配第二权值,最终结合待检测登录页面获得的权值之和综合判定待检测登录页面是否为钓鱼页面,提高了钓鱼页面识别的准确率。

A phishing page recognition method and related equipment based on logo image

【技术实现步骤摘要】
一种基于logo图像的钓鱼页面识别方法及相关设备
本专利技术涉及网络安全
,尤其涉及一种基于logo图像的钓鱼页面识别方法及相关设备。
技术介绍
网络钓鱼是通过大量发送声称来自于银行或其他知名机构的欺骗性垃圾信息,意图引诱收信人给出敏感信息(如用户名、口令、帐号ID、ATMPIN码或信用卡详细信息)的一种攻击方式。黑客往往会伪造钓鱼页面,用户访问伪造的钓鱼页面并输入相应的敏感信息,保存这些敏感信息,达到窃取敏感信息的目的。现有的网页伪造检测方案往往是基于黑名单技术,主要是基于安全厂商建立的黑名单进行筛选,安全厂商的黑名单的更新往往是在钓鱼网站危害已经形成之后,并不能在钓鱼网站出现之初进行识别。有鉴于此,有必要提出一种新的钓鱼页面识别方法,降低网络钓鱼的风险。
技术实现思路
本专利技术实施例提供了一种基于logo图像的钓鱼页面识别方法及相关设备,用于识别网络钓鱼页面。本专利技术实施例第一方面提供了一种基于logo图像的钓鱼页面识别方法,其特征在于,包括:分别提取预置安全logo图像集合中的各个logo图像的SURF特征向量,并将每个logo图像的各个SURF特征向量关联存储,形成各自的标准SURF特征向量集合;采集待检测登录页面的页面截图,并提取对应的SURF特征向量,形成第一SURF特征向量集合;根据所述第一SURF特征向量集合与所述标准SURF特征向量集合,从至少两个维度判断所述待检测登录页面与各个安全logo图像的相似度,并根据各个维度的判断结果为所述待检测登录页面分配对应的权值;统计所述待检测登录页面获得的权值之和,若权值之和不小于第三预置阀值,则判定所述待检测登录页面为钓鱼页面。可选的,作为一种可能的实施方式,本专利技术实施例中所述从至少两个维度判断所述待检测登录页面与各个安全logo图像的相似度,并根据各个维度的判断结果为所述待检测登录页面分配对应的权值,包括:若所述安全logo图像集合对应的各个所述标准SURF特征向量集合中存在第二SURF特征向量集合,所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阀值,则为所述待检测登录页面分配第一权值,其中,两个SURF特征向量相似度大于第二预置阀值则判定对应的SURF特征向量匹配成功;判断所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射,并根据判断结果为所述待检测登录页面分配第二权值。可选的,作为一种可能的实施方式,本专利技术实施例中在统计所述待检测登录页面获得的权值之和之前,该方法还包括:判断所述第二SURF特征向量集合与所述待检测登录页面对应的域名是否相同,并根据判断结果为所述待检测登录页面分配第三权值。可选的,作为一种可能的实施方式,本专利技术实施例中基于logo图像的钓鱼页面识别方法还包括:采集待检测页面的页面信息,所述页面信息至少包括所述待检测页面对应的超文本标记语言HTML文件;从所述HTML文件中提取文件正文及统一资源定位符URL地址;统计所述HTML文件的文件正文中包含预置关键词汇的数量;判断所述HTML文件中的URL地址的个数,与文件正文的字节数的比值是否大于第四预置阀值,并根据判断结果为所述待检测页面分配第四权值;判断所述HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阀值,并根据判断结果为所述待检测页面分配第五权值;统计各项检测过程中所述待检测页面获得的权值之和,若权值之和不小于第六预置阀值,则判定所述待检测页面为待检测登录页面。可选的,作为一种可能的实施方式,本专利技术实施例中基于logo图像的钓鱼页面识别方法还包括:所述待检测页面的页面信息登录页面截图,在统计所述待检测页面获得的权值之和之前,还包括:将所述登录页面截图输入预置的卷积神经网络CNN分类器模型中进行分类,并根据分类结果为所述待检测页面分配第六权值。本专利技术实施例第二方面提供了一种服务器,其特征在于,包括:第一提取模块,用于分别提取预置安全logo图像集合中的各个logo图像的SURF特征向量,并将每个logo图像的各个SURF特征向量关联存储,形成各自的标准SURF特征向量集合;第一采集模块,用于采集待检测登录页面的页面截图,并提取对应的SURF特征向量,形成第一SURF特征向量集合;第一分配模块,用于根据所述第一SURF特征向量集合与所述标准SURF特征向量集合,从至少两个维度判断所述待检测登录页面与各个安全logo图像的相似度,并根据各个维度的判断结果为所述待检测登录页面分配对应的权值;第一统计模块,用于统计所述待检测登录页面获得的权值之和,若权值之和不小于第三预置阀值,则判定所述待检测登录页面为钓鱼页面。可选的,作为一种可能的实施方式,本专利技术实施例中的第一分配模块包括:第一分配单元,若所述安全logo图像集合对应的各个所述标准SURF特征向量集合中存在第二SURF特征向量集合,所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阀值,则用于为所述待检测登录页面分配第一权值,其中,两个SURF特征向量相似度大于第二预置阀值则判定对应的SURF特征向量匹配成功;第二分配单元,用于判判断所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射,并根据判断结果为所述待检测登录页面分配第二权值。可选的,作为一种可能的实施方式,本专利技术实施例中的服务器还包括:第二分配模块,用于判断所述第二SURF特征向量集合与所述待检测登录页面对应的域名是否相同,并根据判断结果为所述待检测登录页面分配第三权值。可选的,作为一种可能的实施方式,本专利技术实施例中的服务器还包括:第二采集模块,用于采集待检测页面的页面信息,所述页面信息至少包括所述待检测页面对应的超文本标记语言HTML文件;第二提取模块,用于从所述HTML文件中提取文件正文及统一资源定位符URL地址;第二统计模块,用于统计所述HTML文件的文件正文中包含预置关键词汇的数量;第四分配模块,用于判断所述HTML文件中的URL地址的个数,与文件正文的字节数的比值是否大于第四预置阀值,并根据判断结果为所述待检测页面分配第四权值;第五分配模块,用于判断所述HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阀值,并根据判断结果为所述待检测页面分配第五权值;第三统计模块,用于统计各项检测过程中所述待检测页面获得的权值之和,若权值之和不小于第六预置阀值,则判定所述待检测页面为待检测登录页面。第六分配模块,用于将所述登录页面截图输入预置的卷积神经网络CNN分类器模型中进行分类,并根据分类结果为所述待检测页面分配第六权值。可选的,作为一种本文档来自技高网...

【技术保护点】
1.一种基于logo图像的钓鱼页面识别方法,其特征在于,包括:/n分别提取预置安全logo图像集合中的各个logo图像的SURF特征向量,并将每个logo图像的各个SURF特征向量关联存储,形成各自的标准SURF特征向量集合;/n采集待检测登录页面的页面截图,并提取对应的SURF特征向量,形成第一SURF特征向量集合;/n根据所述第一SURF特征向量集合与所述标准SURF特征向量集合,从至少两个维度判断所述待检测登录页面与各个安全logo图像的相似度,并根据各个维度的判断结果为所述待检测登录页面分配对应的权值;/n统计所述待检测登录页面获得的权值之和,若权值之和不小于第三预置阀值,则判定所述待检测登录页面为钓鱼页面。/n

【技术特征摘要】
1.一种基于logo图像的钓鱼页面识别方法,其特征在于,包括:
分别提取预置安全logo图像集合中的各个logo图像的SURF特征向量,并将每个logo图像的各个SURF特征向量关联存储,形成各自的标准SURF特征向量集合;
采集待检测登录页面的页面截图,并提取对应的SURF特征向量,形成第一SURF特征向量集合;
根据所述第一SURF特征向量集合与所述标准SURF特征向量集合,从至少两个维度判断所述待检测登录页面与各个安全logo图像的相似度,并根据各个维度的判断结果为所述待检测登录页面分配对应的权值;
统计所述待检测登录页面获得的权值之和,若权值之和不小于第三预置阀值,则判定所述待检测登录页面为钓鱼页面。


2.根据权利要求1所述的方法,其特征在于,所述从至少两个维度判断所述待检测登录页面与各个安全logo图像的相似度,并根据各个维度的判断结果为所述待检测登录页面分配对应的权值,包括:
若所述安全logo图像集合对应的各个所述标准SURF特征向量集合中存在第二SURF特征向量集合,所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量的个数不小于第一预置阀值,则为所述待检测登录页面分配第一权值,其中,两个SURF特征向量相似度大于第二预置阀值则判定对应的SURF特征向量匹配成功;
判断所述第二SURF特征向量集合与所述第一SURF特征向量集合中匹配成功的SURF特征向量是否满足缩放映射,并根据判断结果为所述待检测登录页面分配第二权值。


3.根据权利要求2所述的方法,其特征在于,在统计所述待检测登录页面获得的权值之和之前,还包括:
判断所述第二SURF特征向量集合与所述待检测登录页面对应的域名是否相同,并根据判断结果为所述待检测登录页面分配第三权值。


4.根据权利要求3所述的方法,其特征在于,在所述获取待检测登录页面的页面截图之前,还包括:
采集待检测页面的页面信息,所述页面信息至少包括所述待检测页面对应的超文本标记语言HTML文件;
从所述HTML文件中提取文件正文及统一资源定位符URL地址;
统计所述HTML文件的文件正文中包含预置关键词汇的数量;
判断所述HTML文件中的URL地址的个数,与文件正文的字节数的比值是否大于第四预置阀值,并根据判断结果为所述待检测页面分配第四权值;
判断所述HTML文件中的文件正文中包含预置关键词汇的数量是否大于第五预置阀值,并根据判断结果为所述待检测页面分配第五权值;
统计各项检测过程中所述待检测页面获得的权值之和,若权值之和不小于第六预置阀值,则判定所述待检测页面为待检测登录页面。


5.根据权利要求4所述的方法,其特征在于,还包括:
所述待检测页面的页面信息登录页面截图,在统计所述待检测页面获得的权值之和之前,还包括:
将所述登录页面截图输入预置的卷积神经网络C...

【专利技术属性】
技术研发人员:马长春
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1