本发明专利技术公开了一种识别钓鱼网站的方法及装置,涉及互联网安全领域,为解决因IP地址被屏蔽而导致的无法识别钓鱼网站的问题而发明专利技术。本发明专利技术的方法包括:获取已知钓鱼网站的URL作为样本URL;根据样本URL的特征信息训练检测模型;使用检测模型对未知URL的特征信息进行匹配,获得未知URL的检测结果。本发明专利技术主要应用于第三方安全机构向互联网用户提供网络安全保障服务的过程中。
【技术实现步骤摘要】
本专利技术涉及互联网安全领域,尤其涉及一种识别钓鱼网站的方法及装置。
技术介绍
钓鱼网站通常是指伪装成银行网站或电子商务网站、用以窃取用户提交的私人信息的网站。不法分子利用各种手段仿冒真实网站的统一资源定位符(Uniform ResourceLocator,简称URL)及页面内容,诱导用户访问仿冒的页面内容,以此来骗取用户输入的银行帐号、密码等私人信息。钓鱼网站的出现严重影响了在线金融服务的发展,破坏了公众使用互联网的信心。因此对钓鱼网站进行有效识别就成为互联网安全领域中的一项重要工作。现有识别钓鱼网站的方式为:通过未知URL向目标网站请求页面内容,获取并识别页面内容中的特征向量,根据特征向量的特点判断目标网站是否为钓鱼网站。例如,对页面内容中文字、图片、输入框、控件等对象的位置、尺寸、样式风格进行识别,判断该页面内容是否与正规的银行或电子商务网站的页面内容相似。如果相似则可确定该目标网站为钓鱼网站,该未知URL为钓鱼URL。现有方式需要以获取目标网站的页面内容为前提,但是实际应用中部分钓鱼网站具有针对安全检测的防御机制。这些钓鱼网站可以通过页面请求方的网间协议(InternetProtocol,简称IP)地址识别出请求方的身份。如果请求方身份为互联网安全机构,那么钓鱼网站就会对请求方的IP地址进行屏蔽,使得请求方无法获得钓鱼网站的页面内容,从而也就无法基于页面内容对钓鱼网站进行有效识别。
技术实现思路
本专利技术提供了一种识别钓鱼网站的方法及装置,能够解决因IP地址被屏蔽而导致的无法识别钓鱼网站的问题。为解决上述问题,一方面,本专利技术提供了一种识别钓鱼网站的方法,该方法包括:获取已知钓鱼网站的统一资源定位符URL作为样本URL ;根据样本URL的特征信息训练检测模型;使用检测模型对未知URL的特征信息进行匹配,获得未知URL的检测结果。另一方面,本专利技术还提供了一种识别钓鱼网站的装置,该装置包括:获取单元,用于获取已知钓鱼网站的统一资源定位符URL作为样本URL ;训练单元,用于根据样本URL的特征信息训练检测模型;匹配单元,用于使用检测模型对未知URL的特征信息进行匹配,获得未知URL的检测结果。本专利技术提供的识别钓鱼网站的方法及装置,能够根据钓鱼网站的URL训练检测模型,并使用检测模型对未知URL中的特征信息进行匹配,从而获得未知URL是否为钓鱼网站URL的检测结果。与现有技术相比,本专利技术仅对未知URL进行检测就可以达到识别钓鱼网站的目的,无需通过未知URL向未知网站请求页面内容,即使未知网站对请求方的IP地址进行屏蔽也不影响对钓鱼网站的识别。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种识别钓鱼网站的方法流程图;图2示出了本专利技术实施例提供的另一种识别钓鱼网站的方法流程图;图3示出了本专利技术实施例提供的一种识别钓鱼网站的装置的组成框图;图4示出了本专利技术实施例提供的另一种识别钓鱼网站的装置的组成框图。【具体实施方式】下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种识别钓鱼网站的方法,该方法通过对未知URL进行模型匹配的方式识别钓鱼网站。如图1所示,该方法包括:101、获取已知钓鱼网站的URL作为样本URL。本专利技术实施例可以由第三方的安全服务器或监控客户端进行实现。监控客户端的实体形式包括但不限于是手机、个人电脑(Personal Computer,简称PC)、平板电脑以及可穿戴式电子设备。为便于表述本专利技术实施例后续将以安全服务器为例进行说明。本实施例中,训练检测模型的数据材料是已知钓鱼网站的URL,服务器可以通过现有手段收集已知钓鱼网站的URL,包括但不限于是:1、从URL黑名单中获取;2、通过用户网络举报获取;3、向第三方监管机构获取;4、通过页面内容检测确定。实际应用中,训练检测模型的数据材料可以一次性给出,也可以随时间的推移不断增量更新,本实施例不对数据材料的数量进行限制。102、根据样本URL的特征信息训练检测模型。钓鱼网站的URL (后续简称为钓鱼URL)与正规网站的URL (后续简称为安全URL)之间,在URL结构或内容上通常有所差异,例如钓鱼URL的域名注册时间较短、域名级数较少等,可以将这种差异作为识别钓鱼URL的判断标准。所谓特征信息就是指样本URL (钓鱼URL)的结构及内容,将样本URL中预设字段上的内容进行提取,作为特征信息输入到检测模型中进行训练,可以使检测模型获得识别钓鱼网站的判断标准,从而在后续可以对钓鱼URL进行有效识别。实际应用中样本URL的数量越多、特征信息越明显,检测模型的识别准确度就越高。本实施例中,可以通过机器学习的方式训练检测模型。在学习方式上具体可以包括监督式学习、非监督式学习、半监督式学习、强化学习等。在学习算法的种类方面,可以包括回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、基于核的算法、聚类算法、分类算法、关联规则算法、人工神经网络、深度学习、降低维度算法、集成算法等。本实施例不对训练检测模型的方式进行具体限制。103、使用检测模型对未知URL的特征信息进行匹配,获得未知URL的检测结果。在获得检测模型后就可以使用该模型对未知URL进行检测了。所谓未知URL就是作为检测对象的目标网站的URL。检测未知URL的目的在于判断该URL是否为钓鱼网站的URL。而在本实施例的一种实现方式中,也可以不给出是否为钓鱼URL的定性结论,而是给出未知URL可能为钓鱼URL的概率大小,本实施例不对检测结果的形式和内容进行具体限制,一切基于特征信息检测给出的、能够为用户甄别钓鱼网站提供指导性意见的信息均包含于所述检测结果的范畴内。在对未知URL进行匹配时,需要从未知URL中提取特征信息,这里所述的特征信息是指与前述样本URL的结构或内容对应的信息,但并不一定是在结果或内容上相同的特征信息。这是由于,对于未知URL而言,其有可能是钓鱼URL也有可能是安全URL,当为钓鱼URL时,其特征信息会与某个或某些样本URL的特征信息相同,当为安全URL时,其特征信息与样本URL的特征信息不同。在提取未知URL的特征信息时无需也无法确定其特征信息的性质,只要按照提取样本URL特征信息的方式提取对应位置上的内容即可。在获得未知URL的特征信息后,使用检测模型对其进行匹配,若符合检测标准或检测规则,则确定其为钓鱼URL,否则确定其为安全URL。当然,实际应用中也可以根据特征信息与检测标准或检测规则的匹配程度,给出未知URL为钓鱼URL本文档来自技高网...
【技术保护点】
一种识别钓鱼网站的方法,其特征在于,所述方法包括:获取已知钓鱼网站的统一资源定位符URL作为样本URL;根据所述样本URL的特征信息训练检测模型;使用所述检测模型对未知URL的特征信息进行匹配,获得所述未知URL的检测结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:李晓波,尹露,杨晶,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。