钓鱼网站的识别方法和装置制造方法及图纸

技术编号:6949269 阅读:253 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种钓鱼网站的识别方法和装置,用以提高钓鱼网站的判断准确率。其中方法包括:解析用户所要访问的目标网站的页面信息得到待分析的文本内容;对文本内容进行语句切分和分词处理,得到文本内容中的语句以及每一语句中的词语;查找预先设置的语义元素知识库,语义元素知识库中包括词语以及对应的属性,获取文本内容中的词语的属性;以语句为单位,将语句与语义框架知识库中获得的各逻辑关系进行匹配,其中每个逻辑关系中待匹配内容至少包括词语的顺序、每个词语的属性及至少一个词语的内容;若均匹配,则语句命中逻辑关系;计算文本内容的命中度,若命中度大于或者等于预先设定的命中阈值,则确定所述目标网站为钓鱼网站。

【技术实现步骤摘要】

本专利技术涉及互联网技术,特别涉及一种钓鱼网站的识别方法和装置
技术介绍
随着互联网的普及,越来越多的互联网业务随之发展起来。在互联网使用中,有些不法分子通过模仿真实网站的方式欺骗用户,即构造以假乱真的钓鱼网站,当用户在钓鱼网站上输入诸如用户名口令、银行卡账号及密码等敏感信息后,钓鱼网站将窃取并非法利用用户输入的这些信息,从而给用户带来巨大侵害。现有技术中常用的钓鱼网站识别技术中,例如,可以通过关键词匹配识别技术,提取页面信息中的关键词,与已有的关键词模板进行相似度计算,识别网站是否为钓鱼网站。但是,上述识别技术存在如下技术缺陷关键词匹配识别技术是单纯依靠关键词进行判别,钓鱼攻击者可以采用更改语言的描述方法或者增加干扰词的方式让整个页面逃避检测,从而导致对网站的漏判,使得目前的钓鱼识别准确率较低,且识别灵活性较差。
技术实现思路
本专利技术的目的是提供一种钓鱼网站的识别方法和装置,以提高钓鱼网站识别的准确度以及健壮性。本专利技术一方面提供一种钓鱼网站的识别方法,包括解析用户所要访问的目标网站的页面信息得到待分析的文本内容;对所述文本内容进行语句切分和分词处理,得到所述文本内容中的语句以及每一语句中的词语;查找预先设置的语义元素知识库,所述语义元素知识库中包括词语以及对应的属性,获取所述文本内容中词语的属性;以语句为单位,将所述语句与从语义框架知识库中获得的各逻辑关系进行匹配, 其中每个所述逻辑关系中待匹配内容至少包括词语的顺序、每个词语的属性、及至少一个词语的内容;若各项内容均匹配,则所述语句命中逻辑关系;根据命中所述逻辑关系的语句计算所述文本内容的命中度,若所述命中度大于或者等于预先设定的命中阈值,则确定所述目标网站为钓鱼网站。本专利技术一方面提供一种钓鱼网站的识别装置,包括分析过滤接口模块、语义抽取模块、钓鱼识别模块和领域本体库;所述语义抽取模块包括语义元素分析单元和语义框架匹配单元;所述领域本体库中包括语义元素知识库和语义框架知识库;所述分析过滤接口模块,用于解析用户所要访问的目标网站的页面信息得到待分析的文本内容;所述语义元素分析单元,用于对所述文本内容进行语句切分和分词处理,得到所述文本内容中的语句以及每一语句中的词语;查找预先设置的语义元素知识库,所述语义元素知识库中包括词语以及对应的属性,获取所述文本内容中的词语的属性;所述语义框架匹配单元,用于以所述语句为单位,将所述语句与从语义框架知识库中获得的各逻辑关系进行匹配,其中每个所述逻辑关系中待匹配内容包括词语的顺序、 每个词语的属性、及至少一个词语的内容;若各项内容均匹配,则所述语句命中逻辑关系;所述钓鱼识别模块,用于根据命中所述逻辑关系的语句计算所述文本内容的命中度,若所述命中度大于或者等于预先设定的命中阈值,则确定所述目标网站为钓鱼网站。本实施例的钓鱼网站的识别方法和装置,通过基于语义对钓鱼网站进行识别,不仅解决了目前钓鱼网站识别准确率较低的问题,提高了钓鱼网站的判断准确率;而且,解决了目前钓鱼网站识别灵活性较差的问题,能够很好的应对钓鱼者通过更改语言的描述方法或者增加干扰词来发起的语义攻击,提高了钓鱼识别的健壮性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术钓鱼网站的识别方法实施例的应用场景示意图;图2为本专利技术钓鱼网站的识别方法实施例的流程示意图;图3为本专利技术钓鱼网站的识别方法实施例二的流程示意图;图4为本专利技术钓鱼网站的识别方法实施例二中的语义元素知识库中的数据结构示意图;图5为本专利技术钓鱼网站的识别方法实施例二中的语义框架知识库中的数据结构示意图;图6为本专利技术钓鱼网站的识别装置实施例一的结构示意图;图7为本专利技术钓鱼网站的识别装置实施例二的结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。首先提供一本专利技术实施例的钓鱼网站的识别方法的应用场景,参见图1,图1为本专利技术钓鱼网站的识别方法实施例的应用场景示意图,举例说明如下,第一用户对应的第一终端11向服务器13发送网站访问请求,服务器13根据该网站访问请求中携带的统一资源定位符(Universal Resource Locator,简称URL)由互联网 Qnternet) 14 获取到该 URL 对应的网站页面信息;如果该服务器13根据预先存储的白名单库判定该URL为正常地址, 不需要进行钓鱼识别,则可以直接将上述获取的网站页面信息发送至第一终端11。第二用户对应的第二终端12也可以向服务器13发送网站访问请求,服务器13根据其所访问的网站URL由互联网(Internet) 14获取到该URL对应的网站页面信息;如果该服务器13判定需要对该URL对应的网站页面信息进行钓鱼识别,则可以按照本专利技术下面的实施例进行钓鱼识别,即将页面信息发送到本专利技术后续实施例所述的钓鱼网站识别装置,并且向识别装置发送钓鱼识别请求指令;当识别装置判定该网站确定为钓鱼网站时,则服务器13可以阻断第二用户访问该URL,不会向第二终端12推送该URL的页面信息,或者也可以继续推送,但是向第二用户发出警告。其中,钓鱼网站识别装置可以位于服务器13中, 也可以设置于其他设备中,如网络接入节点、或者终端的浏览器中。下面结合附图和具体实施例,对本专利技术的技术方案做进一步的详细描述。实施例一图2为本专利技术钓鱼网站的识别方法实施例的流程示意图,如图2所示,该方法可以包括以下步骤步骤101、钓鱼网站的识别装置解析用户所要访问的目标网站的页面信息得到待分析的文本内容;例如,可以是钓鱼网站的识别装置中的分析过滤接口模块进行上述的解析工作。 其中,目标网站的页面信息的获取方式可以为,该分析过滤接口模块可以接收来自上层模块或装置的钓鱼识别请求指令。该上层模块或装置例如可以设置于图1中的服务器13中,其可以是上层用户程序,可以是网关侧监控程序,也可以是其他安全或者监控程序的反钓鱼接口等,该上层模块或装置可以截取用户访问流量中的每个访问请求数据包,并根据数据包中的URL下载所请求的相关页面信息。当该上层模块或装置需要对用户所要访问的目标网站的页面信息进行钓鱼识别时,可以向分析过滤接口模块发送钓鱼识别请求指令,并且将获取到的页面信息也发送至分析过滤接口模块。该分析过滤接口模块在获得上层模块或装置的钓鱼识别请求指令后,则将上层模块或装置传送过来的页面信息的HTML代码进行解析,从解析结果中提取出页面中的文字部分即待分析的文本内容。步骤102、钓鱼网站的识别装置对文本内容进行分析处理,获取得到所述文本内容中的语句、每一语句中的词语以及该词语的属性;例如,可以由钓鱼网站的识别装置中的语义抽取模块进行上述分析处理。语义抽取模块可以对文本内容进行语句切分,通过标点符本文档来自技高网...

【技术保护点】
1.一种钓鱼网站的识别方法,其特征在于,包括:解析用户所要访问的目标网站的页面信息得到待分析的文本内容;对所述文本内容进行语句切分和分词处理,得到所述文本内容中的语句以及每一语句中的词语;查找预先设置的语义元素知识库,所述语义元素知识库中包括词语以及对应的属性,获取所述文本内容中词语的属性;以语句为单位,将所述语句与从语义框架知识库中获得的各逻辑关系进行匹配,其中每个所述逻辑关系中待匹配内容至少包括词语的顺序、每个词语的属性、及至少一个词语的内容;若各项内容均匹配,则所述语句命中逻辑关系;根据命中所述逻辑关系的语句计算所述文本内容的命中度,若所述命中度大于或者等于预先设定的命中阈值,则确定所述目标网站为钓鱼网站。

【技术特征摘要】

【专利技术属性】
技术研发人员:张健毅邵军义王骞
申请(专利权)人:成都市华为赛门铁克科技有限公司
类型:发明
国别省市:90

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1