钓鱼网站的识别方法和装置制造方法及图纸

技术编号：6949269 阅读：269 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种钓鱼网站的识别方法和装置，用以提高钓鱼网站的判断准确率。其中方法包括：解析用户所要访问的目标网站的页面信息得到待分析的文本内容；对文本内容进行语句切分和分词处理，得到文本内容中的语句以及每一语句中的词语；查找预先设置的语义元素知识库，语义元素知识库中包括词语以及对应的属性，获取文本内容中的词语的属性；以语句为单位，将语句与语义框架知识库中获得的各逻辑关系进行匹配，其中每个逻辑关系中待匹配内容至少包括词语的顺序、每个词语的属性及至少一个词语的内容；若均匹配，则语句命中逻辑关系；计算文本内容的命中度，若命中度大于或者等于预先设定的命中阈值，则确定所述目标网站为钓鱼网站。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网技术，特别涉及一种钓鱼网站的识别方法和装置。
技术介绍
随着互联网的普及，越来越多的互联网业务随之发展起来。在互联网使用中，有些不法分子通过模仿真实网站的方式欺骗用户，即构造以假乱真的钓鱼网站，当用户在钓鱼网站上输入诸如用户名口令、银行卡账号及密码等敏感信息后，钓鱼网站将窃取并非法利用用户输入的这些信息，从而给用户带来巨大侵害。现有技术中常用的钓鱼网站识别技术中，例如，可以通过关键词匹配识别技术，提取页面信息中的关键词，与已有的关键词模板进行相似度计算，识别网站是否为钓鱼网站。但是，上述识别技术存在如下技术缺陷关键词匹配识别技术是单纯依靠关键词进行判别，钓鱼攻击者可以采用更改语言的描述方法或者增加干扰词的方式让整个页面逃避检测，从而导致对网站的漏判，使得目前的钓鱼识别准确率较低，且识别灵活性较差。
技术实现思路
本专利技术的目的是提供一种钓鱼网站的识别方法和装置，以提高钓鱼网站识别的准确度以及健壮性。本专利技术一方面提供一种钓鱼网站的识别方法，包括解析用户所要访问的目标网站的页面信息得到待分析的文本内容；对所述文本内容进行语句切分和分词处理，得到所述文本内容中的语句以及每一语句中的词语；查找预先设置的语义元素知识库，所述语义元素知识库中包括词语以及对应的属性，获取所述文本内容中词语的属性；以语句为单位，将所述语句与从语义框架知识库中获得的各逻辑关系进行匹配，其中每个所述逻辑关系中待匹配内容至少包括词语的顺序、每个词语的属性、及至少一个词语的内容；若各项内容均匹配，则所述语句命中逻辑关系；根据命中所述逻辑关系的语句计算所述文本内容的命中...

【技术保护点】
１．一种钓鱼网站的识别方法，其特征在于，包括：解析用户所要访问的目标网站的页面信息得到待分析的文本内容；对所述文本内容进行语句切分和分词处理，得到所述文本内容中的语句以及每一语句中的词语；查找预先设置的语义元素知识库，所述语义元素知识库中包括词语以及对应的属性，获取所述文本内容中词语的属性；以语句为单位，将所述语句与从语义框架知识库中获得的各逻辑关系进行匹配，其中每个所述逻辑关系中待匹配内容至少包括词语的顺序、每个词语的属性、及至少一个词语的内容；若各项内容均匹配，则所述语句命中逻辑关系；根据命中所述逻辑关系的语句计算所述文本内容的命中度，若所述命中度大于或者等于预先设定的命中阈值，则确定所述目标网站为钓鱼网站。

【技术特征摘要】

【专利技术属性】
技术研发人员：张健毅，邵军义，王骞，
申请(专利权)人：成都市华为赛门铁克科技有限公司，
类型：发明
国别省市：90

全部详细技术资料下载我是这个专利的主人