【技术实现步骤摘要】
一种诈骗网站的识别方法及系统
[0001]本专利技术涉及网络安全
,更具体地,涉及一种诈骗网站的识别方法及系统。
技术介绍
[0002]随着信息技术的发展和电子设备的轻量化,人们利用终端设备如电脑、手机等完成资产交易的频率越来越高。与此同时,以电信网络诈骗为代表的新型网络犯罪案件急剧增加,其中冒充公检法诈骗尤为典型。诈骗分子通过电话等手段和受害人取得联系,部分诈骗分子会要求受害人配合调查,引导受害人在仿冒网站、APP内填写个人支付信息,实施诈骗。仿冒公检法机构的诈骗犯罪相比其他类型诈骗(如贷款诈骗、刷单诈骗等),其过程更隐秘、涉案数额更大且迷惑性更强。因此公检法诈骗网站的识别已成为预防诈骗犯罪中的其中一个重要问题。现有许多网站识别方法是通过网页截图和网页元素提取的手段,辅以机器学习算法来进行识别。
[0003]现有一种识别钓鱼网站的方法,其提出对网页进行抓取,以生成网页抓取结果;对所述网页抓取结果进行网页渲染,以形成待识别网页;依据真实网站网页对所述待识别网页进行图像匹配,并根据图像匹配结果识别钓鱼网站。上述方法主要通过对抓取的待识别网页与真实网站网页进行图像匹配,并根据图像匹配结果识别钓鱼网站。然而,如今的诈骗分子通过新增入口页面的方法,在诈骗网站首页显示较少的真实官方网站的内容,使得图像匹配的精确度低,最后的识别结果容易出现错误。
技术实现思路
[0004]本专利技术为提高诈骗网站的识别效果,提供一种诈骗网站的识别方法及系统。
[0005]为解决上述技术问题,本专利技术的技术 ...
【技术保护点】
【技术特征摘要】
1.一种诈骗网站的识别方法,其特征在于,包括以下步骤:S1:采集已知诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库;S2:采集官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库;S3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;S4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和/或图片特征与比对数据库进行比对,当比对成功,则判断待识别网站为诈骗网站。2.根据权利要求1所述的诈骗网站的识别方法,其特征在于,S1具体包括以下步骤:S1.1:获取一批已知的诈骗网站,在终端使用模拟器对诈骗网站进行模拟访问;S1.2:记录诈骗网站的首页相对路径和首页名称;若诈骗网站存在入口页面,则记录入口页面的入口页面名和入口口令;S1.3:获取诈骗网站首页的HTML源代码,利用正则表达式获取诈骗网站首页的HTML源代码中图片元素的相对路径和图片名;S1.4:利用诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及HTML源代码中图片元素的相对路径和图片名构建碰撞数据库。3.根据权利要求2所述的诈骗网站的识别方法,其特征在于,S3中,判断待识别网站是否存在入口页面并利用碰撞数据库的数据下载待识别网站的页面图片的具体步骤如下:若判断待识别网站存在入口页面,记录待识别网站的入口页面名,并在碰撞数据库中搜寻诈骗网站的入口页面名;若碰撞数据库中存在与待识别网站的入口页面名相同的诈骗网站的入口页面名,利用诈骗网站的入口页面名对应的入口口令进入待识别网站首页,并利用碰撞数据库HTML源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片;若碰撞数据库中不存在与待识别网站的入口页面名相同的诈骗网站的入口页面名或诈骗网站的入口页面名对应的入口口令失效,则利用碰撞数据库中诈骗网站的首页相对路径直接访问待识别网站首页,并利用碰撞数据库中HTML源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片。4.根据权利要求1所述的诈骗网站的识别方法,其特征在于,S3中,所述判断待识别网站是否存在入口页面,包括以下步骤:在终端使用模拟器对待识别网站进行模拟访问,获取待识别网站的HTML源代码;根据官方网站的HTML源代码匹配待识别网站含有的输入框个数c
post
、段落数c
div
和隐藏文本数c
dis
,则判断入口页面存在的公式为:c
post
==1and(c
div
≤t1or c
dis
≥t1)其中t1为...
【专利技术属性】
技术研发人员:周小敏,应鸿晖,叶宇中,李高翔,石易,林佳涛,黄福鸿,卓采标,史燕飞,陈金林,陈德兴,吴雁琛,曾茂晰,
申请(专利权)人:国家计算机网络与信息安全管理中心广东分中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。