一种诈骗网站的识别方法及系统技术方案

技术编号:33247591 阅读:19 留言:0更新日期:2022-04-27 18:02
本发明专利技术提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明专利技术考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。别效果。别效果。

【技术实现步骤摘要】
一种诈骗网站的识别方法及系统


[0001]本专利技术涉及网络安全
,更具体地,涉及一种诈骗网站的识别方法及系统。

技术介绍

[0002]随着信息技术的发展和电子设备的轻量化,人们利用终端设备如电脑、手机等完成资产交易的频率越来越高。与此同时,以电信网络诈骗为代表的新型网络犯罪案件急剧增加,其中冒充公检法诈骗尤为典型。诈骗分子通过电话等手段和受害人取得联系,部分诈骗分子会要求受害人配合调查,引导受害人在仿冒网站、APP内填写个人支付信息,实施诈骗。仿冒公检法机构的诈骗犯罪相比其他类型诈骗(如贷款诈骗、刷单诈骗等),其过程更隐秘、涉案数额更大且迷惑性更强。因此公检法诈骗网站的识别已成为预防诈骗犯罪中的其中一个重要问题。现有许多网站识别方法是通过网页截图和网页元素提取的手段,辅以机器学习算法来进行识别。
[0003]现有一种识别钓鱼网站的方法,其提出对网页进行抓取,以生成网页抓取结果;对所述网页抓取结果进行网页渲染,以形成待识别网页;依据真实网站网页对所述待识别网页进行图像匹配,并根据图像匹配结果识别钓鱼网站。上述方法主要通过对抓取的待识别网页与真实网站网页进行图像匹配,并根据图像匹配结果识别钓鱼网站。然而,如今的诈骗分子通过新增入口页面的方法,在诈骗网站首页显示较少的真实官方网站的内容,使得图像匹配的精确度低,最后的识别结果容易出现错误。

技术实现思路

[0004]本专利技术为提高诈骗网站的识别效果,提供一种诈骗网站的识别方法及系统。
[0005]为解决上述技术问题,本专利技术的技术方案如下:
[0006]第一个方面,本专利技术提出一种诈骗网站的识别方法,包括以下步骤:
[0007]S1:采集已知诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库;
[0008]S2:采集官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库;
[0009]S3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;
[0010]S4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和/或图片特征与比对数据库进行比对,当比对成功,则判断待识别网站为诈骗网站。
[0011]优选地,S1具体包括以下步骤:
[0012]S1.1:获取一批已知的诈骗网站,在终端使用模拟器对诈骗网站进行模拟访问;
[0013]S1.2:记录诈骗网站的首页相对路径和首页名称;若诈骗网站存在入口页面,则记录入口页面的入口页面名和入口口令;
[0014]S1.3:获取诈骗网站首页的HTML源代码,利用正则表达式获取诈骗网站首页的HTML源代码中图片元素的相对路径和图片名;
[0015]S1.4:利用诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及HTML源代码中图片元素的相对路径和图片名构建碰撞数据库。
[0016]优选地,S3中,判断待识别网站是否存在入口页面并利用碰撞数据库的数据下载待识别网站的页面图片的具体步骤如下:
[0017]若判断待识别网站存在入口页面,记录待识别网站的入口页面名,并在碰撞数据库中搜寻诈骗网站的入口页面名;
[0018]若碰撞数据库中存在与待识别网站的入口页面名相同的诈骗网站的入口页面名,利用诈骗网站的入口页面名对应的入口口令进入待识别网站首页,并利用碰撞数据库HTML源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片;
[0019]若碰撞数据库中不存在与待识别网站的入口页面名相同的诈骗网站的入口页面名或诈骗网站的入口页面名对应的入口口令失效,则利用碰撞数据库中诈骗网站的首页相对路径直接访问待识别网站首页,并利用碰撞数据库中HTML源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片。
[0020]优选地,S3中,所述判断待识别网站是否存在入口页面,包括以下步骤:
[0021]在终端使用模拟器对待识别网站进行模拟访问,获取待识别网站的HTML源代码;
[0022]根据官方网站的HTML源代码匹配待识别网站含有的输入框个数c
post
、段落数c
div
和隐藏文本数c
dis
,则判断入口页面存在的公式为:
[0023]c
post
==1and(c
div
≤t1or c
dis
≥t1)
[0024]其中t1为设定的阈值。
[0025]优选地,S2具体包括以下步骤:
[0026]S2.1:获取一批已知的官方网站,在终端使用模拟器对官方网站进行模拟访问;
[0027]S2.2:获取官方网站的HTML源代码,根据官方网站的HTML源代码获取官方网站的页面段落,对所述页面段落进行渲染截图,获得官方网站各页面段落的截图;
[0028]S2.3:利用正则表达式获取官方网站的HTML源代码中的图片元素,根据所述图片元素下载官方网站的图片,并对官方网站的图片进行特征提取,获得官方网站的图片特征;
[0029]S2.4:对官方网站的HTML源代码中的中文字符进行匹配和提取,对提取到的中文字符进行分词处理,得到相应的单词,并计算每个单词的权重;
[0030]S2.5:以官方网站的各页面段落的截图、图片特征、单词和单词的权重为数据,构建比对数据库。
[0031]优选地,S4中,提取待识别网站的页面图片的中文字符,并对提取的中文字符进行分词,然后将分词后得到的单词在比对数据库中查询对应的单词权重,根据单词权重判断待识别网站是否为诈骗网站,判断的公式如下所示:
[0032]∑Top5(w
i
)>t2[0033]其中,Top5(
·
)表示前5个权重值最高的单词,w
i
表示第i个待识别网站的单词权重,t2为可设定的阈值。
[0034]优选地,S4中,提取待识别网站的页面图片的图片特征,将所述图片特征与比对数据库中官方网站的图片特征基于余弦相似度进行检索,若检索出余弦相似度高于预设的余
弦相似度阈值的对应图片特征元素,则将待识别网站判断为诈骗网站。
[0035]第二个方面,本专利技术提出一种诈骗网站的识别系统,包括:
[0036]数据采集模块,用于采集已知诈骗网站的网页数据和官方网站的网页数据;
[0037]建碰撞数据库,用于存储诈骗网站的网页数据;
[0038]比对数据库,用于存储官方网站的网页数据;
[0039]入口页面检测模块,用于判断待识别网站是否存在入口页面;
[0040]页面图片下载模块,用于下载待识别网站的页面图片;若待识别网站存在入口页面,利用碰撞数据库中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种诈骗网站的识别方法,其特征在于,包括以下步骤:S1:采集已知诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库;S2:采集官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库;S3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;S4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和/或图片特征与比对数据库进行比对,当比对成功,则判断待识别网站为诈骗网站。2.根据权利要求1所述的诈骗网站的识别方法,其特征在于,S1具体包括以下步骤:S1.1:获取一批已知的诈骗网站,在终端使用模拟器对诈骗网站进行模拟访问;S1.2:记录诈骗网站的首页相对路径和首页名称;若诈骗网站存在入口页面,则记录入口页面的入口页面名和入口口令;S1.3:获取诈骗网站首页的HTML源代码,利用正则表达式获取诈骗网站首页的HTML源代码中图片元素的相对路径和图片名;S1.4:利用诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及HTML源代码中图片元素的相对路径和图片名构建碰撞数据库。3.根据权利要求2所述的诈骗网站的识别方法,其特征在于,S3中,判断待识别网站是否存在入口页面并利用碰撞数据库的数据下载待识别网站的页面图片的具体步骤如下:若判断待识别网站存在入口页面,记录待识别网站的入口页面名,并在碰撞数据库中搜寻诈骗网站的入口页面名;若碰撞数据库中存在与待识别网站的入口页面名相同的诈骗网站的入口页面名,利用诈骗网站的入口页面名对应的入口口令进入待识别网站首页,并利用碰撞数据库HTML源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片;若碰撞数据库中不存在与待识别网站的入口页面名相同的诈骗网站的入口页面名或诈骗网站的入口页面名对应的入口口令失效,则利用碰撞数据库中诈骗网站的首页相对路径直接访问待识别网站首页,并利用碰撞数据库中HTML源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片。4.根据权利要求1所述的诈骗网站的识别方法,其特征在于,S3中,所述判断待识别网站是否存在入口页面,包括以下步骤:在终端使用模拟器对待识别网站进行模拟访问,获取待识别网站的HTML源代码;根据官方网站的HTML源代码匹配待识别网站含有的输入框个数c
post
、段落数c
div
和隐藏文本数c
dis
,则判断入口页面存在的公式为:c
post
==1and(c
div
≤t1or c
dis
≥t1)其中t1为...

【专利技术属性】
技术研发人员:周小敏应鸿晖叶宇中李高翔石易林佳涛黄福鸿卓采标史燕飞陈金林陈德兴吴雁琛曾茂晰
申请(专利权)人:国家计算机网络与信息安全管理中心广东分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1