【技术实现步骤摘要】
一种基于身份特征信息的风险网站识别方法及系统
本专利技术涉及网络数据分析领域,特别是涉及一种基于身份特征信息的风险网站识别方法及系统。
技术介绍
随着4G、5G网络的高速发展,国内的智能手机用户在不断地增长,相关数据显示,截止到2020年3月末,移动互联网的活跃用户总数达到20.13亿,然而移动互联网风险网站数量日益剧增。移动互联网风险网站存在欺诈用户,盗取用户个人信息,钱财等多个方面影响,严重危害社会的正常秩序,其中一些冒充正常的网站会将欺瞒消费者输入手机银行账号密码、用户账号等信息。所以运营商纷纷开始构建威胁网站分析系统,引导用户识别正常的网站。通过利用海量数据进行钓鱼网站挖掘和分析,全面监控和防范虚假网站的传播和爆发。目前基于网页内容的相似度对网络数据流量的业务检测与识别实际上对网页的元素进行特征挖掘,如统一资源定位器(UniformResourceLocator,URL)、域名、图片、页面关键词等,通过分类预测计算进行识别。此种方法识别效率较低,对于业务网站识别内容较为复杂。当出现较多内容网站情况时,对识别的效率有一定的影响。基于上述问题,亟需一种新的网站识别方法以提高风险网站的识别效率。
技术实现思路
本专利技术的目的是提供一种基于身份特征信息的风险网站识别方法,可提高风险网站的识别效率。为实现上述目的,本专利技术提供了如下方案:一种基于身份特征信息的风险网站识别方法,所述基于身份特征信息的风险网站识别方法包括:采集用户当前访问的网站数据; ...
【技术保护点】
1.一种基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法包括:/n采集用户当前访问的网站数据;/n根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;/n根据所述疑似网站,确定对应疑似网站的多个身份特征信息;/n将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;/n根据各量化身份特征,确定对应疑似网站的风险识别结果。/n
【技术特征摘要】
1.一种基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法包括:
采集用户当前访问的网站数据;
根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;
根据所述疑似网站,确定对应疑似网站的多个身份特征信息;
将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;
根据各量化身份特征,确定对应疑似网站的风险识别结果。
2.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,所述白名单库的建立方法具体包括:
采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;
根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;
根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库。
3.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;
所述根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:
根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;
根据疑似网站的源码,提取对应的内容身份特征;
根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;
根据所述疑似网站,提取对应的域名身份特征。
4.根据权利要求3所述的基于身份特征信息的风险网站识别方法,其特征在于,所述将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征,具体包括:
根据以下公式,得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征:
其中,F1~F4为URL身份特征对应的量化身份特征,F5~F6为域名身份特征对应的量化身份特征,F7~F10为内容身份特征对应的量化身份特征。
5.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,所述根据各量化身份特征,确定对应疑似网站的风险识别结果,具体包括:
根据疑似网站的...
【专利技术属性】
技术研发人员:罗维佳,罗剑芳,李晓琳,肖天梅,莫丽娟,刘子凯,丁卓,
申请(专利权)人:广州掌动智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。