一种基于身份特征信息的风险网站识别方法及系统技术方案

技术编号:29594227 阅读:30 留言:0更新日期:2021-08-06 19:55
本发明专利技术涉及一种基于身份特征信息的风险网站识别方法及系统,所述基于身份特征信息的风险网站识别方法包括:采集用户当前访问的网站数据;根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;通过有效范围内发现的疑似网站进行分析,能够快速圈定疑似数据集合,提高识别效率。根据所述疑似网站,得到对应网站的多个身份特征信息;将所述疑似网站的各身份特征进行量化处理,得到对应的量化身份特征;根据各量化身份特征,确定对应疑似网站的风险识别结果。通过网页身份特征能够准确判断风险网站,提高了风险网站的识别效率。

【技术实现步骤摘要】
一种基于身份特征信息的风险网站识别方法及系统
本专利技术涉及网络数据分析领域,特别是涉及一种基于身份特征信息的风险网站识别方法及系统。
技术介绍
随着4G、5G网络的高速发展,国内的智能手机用户在不断地增长,相关数据显示,截止到2020年3月末,移动互联网的活跃用户总数达到20.13亿,然而移动互联网风险网站数量日益剧增。移动互联网风险网站存在欺诈用户,盗取用户个人信息,钱财等多个方面影响,严重危害社会的正常秩序,其中一些冒充正常的网站会将欺瞒消费者输入手机银行账号密码、用户账号等信息。所以运营商纷纷开始构建威胁网站分析系统,引导用户识别正常的网站。通过利用海量数据进行钓鱼网站挖掘和分析,全面监控和防范虚假网站的传播和爆发。目前基于网页内容的相似度对网络数据流量的业务检测与识别实际上对网页的元素进行特征挖掘,如统一资源定位器(UniformResourceLocator,URL)、域名、图片、页面关键词等,通过分类预测计算进行识别。此种方法识别效率较低,对于业务网站识别内容较为复杂。当出现较多内容网站情况时,对识别的效率有一定的影响。基于上述问题,亟需一种新的网站识别方法以提高风险网站的识别效率。
技术实现思路
本专利技术的目的是提供一种基于身份特征信息的风险网站识别方法,可提高风险网站的识别效率。为实现上述目的,本专利技术提供了如下方案:一种基于身份特征信息的风险网站识别方法,所述基于身份特征信息的风险网站识别方法包括:采集用户当前访问的网站数据;根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;根据所述疑似网站,确定对应疑似网站的多个身份特征信息;将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;根据各量化身份特征,确定对应疑似网站的风险识别结果。可选地,所述白名单库的建立方法具体包括:采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库。可选地,所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;所述根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;根据疑似网站的源码,提取对应的内容身份特征;根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;根据所述疑似网站,提取对应的域名身份特征。可选地,所述将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征,具体包括:根据以下公式,得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征:其中,F1~F4为URL身份特征对应的量化身份特征,F5~F6为域名身份特征对应的量化身份特征,F7~F10为内容身份特征对应的量化身份特征。可选地,所述根据各量化身份特征,确定对应疑似网站的风险识别结果,具体包括:根据疑似网站的各量化身份特征值,采用加权线性分类函数,确定对应疑似网站的风险识别结果。可选地,所述加权线性分类函数的建立方法,具体包括:获取白名单库中各安全网站对应的多个身份特征信息以及黑名单库中各危险网站对应的多个身份特征信息;所述黑名单库中保存有预先收集的危险网站;所述白名单库中保存有安全网站;所述安全网站和所述危险网站构成试验网站;计算所述试验网站的各身份特征信息单独检测页面时的正确率和误判率;将各身份特征信息进行量化处理,得到对应的量化身份特征;根据各身份特征信息对应的正确率、误判率以及量化身份特征,得到各身份特征信息的权重;根据各身份特征信息的权重以及各身份特征信息对应的量化身份特征,确定加权线性分类函数。可选地,根据以下公式,确定各身份特征信息的权重:其中,Wi为第i个身份特征信息的权重,Fi为第i个身份特征信息对应的量化身份特征,为第i个身份特征信息单独检测页面时的正确率,为第i个身份特征信息单独检测页面时的误判率。可选地,根据以下公式,确定加权线性分类函数:S=f(∑Fi×Wi),0<i≤10;其中,Fi为第i个身份特征信息对应的量化身份特征,Wi为第i个身份特征信息的权重。可选地,所述基于身份特征信息的风险网站识别方法还包括:根据疑似网站的风险识别结果,将对应的疑似网站存储到黑名单库或白名单库中。为实现上述目的,本专利技术还提供了如下方案:一种基于身份特征信息的风险网站识别系统,所述基于身份特征信息的风险网站识别系统包括:采集单元,用于采集用户当前访问的网站数据;过滤单元,与所述采集单元连接,用于根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;身份特征确定单元,与所述过滤单元连接,用于根据所述疑似网站,确定对应网站的多个身份特征信息;量化单元,与所述身份特征确定单元连接,用于将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;识别单元,与所述量化单元连接,用于根据各量化身份特征,确定对应疑似网站的风险识别结果。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:首先采集用户当前访问的网站数据,根据白名单库,对用户当前访问的网站数据进行过滤,得到疑似网站,通过有效范围内发现的疑似网站进行分析,能够快速圈定疑似数据集合;然后根据疑似网站,得到对应疑似网站的多个身份特征信息;将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;根据各量化身份特征,确定对应疑似网站的风险识别结果,通过网站身份特征信息能够准确判断风险网站,提高了风险网站的识别效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于身份特征信息的风险网站识别方法的流程图;图2为本专利技术基于身份特征信息的风险网站识别方法的整体实现流程图;图3为确定身份特征信息的流程图;图4为加权线性分类函数的建立方法流程图;图5为本专利技术基于身份特征信息的风险网站识别系统的模块结构示意图。符号说明:采集单元-1,过滤单元-2,身份特征确定单元-3,量化单元-4,识别单元-5。具体实施方式下面将结合本专利技术实施例中的本文档来自技高网...

【技术保护点】
1.一种基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法包括:/n采集用户当前访问的网站数据;/n根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;/n根据所述疑似网站,确定对应疑似网站的多个身份特征信息;/n将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;/n根据各量化身份特征,确定对应疑似网站的风险识别结果。/n

【技术特征摘要】
1.一种基于身份特征信息的风险网站识别方法,其特征在于,所述基于身份特征信息的风险网站识别方法包括:
采集用户当前访问的网站数据;
根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;
根据所述疑似网站,确定对应疑似网站的多个身份特征信息;
将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;
根据各量化身份特征,确定对应疑似网站的风险识别结果。


2.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,所述白名单库的建立方法具体包括:
采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;
根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;
根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库。


3.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;
所述根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:
根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;
根据疑似网站的源码,提取对应的内容身份特征;
根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;
根据所述疑似网站,提取对应的域名身份特征。


4.根据权利要求3所述的基于身份特征信息的风险网站识别方法,其特征在于,所述将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征,具体包括:
根据以下公式,得到所述疑似网站的URL身份特征、域名身份特征以及内容身份特征对应的量化身份特征:






























其中,F1~F4为URL身份特征对应的量化身份特征,F5~F6为域名身份特征对应的量化身份特征,F7~F10为内容身份特征对应的量化身份特征。


5.根据权利要求1所述的基于身份特征信息的风险网站识别方法,其特征在于,所述根据各量化身份特征,确定对应疑似网站的风险识别结果,具体包括:
根据疑似网站的...

【专利技术属性】
技术研发人员:罗维佳罗剑芳李晓琳肖天梅莫丽娟刘子凯丁卓
申请(专利权)人:广州掌动智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1