【技术实现步骤摘要】
建立识别异常访问者模型的方法、系统、设备及介质
本专利技术涉及互联网
,尤其涉及一种建立识别异常访问者模型的方法、系统、设备及介质。
技术介绍
随着网络应用的不断发展,互联网在人们的日常工作和生活中扮演着越来越重要的角色。互联网技术的不断发展,使得网络中的不安全因素也在不断增加,来自恶意IP地址的恶意访问容易造成网络服务器瘫痪,严重影响网络服务提供商的服务质量,进而影响用户使用。为了阻止来自恶意IP地址的恶意访问,现有技术中采用网络异常访问者检测技术识别恶意IP地址。即,通过Web日志进行数据挖掘,使用用户历史访问的Web日志进行建模,构建用户的画像,运用机器学习算法,从Web日志中分析出异常用户行为,确定恶意IP地址。在建立识别恶意IP地址模型的过程中,需要使用用户行为特征构建模型,现有的根据历史访问的Web日志,建立识别异常访问者模型的过程中用到的特征维度不够全面,造成建立的模型在识别用户使用多个IP进行恶意攻击行为、用户访问请求的时间规律、用户使用多个user-agent进行恶意访问等情况的准确率低,对多源低频的场景识别能力不足,进而导致识别异常IP的召回率不高,造成使用识别异常访问者模型对异常访问者进行识别过程中,存在一定的误判问题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种建立识别异常访问者模型的方法、系统、设备及介质。本专利技术提供的建立识别异常访问者模型的方法,包括建立通用识别模型的方法,所述建立通用识别模型的方法包括特征计算步骤,所述特 ...
【技术保护点】
1.一种建立识别异常访问者模型的方法,其特征在于,包括建立通用识别模型的方法,所述建立通用识别模型的方法包括特征计算步骤,所述特征计算步骤包括以下获取特征值的方法中的至少一种:/n计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值。/n
【技术特征摘要】
1.一种建立识别异常访问者模型的方法,其特征在于,包括建立通用识别模型的方法,所述建立通用识别模型的方法包括特征计算步骤,所述特征计算步骤包括以下获取特征值的方法中的至少一种:
计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值。
2.如权利要求1所述的建立识别异常访问者模型的方法,其特征在于,所述建立通用识别模型的方法还包括:
对所述特征值进行处理,依据用户行为特征构建特征向量;
对所述特征向量的数值特征进行0-1标准化数据处理,并传输给决策树分类器;
所述决策树分类器输出与所述特征值对应的判定值。
3.如权利要求2所述的建立识别异常访问者模型的方法,其特征在于,所述识别异常访问者模型包括以下识别方法中的至少一种:
方法一、预定时长内日志中记载的全部IP地址中预设字段相同的IP地址的数量大于或等于判定值,则具有相同的所述预设字段的IP地址为异常IP;
方法二、预定时长内日志中记载的来自同一个IP地址的两次请求之间的时间方差小于或等于判定值,则该IP地址为异常IP;
方法三、预定时长内日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值大于或等于判定值,则该用户为异常用户。
4.如权利要求1至3任一项所述的建立识别异常访问者模型的方法,其特征在于,所述建立识别异常访问者模型的方法还包括建立样本识别模型的方法,所述建立样本识别模型的方法包括标记样本的步骤,所述标记样本的步骤包括:
获取每个url_pattern在第一预设时间段内的页面浏览量,以及访问该url_pattern的去重后的IP地址数量;
根据每个所述url_pattern对应的页面浏览量和所述去重后的IP地址数量,确定危险url_pattern;
获取第二预设时间段内访问每一个所述危险url_pattern的IP地址的时间参数和页面浏览参数;
根据每一个所述危险url_pattern对应的所述时间参数和所述页面浏览参数,确定出现异常访问的IP地址,将所述出现异常访问的IP地址标记为正样本。
5.如权利要求4所述的建立识别异常访问者模型的方法,其特征在于,所述建立样本识别模型的方法包括:
将负样本和所述正样本输入至决策树分类器中;
所述决策树分类器进行训练并输出结果;
选取所述输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。
6.一种建立识别异常访问者模型的系统,其特征在于,包括用于建立通用识别模型的第一子系统,所述第一子系统包括计算模块,
所述计算模块,用于执行以下获取特征值的方法中的至少一种:
计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日...
【专利技术属性】
技术研发人员:潘廷珅,丛磊,
申请(专利权)人:北京数安鑫云信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。