建立识别异常访问者模型的方法、系统、设备及介质技术方案

技术编号:28564933 阅读:30 留言:0更新日期:2021-05-25 18:01
本发明专利技术公开了一种建立识别异常访问者模型的方法、系统、设备及介质,方法包括建立通用识别模型的方法,建立通用识别模型的方法包括特征计算步骤,特征计算步骤包括以下获取特征值的方法中的至少一种:计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user‑agent的去重个数与该用户的全部页面浏览量的比值作为特征值,由于使用新的特征值建立识别异常访问者模型,提高了识别异常访问者模型的通用性和识别准确性,有效防止误判。

【技术实现步骤摘要】
建立识别异常访问者模型的方法、系统、设备及介质
本专利技术涉及互联网
,尤其涉及一种建立识别异常访问者模型的方法、系统、设备及介质。
技术介绍
随着网络应用的不断发展,互联网在人们的日常工作和生活中扮演着越来越重要的角色。互联网技术的不断发展,使得网络中的不安全因素也在不断增加,来自恶意IP地址的恶意访问容易造成网络服务器瘫痪,严重影响网络服务提供商的服务质量,进而影响用户使用。为了阻止来自恶意IP地址的恶意访问,现有技术中采用网络异常访问者检测技术识别恶意IP地址。即,通过Web日志进行数据挖掘,使用用户历史访问的Web日志进行建模,构建用户的画像,运用机器学习算法,从Web日志中分析出异常用户行为,确定恶意IP地址。在建立识别恶意IP地址模型的过程中,需要使用用户行为特征构建模型,现有的根据历史访问的Web日志,建立识别异常访问者模型的过程中用到的特征维度不够全面,造成建立的模型在识别用户使用多个IP进行恶意攻击行为、用户访问请求的时间规律、用户使用多个user-agent进行恶意访问等情况的准确率低,对多源低频的场景识别能力不足,进而导致识别异常IP的召回率不高,造成使用识别异常访问者模型对异常访问者进行识别过程中,存在一定的误判问题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种建立识别异常访问者模型的方法、系统、设备及介质。本专利技术提供的建立识别异常访问者模型的方法,包括建立通用识别模型的方法,所述建立通用识别模型的方法包括特征计算步骤,所述特征计算步骤包括以下获取特征值的方法中的至少一种:计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值。上述建立识别异常访问者模型的方法还具有以下特点:所述建立通用识别模型的方法还包括:对所述特征值进行处理,依据用户行为特征构建特征向量;对所述特征向量的数值特征进行0-1标准化数据处理,并传输给决策树分类器;所述决策树分类器输出与所述特征值对应的判定值。上述建立识别异常访问者模型的方法还具有以下特点:所述识别异常访问者模型包括以下识别方法中的至少一种:方法一、预定时长内日志中记载的全部IP地址中预设字段相同的IP地址的数量大于或等于判定值,则具有相同的所述预设字段的IP地址为异常IP;方法二、预定时长内日志中记载的来自同一个IP地址的两次请求之间的时间方差小于或等于判定值,则该IP地址为异常IP;方法三、预定时长内日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值大于或等于判定值,则该用户为异常用户。上述建立识别异常访问者模型的方法还具有以下特点:所述建立识别异常访问者模型的方法还包括建立样本识别模型的方法,所述建立样本识别模型的方法包括标记样本的步骤,所述标记样本的步骤包括:获取每个url_pattern在第一预设时间段内的页面浏览量,以及访问该url_pattern的去重后的IP地址数量;根据每个所述url_pattern对应的页面浏览量和所述去重后的IP地址数量,确定危险url_pattern;获取第二预设时间段内访问每一个所述危险url_pattern的IP地址的时间参数和页面浏览参数;根据每一个所述危险url_pattern对应的所述时间参数和所述页面浏览参数,确定出现异常访问的IP地址,将所述出现异常访问的IP地址标记为正样本。上述建立识别异常访问者模型的方法还具有以下特点:所述建立样本识别模型的方法包括:将负样本和所述正样本输入至决策树分类器中;所述决策树分类器进行训练并输出结果;选取所述输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。本专利技术提供的建立识别异常访问者模型的系统,包括用于建立通用识别模型的第一子系统,所述第一子系统包括计算模块,所述计算模块,用于执行以下获取特征值的方法中的至少一种:计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值。上述系统还具有以下特点:所述第一子系统还包括:转换模块,用于对所述特征值进行处理,依据用户行为特征构建特征向量;标准化处理模块,对所述特征向量的数值特征进行0-1标准化数据处理,并传输给决策树分类器;输出模块,用于输出与所述特征值对应的判定值。上述系统还具有以下特点:所述建立异常识别访问者的模型的系统包括:模型确定模块,用于确定所述识别异常访问者模型包括以下识别方法中的至少一种:方法一、预定时长内日志中记载的全部IP地址中预设字段相同的IP地址的数量大于或等于判定值,则具有相同的所述预设字段的IP地址为异常IP;方法二、预定时长内日志中记载的来自同一个IP地址的两次请求之间的时间方差小于或等于判定值,则该IP地址为异常IP;方法三、预定时长内日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值大于或等于判定值,则该用户为异常用户。上述系统还具有以下特点:所述建立识别异常访问者模型的系统包括用于建立样本识别模型的第二子系统,所述第二子系统包括:获取单元,用于获取每个url_pattern在第一预设时间段内的页面浏览量,以及访问该url_pattern的去重后的IP地址数量;计算单元,用于根据每个所述url_pattern对应的所述页面浏览量和所述去重后的IP地址数量,确定危险url_pattern;所述获取单元,还用于获取第二预设时间段内访问每一个所述危险url_pattern的IP地址的时间参数和页面浏览参数;所述计算单元,还用于根据每一个所述危险url_pattern对应的所述时间参数和所述页面浏览参数,确定出现异常访问的IP地址;标记单元,用于将所述出现异常访问的IP地址标记为正样本。上述系统还具有以下特点:所述第二子系统还包括:输入单元,用于将负样本和所述正样本输入至决策树分类器中;选取单元,用于选取所述决策树分类器的输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。本专利技术提供的传输设备,所述传输设备包括:收发器、存储器、处理器;所述收发器用于收发报文;所述存储器用于存储指令和数据;所述处理器用于读取所述存储器中存储的指令和数据,以执行如上所述的建立识别异常访问者模型的方法。本专利技术还提供了一种计算机可读存储介质本文档来自技高网...

【技术保护点】
1.一种建立识别异常访问者模型的方法,其特征在于,包括建立通用识别模型的方法,所述建立通用识别模型的方法包括特征计算步骤,所述特征计算步骤包括以下获取特征值的方法中的至少一种:/n计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值。/n

【技术特征摘要】
1.一种建立识别异常访问者模型的方法,其特征在于,包括建立通用识别模型的方法,所述建立通用识别模型的方法包括特征计算步骤,所述特征计算步骤包括以下获取特征值的方法中的至少一种:
计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日志中记载的来自同一个IP地址的两次请求之间的时间方差作为特征值、计算预设时间内预设日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值作为特征值。


2.如权利要求1所述的建立识别异常访问者模型的方法,其特征在于,所述建立通用识别模型的方法还包括:
对所述特征值进行处理,依据用户行为特征构建特征向量;
对所述特征向量的数值特征进行0-1标准化数据处理,并传输给决策树分类器;
所述决策树分类器输出与所述特征值对应的判定值。


3.如权利要求2所述的建立识别异常访问者模型的方法,其特征在于,所述识别异常访问者模型包括以下识别方法中的至少一种:
方法一、预定时长内日志中记载的全部IP地址中预设字段相同的IP地址的数量大于或等于判定值,则具有相同的所述预设字段的IP地址为异常IP;
方法二、预定时长内日志中记载的来自同一个IP地址的两次请求之间的时间方差小于或等于判定值,则该IP地址为异常IP;
方法三、预定时长内日志中记载的用户的user-agent的去重个数与该用户的全部页面浏览量的比值大于或等于判定值,则该用户为异常用户。


4.如权利要求1至3任一项所述的建立识别异常访问者模型的方法,其特征在于,所述建立识别异常访问者模型的方法还包括建立样本识别模型的方法,所述建立样本识别模型的方法包括标记样本的步骤,所述标记样本的步骤包括:
获取每个url_pattern在第一预设时间段内的页面浏览量,以及访问该url_pattern的去重后的IP地址数量;
根据每个所述url_pattern对应的页面浏览量和所述去重后的IP地址数量,确定危险url_pattern;
获取第二预设时间段内访问每一个所述危险url_pattern的IP地址的时间参数和页面浏览参数;
根据每一个所述危险url_pattern对应的所述时间参数和所述页面浏览参数,确定出现异常访问的IP地址,将所述出现异常访问的IP地址标记为正样本。


5.如权利要求4所述的建立识别异常访问者模型的方法,其特征在于,所述建立样本识别模型的方法包括:
将负样本和所述正样本输入至决策树分类器中;
所述决策树分类器进行训练并输出结果;
选取所述输出结果中的Gini系数为零的叶子节点对应的识别方法作为样本识别模型。


6.一种建立识别异常访问者模型的系统,其特征在于,包括用于建立通用识别模型的第一子系统,所述第一子系统包括计算模块,
所述计算模块,用于执行以下获取特征值的方法中的至少一种:
计算预设时间内预设日志中记载的全部IP地址中预设字段相同的IP地址的数量作为特征值、计算预设时间内预设日...

【专利技术属性】
技术研发人员:潘廷珅丛磊
申请(专利权)人:北京数安鑫云信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1