【技术实现步骤摘要】
一种异常访问检测方法及装置
[0001]本公开涉及计算机
,尤其涉及大数据
技术介绍
[0002]网络爬虫流量是指,按照一定的规则,由脚本控制自动抓取网络流量,这与正常用户获取信息流量的方式不同,因此属于作弊流量,或称为异常流量。
[0003]为维护万维网信息的安全,需要检出网络爬虫流量。
技术实现思路
[0004]本公开提供了一种异常访问检测方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的第一方面,提供了一种异常访问检测方法,方法包括:
[0006]确定第一时段内访问第一业务线的目标用户;
[0007]获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;
[0008]基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;
[0009]对所述用户簇进行检测,确定异常访问的异常用户簇。
[0010]根据本公开的第二方面,提供了一种异常访问检测装置,装置包括:
[0011]目标用户确定模块,用于确定第一时段内访问第一业务线的目标用户;
[0012]信息获取模块,用于获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;
[0013]第一聚类模块,用于基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;
[0014]检测 ...
【技术保护点】
【技术特征摘要】
1.一种异常访问检测方法,包括:确定第一时段内访问第一业务线的目标用户;获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;对所述用户簇进行检测,确定异常访问的异常用户簇。2.根据权利要求1所述的方法,其中,所述访问资源信息包括:互联网协议地址IP的去重数、IP网段的去重数、用户身份缓存标识的去重数和浏览器用户代理的去重数中的一种或多种。3.根据权利要求1所述的方法,其中,所述目标用户是在所述第一时段内访问所述第一业务线的次数大于设定值的用户。4.根据权利要求1所述的方法,还包括:将所述异常用户簇的访问资源信息标记为异常资源信息;将线上检测到的采用所述异常资源信息进行访问的请求标记为异常访问请求。5.根据权利要求1所述的方法,还包括:确定第二时段内访问第二业务线的候选IP;获取每一所述候选IP的第一时序访问序列,所述第一时序访问序列包含所述候选IP在所述第二时段内各个子时段的访问次数;基于所述第一时序访问序列,从所述候选IP中筛选出符合预设的异常访问特征的目标IP;基于各个目标IP的时序访问序列,对所述目标IP进行聚类,确定聚类后的多个IP簇;基于所述IP簇挖掘异常IP特征,并基于所述异常IP特征更新线上部署的异常访问检测规则。6.根据权利要求5所述的方法,其中,所述基于所述第一时序访问序列,从所述候选IP中筛选出符合预设的异常访问特征的目标IP的步骤,包括:判断所述候选IP的第一时序访问序列是否为时序平稳序列,若是,确定所述候选IP符合预设的异常访问特征,并将所述候选IP确定为目标IP。7.根据权利要求1
‑
6任一项所述的方法,还包括:确定第三时段内业务访问次数大于预设阈值的非自然人标识;确定所述非自然人标识对应的第二时序访问序列,所述第二时序访问序列包含所述非自然人标识在所述第三时段内各个子时段的访问次数;基于所述第二时序访问序列,对所述非自然人标识进行聚类,确定聚类后的多个非自然人标识簇,以及聚类后每个非自然人标识簇的聚类时序访问序列;判断所述非自然人标识簇的聚类时序访问序列是否符合预设的自然人访问特征,若是,将所述非自然人标识簇标记为非异常访问标识簇;基于所述非异常访问标识簇对线上检测到的异常标识进行误判修正。8.根据权利要求7所述的方法,其中,所述非自然人标识包括IP、浏览器用户代理和客户端指纹中的一种或多种。9.一种异常访问检测装置,包括:
目标用户确定模块,用于确定第一时段内访问第一业务线的目标用户;信息获取模块,用于获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;第一聚类模块,用于基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;检测模块,用于对所述用户簇进行检测,确定异常访问的异常用户簇。10.根据权利要求9所述的装置,其中...
【专利技术属性】
技术研发人员:李任鹏,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。