一种异常访问检测方法及装置制造方法及图纸

技术编号:36337659 阅读:59 留言:0更新日期:2023-01-14 17:50
本公开提供了一种异常访问检测方法及装置,涉及计算机技术领域,尤其涉及大数据领域。具体实现方案为:确定第一时段内访问第一业务线的目标用户;获取每一所述目标用户的用户标识对应的访问资源信息;基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;对所述用户簇进行检测,确定异常访问的异常用户簇。将用户的访问资源信息作为聚类特征进行聚类,通过聚类结果发掘异常访问的团队,相比于人工挖掘、分析的方式时效性更强,同时能够挖掘出不易发现的异常访问团队。时能够挖掘出不易发现的异常访问团队。时能够挖掘出不易发现的异常访问团队。

【技术实现步骤摘要】
一种异常访问检测方法及装置


[0001]本公开涉及计算机
,尤其涉及大数据


技术介绍

[0002]网络爬虫流量是指,按照一定的规则,由脚本控制自动抓取网络流量,这与正常用户获取信息流量的方式不同,因此属于作弊流量,或称为异常流量。
[0003]为维护万维网信息的安全,需要检出网络爬虫流量。

技术实现思路

[0004]本公开提供了一种异常访问检测方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的第一方面,提供了一种异常访问检测方法,方法包括:
[0006]确定第一时段内访问第一业务线的目标用户;
[0007]获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;
[0008]基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;
[0009]对所述用户簇进行检测,确定异常访问的异常用户簇。
[0010]根据本公开的第二方面,提供了一种异常访问检测装置,装置包括:
[0011]目标用户确定模块,用于确定第一时段内访问第一业务线的目标用户;
[0012]信息获取模块,用于获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;
[0013]第一聚类模块,用于基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;
[0014]检测模块,用于对所述用户簇进行检测,确定异常访问的异常用户簇。
[0015]根据本公开的第三方面,提供了一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行异常访问检测方法。
[0019]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行异常访问检测方法。
[0020]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现异常访问检测方法。
[0021]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0023]图1为本公开实施例提供的异常访问检测方法的一种流程示意图;
[0024]图2为本公开实施例提供的异常访问检测方法的另一种流程示意图;
[0025]图3为本公开实施例提供的异常访问检测方法的又一种流程示意图;
[0026]图4为本公开实施例提供的异常访问检测方法的一种示意图;
[0027]图5是用来实现本公开实施例的异常访问检测方法的装置的框图;
[0028]图6为本公开实施例提供的电子设备的框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]网络爬虫流量是指,按照一定的规则,由脚本控制自动抓取网络流量,这与正常用户获取信息流量的方式不同,因此属于作弊流量,或称为异常流量。
[0031]为维护万维网信息的安全,需要检出网络爬虫流量。
[0032]由于爬虫行为通常具有团队性,相关技术中,采用人工方式分析、挖掘异常访问的团队,但越高级的爬虫行为在资源使用方面越分散,例如,使用IP池、破解入侵多个账号等,通过日志流量很难直观发现异常团队,导致对异常团队的具体行为模式理解欠缺,以及无法有效关联团队使用的资源池,后续相关业务出现使用相同资源池的团队也无法及时定位跟踪。
[0033]为了解决上述技术问题,本公开提供了一种异常访问检测方法及装置。
[0034]本公开的一个实施例中,提供了一种异常访问检测方法,方法包括:
[0035]确定第一时段内访问第一业务线的目标用户;
[0036]获取每一所述目标用户的用户标识对应的访问资源信息;
[0037]基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;
[0038]对所述用户簇进行检测,确定异常访问的异常用户簇。
[0039]异常访问具备以下特征:异常访问的团队通常关联统一的资源池,并频繁从资源池中更换访问资源以躲避检测。本公开实施例中,考虑到异常访问的上述特征,将用户的访问资源信息作为聚类特征进行聚类,从而采用相似访问资源信息的用户将被聚为一类。对于异常访问的团队,由于采用同样的资源池,根据访问资源信息进行聚类,能够将异常访问团队采用的用户账号的标识聚为一类,聚类后能够轻易识别每个用户簇是否为异常用户簇,即通过聚类结果挖掘异常访问的团队。相比于人工挖掘、分析的方式时效性更强,同时能够挖掘出不易发现的异常访问团队。
[0040]下面对本公开实施例提供的异常访问检测方法进行详细介绍。
[0041]参见图1,图1为本公开实施例提供的异常访问检测方法的一种流程示意图,如图1所示,方法可以包括以下步骤:
[0042]S101:确定第一时段内访问第一业务线的目标用户。
[0043]本公开实施例中,获取流量日志并进行日志标准化,例如,依次进行数据清洗、字段提取、落库。
[0044]根据标准化的日志可以确定在特定时段访问业务线的用户,为了便于描述,以第一时段内访问第一业务线的用户为例,将其记为目标用户。
[0045]S102:获取每一目标用户的用户标识对应的访问资源信息,访问资源信息表征目标用户发起访问请求时所使用的访问资源。
[0046]其中,用户标识可以是UID(User Identification,用户身份证明),即用户注册时网络侧生成的数值,可以作为用户的唯一标识。
[0047]通过标准化日志还能够获取每一目标用户的用户标识对应的访问资源信息,访问资源信息表征目标用户发起访问请求时所使用的访问资源。
[0048]作为一个示例,IP地址(Internet Protocol Address,互联网协议地址)是用户发起访问请求时必不可少的资源,因此IP地址可以作为访问资源信息。为了便于描述,下文中均用IP来表示IP地址。
[0049]S103:基于访问资源信息对用户标识进行聚类,确定聚类后的多个用户簇。
[0050]本公开实施例中,每一用户标识的访问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常访问检测方法,包括:确定第一时段内访问第一业务线的目标用户;获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;对所述用户簇进行检测,确定异常访问的异常用户簇。2.根据权利要求1所述的方法,其中,所述访问资源信息包括:互联网协议地址IP的去重数、IP网段的去重数、用户身份缓存标识的去重数和浏览器用户代理的去重数中的一种或多种。3.根据权利要求1所述的方法,其中,所述目标用户是在所述第一时段内访问所述第一业务线的次数大于设定值的用户。4.根据权利要求1所述的方法,还包括:将所述异常用户簇的访问资源信息标记为异常资源信息;将线上检测到的采用所述异常资源信息进行访问的请求标记为异常访问请求。5.根据权利要求1所述的方法,还包括:确定第二时段内访问第二业务线的候选IP;获取每一所述候选IP的第一时序访问序列,所述第一时序访问序列包含所述候选IP在所述第二时段内各个子时段的访问次数;基于所述第一时序访问序列,从所述候选IP中筛选出符合预设的异常访问特征的目标IP;基于各个目标IP的时序访问序列,对所述目标IP进行聚类,确定聚类后的多个IP簇;基于所述IP簇挖掘异常IP特征,并基于所述异常IP特征更新线上部署的异常访问检测规则。6.根据权利要求5所述的方法,其中,所述基于所述第一时序访问序列,从所述候选IP中筛选出符合预设的异常访问特征的目标IP的步骤,包括:判断所述候选IP的第一时序访问序列是否为时序平稳序列,若是,确定所述候选IP符合预设的异常访问特征,并将所述候选IP确定为目标IP。7.根据权利要求1

6任一项所述的方法,还包括:确定第三时段内业务访问次数大于预设阈值的非自然人标识;确定所述非自然人标识对应的第二时序访问序列,所述第二时序访问序列包含所述非自然人标识在所述第三时段内各个子时段的访问次数;基于所述第二时序访问序列,对所述非自然人标识进行聚类,确定聚类后的多个非自然人标识簇,以及聚类后每个非自然人标识簇的聚类时序访问序列;判断所述非自然人标识簇的聚类时序访问序列是否符合预设的自然人访问特征,若是,将所述非自然人标识簇标记为非异常访问标识簇;基于所述非异常访问标识簇对线上检测到的异常标识进行误判修正。8.根据权利要求7所述的方法,其中,所述非自然人标识包括IP、浏览器用户代理和客户端指纹中的一种或多种。9.一种异常访问检测装置,包括:
目标用户确定模块,用于确定第一时段内访问第一业务线的目标用户;信息获取模块,用于获取每一所述目标用户的用户标识对应的访问资源信息;所述访问资源信息表征所述目标用户发起访问请求时所使用的访问资源;第一聚类模块,用于基于所述访问资源信息对所述用户标识进行聚类,确定聚类后的多个用户簇;检测模块,用于对所述用户簇进行检测,确定异常访问的异常用户簇。10.根据权利要求9所述的装置,其中...

【专利技术属性】
技术研发人员:李任鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1