基于ICP活跃度的接入网单个IP平均流量统计方法及系统技术方案

技术编号:15120608 阅读:99 留言:0更新日期:2017-04-09 19:16
本发明专利技术公开提出了一种基于ICP活跃度的接入网单个IP平均流量统计方法及系统。本发明专利技术基于ICP访问日志文件,对日志中的异常IP访问流量记录进行识别,发明专利技术了一种异常访问流量去重的方法,在日志中去除异常点击,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击进行识别去重,对去重后的流量提取源和目标IP以及产生的流量,来统计出每天网内活跃的IP以及其流量,再根据IP归属标示出IP对应单位,根据每个IP的活动次数以及产生的流量综合分析出IP的平均流量,可以得到单位下活跃IP的综合排名。最终还可以以单位为中心,统计出单位的活跃IP数量以及IP的平均流量,按照IP平均流量等对单位进行排名。

【技术实现步骤摘要】

本专利技术涉及互联网
更具体的,本专利技术涉及一种利用访问日志来统计用户活跃IP的方法。
技术介绍
近年来,随着光纤普及以及互联网带宽的迅猛发展,各种ICP接入的带宽也越来越高,随之产生的网络流量也越来越大,尔后产生的问题就是面对大量的上网流量,如何能快速发现哪些IP是活跃的,IP活跃的分布情况,以及出现流量异常时如何快速准确的确定出问题的IP,上述都是接入单位和网络接入商共同关注的焦点问题。对于教育网这个特定的环境,原来都是按照单位对其下所有的流量进行汇总,或者针对单个IP查看其流量情况,没有从时间角度看下面IP活跃情况以及对整体IP活跃和平均流量的变化情况做趋势分析和统计,这个从宏观角度更能对未来IP和流量趋势做出预估和判断,进而为业务的开展提供更明确的数据支持。
技术实现思路
为此,本专利技术提出了一种基于流量日志来统计用户IP活跃度的方法,以解决上述技术问题。根据本专利技术一方面,提供了一种基于流量日志统计用户IP活跃度的方法,包括:步骤1、基于教育网骨干主节点采集IP访问日志记录;步骤2、从所获取的IP访问日志记录中过滤异常访问IP记录;步骤3、对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度的排名。根据本专利技术另一方面,提供了一种基于流量日志统计用户IP活跃度的系统,包括:采集模块,用于基于教育网骨干主节点采集IP访问日志记录;过滤模块,用于从所获取的IP访问日志记录中过滤异常访问IP记录;统计模块,用于对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度的排名。本专利技术提出的上述方案基于ICP访问日志文件,对日志中的异常IP访问流量记录进行识别,专利技术了一种异常访问流量去重的方法,在日志中去除异常点击,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击进行识别去重,对去重后的流量提取源和目标IP以及产生的流量,来统计出每天网内活跃的IP以及其流量,再根据IP归属标示出IP对应单位,根据每个IP的活动次数以及产生的流量综合分析出IP的平均流量,可以得到单位下活跃IP的综合排名。最终还可以以单位为中心,统计出单位的活跃IP数量以及IP的平均流量,按照IP平均流量等对单位进行排名。附图说明图1是本专利技术中基于流量日志来统计用户IP活跃度的方法流程图;图2是本专利技术中并行算法设计架构框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术提出了一种基于流量日志来统计用户IP活跃度的方法,如图1所示,其包括:步骤1、基于教育网骨干主节点采集IP访问样本数据;本专利技术优选实施例中基于的ICP访问日志是教育网38个骨干网主节点每个小时采集一次,每次5分钟的IP访问采集抽样数据,然后汇总起来,这样就是整个网络每天24个样本文件,其包含每小时中5分钟的所有用户访问轨迹信息。样本格式举例如下:每条访问IP记录包括:源IP地址、目的IP地址、源IP地址连接目的IP地址产生的流量数据和服务器信息即采集点;上述举例样本数据可拆解为以下4个变量源IP:记录发起访问端的IP信息,如223.252.209.144目标IP:记录被访问端的IP信息,如210.46.102.44流量:源IP连接目标IP产生的流量,如552字节.服务器信息:采集点,如nbos38步骤2、从所获取的IP访问信息中过滤异常访问IP记录;具体包括:教育网骨干38节点访问日志记录了教育网的院校用户上网浏览行为。日志记录的内容有:用户IP,序列号,正常情况下,用户一天内在一台机器上访问互联网,所留下的点击记录里用户ID是一致的;点击时间,点击发生的时间;目的地址,用户此次点击要访问页面的URL;源地址,用户从该URL点击目的地址。下面以2015年10月21日的数据,共234786722条记录为例说明。在日志分析中,存在一些用户点击频率过高的现象,表现为一秒钟连续点击多次,这种情况的异常性很明显。作为自然人的用户只有在刷新页面时才可能一秒钟点击两次以上,但是用户刷新页面的行为不能够完全解释一秒连续点击多次的现象,通过以下的步骤21中的两种方法对重复访问IP及异常IP记录进行去重。步骤21、计算用户访问集中度和用户平均访问量正常的用户点击日志,在点击记录数和访问过的站点数之间满足一定的关系,但是异常点击行为的这两个数据却可能呈现出不一样的关系。可能出现用户访问站点过于集中或过于分散的状况。访问集中度即是用来衡量用户访问过的站点数偏离正常情况的程度。正常情况下,点击记录数和访问站点数之间的关系,不是一个简单的数学关系,还和当时互联网上有多少站点有关。因此本专利技术利用这样的方法来定义访问集中度,如果待研究的目标记录有N条,我们从一天的日志中随机提取与N相当的记录数rand(N)(可采用的随机提取算法,不能保证精确提取N条,但是是与N相当的记录数,即两者的差值在预定阈值范围内),N条记录访问的站点集合为site(N),站点数为#site(N),随机提取记录访问的站点集合为site(rand(N)),访问站点数为#site(rand(N))。访问集中度的公式如下:访问集中度=【N/#site(N)】/【rand(N)/#site(rand(N))】正常浏览互联网的用户群体,一天的访问量满足一个比较稳定的分布,有一个比较稳定的平均值,如果是有某种异常行为的用户群体,他们的平均访问量可能会有一些不同。假设目标用户数为U,他们一天的点击数为click(U),用户平均访问量的公式如下:用户平均访问量=click(U)/U步骤22、根据访问集中度和用户平均访问量对异常访问IP记录做去重过滤;首先,连续点击不同次数的点击分布如表1所示,可以看出连续点击两次的点击数,相对于连续点击三次及三次以上的点击数异常的高,分别分析这些连续点击的特征得到表1的结果。表1重复连续点击特征统计从表1看到,在连续点击中完全重复的比例很高,尤其是两次连续点击,比例高达26.29%。对于这些连续点击,我们认为产生的原因如下:1)用户偶然的刷新造成的记录重复,在重复点击次数过多时,这种情况发生的可能性不大。2)有一些站点本身设计有问题,用户在点击这些站点时,会产生等同于双击或多次点击的效果致使日志上留下了几次完全一样的记录,这种情况的可能性也不大。3)最后一种,就是与其他连续点击一样,是本文档来自技高网...

【技术保护点】
一种基于流量日志统计用户IP活跃度的方法,其特征在于,包括:步骤1、基于教育网骨干主节点采集IP访问日志记录;步骤2、从所获取的IP访问日志记录中过滤异常访问IP记录;步骤3、对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度的排名。

【技术特征摘要】
1.一种基于流量日志统计用户IP活跃度的方法,其特征在于,包括:
步骤1、基于教育网骨干主节点采集IP访问日志记录;
步骤2、从所获取的IP访问日志记录中过滤异常访问IP记录;
步骤3、对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度
的排名。
2.如权利要求1所述的方法,其特征在于,步骤1中所采集的IP访问日志记录为从教育
网38个骨干网主节点每小时采集一次,每次5分钟得到的IP访问采样数据。
3.如权利要求1所述的方法,其特征在于,步骤2中所述异常访问IP记录包括点击频率
高于正常用户点击频率的访问记录。
4.如权利要求3所述的方法,其特征在于,步骤2包括:
步骤21、计算用户访问集中度和用户平均访问量;
步骤22、根据所述用户访问集中度和用户平均访问量对异常访问IP记录做去重过滤。
5.如权利要求4所述的方法,其特征在于,步骤21中用户访问集中度如下计算:
访问集中度=【N/#site(N)】/【rand(N)/#site(rand(N))】
其中,N为当前处理的IP访问记录数目,site(N)为N条IP访问记录所访问的站点数目,
rand(N)为从一天的IP访问日志记录中随机提取的与N数目相当的随机访问记录...

【专利技术属性】
技术研发人员:黄友俊李星吴建平段晓磊邓斌
申请(专利权)人:赛尔网络有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1