一种统计互联网用户行为的方法和系统技术方案

技术编号:14053587 阅读:63 留言:0更新日期:2016-11-26 02:53
本发明专利技术公开了一种统计互联网用户行为的方法和系统,其中,所述方法包括:步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。其能准确提炼出动作行为的顺序和数量。

【技术实现步骤摘要】

本专利技术属于互联网领域,尤其涉及一种统计互联网用户行为的方法和系统
技术介绍
随着互联网技本的迅猛发展,越来越多的用户开始接入并频繁使用互联网。各种互联网平台介入到用户的生活中,在社交、娱乐、购买物品、日常服务等多个环节提供帮助。互联网用户的行为,积累了大量的数据,可以用来量化用户的具体行为模式,进而有助于提高商业效率,和比较各个互联网平台所创造的价值。在海量的流量数据中,如何挖掘数据价值,准确提炼出互联网用户的关键行为动作,是重要的一环。现有技术中,用户的线上行为产生数据请求,不同的行为,请求的数据形式也不相同。通过对各个网站的DNS日志、URL日志的深度解析,描绘特定用户行为下DNS、URL请求规律,统计各种动作的数量。其中,DNS、URL请求规律与网站或APP的架构相关联。当网站或APP进行改版后,当前算法中包含的具体域名和动作定义需要跟着更新,运营维护成本较高。
技术实现思路
本专利技术所要解决的技术问题是提供一种统计互联网用户行为的方法和装置,用于克服现有技术存在的以上问题。本专利技术解决上述技术问题所采取的技术方案如下:一种统计互联网用户行为的方法,包括:步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。优选的是,步骤1)中,具体包括:根据不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作;对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据;将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。优选的是,步骤1)中,还包括:针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS日志、URL日志请求规律与各类用户动作做概率映射,由此提炼出动作行为的顺序和数量。优选的是,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据,包括:行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征;将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。优选的是,步骤1)中,如果用户通过各个访问类型产生的域名请求不相同,则将DNS日志和URL日志中某个互联网平台的用户动作串归类于上述各个访问类型中,由此更好地描述用户的行为。优选的是,步骤1)中,具体还包括:定义一个随机变量,用于描述一个请求序列对应于不同用户动作的概率分布,具体来说:假设存在N种需要追踪的用户动作,记表示第i种用户动作对应的域名序列占所有域名序列的比例,此比例即为先验概率;假设DNS服务器端日志中可以检测到一共M组域名序列,记是客户端发生第i种用户动作时在DNS服务器端日志中检测出第j种域名序列的条件概率;根据贝叶斯理论,对于一条新检测出的,未知其真实用户行为的域名序列k,对应的客户端发生第1种用户动作的概率为 P ( B = l | S = k ) = P ( S = k | B = l ) P ( B = l ) Σ i = 1 N P ( S = k | B = i ) P ( B = i ) ]]>此概率即为后验概率;给上述的概率多赋予一个时间参数,根据前一天的后验概率计算出后一天均先验概率,公式为 P ( B = i , t = 1 ) = Σ j = 1 M P ( B = i | S = j , t = 0 ) P ( S = j , t = 0 ) ]]>这里表示前一天第j种域名序列占所有域名序列的比例;建立一个训练集合,训练集合记录的是在不同软硬件以及网络环境下,在定义好客户端用户动作前提下,服务器端DNS日志中记录的域名序列;训练集合的数据结构遵从监督式学习中训练集的组织方式,以域名序列和用户动作的二元结构呈现;其中,一个足够大的训练集合中,只需先计算第i种用户动作发生导致第j种域名序列的频次以及第i种用户动作发生的频次,则 P ( S = j | B = i ) = F ( i , j ) F ( i ) ]]>即为所需条件概率;此外,还包括:重复以上步骤,可得到不同时间段不同用户行为的概率分布。一种统计互联网用户行为的系统,包括:用户行为统计模块,使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;用户行为分析模块,基于以上用户行为,分析互联网用户的动作规律或行为模式;基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。优选的是,所述用户行为统计模块,进一步根据不同的互联网平台,按照用户在平台上的习惯本文档来自技高网...
一种统计互联网用户行为的方法和系统

【技术保护点】
一种统计互联网用户行为的方法,其特征在于,包括:步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。

【技术特征摘要】
1.一种统计互联网用户行为的方法,其特征在于,包括:步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。2.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,步骤1)中,具体包括:根据不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作;对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据;将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。3.根据权利要求1或2所述的统计互联网用户行为的方法,其特征在于,步骤1)中,还包括:针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS日志、URL日志请求规律与各类用户动作做概率映射,由此提炼出动作行为的顺序和数量。4.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据,包括:行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征;将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。5.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,步骤1)中,如果用户通过各个访问类型产生的域名请求不相同,则将DNS日志和URL日志中某个互联网平台的用户动作串归类于上述各个访问类型中,由此更好地描述用户的行为。6.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,步骤1)中,具体还包括:定义一个随机变量,用于描述一个请求序列对应于不同用户动作的概率分布,具体来说:假设存在N种需要追踪的用户动作,记表示第i种用户动作对应的域名序列占所有域名序列的比例,此比例即为先验概率;假设DNS服务器端日志中可以检测到一共M组域名序列,记是客户端发生第i种用户动作时在DNS服务器端日志中检测出第j种域名序列的条件概率;根据贝叶斯理论,对于一条新检测出的,未知其真实用户行为的域名序列k,对应的客户端发生第1种用户动作的概率为 P ( B = l | S = k ) = P ( S = k | B = l ) P ( B | l ) Σ i = 1 N P ( S = k | B = i ) P ( B...

【专利技术属性】
技术研发人员:尹嘉路白晟张伟丁文涛
申请(专利权)人:久远谦长北京技术服务有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1