页面访问数据统计方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25224251 阅读:20 留言:0更新日期:2020-08-11 23:13
本发明专利技术实施例公开了一种页面访问数据统计方法、装置、电子设备及存储介质,所述方法包括:根据页面访问日志数据,确定第一访问路径表;将第一访问路径表中的访问路径转换成路径标识,得到第二访问路径表;根据第二访问路径表中各用户标识与路径标识的对应关系,确定各页面的访客数。本发明专利技术实施例由于将第一访问路径表中的访问路径转换成路径标识,因此可以根据路径标识进行路径精确匹配,从而可以使得页面访问情况的查询性能得以大幅提升。

【技术实现步骤摘要】
页面访问数据统计方法、装置、电子设备及存储介质
本专利技术涉及计算机
,具体涉及一种页面访问数据统计方法、装置、电子设备及存储介质。
技术介绍
漏斗分析模型已经广泛应用于流量监控、产品目标转化等日常数据运营与数据分析的工作中。例如在一款产品服务平台中,直播用户从激活APP开始到花费,一般的用户购物路径为激活APP、注册账号、进入直播间、互动行为和礼物花费五大阶段,漏斗能够展现出各个阶段的转化率,通过漏斗各环节相关数据的比较,能够直观地发现和说明问题所在,从而找到优化方向。目前在进行漏斗分析时,是将用户浏览页面(URL地址)、点击按钮(Xpath路径)、操作的业务事件(登录、注册事件ID等)等长字符串通过短链处理转换成6位字符串,然后按用户将一天操作记录按时间拼接成长串(一个用户一天一条记录),然后通过druid自带like和正则表达进行过滤筛选得到每步用户数,其详细实现过程如图2所示。在数据量大的前提下,现有的解决方案存在如下缺点:查询非常耗时,经常会查询卡死问题,因为CPU一直在计算模糊匹配和正则匹配,迟迟无法释放。
技术实现思路
由于现有方法存在上述问题,本专利技术实施例提出一种页面访问数据统计方法、装置、电子设备及存储介质。具体地,本专利技术实施例提供了以下技术方案:第一方面,本专利技术实施例提供了一种页面访问数据统计方法,包括:根据页面访问日志数据,确定第一访问路径表;其中,所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系;将第一访问路径表中的访问路径转换成路径标识,得到第二访问路径表;根据第二访问路径表中各用户标识与路径标识的对应关系,确定各页面的访客数。进一步地,将第一访问路径表中的访问路径转换成路径标识,得到第二访问路径表,具体包括:根据各页面之间的访问顺序依赖关系,建立路径标识对应表;其中,所述路径标识对应表中存储有访问路径与路径标识的对应关系,且,与各页面对应的路径标识的取值由各页面之间的访问顺序依赖关系确定;根据所述路径标识对应表,将第一访问路径表中的访问路径,转换为路径标识,以得到第二访问路径表。进一步地,所述访问路径为字符串类型的访问路径,所述路径标识为整型的路径标识。进一步地,所述根据第二访问路径表中各用户标识与路径标识的对应关系,确定各页面的访客数,具体包括:将第二访问路径表中各用户标识在一个时间周期内访问的路径标识分别生成一条数据记录,得到第一路径标识记录表;其中,所述第一路径标识记录表中存储有各用户标识在各个时间周期内的数据记录,所述第一路径标识记录表中每一行对应存储一个用户标识的一条数据记录;所述数据记录中存储该用户标识在一个时间周期内访问的全部路径标识;根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录包含的路径标识,确定各页面的访客数。进一步地,所述根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录包含的路径标识,确定各页面的访客数,具体包括:根据第一路径标识记录表中各数据记录包含的路径标识,确定访问页面数量;根据所述访问页面数量,创建相应数量的存储对象;其中,一个存储对象对应一个页面,且用于存储访问同一页面的用户标识;根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录是否存在与存储对象对应页面的路径标识,确定与各存储对象对应的页面的访客数。进一步地,所述存储对象为集合;相应地,根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录是否存在与存储对象对应页面的路径标识,确定与各存储对象对应的页面的访客数,具体包括:依次遍历所述第一路径标识记录表中每一条数据记录,若确定所述数据记录中存在与集合对应页面的路径标识,则将路径标识对应的用户标识存入与相应页面对应的集合中;对各集合中的用户标识进行去重处理,并统计去重处理后各集合中的用户标识的数量;根据去重处理后各集合中用户标识的数量,确定与各集合对应的页面的访客数。进一步地,所述存储对象为HyperLogLog对象;相应地,根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录是否存在与存储对象对应页面的路径标识,确定与各存储对象对应的页面的访客数,具体包括:通过MurmurHash将第一路径标识记录表中的字符串类型的用户标识转换成整型用户标识,得到第二路径标识记录表;依次遍历所述第二路径标识记录表中每一条数据记录,若确定所述数据记录中存在与HyperLogLog对象对应页面的路径标识,则将路径标识对应的整型用户标识存入与相应页面对应的HyperLogLog对象中;对各HyperLogLog对象中的整型用户标识进行去重处理,并确定去重处理后各HyperLogLog对象的集合值;根据去重处理后各HyperLogLog对象的集合值,确定与各HyperLogLog对象对应的页面的访客数。第二方面,本专利技术实施例还提供了一种页面访问数据统计装置,包括:第一确定模块,用于根据页面访问日志数据,确定第一访问路径表;其中,所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系;转换模块,用于将第一访问路径表中的访问路径转换成路径标识,得到第二访问路径表;第二确定模块,用于根据第二访问路径表中各用户标识与路径标识的对应关系,确定各页面的访客数。第三方面,本专利技术实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的页面访问数据统计方法。第四方面,本专利技术实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的页面访问数据统计方法。由上述技术方案可知,本专利技术实施例提供的页面访问数据统计方法、装置、电子设备及存储介质,由于将第一访问路径表中的访问路径转换成路径标识,因此可以根据路径标识进行路径精确匹配,从而可以使得页面访问情况的查询性能得以大幅提升,根据测试,采用本专利技术实施例改进后的方法相较于原来的基于like和正则的模糊匹配方法,耗时仅仅是原来的二十分之一。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1是本专利技术一实施例提供的页面访问数据统计方法的流程图;图2是现有技术中通过druid自带like和正则表达进行过滤筛选得到每步用户数的处理过程示意图;图3是本专利技术一实施例提供的页面访问数据统计装置的结构示意图;图4是本专利技术一实施例提供的电子设备的结构示意图。本文档来自技高网...

【技术保护点】
1.一种页面访问数据统计方法,其特征在于,包括:/n根据页面访问日志数据,确定第一访问路径表;其中,所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系;/n将第一访问路径表中的访问路径转换成路径标识,得到第二访问路径表;/n根据第二访问路径表中各用户标识与路径标识的对应关系,确定各页面的访客数。/n

【技术特征摘要】
1.一种页面访问数据统计方法,其特征在于,包括:
根据页面访问日志数据,确定第一访问路径表;其中,所述第一访问路径表中存储有各用户标识与各页面的访问路径之间的对应关系;
将第一访问路径表中的访问路径转换成路径标识,得到第二访问路径表;
根据第二访问路径表中各用户标识与路径标识的对应关系,确定各页面的访客数。


2.根据权利要求1所述的页面访问数据统计方法,其特征在于,将第一访问路径表中的访问路径转换成路径标识,得到第二访问路径表,具体包括:
根据各页面之间的访问顺序依赖关系,建立路径标识对应表;其中,所述路径标识对应表中存储有访问路径与路径标识的对应关系,且,与各页面对应的路径标识的取值由各页面之间的访问顺序依赖关系确定;
根据所述路径标识对应表,将第一访问路径表中的访问路径,转换为路径标识,以得到第二访问路径表。


3.根据权利要求2所述的页面访问数据统计方法,其特征在于,所述访问路径为字符串类型的访问路径,所述路径标识为整型的路径标识。


4.根据权利要求2所述的页面访问数据统计方法,其特征在于,所述根据第二访问路径表中各用户标识与路径标识的对应关系,确定各页面的访客数,具体包括:
将第二访问路径表中各用户标识在一个时间周期内访问的路径标识分别生成一条数据记录,得到第一路径标识记录表;其中,所述第一路径标识记录表中存储有各用户标识在各个时间周期内的数据记录,所述第一路径标识记录表中每一行对应存储一个用户标识的一条数据记录;所述数据记录中存储该用户标识在一个时间周期内访问的全部路径标识;
根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录包含的路径标识,确定各页面的访客数。


5.根据权利要求4所述的页面访问数据统计方法,其特征在于,所述根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录包含的路径标识,确定各页面的访客数,具体包括:
根据第一路径标识记录表中各数据记录包含的路径标识,确定访问页面数量;
根据所述访问页面数量,创建相应数量的存储对象;其中,一个存储对象对应一个页面,且用于存储访问同一页面的用户标识;
根据第一路径标识记录表中各用户标识与数据记录的对应关系,以及,各数据记录是否存在与存储对象对应页面的路径标识,确定与各存储对象对应的页面的访客数。


6.根据权利要求5所述的页面访问数据统计方法,其特征...

【专利技术属性】
技术研发人员:李小海
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1