本发明专利技术实施例公开了一种海量数据的热点数据的分析方法、系统及相关设备,用于准确地从海量数据中分析出任意周期的热点数据。本发明专利技术实施例方法包括:计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;若相符,则将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
【技术实现步骤摘要】
本专利技术涉及海量数据的处理
,具体涉及一种海量数据的热点数据的分析 方法、系统及相关设备。
技术介绍
随着互联网的发展,各行业都面临着海量数据的处理。其中,如何实时、有效且低 成本地分析出海量数据中的热点数据,对于进行海量数据分级存储、热点数据就近接入等 都具有重大意义。目前,海量数据中的热点数据的分析主要包括以下两种方法:A1,根据数据被访问次数的宏观规律,预设数据被访问的阀值,在数据被访问的次 数超过预设的阀值时,该数据作为热点数据;A2,根据数据被访问时间的形态规律,将访问时间在某一时间后的数据作为热点 数据。 专利技术人发现以上两种热点数据的分析方法分别存在如下技术问题: 对A1中的分析方法,没有考虑到数据被访问的时间局限性,大部分数据在某一历 史时间段内被频繁访问,成为历史时间段内的热点数据,但是在历史时间段后不再被访问 或访问较少,成为冷数据,但是仍然被作为热点数据; 对A2中的分析方法,没有考虑数据被访问的频率,对于某些新上传的文件中的数 据,可能只被访问过一次,却被作为热点数据。
技术实现思路
针对上述存在的技术问题,本专利技术实施例提供了一种海量数据的热点数据的分析 方法、系统及相关设备,能够准确地获得任意时间周期内的热点数据。 本专利技术第一方面提供了一种海量数据的热点数据的分析方法,包括: 计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时 间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒 度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每 一种所述参考逻辑时间内至少一个数据的访问次数; 确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否 相符; 若相符,则将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预 设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。 进一步地,所述计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得 到第一逻辑时间包括:获取第一当前时间;计算所述第一当前时间与格林威治标准时间的 第一偏移量;根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。 在一个可实施的方式中,所述方法还包括:当收到边缘节点的数据访问请求时,对 所述多周期访问频度列表进行更新,所述数据访问请求中包括数据的特征信息。 进一步地,所述对所述多周期访问频度列表进行更新包括:计算第二当前时间的 第二偏移量,并根据所述第二偏移量计算得到第二逻辑时间;所述第二逻辑时间的时间粒 度与所述多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;确定所述第二逻辑 时间是否与所述多周期访问频度列表中的目标参考逻辑时间相符;若相符,则更新所述多 周期访问频度列表的目标参考逻辑时间中所述特征信息对应的数据的访问次数;若不相 符,则更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度列表中 目标参考逻辑时间中的数据的访问次数。 进一步地,所述计算第二当前时间的第二偏移量,并根据所述第二偏移量计算得 到第二逻辑时间包括:获取第二当前时间;计算所述第二当前时间与所述格林威治标准时 间的第二偏移量;根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。 优选地,所述多周期归档算法的计算公式为: 逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒 度;所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;或所述逻辑时 间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。 进一步地,所述更新所述多周期访问频度列表中的目标参考逻辑时间中数据的访 问次数包括:将N+1,所述N为所述多周期访问频度列表的目标参考逻辑时间中的所述特征 信息对应的数据的访问次数,且所述N为大于或等于1的正整数; 所述更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期访问频度 列表中目标参考逻辑时间中的数据的访问次数包括:将T+1,并将所述多周期访问频度列 表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数重置1,其它访问次数重 置〇 ;所述T为所述多周期访问频度列表中的目标参考逻辑时间,且所述T为大于或等于1 的正整数。 本专利技术第二方面提供了一种中心节点设备,可包括: 计算模块,用于计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得 到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑 时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻 辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数; 时间确认模块,确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考 逻辑时间是否相符; 热点确定模块,用于在所述第一逻辑时间与所述多周期访问频度列表中的目标参 考逻辑时间相符时,将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预 设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。 进一步地,所述计算模块包括: 第一获取模块,用于获取第一当前时间; 第一计算模块,用于计算所述第一当前时间与格林威治标准时间的第一偏移量, 并根据所述第一偏移量,采用多周期归档算法计算第一逻辑时间。 在一个可实施的方式中,所述装置还包括: 更新模块,当收到边缘节点的数据访问请求时,用于对所述多周期访问频度列表 进行更新。 进一步地,所述更新模块包括: 第二计算模块,用于计算第二当前时间的第二偏移量,并根据所述第二偏移量计 算得到第二逻辑时间;所述第二逻辑时间的时间粒度与所述多周期访问频度列表中的目标 参考逻辑时间的时间粒度相同; 第二确认模块,用于确定所述第二逻辑时间是否与所述多周期访问频度列表中的 目标参考逻辑时间相符; 第一更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参 考逻辑时间相符时,更新所述多周期访问频度列表的目标参考逻辑时间中所述特征信息对 应的数据的访问次数; 第二更新模块,用于在所述第二逻辑时间与所述多周期访问频度列表中的目标参 考逻辑时间不相符时,更新所述多周期访问频度列表中目标参考逻辑时间,和所述多周期 访问频度列表中目标参考逻辑时间中的数据的访问次数。 进一步地,所述第二计算模块包括: 第三获取模块,用于获取第二当前时间; 第三计算模块,用于计算所述第二当前时间与所述格林威治标准时间的第二偏移 量,并根据所述第二偏移量,采用所述多周期归档算法计算得到第二逻辑时间。 优选地,所述多周期归档算法的计算公式为: 逻辑时间=时间的偏移量/时间粒度,所述时间粒度为所述逻辑时间的时间粒 度;所述逻辑时间为第一逻辑时间,所述时间的偏移量为所述第一偏移量;或所述逻辑时 间为第二逻辑时间,所述时间的偏移量为所述第二偏移量。 进一步地,所述不相符具体为:所述第二逻辑时间大于所述多周期访问频度列表 中的目标参考逻辑时间。 进一步地,所述第一更新模块具体用于:将N+1,所述N为所述多周期访问频度列 表的目标参考逻辑时间中的所述特征信息对应的数据的访问次数,且所述N为大于或等于 1的正整数; 所述第二更新模块具体用于:将T+1,并将所述多周期访问频度列表的目标参考 逻辑时间中的所述本文档来自技高网...
【技术保护点】
一种海量数据的热点数据的分析方法,其特征在于,包括:计算第一当前时间的第一偏移量,并根据所述第一偏移量计算得到第一逻辑时间;所述第一逻辑时间的时间粒度与多周期访问频度列表中的目标参考逻辑时间的时间粒度相同;所述多周期访问频度列表至少包括至少一种不同时间粒度的参考逻辑时间和在每一种所述参考逻辑时间内至少一个数据的访问次数;确认所述第一逻辑时间与所述多周期访问频度列表中的目标参考逻辑时间是否相符;若相符,则将所述多周期访问频度列表中的目标参考逻辑时间内访问次数满足预设阀值的数据作为在所述第一逻辑时间的时间粒度内的热点数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:詹晓倩,谢建东,刘金明,黄耀龙,黄宏文,杜伟,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。