本发明专利技术涉及数据处理技术领域,特别涉及一种生成大数据排行榜的方法。该生成大数据排行榜的方法包括如下步骤:选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜,其中,排名数量为目标排行榜中容纳的数据数量;建立与第一数据元素集对应的存储空间,用以存储第一数据元素集;基于初始排行榜,确定该初始排行榜中的第一极值数据,其中,第一极值数据,表征第一数据元素集中的最小值的数据元素;将第二数据元素集中的数据元素与第一极值数据比对,基于预设的比对规则,确定比对结果,其中,第二数据元素集,表征大数据中除第一数据元素集之外的数据元素;根据比对结果,生成目标排行榜。具有占用内存小,收敛速度快,效率高的优点。高的优点。高的优点。
【技术实现步骤摘要】
一种生成大数据排行榜的方法、装置、设备及存储介质
[0001]本专利技术涉及数据处理
,特别涉及一种生成大数据排行榜的方法、装置、设备及存储介质。
技术介绍
[0002]随着移动互联网应用技术的发展,产生了各种不同的业务场景,这些业务场景无时无刻不在产生与之对应的信息流,这些信息流又通过积累聚合产生新的信息价值:排行榜。
[0003]排行榜是对某一相关同类事物的客观实力的反映,带有相互之间的比较性质。比如,话题排行榜、帖子排行榜、游戏战绩排行榜、关注度排行榜、流行歌曲排行榜、球队实力排行榜等等。
[0004]目前,排行榜往往需要在巨量的数据中获得,例如,从1000万条会话中找出流量峰值TOP200的会话,相关的算法是对1000万条会话按照流量峰值进行排序,然后,取前200条会话继续分析,显而易见,相关算法至少需要额外开辟1000万个会话的存储空间,快速排序算法的时间复杂度是O(n),1000万个会话排序完成后,仅0.002%的数据是需要的,99.998%的排序是不需要的,不但消耗内存资源和时间,而且,做了很多无用功。
[0005]因此,亟需一种方法,能够在海量数据的情况下,节约内存、高效和快速的生成排行榜。
技术实现思路
[0006]本申请提供了一种生成大数据排行榜的方法、装置、设备及存储介质,以解决现有的大数据排行榜占用内存大,效率低和速度慢的问题。
[0007]本专利技术第一方面提供一种生成大数据排行榜的方法,包括如下步骤:
[0008]选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜,其中,排名数量为目标排行榜中容纳的数据数量;
[0009]建立与第一数据元素集对应的存储空间,用以存储第一数据元素集;
[0010]基于初始排行榜,确定该初始排行榜中的第一极值数据,其中,第一极值数据,表征第一数据元素集中的最小值的数据元素;
[0011]将第二数据元素集中的数据元素与第一极值数据比对,基于预设的比对规则,确定比对结果,其中,第二数据元素集,表征大数据中除第一数据元素集之外的数据元素;
[0012]根据比对结果,生成目标排行榜。
[0013]在其中一个可实施方式中,选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜的步骤中,还包括:
[0014]对第一数据元素集初始化。
[0015]在其中一个可实施方式中,基于初始排行榜,确定该初始排行榜中的第一极值数据的步骤中,还包括:
[0016]对初始排行榜中的第一极值数据,进行索引标记,以便通过索引标记找到该第一极值数据。
[0017]在其中一个可实施方式中,将第二数据元素集中的数据元素与第一极值数据比对,基于预设的比对规则,确定比对结果的步骤中,还包括:
[0018]确定数据元素与第一极值数据的大小;
[0019]基于预设的对比规则,选择是否更新第一极值数据。
[0020]在其中一个可实施方式中,根据比对结果,生成目标排行榜的步骤中,还包括:
[0021]根据比对结果,判断是否需要更新第一极值数据;
[0022]若更新第一极值数据,计算更新后的初始排行榜的极值数据,得到第二极值数据,对第二极值数据进行索引标记;
[0023]若不更新第一极值数据,将比对的数据元素舍弃,继续遍历第二数据元素集。
[0024]在其中一个可实施方式中,若更新第一极值数据,计算更新后的初始排行榜的极值数据,得到第二极值数据,对第二极值数据进行索引标记的步骤中,还包括;
[0025]根据第一极值数据更新的结果,舍弃该第一极值数据;
[0026]更新第一数据元素集,存储空间存储与该第一极值数据比对的数据元素。
[0027]在其中一个可实施方式中,根据比对结果,生成目标排行榜的步骤之后,还包括:
[0028]对目标排行榜中的数据元素进行顺序排序;
[0029]基于顺序排序结果,并更新目标排行榜。
[0030]本专利技术第二方面提供一种生成大数据排行榜的方法的装置,包括:
[0031]建立单元,用于选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜,其中,排名数量为目标排行榜中容纳的数据数量;
[0032]存储单元,用于建立与第一数据元素集对应的存储空间,用以存储第一数据元素集;
[0033]确定单元,用于基于初始排行榜,确定该初始排行榜中的第一极值数据,其中,第一极值数据,表征第一数据元素集中的最小值的数据元素;
[0034]比对单元,用于将第二数据元素集中的数据元素与第一极值数据比对,基于预设的比对规则,确定比对结果,其中,第二数据元素集,表征大数据中除第一数据元素集之外的数据元素;
[0035]生成排行榜单元,用于根据比对结果,生成目标排行榜。
[0036]本专利技术第三方面提供一种计算机可读存储介质,该存储介质存储可执行指令,可执行指令在被处理器执行时,导致如上述的生成大数据排行榜的方法的执行。
[0037]本专利技术第四方面提供一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述的生成大数据排行榜的方法。
[0038]由以上方案可知,本申请提供了一种生成大数据排行榜的方法、装置、设备及存储介质,在大数据中选取与排名数量相对应的第一数据元素集,构成初始排行榜;计算初始排行榜中的第一极值数据,遍历第二数据元素集,并与第一极值数据进行依次比对,根据比对的预设规则对第一极值数据进行更新,最终生成目标排行榜。本申请的方案通过,数据元素与第一极值数据不断的比对过程中,第二数据元素集中数据元素舍弃的会越来越多,收敛
速度越来越快,并且,无需开辟额外的回话存储空间,具有内存消耗小,结果精度高,不受设备和平台限制,适用性广的优点。
附图说明
[0039]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本申请提供的一种生成大数据排行榜的方法的流程示意图;
[0041]图2为本申请提供的一种生成大数据排行榜的方法的第二数据元素集中的数据元素与第一极值数据比对的流程示意图;
[0042]图3为本申请提供的一种生成大数据排行榜的方法的生成目标排行榜的过程流程示意图;
[0043]图4为本申请提供的一种生成大数据排行榜的方法的目标排行榜排序程流程示意图;
[0044]图5为本申请提供的一种生成大数据排行榜的方法的存储空间更新的流程示意图;
[0045]图6为本申请提供的一种生成大数据排行榜的方法的实施例的流程示意图。
具体实施方式
[0046]为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种生成大数据排行榜的方法,其特征在于,包括如下步骤:选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜,其中,所述排名数量为目标排行榜中容纳的数据数量;建立与所述第一数据元素集对应的存储空间,用以存储所述第一数据元素集;基于所述初始排行榜,确定该初始排行榜中的第一极值数据,其中,所述第一极值数据,表征所述第一数据元素集中的最小值的数据元素;将第二数据元素集中的数据元素与所述第一极值数据比对,基于预设的比对规则,确定比对结果,其中,所述第二数据元素集,表征所述大数据中除所述第一数据元素集之外的数据元素;根据比对结果,生成目标排行榜。2.如权利要求1所述的方法,其特征在于,所述选取大数据中与排名数量相同的第一数据元素集,作为初始排行榜的步骤中,还包括:对所述第一数据元素集初始化。3.如权利要求1所述的方法,其特征在于,所述基于所述初始排行榜,确定该初始排行榜中的第一极值数据的步骤中,还包括:对所述初始排行榜中的第一极值数据,进行索引标记,以便通过索引标记找到该第一极值数据。4.如权利要求1所述的方法,其特征在于,所述将第二数据元素集中的数据元素与所述第一极值数据比对,基于预设的比对规则,确定比对结果的步骤中,还包括:确定所述数据元素与所述第一极值数据的大小;基于预设的对比规则,选择是否更新所述第一极值数据。5.如权利要求1所述的方法,其特征在于,所述根据所述比对结果,生成目标排行榜的步骤中,还包括:根据比对结果,判断是否需要更新所述第一极值数据;若更新所述第一极值数据,计算更新后的所述初始排行榜的极值数据,得到第二极值数据,对所述第二极值数据进行索引标记;若不更新所述第一极值数据,将比对的数据元素舍弃,继续遍历所述第二数据元素集。6.如权利要求5所述的方法,其特征在于,所述若更新所...
【专利技术属性】
技术研发人员:张贵昌,
申请(专利权)人:武汉思普崚技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。