一种生成大数据排行榜的方法、装置、设备及存储介质制造方法及图纸

技术编号：35602005 阅读：25 留言：0更新日期：2022-11-16 15:23

本发明专利技术涉及数据处理技术领域，特别涉及一种生成大数据排行榜的方法。该生成大数据排行榜的方法包括如下步骤：选取大数据中与排名数量相同的第一数据元素集，作为初始排行榜,其中,排名数量为目标排行榜中容纳的数据数量；建立与第一数据元素集对应的存储空间,用以存储第一数据元素集；基于初始排行榜，确定该初始排行榜中的第一极值数据，其中，第一极值数据，表征第一数据元素集中的最小值的数据元素；将第二数据元素集中的数据元素与第一极值数据比对，基于预设的比对规则，确定比对结果,其中,第二数据元素集,表征大数据中除第一数据元素集之外的数据元素；根据比对结果，生成目标排行榜。具有占用内存小，收敛速度快，效率高的优点。高的优点。高的优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种生成大数据排行榜的方法、装置、设备及存储介质

[0001]本专利技术涉及数据处理
，特别涉及一种生成大数据排行榜的方法、装置、设备及存储介质。

技术介绍

[0002]随着移动互联网应用技术的发展，产生了各种不同的业务场景，这些业务场景无时无刻不在产生与之对应的信息流，这些信息流又通过积累聚合产生新的信息价值：排行榜。
[0003]排行榜是对某一相关同类事物的客观实力的反映，带有相互之间的比较性质。比如，话题排行榜、帖子排行榜、游戏战绩排行榜、关注度排行榜、流行歌曲排行榜、球队实力排行榜等等。
[0004]目前，排行榜往往需要在巨量的数据中获得，例如，从1000万条会话中找出流量峰值TOP200的会话，相关的算法是对1000万条会话按照流量峰值进行排序，然后，取前200条会话继续分析，显而易见，相关算法至少需要额外开辟1000万个会话的存储空间，快速排序算法的时间复杂度是O(n)，1000万个会话排序完成后，仅0.002％的数据是需要的，99.998％的排序是不需要的，不但消耗内存资源和时间，而且，做了很多无用功。
[0005]因此，亟需一种方法，能够在海量数据的情况下，节约内存、高效和快速的生成排行榜。

技术实现思路

[0006]本申请提供了一种生成大数据排行榜的方法、装置、设备及存储介质，以解决现有的大数据排行榜占用内存大，效率低和速度慢的问题。
[0007]本专利技术第一方面提供一种生成大数据排行榜的方法，包括如下步骤：
[0008]选取大数据中与...

【技术保护点】

【技术特征摘要】
1.一种生成大数据排行榜的方法，其特征在于，包括如下步骤：选取大数据中与排名数量相同的第一数据元素集，作为初始排行榜,其中,所述排名数量为目标排行榜中容纳的数据数量；建立与所述第一数据元素集对应的存储空间,用以存储所述第一数据元素集；基于所述初始排行榜，确定该初始排行榜中的第一极值数据，其中，所述第一极值数据，表征所述第一数据元素集中的最小值的数据元素；将第二数据元素集中的数据元素与所述第一极值数据比对，基于预设的比对规则，确定比对结果,其中,所述第二数据元素集,表征所述大数据中除所述第一数据元素集之外的数据元素；根据比对结果，生成目标排行榜。2.如权利要求1所述的方法，其特征在于，所述选取大数据中与排名数量相同的第一数据元素集，作为初始排行榜的步骤中，还包括：对所述第一数据元素集初始化。3.如权利要求1所述的方法，其特征在于，所述基于所述初始排行榜，确定该初始排行榜中的第一极值数据的步骤中，还包括：对所述初始排行榜中的第一极值数据，进行索引标记，以便通过索引标记找到该第一极值数据。4.如权利要求1所述的方法，其特征在于，所述将第二数据元素集中的数据元素与所述第一极值数据比对，基于预设的比对规则，确定比对结果的步骤中，还包括：确定所述数据元素与所述第一极值数据的大小；基于预设的对比规则，选择是否更新所述第一极值数据。5.如权利要求1所述的方法，其特征在于，所述根据所述比对结果，生成目标排行榜的步骤中，还包括：根据比对结果，判断是否需要更新所述第一极值数据；若更新所述第一极值数据，计算更新后的所述初始排行榜的极值数据，得到第二极值数据，对所述第二极值数据进行索引标记；若不更新所述第一极值数据，将比对的数据元素舍弃，继续遍历所述第二数据元素集。6.如权利要求5所述的方法，其特征在于，所述若更新所...

【专利技术属性】
技术研发人员：张贵昌，
申请(专利权)人：武汉思普崚技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人