本申请公开了一种数据抽样方法及装置,其中,该方法包括:获取目标数据,其中,该目标数据包括多个数据块,计算所述目标数据的数据块总数N;根据对样本数的要求计算所述目标数据的抽样样本数M;从每个数据块中分别随机选取R个样本,并构成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。本申请解决了相关技术中的数据抽样的随机性不好的问题,从而提高了抽样样本的随机分布。
【技术实现步骤摘要】
数据抽样方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种数据抽样方法及装置。
技术介绍
-般地,随机抽样是设一个总体含有N个个体,从中逐个不放回地抽取η个个体作 为样本(n S Ν),如果每次抽取使总体内的各个个体被抽到的机会都相等,就把这种抽样方 法叫做简单随机抽样。 相关技术中,随机抽样有以下两种方法: 在第一种方法中认为输入的数据就是随机的,因此在该方法中,认为直接取前η 行。 在第二种方法中,取数据中行数取模m等于c的行,这样随机取出的数据中的行应 该是随机的。在这种方法中,可以根据N和η的大小决定m大概等于多少。 对于上述两种方法,都存在问题: 对于第一种方法而言,该方法的前提是输入的数据是随机的,但是,在实际情况 中,一般情况下输入的数据的分布是未知的,需要强调的是,未知并不等同随机,其数据的 输入有可能是随机的也有可能不是随机的。 第二种方法存在的问题与第一种方法存在的问题是类似的。该方法对数据的排列 要求比较高,如果输入的数据的排列是随机的,那么该方取出的数据基本上是随机的。但是 同第一种方法一样,一般输入的数据可能不是随机排列的。例如,如果数据是按时间排序 的,取模抽样得到的有可能是一天某几个特定小时的或某些特定分钟的数据。因此,第二种 数据抽样方法的随机性也不好。 针对相关技术中的数据抽样的随机性不好的问题,尚未提出解决方案。
技术实现思路
本申请提供了一种数据抽样的方法及装置,以至少相关技术中的数据抽样的随机 性不好的问题。 根据本申请的一个方面,提供了一种数据抽样方法,包括:获取目标数据,其中,所 述目标数据包括多个数据块;计算所述目标数据的数据块总数N ;根据对样本数的要求计 算所述目标数据的抽样样本数M ;从每个数据块中分别随机选取R个样本,并并进行汇总构 成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下, R等于M/N向上取整或者向下取整得到的整数。 根据本申请的另一个方面,还提供了一种数据抽样装置,包括:第一获取模块,用 于获取包括多个数据块的目标数据,并计算所述目标数据的数据块总数N ;第二获取模块, 用于根据对样本数的要求计算所述目标数据的抽样样本数M ;构成模块,用于从每个数据 块中分别随机选取R个样本,并进行汇总构成所述目标数据的抽样样本,其中,在M/N是整 数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。 通过本申请,采用了计算所述目标数据的数据块总数N ;根据对样本数的要求计 算所述目标数据的抽样样本数M ;从每个数据块中分别随机选取R个样本,并构成所述目标 数据的抽样样本,解决了相关技术中的数据抽样的随机性不好的问题,从而提高了抽样样 本的随机分布。 【附图说明】 此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本申请实施例的数据抽样方法的流程图; 图2是根据本申请实施例的优选的从数据块中抽取数据方法的流程图; 图3是根据本申请实施例的优选的从每个数据块中选取R行数据方法的流程图; 图4是根据本申请实施例的优选的从每个数据块中选取R行数据方法的流程图; 图5是根据本申请优选实施例的抽样算法的流程图一; 图6是根据本申请优选实施例的抽样算法的流程图二; 图7是根据本申请实施例的数据抽样装置的结构图; 图8是根据本申请实施例的构成模块的结构图。 【具体实施方式】 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。 需要说明的是,在附图的流程示意图示出的步骤可以在诸如一组计算机可执行指 令的计算机系统中执行,并且,虽然在流程示意图中示出了逻辑顺序,但是在某些情况下, 可以以不同于此处的顺序执行所示出或描述的步骤。 在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操 作的符号表示来描述本申请的各实施例。其中,计算机可以包括个人计算机、服务器、移动 终端等各种产品,在以下实施例中,使用了 CPU、单片机、DSP等具有处理芯片的设备均可以 称为计算机。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理 单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器 系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操 作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然 而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理 解的,后文所描述的动作和操作的各方面也可用硬件来实现。 转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在合适的 计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确 描述的替换实施例而限制本申请。 优选地,本申请实施例可以提供一个其上存储有本申请实施例的机器可读媒体。 需要说明的是,任一适合存储设计关于本申请的指令的媒体都在本申请的范围以内。例如, 这样的媒体可以采用磁性媒体、光学媒体或半导体媒体的形式。 在本实施例中,提供了一种数据抽样方法,图1是根据本申请实施例的数据抽样 方法的流程图,如图1所示,该流程包括如下步骤: 步骤S102,获取目标数据,其中,该目标数据包括多个数据块; 步骤S104,计算该目标数据的数据块的总数N ; 步骤S106,根据对样本数的要求计算该目标数据的抽样样本数M ; 步骤S108,从每个数据块中分别随机选取R个样本,并进行汇总构成目标数据的 抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取 整或者向下取整得到的整数。 通过上述步骤,将目标数据分成了多个数据块,然后从每个数据块中随机抽出所 需要的样本,再将这些样本组成目标数据的抽样样本。由于采用了将数据分成数据块的处 理方式,但对于每个数据块来抽样,相对于对于整个目标数据进行抽样的方法其抽样的随 机性更好,从而解决了相关技术中的数据抽样的随机性不好的问题,从而提高了抽样样本 的随机性。对于抽样样本的随机性提高,会使样本更加真实的反应该目标数据,从而为了解 目标数据提供了依据。 上述步骤解决了抽样样本的随机性的问题,相关技术中的第一种方法和第二种方 法还存在一种问题:即使第一种方法和第二种方法的数据是均匀打散,即随机输入的,但 是,由于第一种方法和第二种方法,总是取相同的行,例如在第一种方法中总是取前η行, 因此,不能难满足多次抽样结果不同的需求。 上述步骤S108中,从每个数据块中选出的样本均是随机选取的,因此,通过上述 步骤,在多次抽样中,所取得的抽样结果是不相同的。 从数据块中抽样的方式有很多种,在一个优选的实施例中可以通过行的方式来进 行抽取,图2是根据本申请实施例的优选的从数据块中抽取数据本文档来自技高网...
【技术保护点】
一种数据抽样方法,其特征在于包括:获取目标数据,其中,所述目标数据包括多个数据块;计算所述目标数据的数据块总数N;根据对样本数的要求计算所述目标数据的抽样样本数M;从每个数据块中分别随机选取R个样本,并进行汇总构成所述目标数据的抽样样本,其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向下取整得到的整数。
【技术特征摘要】
1. 一种数据抽样方法,其特征在于包括: 获取目标数据,其中,所述目标数据包括多个数据块; 计算所述目标数据的数据块总数N ; 根据对样本数的要求计算所述目标数据的抽样样本数M ; 从每个数据块中分别随机选取R个样本,并进行汇总构成所述目标数据的抽样样本, 其中,在M/N是整数的情况下,R=M/N,在M/N是小数的情况下,R等于M/N向上取整或者向 下取整得到的整数。2. 根据权利要求1所述的方法,其特征在于, 计算所述目标数据的抽样样本数M包括:获取一个数据块中的数据行数r ;计算所述目 标数据的总行数N*r,使用随机抽样公式根据所述总行数得到所述抽样样本数M ; 从所述每个数据块中分别随机选取R个样本包括:从所述每个数据块中随机选取R行 数据作为所述R个样本。3. 根据权利要求2所述的方法,其特征在于,从所述每个数据块中随机选取R行数据包 括: 为所述每个数据块中的每一行数据分配一个随机数; 将所述每个数据块中的行数据分别按照随机数的大小进行排列; 在所述每个数据块中的排列好的数据中分别取连续的R行数据。4. 根据权利要求3所述的方法,其特征在于,在所述每个数据块中的排列好的数据中 取连续的M/N行数据包括: 在所述每个数据块中排列好的数据中取随机数最大的R行数据;或者, 在所述每个数据块中排列好的数据中取随机数最小的R行数据。5. 根据权利要求3所述的方法,其特征在于, 为所述每个数据块中的每一行数据分配一个随机数包括:将所述每个数据块中的数据 分别读入内存并存放在数组中;为所述数组的每一列生成一个随机数; 将所述每个数据块中的行数据分别按照随机数的大小进行排列包括:按照随机数的大 小对所述数组中的列进行排序; 在所述每个数据块中的排列好的数据中分别取连续的R行数...
【专利技术属性】
技术研发人员:陈少怀,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。