本申请公开了一种抽样方法和装置,将数据对象总体的特征划分为分类特征和拉丁特征,根据分类特征对总体进行分群,然后利用拉丁超立方体(NOLHD)抽样方法,在每个群内进行抽样。采用本发明专利技术,通过对总体分群、各群内单独拉丁超立方体抽样,可以减少抽样过程中总体信息的流失,提高样本反映总体的准确度。
【技术实现步骤摘要】
本专利技术设及计算机应用领域,特别是设及一种抽样方法和装置。
技术介绍
目前,在网站用户调研或者网站用户分析中,常常需要对用户进行抽样,使得样本 尽量多的保留总体信息。 现有的用户抽样方案,主要包括下述步骤: 步骤XI、对需要调研的用户总体进行分群,得到若干用户群。 步骤x2、对于每个用户群,采用随机抽取的方式,从中抽取样本。 步骤x3、将抽取到的所有用户群的样本合并,得到所述用户总体的样本集合。 从上述方案可W看出,现有的用户抽样方法采用随机抽取的方法进行样本的抽 取,该样,每个用户被抽取的概率相同。而在实际应用中,不同样本间的相似度不同,采用随 机抽取的方式,就会导致可能出现被抽取到的多个用户的相似度较高,而差异性大的用户 没有被抽取到的情况,该样,就会导致抽取过程中总体信息流失过多,所抽取到的样本集合 不能准确地反映用户总体的特点,即每个样本的代表性不强。 由此可见,现有的抽样方案由于采用随机抽取的方式,而存在总体信息流失多、样 本无法反映总体的问题,从而会影响基于样本进行用户分析的准确性。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种抽样方法和装置,可W减少抽样过程 中总体信息的流失,提高样本反映总体的准确度。 为了达到上述目的,本专利技术提出的技术方案为: 一种抽样方法,包括: 将数据对象总体的特征划分为分类特征和拉了特征,其中,每个所述拉了特征的 取值个数大于每个所述分类特征的取值个数,且所述拉了特征的数量q满足;q= 2t,r为 大于1的整数; 根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的 拉了特征的数量di满足:为大于1的整数; 对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体N0L皿群组,其 中,所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对群中每个拉了 特征的取值进行归类处理,所述归类处理后每个拉了特征的枚举值数量均为预设的该群的 单位特征枚举数阔值li;利用该群对应的所述N0L皿群组,确定一个拉了超立方体作为该 群用于抽样的拉了超立方体,其中,所确定的拉了超立方体的行数等于所述li;利用所确定 的拉了超立方体,对该群中的数据对象进行抽样; 将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。 一种抽样装置,包括: 特征分类单元,用于将数据对象总体的特征划分为分类特征和拉了特征,其中,每 个所述拉了特征的取值个数大于每个所述分类特征的取值个数,且所述拉了特征的数量q 满足;q= 2t,r为大于1的整数; 分群单元,用于根据所述分类特征,对所述数据对象总体进行分群,其中,每个数 据对象群i中的拉了特征的数量Qi满足:A= 2'=,为大于1的整数; 抽样单元,用于对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体 N0L皿群组,其中,所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对 群中每个拉了特征的取值进行归类处理,所述归类处理后每个拉了特征的枚举值数量均为 预设的该群的单位特征枚举数阔值li;利用该群对应的所述N0L皿群组,确定一个拉了超 立方体作为该群用于抽样的拉了超立方体,其中,所确定的拉了超立方体的行数等于所述 li;利用所确定的拉了超立方体,对该群中的数据对象进行抽样; 样本汇总单元,用于将所有数据对象群的抽样结果合并,得到所述数据对象总体 的样本。 综上所述,本专利技术提出的抽样方法和装置,将数据对象总体的特征划分为分类特 征和拉了特征,根据分类特征对总体进行分群,然后利用拉了超立方体(N0LHD)抽样方法, 在每个群内进行抽样。如此,通过对总体分群、各群内单独拉了超立方体抽样,可W实现对 每个样本的控制,减少抽样的随机性,提升样本的代表性,从而可W使得样本可W准确地反 映总体的情况。【附图说明】 图1为本专利技术实施例的方法流程示意图; 图2为本专利技术实施例的装置结构示意图。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对 本专利技术作进一步地详细描述。[002引本专利技术的核屯、思想是:将拉了超立方体(N0LHD)抽样引入到了用户抽样中,首先 将总体的特征抽象为分类特征和拉了特征,然后根据分类特征对用户总体分群,然后对于 每个用户群,结合N0L皿群组,进行抽样。如此,通过对总体分群、各群内单独拉了超立方体 抽样,可W实现对每个样本的控制,减少抽样的随机性,提升样本的代表性,从而可W使得 样本更能反映总体的情况。 图1为本专利技术实施例一的流程示意图,如图1所示,该实施例主要包括: 步骤101、将数据对象总体的特征划分为分类特征和拉了特征,其中,每个所述拉 了特征的取值个数大于每个所述分类特征的取值个数,且所述拉了特征的数量q满足;q= 2t,r为大于1的整数。 本步骤,用于对数据对象总体所包含的所有特征进行分类,即分为分类特征和拉 了特征。在实际应用中,所述数据对象可W是用户在计算机存储中存在的数值单元。 该里特征分类的依据是:特征的取值个数。拉了特征的取值个数将大于所述分类 特征的取值个数,并且需要使得拉了特征的数量q为2的幕次方,即满足;q= 2t。 其中,分类特征,是用于依据此进行分类的特征,该类特征的取值有限并且枚举值 很少,如用户的注册来源、用户的下单渠道等,因此,据此分类不会导致分类后的群中数据 对象数量过少的问题。 对于拉了特征,该类特征的取值为连续的,或者枚举值很多。如用户的下单地址, 用户的下单金额、用户的下单量等。利用该类特征,可W构建相应的拉了超立方体,基于拉 了超立方体抽样,使得抽样结果的特征分布尽量与总体的特征分布相一致,从而确保样本 的代表性。 步骤102、根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象 群i中的拉了特征的数量Qi满足:9, = 2'=,r;为大于1的整数。 本步骤,用分类特征进行分类,分类后的各群中拉了特征的数量应为2的幕次方, W便可W基于此构建相应的用于抽样的拉了超立方体。 步骤103、对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体 N0L皿群组,其中,所述N0L皿群组中每个拉了超立方体的列数等于该群对应的所述di;对 群中每个拉了特征的取值进行归类处理,所述归类处理后每个拉了特征的枚举值数量均为 预设的该群的单位特征枚举数阔值li;利用该群对应的所述N0L皿群组,确定一个拉了超 立方体作为该群用于抽样的拉了超立方体,其中,所确定的拉了超立方体的行数等于所述 li;利用所确定的拉了超立方体,对该群中的数据对象进行抽样。本步骤,对于每个数据对象群i,构建该群使用的近似正交的拉了超立方体N0LHD群组,然后再从中选择出适用于该群抽样的拉了超立方体,并利用该拉了超立方体,对该群 中的数据对象进行抽样。 该里为了便于理解,先介绍一下拉了超立方体的特点W及构建方法。 近似正交的拉了超立方体的设计(N0LHD);[003引将n个试验、m个因子的拉了超立方体设计记为;L(n,m) = (li,l2,...,U,其中Ij是第j个因子,并且每个因子的n个水平是等距的。简单的说,L(n,m)就是一个nXm的 矩阵,每列的元素都是同一个等差数列,但排列方式不一样。[003引本文档来自技高网...
【技术保护点】
一种抽样方法,其特征在于,包括:将数据对象总体的特征划分为分类特征和拉丁特征,其中,每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数,且所述拉丁特征的数量q满足:q=2r,r为大于1的整数;根据所述分类特征,对所述数据对象总体进行分群,其中,每个数据对象群i中的拉丁特征的数量qi满足:ri为大于1的整数;对于每个数据对象群i,构建该群使用的近似正交的拉丁超立方体NOLHD群组,其中,所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi;对群中每个拉丁特征的取值进行归类处理,所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li;利用该群对应的所述NOLHD群组,确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体,其中,所确定的拉丁超立方体的行数等于所述li;利用所确定的拉丁超立方体,对该群中的数据对象进行抽样;将所有数据对象群的抽样结果合并,得到所述数据对象总体的样本。
【技术特征摘要】
【专利技术属性】
技术研发人员:李鑫,王海旭,焦文健,张蕾,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。