一种抽样方法和装置制造方法及图纸

技术编号：12181704 阅读：184 留言：0更新日期：2015-10-08 19:35

本申请公开了一种抽样方法和装置，将数据对象总体的特征划分为分类特征和拉丁特征，根据分类特征对总体进行分群，然后利用拉丁超立方体(NOLHD)抽样方法，在每个群内进行抽样。采用本发明专利技术，通过对总体分群、各群内单独拉丁超立方体抽样，可以减少抽样过程中总体信息的流失，提高样本反映总体的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及计算机应用领域，特别是设及一种抽样方法和装置。
技术介绍
目前，在网站用户调研或者网站用户分析中，常常需要对用户进行抽样，使得样本尽量多的保留总体信息。现有的用户抽样方案，主要包括下述步骤：步骤XI、对需要调研的用户总体进行分群，得到若干用户群。步骤x2、对于每个用户群，采用随机抽取的方式，从中抽取样本。步骤x3、将抽取到的所有用户群的样本合并，得到所述用户总体的样本集合。从上述方案可W看出，现有的用户抽样方法采用随机抽取的方法进行样本的抽取，该样，每个用户被抽取的概率相同。而在实际应用中，不同样本间的相似度不同，采用随机抽取的方式，就会导致可能出现被抽取到的多个用户的相似度较高，而差异性大的用户没有被抽取到的情况，该样，就会导致抽取过程中总体信息流失过多，所抽取到的样本集合不能准确地反映用户总体的特点，即每个样本的代表性不强。由此可见，现有的抽样方案由于采用随机抽取的方式，而存在总体信息流失多、样本无法反映总体的问题，从而会影响基于样本进行用户分析的准确性。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供一种抽样方法和装置，可W减少抽样过程中总体信息的流失，提高样本反映总体的准确度。为了达到上述目的，本专利技术提出的技术方案为：一种抽样方法，包括：将数据对象总体的特征划分为分类特征和拉了特征，其中，每个所述拉了特征的取值个数大于每个所述分类特征的取值个数，且所述拉了特征的数量q满足；q= 2t，r为大于1的整数；根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中...
一种抽样方法和装置

【技术保护点】
一种抽样方法，其特征在于，包括：将数据对象总体的特征划分为分类特征和拉丁特征，其中，每个所述拉丁特征的取值个数大于每个所述分类特征的取值个数，且所述拉丁特征的数量q满足：q＝2r，r为大于1的整数；根据所述分类特征，对所述数据对象总体进行分群，其中，每个数据对象群i中的拉丁特征的数量qi满足：ri为大于1的整数；对于每个数据对象群i，构建该群使用的近似正交的拉丁超立方体NOLHD群组，其中，所述NOLHD群组中每个拉丁超立方体的列数等于该群对应的所述qi；对群中每个拉丁特征的取值进行归类处理，所述归类处理后每个拉丁特征的枚举值数量均为预设的该群的单位特征枚举数阈值li；利用该群对应的所述NOLHD群组，确定一个拉丁超立方体作为该群用于抽样的拉丁超立方体，其中，所确定的拉丁超立方体的行数等于所述li；利用所确定的拉丁超立方体，对该群中的数据对象进行抽样；将所有数据对象群的抽样结果合并，得到所述数据对象总体的样本。

【技术特征摘要】

【专利技术属性】
技术研发人员：李鑫，王海旭，焦文健，张蕾，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人