抽样方法和抽样装置制造方法及图纸

技术编号:18525916 阅读:26 留言:0更新日期:2018-07-25 12:45
本发明专利技术提出了一种抽样方法和一种抽样装置,其中,抽样方法包括:根据指定的子层属性,分别对实验样本集合和对照样本集合进行分层处理,以获得实验样本集合的每个子层的第一抽样量以及对照样本集合的每个子层的第二抽样量;当每个子层的第二抽样量不大于第一抽样量,或者,第一抽样量不大于对照期望分层量时,从每个子层的第一抽样量与第二抽样量的比例关系中选择满足第一指定条件的第一目标比例关系;根据第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量;按照第三抽样量对实验样本集合和对照样本集合进行抽样处理。通过本发明专利技术的技术方案,可以抽取更具代表性的样本,从而提升了抽样考察结果的有效性。

【技术实现步骤摘要】
抽样方法和抽样装置
本专利技术涉及数据处理
,尤其涉及一种抽样方法和一种抽样装置。
技术介绍
目前,在对两个用户群进行抽样考察时,具有两种常用方式:第一,给定两个用户群各需要抽取的样本量,采用随机抽样的方式对这两个用户群进行对称抽样采样。第二,可以对具有数字账号体系的用户群按照数字账号的某几位进行随机抽样,比如,抽取数字账号的前三位为839、中间三位为随机数、后两位为07的用户作为样本,则会产生数字账号的中间三位为000到999的1000个随机用户。然而,在实际抽样考察过程中,待考察维度以外的其他维度差异越小,对待考察维度的抽样比较结果才越准确越贴近实际,而两个用户群的整体差异往往很大,其用户在年龄、性别、所在地等多种维度均存在差异性。因此,采用第一种方式的随机抽样,无法抽到相对于用户群本身而言具有足够代表性的样本,相应地,其抽样比较结果也不可靠。而第二种方式只是保证了用户在账号数字上分布的均匀性,其本质上仍为随机抽样,故也无法抽到相对于用户群本身而言具有足够代表性的样本。因此,如何抽取更具代表性的样本,以进一步增加抽样比较结果的可靠性,成为目前亟待解决的技术问题。
技术实现思路
本专利技术实施例提供了一种抽样方法和一种抽样装置,旨在解决相关技术中因抽取的样本不具有代表性而导致抽奖比较结果不可靠的技术问题,能够抽取更具代表性的样本,进一步增加抽样比较结果的可靠性。第一方面,本专利技术实施例提供了一种抽样方法,包括:根据指定的子层属性,分别对实验样本集合和对照样本集合进行分层处理,以获得实验样本集合的每个子层的第一抽样量以及对照样本集合的每个子层的第二抽样量;当每个子层的第二抽样量不大于第一抽样量,或者,第一抽样量不大于对照期望分层量时,从每个子层的第一抽样量与第二抽样量的比例关系中选择满足第一指定条件的第一目标比例关系;根据所述第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量;按照第三抽样量对所述实验样本集合和所述对照样本集合进行抽样处理。在本专利技术上述实施例中,可选地,还包括:当每个子层的第二抽样量大于第一抽样量,且第一抽样量大于对照期望分层量时,基于对照期望分层量对所述实验样本集合和所述对照样本集合进行抽样处理。在本专利技术上述实施例中,可选地,从每个子层的第一抽样量与第二抽样量的比例关系中选择满足第一指定条件的第一目标比例关系之后,还包括:判断所述第一目标比例关系是否满足第二指定条件;若所述第一目标比例关系满足第二指定条件,执行步骤根据所述第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量;若所述第一目标比例关系不满足第二指定条件,则从除所述第一目标比例关系以外的其他比例关系中选择满足第一指定条件的第二目标比例关系,根据所述第二目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量。在本专利技术上述实施例中,可选地,所述第一指定条件为第二抽样量与第一抽样量的比值最小;或者所述第一指定条件为第一抽样量与第二抽样量的比值最大。在本专利技术上述实施例中,可选地,所述第二指定条件为所述第一目标比例关系与0的差值大于指定阈值;或者所述第二指定条件为所述第一目标比例关系与0的差值等于指定阈值。在本专利技术上述实施例中,可选地,根据指定的子层属性,分别对实验样本集合和对照样本集合进行分层处理,包括:从所述实验样本集合中抽取具有所述子层属性的样本,该样本的总量作为所述第一抽样量;以及,从所述对照样本集合中抽取具有所述子层属性的样本,该样本的总量作为所述第二抽样量。第二方面,本专利技术实施例提供了一种抽样装置,包括:分层抽样量获取单元,根据指定的子层属性,分别对实验样本集合和对照样本集合进行分层处理,以获得实验样本集合的每个子层的第一抽样量以及对照样本集合的每个子层的第二抽样量;第一选择单元,当每个子层的第二抽样量不大于第一抽样量,或者,第一抽样量不大于对照期望分层量时,从每个子层的第一抽样量与第二抽样量的比例关系中选择满足第一指定条件的第一目标比例关系;协调抽样量获取单元,根据所述第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量;抽样处理单元,按照第三抽样量对所述实验样本集合和所述对照样本集合进行抽样处理。在本专利技术上述实施例中,可选地,所述抽样处理单元还用于:当每个子层的第二抽样量大于第一抽样量,且第一抽样量大于对照期望分层量时,基于对照期望分层量对所述实验样本集合和所述对照样本集合进行抽样处理。在本专利技术上述实施例中,可选地,还包括:判断单元,在所述第一选择单元选择满足第一指定条件的第一目标比例关系之后,判断所述第一目标比例关系是否满足第二指定条件;所述协调抽样量获取单元具体用于:若所述第一目标比例关系满足第二指定条件,执行步骤根据所述第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量,以及若所述第一目标比例关系不满足第二指定条件,则从除所述第一目标比例关系以外的其他比例关系中选择满足第一指定条件的第二目标比例关系,根据所述第二目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量。在本专利技术上述实施例中,可选地,所述第一指定条件为第二抽样量与第一抽样量的比值最小;或者所述第一指定条件为第一抽样量与第二抽样量的比值最大。在本专利技术上述实施例中,可选地,所述第二指定条件为所述第一目标比例关系与0的差值大于指定阈值;或者所述第二指定条件为所述第一目标比例关系与0的差值等于指定阈值。在本专利技术上述实施例中,可选地,所述分层抽样量获取单元具体用于:从所述实验样本集合中抽取具有所述子层属性的样本,该样本的总量作为所述第一抽样量,以及,从所述对照样本集合中抽取具有所述子层属性的样本,该样本的总量作为所述第二抽样量。通过以上技术方案,针对相关技术中因抽取的样本不具有代表性而导致抽奖比较结果不可靠的技术问题,可以先根据多种子层属性对实验样本集合和对照样本集合进行分层抽样,分别得到多个子层,使实验样本集合的每个子层与其对应的对照样本集合中的子层的待考察属性以外的其他属性均一致,换句话说,也就是使得实验样本集合的每个子层与其对应的对照样本集合中的子层内的样本分布一致,从而提升了两者的样本可比性,以增加了两者比较结果的可靠性。接着,对于每个子层来说,如果其对应的对照期望分层量小于其在实验样本集合的第一抽样量,并且,该第一抽样量小于其在对照样本集合的第二抽样量,说明能够在每个子层抽取到数目达到其对应的对照期望分层量的样本。否则,也就是当每个子层的第二抽样量不大于第一抽样量,或者,第一抽样量不大于对照期望分层量时,说明该子层的第一抽样量或第二抽样量达不到对照期望分层量。在这种情况下,可以从每个子层的第一抽样量与第二抽样量的比例关系中选择第一目标比例关系,通过该第一目标比例关系将所有子层对应的对照期望分层量等比例缩小,第一目标比例关系应满足第一指定条件,才能得到既小于第一抽样量也小于第二抽样量的第三抽样量,最后,通过第三抽样量对实验样本集合和对照样本集合进行对称抽样,保证了对称样本量的一致性。综上,本专利技术的技术方案,能够提供一种新的抽样方式,抽取样本分布情况和样本总量一致的对称样本,这样的对称样本更具有可比性,使用这样的对称样本进行对比和考察,可进一步增加抽样比较结果的可靠性,提本文档来自技高网...

【技术保护点】
1.一种抽样方法,其特征在于,包括:根据指定的子层属性,分别对实验样本集合和对照样本集合进行分层处理,以获得实验样本集合的每个子层的第一抽样量以及对照样本集合的每个子层的第二抽样量;当每个子层的第二抽样量不大于第一抽样量,或者,第一抽样量不大于对照期望分层量时,从每个子层的第一抽样量与第二抽样量的比例关系中选择满足第一指定条件的第一目标比例关系;根据所述第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量;按照第三抽样量对所述实验样本集合和所述对照样本集合进行抽样处理。

【技术特征摘要】
1.一种抽样方法,其特征在于,包括:根据指定的子层属性,分别对实验样本集合和对照样本集合进行分层处理,以获得实验样本集合的每个子层的第一抽样量以及对照样本集合的每个子层的第二抽样量;当每个子层的第二抽样量不大于第一抽样量,或者,第一抽样量不大于对照期望分层量时,从每个子层的第一抽样量与第二抽样量的比例关系中选择满足第一指定条件的第一目标比例关系;根据所述第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量;按照第三抽样量对所述实验样本集合和所述对照样本集合进行抽样处理。2.根据权利要求1所述的方法,其特征在于,还包括:当每个子层的第二抽样量大于第一抽样量,且第一抽样量大于对照期望分层量时,基于对照期望分层量对所述实验样本集合和所述对照样本集合进行抽样处理。3.根据权利要求1所述的方法,其特征在于,从每个子层的第一抽样量与第二抽样量的比例关系中选择满足第一指定条件的第一目标比例关系之后,还包括:判断所述第一目标比例关系是否满足第二指定条件;若所述第一目标比例关系满足第二指定条件,执行步骤根据所述第一目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量;若所述第一目标比例关系不满足第二指定条件,则从除所述第一目标比例关系以外的其他比例关系中选择满足第一指定条件的第二目标比例关系,根据所述第二目标比例关系和每个子层的第一抽样量,得到每个子层的第三抽样量。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一指定条件为第二抽样量与第一抽样量的比值最小;或者所述第一指定条件为第一抽样量与第二抽样量的比值最大。5.根据权利要求3所述的方法,其特征在于,所述第二指定条件为所述第一目标比例关系与0的差值大于指定阈值;或者所述第二指定条件为所述第一目标比例关系与0的差值等于指定阈值。6.根据权利要求1所述的方法,其特征在于,根据指定的子层属性,分别对实验样本集合和对照样本集合进行分层处理,包括:从所述实验样本集合中抽取具有所述子层属性的样本,该样本的总量作为所述第一抽样量;以及,从所述对照样本集合中抽取具有所述子层属性的样本,该样本的总量作为所述第二抽样量。7.一种抽样装置,其特征在于,包括...

【专利技术属性】
技术研发人员:尹红军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1