一种数据处理方法、装置以及计算机存储介质制造方法及图纸

技术编号:27528090 阅读:22 留言:0更新日期:2021-03-03 10:59
本申请实施例公开了一种数据处理方法、装置以及计算机存储介质,方法包括:获取第一测试显著水平值以及用户业务数据集合,其中,用户业务数据集合包括多个用户分别对应的多维业务数据;对多个多维业务数据进行划分得到数据组,将数据组组合得到数据组对,所述数据组对包括两组数据组;根据第一测试显著水平值以及数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;根据显著差异数量,确定第一测试显著水平值对应的总体显著水平值。采用本申请,可以降低总体显著水平值错误率,提高AB实验方法的准确性。法的准确性。法的准确性。

【技术实现步骤摘要】
一种数据处理方法、装置以及计算机存储介质


[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、装置以及计算机存储介质。

技术介绍

[0002]随着互联网应用渗透到生活的各个方面,人们愈发地重视用户的选择,无论是网页流程的制作,还是应用页面的改版一般都需要做AB测试(即AB test)来验证用户对两组(A/B)版本产品的青睐。一个大规模AB测试系统关注的实验指标有成百上千个,每一个AB实验可能也有10多个关联的指标,而传统的AB测试一次只能对一个指标做实验,远远不能满足互联网产品的需求。
[0003]在目前互联网AB测试中,往往需要实验中各指标相互独立,然而实际产品中各指标具有相关联,在这种情况下所确定出的α
per
可能会与预期的第一类错误不匹配,进而在使用α
per
进行AB测试后,可能会导致实际的第一类错误过大。

技术实现思路

[0004]本申请实施例提供一种数据处理方法、装置以及计算机存储介质,可以保证α
per
与第一类错误之间的关系的准确性,更好控制AB测试后的第一类错误。
[0005]本申请实施例一方面提供了一种数据处理方法,包括:
[0006]获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户分别对应的多维业务数据;
[0007]对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组;
[0008]根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;
[0009]根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
[0010]其中,还包括:
[0011]将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;
[0012]所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
[0013]其中,所述将所述用户业务数据集合划分得到数据组,将所述数据组组合得到数据组对,每组数据组对包括两组数据组,包括:
[0014]确定所述用户业务数据集合随机排序次数N,若所述N小于次数阈值,则对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,对所述数据组进行两两组合,得到数据组对,直至所述N等于所述次数阈值,得到所有的数据组对。
[0015]其中,所述对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,包括:
[0016]对多个所述多维业务数据进行随机排序;
[0017]确定每个所述多维业务数据的哈希值;
[0018]根据所述哈希值,将排序后的多个所述多维业务数据划分为G组数据组;所述G为偶数。
[0019]其中,所述根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量,包括:
[0020]对所述数据组对进行多维假设检验,根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检验值;
[0021]根据所述第一测试显著水平值与所述多个检验值,确定所述数据组对的检验状态;所述检验状态包括显著差异状态和非差异状态;
[0022]统计所述检验状态为所述显著差异状态的数据组对的数量,作为显著差异数量。
[0023]其中,所述根据所述第一测试显著水平值与多个检验值,确定所述数据组对的检验状态,包括:
[0024]若所述多个检验值中存在至少一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检验状态为显著差异状态;
[0025]若所述多个检验值中不存在一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检验状态为非差异状态。
[0026]其中,所述根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值,包括:
[0027]将所述显著差异数量与所述数据组对的总数量的比值,确定为所述第一测试显著水平值对应的总体显著水平值。
[0028]本申请实施例一方面提供了一种数据处理装置,包括:
[0029]获取模块,用于获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户对应的多维业务数据;
[0030]组合模块,用于对多个所述多维业务数据进行划分得到数据组;将所述数据组组合得到数据组对,所述数据组对包括两组数据组;
[0031]第一确定模块,用于根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;
[0032]第二确定模块,用于根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
[0033]其中,还包括:
[0034]添加模块,用于将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;
[0035]所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
[0036]其中,所述组合模块,包括:
[0037]确定单元,用于确定所述用户业务数据集合随机排序次数N;
[0038]排序划分单元,用于若所述N小于次数阈值,则对多个所述多维业务数据进行随机排序;对排序后的多个所述多维业务数据进行划分得到数据组;
[0039]组合单元,对所述数据组进行两两组合,得到数据组对,直至所述N等于所述次数阈值,得到所有的数据组对。
[0040]其中,所述排序划分单元,包括:
[0041]排序子单元,用于对多个所述多维业务数据进行随机排序;
[0042]确定子单元,用于确定每个所述多维业务数据的哈希值;
[0043]划分子单元,用于根据所述哈希值,将排序后的多个所述多维业务数据划分为G组数据组;所述G为偶数。
[0044]其中,所述第一确定模块,包括:
[0045]检验单元,用于对所述数据组对进行多维假设检验;
[0046]第一确定单元,用于根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检验值;
[0047]第二确定单元,用于根据所述第一测试显著水平值与所述多个检验值,确定所述数据组对的检验状态;所述检验状态包括显著差异状态和非差异状态;
[0048]统计单元,用于统计所述检验状态为所述显著差异状态的数据组对的数量,作为显著差异数量;
[0049]其中,第二确定单元,具体用于若所述多个检验值中存在至少一个检验值小于所述第一测试显著水平值,则确定所述数据组对的检验状态为显著差异状态;且具体用于若所述多个检验值中的所有检验值均大于或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户分别对应的多维业务数据;对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组;根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。2.根据权利要求1所述的方法,其特征在于,还包括:将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。3.根据权利要求1所述的方法,其特征在于,所述对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组,包括:确定所述用户业务数据集合随机排序次数N,若所述N小于次数阈值,则对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,对所述数据组进行两两组合,得到数据组对,直至所述N等于所述次数阈值,得到所有的数据组对。4.根据权利要求3所述的方法,其特征在于,所述对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,包括:对多个所述多维业务数据进行随机排序;确定每个所述多维业务数据的哈希值;根据所述哈希值,将排序后的多个所述多维业务数据划分为G组数据组;所述G为偶数。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量,包括:对所述数据组对进行多维假设检验,根据所述数据组对中两组数据组的多维业务数据,确定多个多维分别对应的检...

【专利技术属性】
技术研发人员:王勇熊涛
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1