一种实验数据的分组方法、装置、介质及电子设备制造方法及图纸

技术编号:32754237 阅读:11 留言:0更新日期:2022-03-23 18:50
本申请实施例公开了一种实验数据的分组方法、装置、介质及电子设备。本实施例涉及大数据技术领域。其中,该方法包括:获取实验用备选数据;其中,备选数据包括属性维度信息;对备选数据按照聚类算法进行聚类,得到至少两个簇;按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分组组合得到目标分组;若目标分组的属性维度信息统计结果符合预设检验规则,则确定目标分组有效。通过本申请的技术方案,可以对分割实验所需的实验集和对照集进行划分,并且在备选数据集不够大的情况下,依然得到数据的分布相近以及效果可比的实验集和对照集。在一定程度上增强了小型数据集分割实验结果的准确性。验结果的准确性。验结果的准确性。

【技术实现步骤摘要】
一种实验数据的分组方法、装置、介质及电子设备


[0001]本申请实施例涉及数据处理领域,尤其涉及一种实验数据的分组方法、装 置、介质及电子设备。

技术介绍

[0002]现如今,桶实验/分割实验(ABtest,A/B)被广泛应用在市场营销和互联 网等行业,业务人员通过A/B实验可以了解到用户的需求。传统的A/B实验中, 实验集和对照集通常是在数据集足够大的情况下,通过随机切分产生两组在各 个属性维度上分布相近的数据。
[0003]然而,在现实的场景中,往往会出现数据规模不够大的情况,A/B实验会 被限制在一个很小的规模上。当数据规模过小,同时数据的属性维度较多时, 随机切分方法的公平性和可靠性就会被影响,使A/B实验的结果存在偏差,降 低A/B实验结果的准确性。

技术实现思路

[0004]本申请实施例提供一种实验数据的分组方法、装置、介质及电子设备,可 以对分割实验所需的实验集和对照集进行划分,并且在备选数据集不够大的情 况下,依然得到数据的分布相近以及效果可比的实验集和对照集。
[0005]第一方面,本申请实施例提供了一种实验数据的分组方法,所述方法包括: 获取实验用备选数据;其中,所述备选数据包括属性维度信息;
[0006]对所述备选数据按照聚类算法进行聚类,得到至少两个簇;
[0007]按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分组组合 得到目标分组;
[0008]若所述目标分组的属性维度信息统计结果符合预设检验规则,则确定所述 目标分组有效。
[0009]第二方面,本申请实施例提供了一种实验数据的分组装置,该装置包括:
[0010]数据备选模块,用于获取实验用备选数据;其中,所述备选数据包括属性 维度信息;
[0011]数据聚类模块,用于对所述备选数据按照聚类算法进行聚类,得到至少两 个簇;
[0012]数据分组模块,用于按照预先配置的分组数和分组比例,对每个簇进行分 组,并进行分组组合得到目标分组;
[0013]分组检验模块,用于若所述目标分组的属性维度信息统计结果符合预设检 验规则,则确定所述目标分组有效。
[0014]第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计 算机程序,该程序被处理器执行时实现如本申请实施例所述的实验数据的分组 方法。
[0015]第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存 储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程 序时实现如本申
请实施例所述的实验数据的分组方法。
[0016]本申请实施例所提供的技术方案,通过获取实验用备选数据集,设置分组 数和分组比例;通过聚类算法对数据集进行聚类得到至少两个簇,按照的分组 数和分组比例对每个簇进行分组,并进行分组组合得到目标分组;通过预设检 验规则检验目标分组的属性维度信息的检验结果,确定目标分组是否有效。可 以对分割实验所需的实验集和对照集进行划分,并且在备选数据集不够大的情 况下,依然得到数据的分布相近以及效果可比的实验集和对照集。在一定程度 上增强了小型数据集分割实验结果的准确性。
附图说明
[0017]图1是本申请实施例一提供的实验数据的分组方法的流程图;
[0018]图2是本申请实施例二提供的实验数据的分组的流程图;
[0019]图3是本申请实施例三提供的实验数据的分组的流程图;
[0020]图4是本申请实施例四提供的一种实验数据的分组装置的结构框图;
[0021]图5是本申请实施例六提供的一种电子设备的结构示意图。
具体实施方式
[0022]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结 构。
[0023]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被 描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理, 但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺 序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未 包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、 子程序等等。
[0024]实施例一
[0025]图1是本申请实施例一提供的实验数据的分组方法的流程图,本实施例可 适用于小型数据集分割实验的场景,该方法可以由本申请实施例所提供的实验 数据的分组装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于 电子设备中。
[0026]如图1所示,所述实验数据的分组方法包括:
[0027]S110,获取实验用备选数据;其中,备选数据包括属性维度信息。
[0028]其中,实验可以是A/B实验,A/B实验可以被理解为是一种将网页、应用 程序或运营方法等数据的两个版本相互比较,以确定哪个版本的性能更好的方 法。A/B实验可以通过科学的实验设计、采样样本代表性、流量分割与小流量 测试等方式来获得具有代表性的结论,并确信该结论可推广到全部流量。
[0029]首先获取实验所需的备选数据,其中,备选数据可以是根据用户需求/实验 场景得到的数据。示例的,某店铺做了一场直播活动后,有1000个人购买了活 动中的产品,共产生了10万块的商品交易总额,现需要知道这场直播的投资回 报率是多少,即用户需要知道购买这些产品的用户有多少人是通过看直播购买 的,有多少人是即使不看直播也会购买的,可以通过进行A/B实验得到实验结 果。其中,A/B实验的备选数据可以是此次观看直播
并购买产品的人。A/B实 验中可以将备选数据分为一个实验集和一个/多个对照集。其中实验集可以是施 以新模型的训练集合,例如使用某公司开发的新版本的软件的人,或者通过某 种新途径购买使用某商品的人的集合。对照集可以是施以旧模型的训练集合, 例如使用某公司开发的老旧版本的软件的人,或者没有通过某种新途径购买使 用某商品的人的集合。实验集和对照集的划分方法可以按照将数据对半分开, 一半做实验集,一半做对照集。其中,备选数据包括属性维度信息,将数据按 照属性维度信息划分可以分析不同的人群的差异,提高实验结果的准确度。例 如将示例中实验集的人可以按照新老客、单身、恋爱、已婚、男性和女性等维 度进行划分。
[0030]S120,对备选数据按照聚类算法进行聚类,得到至少两个簇。
[0031]其中,聚类可以将物理或抽象对象的集合分成由类似的对象组成的多个类。 聚类算法可以理解为需要把一批样本分成多个类,保证每一个类中的样本之间 是相似的,而不同类的样本之间是不同的。例如,聚类算法可以帮助市场分析 人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消 费模式/习惯。聚类算法可以发现数据中分布的一些深层的信息,并且概括出每 一类的特点,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实验数据的分组方法,其特征在于,所述方法包括:获取实验用备选数据;其中,所述备选数据包括属性维度信息;对所述备选数据按照聚类算法进行聚类,得到至少两个簇;按照预先配置的分组数和分组比例,对每个簇进行分组,并进行分组组合得到目标分组;若所述目标分组的属性维度信息统计结果符合预设检验规则,则确定所述目标分组有效。2.根据权利要求1所述的方法,其特征在于,对所述备选数据按照聚类算法进行聚类,得到至少两个簇,包括:对所述备选数据按照Clique聚类算法进行聚类,得到至少两个簇。3.根据权利要求2所述的方法,其特征在于,在得到至少两个簇之后,所述方法还包括:若存在簇网格中包含的备选数据少于设定阈值,则删除所述簇网格。4.根据权利要求1所述的方法,其特征在于,在进行分组组合得到目标分组之后,所述方法还包括:若所述目标分组的属性维度信息统计结果不符合预设检验规则,则确定所述目标分组无效;并重新执行:按照预先配置的分组数和分组比例,对每个簇进行分组。5.根据权利要求1所述的方法,其特征在于,所述预设检验规则包括KS检验规则;对所述目标分组的属性维度信息统计结果进行预设检验规则的检验过程,包括:对所述目标分组按照两两分组,得到分组检验对;将每一对分组检验对的属性维度信息进行统计,得到各属性维度信息的统计结果;根据所述各属性维度信息的统计结果与预设置信度比较结果,确定所述目标分组是否有效。6.根据权利要求5所述的方法,其特征在于,根据所述各属性维度信息的统计结果与预设置信度比较结果,确定所述目标分组是否有效,...

【专利技术属性】
技术研发人员:凌晓蔚余刚杨秀祯林婧俞燕菲赵晨斐郭翔
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1