数据分析方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:30411063 阅读:26 留言:0更新日期:2021-10-20 11:42
本申请公开了一种数据分析方法、装置、计算机设备和存储介质。该分析方法包括:使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域;对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域;根据残差值确定叶节点的极值组合;根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群,从而简化分析复杂度,提高分析效率,且得到的显著特征可解释性强。且得到的显著特征可解释性强。且得到的显著特征可解释性强。

【技术实现步骤摘要】
数据分析方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,具体涉及一种数据分析方法、装置、计算机设备和存储介质。

技术介绍

[0002]目前,在制定策略前,需要通过实验或者数据收集获取到由众多样本元素组成的样本,之后需要通过数据分析方法找到样本中命中预设标签的样本元素之间共有的显著特征,再根据该显著特征指导后续的策略制定。
[0003]比如,针对收集到的被营销人群,其中,每个人均携带有标签,标签为转化或未转化,如果需要通过数据分析方法找到其中转化人群的显著特征,目前有下述几种方式:其一是通过对转化人群的特征进行单维或多维组合分析,之后通过遍历组合找到显著特征组合,然而,由于几个特征就可以遍历出几万个组合,若是几百个特征则无法遍历组合。或者,也可以根据经验进行特征的分箱和组合,然而该方式最多覆盖二/三维组合,导致最终找到的人群准确率和召回率比较低。再或者,使用模型挑选,然而使用模型得到的特征可解释性差,也不便于灵活调整策略。

技术实现思路

[0004]本申请实施例提供一种数据分析方法、装置、计算机设备和存储介质,可以实现对样本进行高效率、低复杂度的分析,且得到的显著特征具有强解释性。
[0005]第一方面,本申请实施例提供了一种数据分析方法,包括:
[0006]使用预设模型对人群数据对应的样本进行训练,以得到模型文件,所述样本包括多个样本元素,每个所述样本元素携带有至少一个特征值域;
[0007]对所述模型文件进行解析,以得到至少一个树结构,每个所述树结构包括多个叶节点,每个所述叶节点对应一个残差值以及至少一个所述特征值域;
[0008]根据所述残差值确定所述叶节点的极值组合;
[0009]根据所述极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群。
[0010]在本申请实施例提供的数据分析方法中,所述根据所述残差值所述叶节点的极值组合,包括:
[0011]分别对每个所述树结构的叶节点按照残差值从大到小进行排序,以得到第一排序;
[0012]取每个所述第一排序中前预设个数的叶节点与其他所述第一排序中前所述预设个数的叶节点进行二维交叉,以得到多个叶节点组合;
[0013]将所述多个叶节点组合中,除所述叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合。
[0014]在本申请实施例提供的数据分析方法中,每个所述样本元素还携带有至少一个标
签值,所述根据所述极值组合确定所述样本的显著特征,包括:
[0015]确定每个所述极值组合内叶节点的特征值域的交集;
[0016]将所述样本内,与所述特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合;
[0017]根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征。
[0018]在本申请实施例提供的数据分析方法中,所述根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征,包括:
[0019]根据所述样本元素组合内样本元素的标签值计算所述样本元素组合命中预设标签值的第一准确率;
[0020]根据所述第一准确率确定所述显著特征。
[0021]在本申请实施例提供的数据分析方法中,所述根据所述第一准确率确定所述显著特征,包括:
[0022]按照所述第一准确率从高到低的顺序将全部所述样本元素组合进行排序;
[0023]在预设准确率之上找到所述第一准确率下降的拐点;
[0024]将所述第一准确率为所述拐点的样本元素组合以及在所述拐点之上的样本元素组合的特征阈值做并集聚合,以得到所述显著特征。
[0025]在本申请实施例提供的数据分析方法中,所述根据所述第一准确率确定所述显著特征,包括:
[0026]按照所述第一准确率由高到低的顺序将所述样本元素组合进行排序,以得到第二排序;
[0027]保留所述第二排序中的首个样本元素组合,并按照所述第二排序的排序顺序,使用所述首个样本元素组合向下进行N次合并,每次合并N个所述样本元素组合,以得到多个合并组合,所述N为正整数;
[0028]根据所述合并组合确定所述显著特征。
[0029]在本申请实施例提供的数据分析方法中,所述根据所述合并组合确定所述显著特征,包括:
[0030]计算所述合并组合的第二准确率和召回率;
[0031]将所述第二准确率为第一预设值,且所述召回率为第二预设值的合并组合的特征阈值确定为所述显著特征。
[0032]第二方面,本申请实施例还提供了一种数据分析装置,包括:
[0033]训练模块,用于使用预设模型对人群数据对应的样本进行训练,以得到模型文件,所述样本包括多个样本元素,每个所述样本元素携带有至少一个特征值域;
[0034]解析模块,用于对所述模型文件进行解析,以得到至少一个树结构,每个所述树结构包括多个叶节点,每个所述叶节点对应一个残差值以及至少一个所述特征值域;
[0035]第一确定模块,用于根据所述残差值确定所述叶节点的极值组合;
[0036]第二确定模块,用于根据所述极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群。
[0037]第三方面,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现如上述
方法的步骤。
[0038]第四方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述方法的步骤。
[0039]本申请实施例提供了一种数据分析方法、装置、计算机设备和存储介质,该分析方法包括:使用预设模型对人群数据对应的样本进行训练,以得到模型文件,样本包括多个样本元素,每个样本元素携带有至少一个特征值域;对模型文件进行解析,以得到至少一个树结构,每个树结构包括多个叶节点,每个叶节点对应一个残差值以及至少一个特征值域;根据残差值确定叶节点的极值组合;根据极值组合确定样本的显著特征,以基于显著特征推荐目标人群,如此,基于模型树的挖掘和极值组合的分析,简化了分析复杂度,提高了分析的效率,且得到的显著特征可解释性强。
附图说明
[0040]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1是本申请实施例提供的数据分析方法的流程示意图。
[0042]图2是本申请实施例提供的数据分析方法的第一应用场景示意图;
[0043]图3是本申请实施例提供的数据分析方法的第二应用场景示意图;
[0044]图4是本申请实施例提供的数据分析方法的第三应用场景示意图;
[0045]图5是本申请实施例提供的数据分析装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法,其特征在于,包括:使用预设模型对人群数据对应的样本进行训练,以得到模型文件,所述样本包括多个样本元素,每个所述样本元素携带有至少一个特征值域;对所述模型文件进行解析,以得到至少一个树结构,每个所述树结构包括多个叶节点,每个所述叶节点对应一个残差值以及至少一个所述特征值域;根据所述残差值确定所述叶节点的极值组合;根据所述极值组合确定所述样本的显著特征,以基于所述显著特征推荐目标人群。2.根据权利要求1所述的数据分析方法,其特征在于,所述根据所述残差值所述叶节点的极值组合,包括:分别对每个所述树结构的叶节点按照残差值从大到小进行排序,以得到第一排序;取每个所述第一排序中前预设个数的叶节点与其他所述第一排序中前所述预设个数的叶节点进行二维交叉,以得到多个叶节点组合;将所述多个叶节点组合中,除所述叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合。3.根据权利要求1所述的数据分析方法,其特征在于,每个所述样本元素还携带有至少一个标签值,所述根据所述极值组合确定所述样本的显著特征,包括:确定每个所述极值组合内叶节点的特征值域的交集;将所述样本内,与所述特征值域的交集匹配的样本元素筛选出来,以得到多个样本元素组合;根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征。4.根据权利要求3所述的数据分析方法,其特征在于,所述根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征,包括:根据所述样本元素组合内样本元素的标签值计算所述样本元素组合命中预设标签值的第一准确率;根据所述第一准确率确定所述显著特征。5.根据权利要求4所述的数据分析方法,其特征在于,所述根据所述第一准确率确定所述显著特征,包括:按照所述第一准确率从高到低的顺序将全部所述样本元素组合进行排序;在预设准确率之上找到所...

【专利技术属性】
技术研发人员:樊亦杰范小刚郭灿
申请(专利权)人:重庆度小满优扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1