数据分析方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：30411063 阅读：26 留言：0更新日期：2021-10-20 11:42

本申请公开了一种数据分析方法、装置、计算机设备和存储介质。该分析方法包括：使用预设模型对人群数据对应的样本进行训练，以得到模型文件，样本包括多个样本元素，每个样本元素携带有至少一个特征值域；对模型文件进行解析，以得到至少一个树结构，每个树结构包括多个叶节点，每个叶节点对应一个残差值以及至少一个特征值域；根据残差值确定叶节点的极值组合；根据极值组合确定样本的显著特征，以基于显著特征推荐目标人群，从而简化分析复杂度，提高分析效率，且得到的显著特征可解释性强。且得到的显著特征可解释性强。且得到的显著特征可解释性强。

全部详细技术资料下载

【技术实现步骤摘要】
数据分析方法、装置、计算机设备和存储介质

[0001]本申请涉及计算机
，具体涉及一种数据分析方法、装置、计算机设备和存储介质。

技术介绍

[0002]目前，在制定策略前，需要通过实验或者数据收集获取到由众多样本元素组成的样本，之后需要通过数据分析方法找到样本中命中预设标签的样本元素之间共有的显著特征，再根据该显著特征指导后续的策略制定。
[0003]比如，针对收集到的被营销人群，其中，每个人均携带有标签，标签为转化或未转化，如果需要通过数据分析方法找到其中转化人群的显著特征，目前有下述几种方式：其一是通过对转化人群的特征进行单维或多维组合分析，之后通过遍历组合找到显著特征组合，然而，由于几个特征就可以遍历出几万个组合，若是几百个特征则无法遍历组合。或者，也可以根据经验进行特征的分箱和组合，然而该方式最多覆盖二/三维组合，导致最终找到的人群准确率和召回率比较低。再或者，使用模型挑选，然而使用模型得到的特征可解释性差，也不便于灵活调整策略。

技术实现思路

[0004]本申请实施例提供一种数据分析方法、装置、计算机设备和存储介质，可以实现对样本进行高效率、低复杂度的分析，且得到的显著特征具有强解释性。
[0005]第一方面，本申请实施例提供了一种数据分析方法，包括：
[0006]使用预设模型对人群数据对应的样本进行训练，以得到模型文件，所述样本包括多个样本元素，每个所述样本元素携带有至少一个特征值域；
[0007]对所述模型文件进行解析，以得到至少一个树结构，每个所述...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法，其特征在于，包括：使用预设模型对人群数据对应的样本进行训练，以得到模型文件，所述样本包括多个样本元素，每个所述样本元素携带有至少一个特征值域；对所述模型文件进行解析，以得到至少一个树结构，每个所述树结构包括多个叶节点，每个所述叶节点对应一个残差值以及至少一个所述特征值域；根据所述残差值确定所述叶节点的极值组合；根据所述极值组合确定所述样本的显著特征，以基于所述显著特征推荐目标人群。2.根据权利要求1所述的数据分析方法，其特征在于，所述根据所述残差值所述叶节点的极值组合，包括：分别对每个所述树结构的叶节点按照残差值从大到小进行排序，以得到第一排序；取每个所述第一排序中前预设个数的叶节点与其他所述第一排序中前所述预设个数的叶节点进行二维交叉，以得到多个叶节点组合；将所述多个叶节点组合中，除所述叶节点的特征值域互斥的叶节点组合以外的叶节点组合确定为多个极值组合。3.根据权利要求1所述的数据分析方法，其特征在于，每个所述样本元素还携带有至少一个标签值，所述根据所述极值组合确定所述样本的显著特征，包括：确定每个所述极值组合内叶节点的特征值域的交集；将所述样本内，与所述特征值域的交集匹配的样本元素筛选出来，以得到多个样本元素组合；根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征。4.根据权利要求3所述的数据分析方法，其特征在于，所述根据所述样本元素组合内样本元素的标签值确定所述样本的显著特征，包括：根据所述样本元素组合内样本元素的标签值计算所述样本元素组合命中预设标签值的第一准确率；根据所述第一准确率确定所述显著特征。5.根据权利要求4所述的数据分析方法，其特征在于，所述根据所述第一准确率确定所述显著特征，包括：按照所述第一准确率从高到低的顺序将全部所述样本元素组合进行排序；在预设准确率之上找到所...

【专利技术属性】
技术研发人员：樊亦杰，范小刚，郭灿，
申请(专利权)人：重庆度小满优扬科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人