画像标签预测方法、装置、设备及存储介质制造方法及图纸

技术编号：33990956 阅读：18 留言：0更新日期：2022-07-02 09:40

本发明专利技术提供一种画像标签预测方法、装置、设备及存储介质，通过获取对待预测设备进行广告监测得到的广告监测数据，基于SparkML特征工程提取广告监测数据中的目标特征并进行转换，得到测试集；将测试集分别输入预先基于不同用户属性和随机森林模型进行训练构建的第一用户属性预测模型和第二用户属性预测模型进行预测，将得到第一用户属性预测结果和第二用户属性预测结果合并作为待预测设备的画像标签。在本发明专利技术中，通过预先基于用户属性和随机森林模型进行训练，得到满足对海量数据进行预测的用户属性预测模型，并结合对SparkML特征工程完成画像标签预测，实现在满足海量数据处理的同时得到准确画像标签的目的。处理的同时得到准确画像标签的目的。处理的同时得到准确画像标签的目的。

全部详细技术资料下载

【技术实现步骤摘要】
画像标签预测方法、装置、设备及存储介质

[0001]本专利技术涉及数据处理
，尤其涉及一种画像标签预测方法、装置、设备及存储介质。

技术介绍

[0002]目前，在对用户进行分析的场景下，需要对用户进行画像标签的预测，以便于利用画像标签精准完成对用户的分析。
[0003]在现有技术中，是基于机器学习的方式对画像标签进行预测，主要采用scikit
‑
learn单机版机器学习包和Hadoop Mahout提供的分类或聚类模型两种方式实现。在实际应用中，在按照画像标签进行广告定向投放时，需要面对海量的数据，但是采用scikit
‑
learn单机版机器学习包无法满足大数据运算处理，而采用Hadoop Mahout提供的分类或聚类模型虽然可以处理海量的数据，但是因其算法不够丰富，在对海量数据进行处理时，性能相对低下，导致不能准确预测画像标签。
[0004]由此可知，采用现有技术的方式进行画像标签预测时，存在无法满足对海量数据的处理，或者对画像标签的预测不准确的问题。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种画像标签预测方法、装置、设备及存储介质，采用本专利技术技术方案，进行画像标签预测时，能满足海量数据的处理，也能准确预测画像标签。
[0006]为实现上述目的，本专利技术实施例提供如下技术方案：
[0007]第一方面，一种画像标签预测方法，包括：获取对待预测设备进行广告监测得到的广告监测数据，所述广告监测数据至少包括设备...

【技术保护点】

【技术特征摘要】
1.一种画像标签预测方法，其特征在于，所述方法包括：获取对待预测设备进行广告监测得到的广告监测数据，所述广告监测数据至少包括设备数据；基于SparkML特征工程提取所述广告监测数据中的目标特征，并基于预设格式对所述目标特征进行转换，得到测试集；将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测，得到第一用户属性预测结果和第二用户属性预测结果，其中，所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建，所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建；将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。2.根据权利要求1所述的方法，其特征在于，所述基于预设格式对所述目标特征进行转换，得到测试集，包括：根据预先构建的目标特征与数字的对应关系，将所述目标特征转换为对应的数字并进行集合，得到测试集。3.根据权利要求1所述的方法，其特征在于，所述预先构建第一用户属性预测模型和第二用户属性预测模型的过程包括：获取样本设备的广告监测数据，所述广告监测数据至少包括设备数据、广告曝光数据和点击广告的用户行为数据，所述设备数据至少包括所述样本设备的设备ID；根据所述样本设备的设备ID将所述样本设备的广告监测数据与具有同样设备ID的样本库数据进行关联，得到所述样本设备的原始数据，所述样本库数据至少包括第一用户属性和第二用户属性；基于SparkML特征工程提取所述原始数据中的目标特征，并基于预设格式对所述目标特征进行转换，得到样本数据集，所述目标特征至少包括所述样本设备的设备数据，每一所述目标特征均与所述第一用户属性和第二用户属性关联；将所述样本数据集划分为训练集和验证集；基于第一用户属性和所述第二用户属性将所述训练集划分为标签为第一用户属性的第一训练集，以及标签为第二用户属性的第二训练集；分别对所述第一训练集和所述第二训练集进行随机森林模型训练，得到第一用户属性预测模型和第二用户属性预测模型；基于所述验证集对所述第一用户属性模型和所述第二用户属性模型进行验证；若验证通过，确定构建完成第一用户属性模型和第二用户属性模型，若验证未通过，继续对所述第一用户属性模型和第二用户属性模型进行训练，直至验证通过。4.根据权利要求3所述的方法，其特征在于，所述基于所述验证集对所述第一用户属性模型和所述第二用户属性模型进行验证，包括：将所述验证集中的待测目标特征分别作为所述第一用户属性预测模型和所述第二用户属性预测模型的输入进行预测，得到第一用户属性预测结果和第二用户属性预测结果；将所述第一用户属性预测结果与所述待测目标特征关联的第一用户属性进行偏差值
计算，以及将所述第二用户属性预测结果与所述待测目标特征关联的第二用户属性进行偏差值计算；若所述偏差值小于阈值，确定验证通过；若所述偏差值不小于阈值，确定验证未通过。5.根据权利要求3所述的方法，其特征在于，若所述第一用户属性预测模型为性别预测模型，所述第二用户属性预测模型为年龄预测模型，所述分别对所述第一训练集和所述第二训练集进行随机森林模型训练，得到第一用户属性预测模型和第二用户属性预测模型，包括：获取二分类随机森林模型参数；将所述第一训练集和所述二分类随机森林模型参数作为SparkMLlib机器学习模型的输入进行二分类随...

【专利技术属性】
技术研发人员：张孟旭，刘启明，
申请(专利权)人：北京千里日成科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人