画像标签预测方法、装置、设备及存储介质制造方法及图纸

技术编号:33990956 阅读:18 留言:0更新日期:2022-07-02 09:40
本发明专利技术提供一种画像标签预测方法、装置、设备及存储介质,通过获取对待预测设备进行广告监测得到的广告监测数据,基于SparkML特征工程提取广告监测数据中的目标特征并进行转换,得到测试集;将测试集分别输入预先基于不同用户属性和随机森林模型进行训练构建的第一用户属性预测模型和第二用户属性预测模型进行预测,将得到第一用户属性预测结果和第二用户属性预测结果合并作为待预测设备的画像标签。在本发明专利技术中,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性预测模型,并结合对SparkML特征工程完成画像标签预测,实现在满足海量数据处理的同时得到准确画像标签的目的。处理的同时得到准确画像标签的目的。处理的同时得到准确画像标签的目的。

【技术实现步骤摘要】
画像标签预测方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种画像标签预测方法、装置、设备及存储介质。

技术介绍

[0002]目前,在对用户进行分析的场景下,需要对用户进行画像标签的预测,以便于利用画像标签精准完成对用户的分析。
[0003]在现有技术中,是基于机器学习的方式对画像标签进行预测,主要采用scikit

learn单机版机器学习包和Hadoop Mahout提供的分类或聚类模型两种方式实现。在实际应用中,在按照画像标签进行广告定向投放时,需要面对海量的数据,但是采用scikit

learn单机版机器学习包无法满足大数据运算处理,而采用Hadoop Mahout提供的分类或聚类模型虽然可以处理海量的数据,但是因其算法不够丰富,在对海量数据进行处理时,性能相对低下,导致不能准确预测画像标签。
[0004]由此可知,采用现有技术的方式进行画像标签预测时,存在无法满足对海量数据的处理,或者对画像标签的预测不准确的问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种画像标签预测方法、装置、设备及存储介质,采用本专利技术技术方案,进行画像标签预测时,能满足海量数据的处理,也能准确预测画像标签。
[0006]为实现上述目的,本专利技术实施例提供如下技术方案:
[0007]第一方面,一种画像标签预测方法,包括:获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;基于SparkML特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建;将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
[0008]第二方面,一种画像标签预测装置,所述装置包括:获取模块,用于获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;特征处理模块,用于基于SparkML特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;预测模块,用于将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构
建;合并模块,用于将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。
[0009]第三方面,一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的画像标签预测方法。
[0010]第四方面,一种电子设备,包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序,所述程序至少用于实现上述的画像标签预测方法。
[0011]基于上述本专利技术实施例提供的一种画像标签预测方法、装置、设备及存储介质,通过获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;基于SparkML特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建;将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。在本专利技术中,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性预测模型,利用SparkML特征工程对待预测设备的广告监测数据进行特征提取,并将提取的特征转换为测试集,利用用户属性预测模型对测试集进行预测,以实现在满足海量数据处理的同时得到准确画像标签的目的。
附图说明
[0012]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0013]图1为本专利技术实施例提供的一种画像标签预测方法的流程示意图;
[0014]图2为本专利技术实施例提供的一种构建画像标签预测模型的流程示意图;
[0015]图3为本专利技术实施例提供的将数据添加至预测模型的流程示意图;
[0016]图4为本专利技术实施例提供的一种画像标签预测装置的结构框图;
[0017]图5为本专利技术实施例提供的一种数据处理设备的结构框图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没
有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0020]由
技术介绍
可知,在按照画像标签进行广告定向投放时,需要面对海量的数据,但是采用scikit

learn单机版机器学习包无法满足大数据运算处理,而采用Hadoop Mahout提供的分类或聚类模型虽然可以处理海量的数据,但是因其算法不够丰富,在对海量数据进行处理时,性能相对低下,导致不能准确预测画像标签。
[0021]因此,本专利技术实施例提供一种画像标签预测方法及装置,在对用户进行画像标签预测时,通过预先基于用户属性和随机森林模型进行训练,得到满足对海量数据进行预测的用户属性预测模型,并结合对SparkML特征工程完成画像标签预测,实现在满足海量数据处理的同时得到准确画像标签的目的。
[0022]参考图1,示出了本专利技术实施例提供的一种画像标签预测方法的流程图,所述画像标签预测方法包括以下步骤:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种画像标签预测方法,其特征在于,所述方法包括:获取对待预测设备进行广告监测得到的广告监测数据,所述广告监测数据至少包括设备数据;基于SparkML特征工程提取所述广告监测数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到测试集;将所述测试集分别输入预先构建的第一用户属性预测模型和第二用户属性预测模型进行预测,得到第一用户属性预测结果和第二用户属性预测结果,其中,所述第一用户属性预测模型利用第一用户属性进行随机森林模型训练构建,所述第二用户属性预测模型利用第二用户属性进行随机森林模型训练构建;将所述第一用户属性预测结果和第二用户属性预测结果合并作为所述待预测设备的画像标签。2.根据权利要求1所述的方法,其特征在于,所述基于预设格式对所述目标特征进行转换,得到测试集,包括:根据预先构建的目标特征与数字的对应关系,将所述目标特征转换为对应的数字并进行集合,得到测试集。3.根据权利要求1所述的方法,其特征在于,所述预先构建第一用户属性预测模型和第二用户属性预测模型的过程包括:获取样本设备的广告监测数据,所述广告监测数据至少包括设备数据、广告曝光数据和点击广告的用户行为数据,所述设备数据至少包括所述样本设备的设备ID;根据所述样本设备的设备ID将所述样本设备的广告监测数据与具有同样设备ID的样本库数据进行关联,得到所述样本设备的原始数据,所述样本库数据至少包括第一用户属性和第二用户属性;基于SparkML特征工程提取所述原始数据中的目标特征,并基于预设格式对所述目标特征进行转换,得到样本数据集,所述目标特征至少包括所述样本设备的设备数据,每一所述目标特征均与所述第一用户属性和第二用户属性关联;将所述样本数据集划分为训练集和验证集;基于第一用户属性和所述第二用户属性将所述训练集划分为标签为第一用户属性的第一训练集,以及标签为第二用户属性的第二训练集;分别对所述第一训练集和所述第二训练集进行随机森林模型训练,得到第一用户属性预测模型和第二用户属性预测模型;基于所述验证集对所述第一用户属性模型和所述第二用户属性模型进行验证;若验证通过,确定构建完成第一用户属性模型和第二用户属性模型,若验证未通过,继续对所述第一用户属性模型和第二用户属性模型进行训练,直至验证通过。4.根据权利要求3所述的方法,其特征在于,所述基于所述验证集对所述第一用户属性模型和所述第二用户属性模型进行验证,包括:将所述验证集中的待测目标特征分别作为所述第一用户属性预测模型和所述第二用户属性预测模型的输入进行预测,得到第一用户属性预测结果和第二用户属性预测结果;将所述第一用户属性预测结果与所述待测目标特征关联的第一用户属性进行偏差值
计算,以及将所述第二用户属性预测结果与所述待测目标特征关联的第二用户属性进行偏差值计算;若所述偏差值小于阈值,确定验证通过;若所述偏差值不小于阈值,确定验证未通过。5.根据权利要求3所述的方法,其特征在于,若所述第一用户属性预测模型为性别预测模型,所述第二用户属性预测模型为年龄预测模型,所述分别对所述第一训练集和所述第二训练集进行随机森林模型训练,得到第一用户属性预测模型和第二用户属性预测模型,包括:获取二分类随机森林模型参数;将所述第一训练集和所述二分类随机森林模型参数作为SparkMLlib机器学习模型的输入进行二分类随...

【专利技术属性】
技术研发人员:张孟旭刘启明
申请(专利权)人:北京千里日成科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1