【技术实现步骤摘要】
一种基于异构图嵌入技术的广告受众基础属性预估方法
本专利技术涉及人工智能
,更具体地,涉及一种基于异构图嵌入技术的广告受众基础属性预估方法。
技术介绍
众所周知,用户对广告的偏好会随着其年龄和性别的不同而有所区别。因此,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中也包括了广告平台。然而,大多数广告平台都无法准确获取所有用户的年龄和性别等基础属性,这就导致广告平台无法给缺失了年龄和性别等基础属性的用户准确地推送对应的广告。此种情况下,需要广告平台尽可能地预测、补全缺失的用户基础属性,以及纠正可能错误的广告受众的基础属性(年龄和性别),这样有助于提高广告平台的推送效果。早期,广告平台只能依靠调查的方式,人工录入用户的年龄和性别等基础属性,或者通知用户让用户自行填写,效率及其低下。随着现代信息技术的不断发展,这种信息补全的方式已经被各种人工智能技术所代替。主流的人工智能预测用户年龄和性别属性的任务都是直接使用广告受众的点击广告信息(素材id、广告id、广告主id)作为互相独立的特征,通过一个训练好的树模型分类器(例如LightGBM)或者神经网络(例如LSTM)来预估未知基础属性的广告受众的基础属性(年龄和性别)。然而,在实际情况中,广告受众的点击广告信息(素材id、广告id、广告主id)往往不是互相独立,而是相互有联系的,例如一个素材是明确属于某一个广告的,一个广告是明确某一个广告主发出的。这类场景下,保留广告信息(素材id、广告id、广告主id)之间的相互关系,会使得预估 ...
【技术保护点】
1.一种基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,包括以下步骤:/nS1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括素材id、广告id、广告主id;/nS2:划分数据集,按照广告受众的基础属性是否已知将原始数据集分为两类,其中已知基础属性的这类数据称为训练集,用于训练预测模型,另一类数据称为测试集,用于预测其未知的基础属性,其中,广告受众的基础属性是年龄和性别;/nS3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个根据广告受众的点击行为预测其基础属性的预测模型。/nS4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性。/n
【技术特征摘要】
1.一种基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,包括以下步骤:
S1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括素材id、广告id、广告主id;
S2:划分数据集,按照广告受众的基础属性是否已知将原始数据集分为两类,其中已知基础属性的这类数据称为训练集,用于训练预测模型,另一类数据称为测试集,用于预测其未知的基础属性,其中,广告受众的基础属性是年龄和性别;
S3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个根据广告受众的点击行为预测其基础属性的预测模型。
S4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性。
2.根据权利要求1所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述步骤S1中,构建广告受众的点击行为记录的异构图的过程是:
S11:生成异构图的节点:每个类型的每一个不同的id编号都作为异构图的一个节点;
S12:用边连接异构图的节点:四类节点类型之间存在3种边的关系:用户与广告素材的点击关系、广告素材与广告的从属关系、广告与广告主的发布关系;如果节点之间存在上述的三种关系中的任意一种,则将该两个节点用一条边连接起来。
3.根据权利要求2所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述步骤S1中,于异构图嵌入表示技术为这些广告信息生成各自的向量表示的过程包括异构图采样和SkipGram神经网络训练。
4.根据权利要求3所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述异构图采样的具体过程是:
每个广告受众id均作为开头节点按照设定好的元路径进行游走W次,每次游走L步;将每个游走到的节点依次登记下来,即是包含各类节点类型的节点序列语料库。
5.根据权利要求4所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述SkipGram神经网络训练的过程是:
将节点序列语料库输入SkipGram神经网络,训练得到语料库中的每个节点的n维向量表示;训练的目标是使得各个节点的向量表示能够保持节点在语料库中的近邻信息,训练模型优化的公式为:
其中ct为v的上下文节点,分母ut∈Vt,即负采样时考虑了节点的类型;训练好之后,得到每个节点的n维向量表示。
6.根据权利要求5所述的...
【专利技术属性】
技术研发人员:印鉴,蒙权,曹志平,
申请(专利权)人:中山大学,广州通达汽车电气股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。