当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于异构图嵌入技术的广告受众基础属性预估方法技术

技术编号:27745505 阅读:24 留言:0更新日期:2021-03-19 13:40
本发明专利技术提供一种基于异构图嵌入技术的广告受众基础属性预估方法,该方法根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息(素材id、广告id、广告主id)生成各自的向量表示,以此来保留广告信息之间的相互联系;搭建一个LSTM的神经网络,来自动根据已知基础属性(年龄和性别)的广告受众的历史点击行为训练一个可以根据广告受众的历史点击行为预测其基础属性的网络模型。针对未知基础属性的广告受众,只需要将其历史点击行为输入该训练好的网络模型,就可以根据其历史点击行为从该模型得到这些受众的基础属性。

【技术实现步骤摘要】
一种基于异构图嵌入技术的广告受众基础属性预估方法
本专利技术涉及人工智能
,更具体地,涉及一种基于异构图嵌入技术的广告受众基础属性预估方法。
技术介绍
众所周知,用户对广告的偏好会随着其年龄和性别的不同而有所区别。因此,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中也包括了广告平台。然而,大多数广告平台都无法准确获取所有用户的年龄和性别等基础属性,这就导致广告平台无法给缺失了年龄和性别等基础属性的用户准确地推送对应的广告。此种情况下,需要广告平台尽可能地预测、补全缺失的用户基础属性,以及纠正可能错误的广告受众的基础属性(年龄和性别),这样有助于提高广告平台的推送效果。早期,广告平台只能依靠调查的方式,人工录入用户的年龄和性别等基础属性,或者通知用户让用户自行填写,效率及其低下。随着现代信息技术的不断发展,这种信息补全的方式已经被各种人工智能技术所代替。主流的人工智能预测用户年龄和性别属性的任务都是直接使用广告受众的点击广告信息(素材id、广告id、广告主id)作为互相独立的特征,通过一个训练好的树模型分类器(例如LightGBM)或者神经网络(例如LSTM)来预估未知基础属性的广告受众的基础属性(年龄和性别)。然而,在实际情况中,广告受众的点击广告信息(素材id、广告id、广告主id)往往不是互相独立,而是相互有联系的,例如一个素材是明确属于某一个广告的,一个广告是明确某一个广告主发出的。这类场景下,保留广告信息(素材id、广告id、广告主id)之间的相互关系,会使得预估广告受众的基础属性的准确性更高。
技术实现思路
本专利技术提供一种预测效果较好的基于异构图嵌入技术的广告受众基础属性预估方法。为了达到上述技术效果,本专利技术的技术方案如下:一种基于异构图嵌入技术的广告受众基础属性预估方法,包括以下步骤:S1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括素材id、广告id、广告主id;S2:划分数据集,按照广告受众的基础属性是否已知将原始数据集分为两类,其中已知基础属性的这类数据称为训练集,用于训练预测模型,另一类数据称为测试集,用于预测其未知的基础属性,其中,广告受众的基础属性是年龄和性别;S3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个根据广告受众的点击行为预测其基础属性的预测模型。S4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性。进一步地,所述步骤S1中,构建广告受众的点击行为记录的异构图的过程是:S11:生成异构图的节点:每个类型的每一个不同的id编号都作为异构图的一个节点;S12:用边连接异构图的节点:四类节点类型之间存在3种边的关系:用户与广告素材的点击关系、广告素材与广告的从属关系、广告与广告主的发布关系;如果节点之间存在上述的三种关系中的任意一种,则将该两个节点用一条边连接起来。进一步地,所述步骤S1中,于异构图嵌入表示技术为这些广告信息生成各自的向量表示的过程包括异构图采样和SkipGram神经网络训练。进一步地,所述异构图采样的具体过程是:每个广告受众id均作为开头节点按照设定好的元路径进行游走W次,每次游走L步;将每个游走到的节点依次登记下来,即是包含各类节点类型的节点序列语料库。进一步地,所述SkipGram神经网络训练的过程是:将节点序列语料库输入SkipGram神经网络,训练得到语料库中的每个节点的n维向量表示;训练的目标是使得各个节点的向量表示能够保持节点在语料库中的近邻信息,训练模型优化的公式为:其中ct为v的上下文节点,分母ut∈Vt,即负采样时考虑了节点的类型;训练好之后,得到每个节点的n维向量表示。进一步地,步骤S2中,数据集划分的过程是:按照广告受众的基础属性是否已知将原始数据集分为两类;其中已知基础属性的这类数据称为训练集,训练集的广告受众点击行为作为训练模型的特征,特征对应的基础属性作为训练的标签,将特征与对应的标签用于训练LSTM神经网络得到预测模型;另一类数据称为测试集,用于训练好的预测模型预测其未知的基础属性。进一步地,步骤S3中,将训练集的数据处理为后续的LSTM可以识别的特征向量及其标签,具体步骤为:1)对每一个广告受众,分别把该用户的三个特征均按时间先后顺序排列起来,三个特征的长度均为p个时间步;若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个;2)将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征的历史时间序列中的每个节点替换为其n维向量来表示。每位广告受众的3个特征向量将作为训练模型的输入特征;3)将每位广告受众的基础属性作为该用户的3个特征所对应的标签,用于LSTM神经网络的监督训练。8.根据权利要求6所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,LSTM网络的输入input为p个时间步的3个特征序列,每个特征向量都是n维,输出output为一个序列的结构;当需要预测年龄的模型时,用年龄作为标签训练LSTM神经网络;当需要预测性别的模型时,用性别作为标签训练LSTM神经网络。进一步地,步骤S4中,对测试集的每一个广告受众,分别把该用户的三个特征均按时间先后顺序排列起来,三个特征的长度均为p个时间步;若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个;将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征的历史时间序列中的每个节点替换为其n维向量来表示;每位广告受众的3个特征向量将作为预测模型的输入特征。进一步地,步骤S3中的LSTM神经网络经过训练之后得到的预测模型;如果步骤S3中是用年龄作为标签进行训练,则得到广告受众的年龄预估模型;如果步骤S3中是用性别作为标签进行训练,则得到广告受众的性别预估模型;将广告受众的历史点击行为的3个特征向量输入年龄预估模型,则可以预估得到其年龄;将广告受众的历史点击行为的3个特征向量输入性别预估模型,则可以预估得到其性别。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术方法本方法首次以异构图嵌入技术将广告受众的历史点击记录表示为向量的形式,保留了广告信息(广告素材id、广告id、广告主id)之间的相互联系,预测的效果更好;本方法使用了LSTM神经网络,保留了广告受众点击行为的时间顺行上的逻辑性,预测的效果更好;本方法在线下根据已知基础属性(年龄和性别)用户的点击行为完成了广告信息(广告素材id、广告id、广告主id)的向量化表示,当需要预测未知基础属性(年龄和性别)用户的基础属性时,就不需要再次进行向量化表示了,这种设计不仅提高了准确性,也提高了响应速度。本文档来自技高网
...

【技术保护点】
1.一种基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,包括以下步骤:/nS1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括素材id、广告id、广告主id;/nS2:划分数据集,按照广告受众的基础属性是否已知将原始数据集分为两类,其中已知基础属性的这类数据称为训练集,用于训练预测模型,另一类数据称为测试集,用于预测其未知的基础属性,其中,广告受众的基础属性是年龄和性别;/nS3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个根据广告受众的点击行为预测其基础属性的预测模型。/nS4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性。/n

【技术特征摘要】
1.一种基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,包括以下步骤:
S1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括素材id、广告id、广告主id;
S2:划分数据集,按照广告受众的基础属性是否已知将原始数据集分为两类,其中已知基础属性的这类数据称为训练集,用于训练预测模型,另一类数据称为测试集,用于预测其未知的基础属性,其中,广告受众的基础属性是年龄和性别;
S3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个根据广告受众的点击行为预测其基础属性的预测模型。
S4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性。


2.根据权利要求1所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述步骤S1中,构建广告受众的点击行为记录的异构图的过程是:
S11:生成异构图的节点:每个类型的每一个不同的id编号都作为异构图的一个节点;
S12:用边连接异构图的节点:四类节点类型之间存在3种边的关系:用户与广告素材的点击关系、广告素材与广告的从属关系、广告与广告主的发布关系;如果节点之间存在上述的三种关系中的任意一种,则将该两个节点用一条边连接起来。


3.根据权利要求2所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述步骤S1中,于异构图嵌入表示技术为这些广告信息生成各自的向量表示的过程包括异构图采样和SkipGram神经网络训练。


4.根据权利要求3所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述异构图采样的具体过程是:
每个广告受众id均作为开头节点按照设定好的元路径进行游走W次,每次游走L步;将每个游走到的节点依次登记下来,即是包含各类节点类型的节点序列语料库。


5.根据权利要求4所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述SkipGram神经网络训练的过程是:
将节点序列语料库输入SkipGram神经网络,训练得到语料库中的每个节点的n维向量表示;训练的目标是使得各个节点的向量表示能够保持节点在语料库中的近邻信息,训练模型优化的公式为:



其中ct为v的上下文节点,分母ut∈Vt,即负采样时考虑了节点的类型;训练好之后,得到每个节点的n维向量表示。


6.根据权利要求5所述的...

【专利技术属性】
技术研发人员:印鉴蒙权曹志平
申请(专利权)人:中山大学广州通达汽车电气股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1