基于跨平台异构数据及行为上下文的CTR预估方法及系统技术方案

技术编号:27811280 阅读:25 留言:0更新日期:2021-03-30 09:46
本发明专利技术公开了一种基于跨平台异构数据及行为上下文的CTR预估方法及系统,属于大数据及自然语言处理领域,本发明专利技术要解决的技术问题为如何对用户兴趣进行深度挖掘,提高点击率预估精度,技术方案为:数据采集及预处理:采集不同平台的异构数据,对用户跨平台异构数据进行数据预处理;预估用户实时兴趣:通过注意力机制将跨平台异构数据进行融入,即将用户行为通过注意力机制与当下行为联系起来,更好的预估用户的实时兴趣;提取图片特征:通过残差网络对待推荐物品进行图片特征提取,再将所有特征向量进行拼接;获取CTR精准预估结果:将拼接后的图片特征向量作为MLP网络的输入,通过MLP网络进行高阶特征提取和最终结果的预估,得到物品CTR的精确预估。品CTR的精确预估。品CTR的精确预估。

【技术实现步骤摘要】
基于跨平台异构数据及行为上下文的CTR预估方法及系统


[0001]本专利技术涉及大数据及自然语言处理领域,具体地说是一种基于跨平台异构数据及行为上下文的CTR预估方法及系统。

技术介绍

[0002]点击率(Click

through Rate,CTR)是指某一内容被点击次数与被展示次数的比例,一般用于描述内容被用户点击的概率。CTR预估,是指通过一系列相关数据与技术去预测特定场景下物品或内容被用户点击的概率。
[0003]在内容推荐和在线广告领域,由于预估的CTR可以很好地反映特定场景下用户对内容的偏好程度,进而根据预估CTR的大小对推荐内容进行合理的排序、截断,形成更符合用户偏好和行为习惯的推荐列表,最终达到提高用户对应用的喜爱程度、使用时长或者提高应用内广告的变现效率等目的。因此,如何提高CTR预估的准确性已经成为各大企业在内容推荐、在线广告等领域最为核心及关键的研究课题。
[0004]鉴于CTR预估在内容推荐、在线广告等互联网应用领域的独特地位,越来越多的企业投入大量的人力物力在CTR预估模型的研究上。目前在计算机视觉、自然语言处理领域不断发展的深度学习技术,凭借其在大数据集下良好的并行处理能力和对高阶复杂特征的高效挖掘、抽象能力,也逐步成为CTR预估模型领域的热门研究内容。故如何对用户兴趣进行深度挖掘,提高点击率预估精度是目前现有技术中亟待解决的问题。

技术实现思路

[0005]本专利技术的技术任务是提供一种基于跨平台异构数据及行为上下文的CTR预估方法及系统,来解决如何对用户兴趣进行深度挖掘,提高点击率预估精度的问题。
[0006]本专利技术的技术任务是按以下方式实现的,一种基于跨平台异构数据及行为上下文的CTR预估方法,该方法具体如下:
[0007]数据采集及预处理:采集不同平台的异构数据,对用户跨平台异构数据进行数据预处理;
[0008]预估用户实时兴趣:通过注意力机制将跨平台异构数据进行融入,即将用户行为通过注意力机制与当下行为联系起来,更好的预估用户的实时兴趣,从而提高CTR预估的准确性;
[0009]提取图片特征:通过残差网络(ResNet)对待推荐物品进行图片特征提取,再将所有特征向量进行拼接;
[0010]获取CTR精准预估结果:将拼接后的图片特征向量作为MLP网络(多层全连接网络)的输入,通过MLP网络进行高阶特征提取和最终结果的预估,优势互补,得到物品CTR的精确预估。
[0011]作为优选,数据采集及预处理具体如下:
[0012]构建基本特征:根据硬件设备或手机APP获取到的基本上下文信息及用户信息构
建离散特征和连续性数据特征;
[0013]特征转化:通过Embedding层将采集到的用户离散特征转变为低维实数向量,缓解稀疏性;具体如下:
[0014]对于任意一个特征feature
i
,Embedding层通过不断训练更新为feature
i
的所有可能取值建立一个稠密向量映射表e
i
,具体如下:
[0015][0016]其中,i∈[1,n],n为特征总个数;表示feature
i
第j种取值对应的表征向量,j∈[1,m
i
];d表示稠密向量的维度;m
i
表示feature
i
的取值个数;
[0017]通过Embedding层后,得到基本上下文特征e
c
、用户基本特征e
u
及待推荐物品基本特征e
i

[0018]作为优选,预估用户实时兴趣具体如下:
[0019]通过Embedding层对用户跨平台异构数据(点击物品或搜索物品)转变为低维实数向量使其作为注意力信号,对用户行为序列进行编码,计算注意力分布;
[0020]计算注意力的加权平均,根据相似度通过注意力机制转换成兴趣权重,从而使得用户兴趣得到深度挖掘;
[0021]根据待推荐物品的向量再次对用户行为序列进行注意力机制操作,得到基础权重;
[0022]通过注意力机制得到的兴趣权重及基础权重进行对应求均值,从而得到用户交互过的每个物品最终权重;
[0023]对输入的序列进行加权融合,将得到的向量作为输入序列的聚合特征[e1,e2,

,e
n
]。
[0024]作为优选,提取图片特征具体如下:
[0025]采用残差网络提取待推荐物品图片特征:采用7*7的卷积块,进行步长为2的卷积,再通过池化层对特征图进行压缩,即f(z)=max(z
[i,j+k][j,j+k]);
[0026]使用四组残差块,在残差块之间进行一次卷积操作,以减少特征空间大小;
[0027]加入池化层对其进行池化操作,经过网络层后,对于输入创意图G的特征提取完毕;
[0028]经过一个包含256个神经元的全连接层,将所有特征相连并降维成256维向量的形式,记为e
G
,将e
G
与其余特征进行拼接。
[0029]更优地,所述MLP网络(多层全连接网络)用于利用多层网络结构自动学习到特征间的非线性关联,最终得到高阶特征,从而充分挖掘特征间的非线性关联,从而更有效低提高点击率预测的结果;具体如下:
[0030]第一层为输入层,将提取的特征拼接为a0,即a0=[e
u
,e
c
,e1,e2,

,e
G
];
[0031]多层隐藏层,每个隐藏层执行如下计算:
[0032]z
(l+1)
=ω
l
a
l
+b
l

[0033]a
(l+1)
=σ
l
(z
l+1
);
[0034]其中,l表示隐藏层层数;σ表示激活函数;
[0035]由上述公式可得:
[0036]a
(l+1)
=σ
l

l
a
l
+b
l
);
[0037]通过全连接网络得到最终输出:
[0038]h(l)=σ
l

l

l
‑1(w
l
‑1…
σ1(ω1a0+b1))+b
l
‑1)+b
l
);
[0039]通过softmax层输出p(x);
[0040]定义损失函数为L,公式如下:
[0041][0042]其中,S表示大小为N的训练集;x表示网络的输入;y表示真实值,即是否点击,y∈{0,1};p(x)表示softmax层后的网络输出,表示样本x被点击的预测概率;优化算法选择Ad本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨平台异构数据及行为上下文的CTR预估方法,其特征在于,该方法具体如下:数据采集及预处理:采集不同平台的异构数据,对用户跨平台异构数据进行数据预处理;预估用户实时兴趣:通过注意力机制将跨平台异构数据进行融入,即将用户行为通过注意力机制与当下行为联系起来,更好的预估用户的实时兴趣,从而提高CTR预估的准确性;提取图片特征:通过残差网络对待推荐物品进行图片特征提取,再将所有特征向量进行拼接;获取CTR精准预估结果:将拼接后的图片特征向量作为MLP网络的输入,通过MLP网络进行高阶特征提取和最终结果的预估,优势互补,得到物品CTR的精确预估。2.根据权利要求1所述的基于跨平台异构数据及行为上下文的CTR预估方法,其特征在于,数据采集及预处理具体如下:构建基本特征:根据硬件设备或手机APP获取到的基本上下文信息及用户信息构建离散特征和连续性数据特征;特征转化:通过Embedding层将采集到的用户离散特征转变为低维实数向量,缓解稀疏性;具体如下:对于任意一个特征feature
i
,Embedding层通过不断训练更新为feature
i
的所有可能取值建立一个稠密向量映射表e
i
,具体如下:其中,i∈[1,n],n为特征总个数;表示feature
i
第j种取值对应的表征向量,j∈[1,m
i
];d表示稠密向量的维度;m
i
表示feature
i
的取值个数;通过Embedding层后,得到基本上下文特征e
c
、用户基本特征e
u
及待推荐物品基本特征e
i
。3.根据权利要求1所述的基于跨平台异构数据及行为上下文的CTR预估方法,其特征在于,预估用户实时兴趣具体如下:通过Embedding层对用户跨平台异构数据转变为低维实数向量使其作为注意力信号,对用户行为序列进行编码,计算注意力分布;计算注意力的加权平均,根据相似度通过注意力机制转换成兴趣权重,从而使得用户兴趣得到深度挖掘;根据待推荐物品的向量再次对用户行为序列进行注意力机制操作,得到基础权重;通过注意力机制得到的兴趣权重及基础权重进行对应求均值,从而得到用户交互过的每个物品最终权重;对输入的序列进行加权融合,将得到的向量作为输入序列的聚合特征[e1,e2,

,e
n
]。4.根据权利要求1所述的基于跨平台异构数据及行为上下文的CTR预估方法,其特征在于,提取图片特征具体如下:采用残差网络提取待推荐物品图片特征:采用7*7的卷积块,进行步长为2的卷积,再通
过池化层对特征图进行压缩,即f(z)=max(z
[i,j+k][j,j+k]
);使用四组残差块,在残差块之间进行一次卷积操作;加入池化层对其进行池化操作,经过网络层后,对于输入创意图G的特征提取完毕;经过一个包含256个神经元的全连接层,将所有特征相连并降维成256维向量的形式,记为e
G
,将e
G
与其余特征进行拼接。5.根据权利要求1

4中任一所述的基于跨平台异构数据及行为上下文的CTR预估方法,其特征在于,所述MLP网络用于利用多层网络结构自动学习到特征间的非线性关联,最终得到高阶特征,从而充分挖掘特征间的非线性关联,从而更有效低提高点击率预测的结果;具体如下:第一层为输入层,将提取的特征拼接为a0,即a0=[e
u
,e
c
,e1,e2,

,e
G
];多层隐藏层,每个隐藏层执行如下计算:z
(l+1)
=ω
l
a
l
+b
l
;a
(l+1)
=σ
l
(z
l+1
);其中,l表示隐藏层层数;σ表示激活函数;由上述公式可得:a
(l+1)
=σ
l

l
a
l
+b
l
);通过全连接网络得到最终输出:h(l)=σ
l

l

l
‑1(w
l
‑1…
σ1(ω1a0+b1))+b
l
‑1)+b
l
);通过softmax层输出p(x);定义损失函数为L,公式如下:其中,S表示大小为N的训练集;x表示网络的输入;y表示真实值,即是否点击,y∈{0,1};p(x)表示softmax层后的网络输出,表示样本x被点击的预测概率;优化算法选择Adam算法,优化器选择Adam优化器,能够最小化基于训练数据集D的损失L,使得计算得到的预测值p(x)与真实值y接近,使用AUC值进行评判,AUC的取值范围在0.5和1之间,AUC值越接近1,预测真实性越高。6.一种基于跨平台异构数据及行为上下文的CTR预估系统,其特征在于,该系统包括,数据采集及预处理单元,用于采集不同平台的异构数据,对用户跨平台异构数据进行数据预处理;兴趣预估单元,用于通过注意力机制将跨平台异构数据进行融入,即将用户行为通过...

【专利技术属性】
技术研发人员:高茜李继鹏
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1