一种融合压缩交叉网络的混合推荐方法技术

技术编号:35447052 阅读:15 留言:0更新日期:2022-11-03 12:00
本发明专利技术公开了一种融合压缩交叉网络的混合推荐方法。本发明专利技术中,针对当前推荐模型特征组合不充分的问题,提出了DeepFC模型,模型主要采用了因子分解机、压缩交叉网络和深度神经网络三种方法并行操作。该模型可以较好的解决模型组合不充分的问题。其中,DeepFC模型分别采用三种方法并行组成,是由于当前模型一般仅考虑低阶、显性高阶和隐形高阶这三种方式中的一到两种方式。例如当前已提出的Deep

【技术实现步骤摘要】
一种融合压缩交叉网络的混合推荐方法


[0001]本专利技术属于广告点击率推荐
,具体为一种融合压缩交叉网络的混合推荐方法。

技术介绍

[0002]点击率预测模型设计中需要考虑特征数据的基本特性,如果数据存在稀疏性等问题时,一般要通过合适的方式进行处理,针对此问题处理的方法较多,而常用的是特征组合方法,将不同特征之间的交互性考虑在内,通过高阶特征组合[9],得到用户在广告上的偏好。其中在隐性特征组合上大多采用了深度神经网络,这种方式存在一定的不足,仅仅能够学习特征的部分非线性组合关系,因此无法保持较高的表达能力。针对上述问题,部分学者开展了相关的研究工作,致力于挖掘得到不同特征组合的非线性关系,使得点击率预测模型达到更高的预测精度,从而提高广告推荐的精准性。
[0003]然而此类模型复杂度较高,在效率上相对于LR模型等存在明显的劣势,难以实时为用户提供推荐的结果。因此有必要针对基于深度学习的点击率预测模型深入研究,解决存在的瓶颈问题,为其走向实用化提供足够的支持。

技术实现思路

[0004]本专利技术的目的在于:为了解决上述提出的问题,提供一种融合压缩交叉网络的混合推荐方法。
[0005]本专利技术采用的技术方案如下:一种融合压缩交叉网络的混合推荐方法,所述融合压缩交叉网络的混合推荐方法包括以下步骤:
[0006]S1:将用户信息和商品信息等数据处理为稀疏矩阵的形式作为模型的输入;
[0007]S2:将输入的稀疏矩阵经过Embedding层,通过向量内积处理为稠密的特征向量,即Embedding向量;
[0008]S3:进行Embedding处理,首先,在DeepFC模型的输入层对输入数据进行数据预处理。然后再经过Embedding处理,将多个领域 (field)组成的高维稀疏分类特征通过神经网络嵌入到低维密集特征。通过Embedding的处理,提升了向量之间的交互。
[0009]将所有的Embedding向量作为一个矩阵公式化为:
[0010][0011]其中m表示field的数量,表示Embedding特征, D为Embedding维度
[0012]S4:把计算的稠密特征向量作为FM模块、CIN模块和DNN模块三部分输入,从线性低阶交互、线性组合和非线性高阶交互三个角度分别处理输入特征
[0013]S5:采用等权重线性加权各部分特征结果作为中间层的输出。输出特征再进行一层全连接,在激活函数作用后,作为模型整体的输出层;
[0014]S6:在模型确定出之后,接着还应该设置适宜的参数,从而提高模型的性能。在研
究时目标函数设为J(θ),通过求取此函数的最小值而使得实测值和预测值的偏差最小,从而起到优化模型的目的,通过优化的模型进行预测也有利于提高结果的精度。对参数进行训练时应用了Adam[45]方法。
[0015]在求解最优化问题时Adam算法有明显的优势,基于这种方法对数据规模大的问题可以取得良好的效果,适用性强。这种算法融合了 AdaGrad、RMSProp的优势[46]。在进行参数更新时,AdaGrad算法应用了二阶动量,这样可以实现一定自适应效果。在对步长进行设置时,主要考虑的因素为更新频次。在更新频次大情况下,应该设置的步长小一些,相反情况下则设置大步长。根据实际应用经验表明,这种算法的缺陷表现为,学习率趋于零时,训练过程会提前结束,这样降低了训练效果。RMSProp算法则避免了持续积累问题[47]。Adam在训练时对应的流程如下:
[0016]输入:训练数据,学习率η,批量数据大小n
[0017]输出:DeepFC模型
[0018]1:初始化DeepFC模型
[0019]2:for训练迭代次数do:
[0020]3:通过Adam最小化目标函数:
[0021][0022]更新DeepFC模型参数
[0023]4:endfor;
[0024]S7:对DeepFC模型的进行模型压缩与加速;
[0025]先进行一定次数的迭代训练,接着进行剪枝操作,在剪枝结束之后再次进行训练,以此实现对网络的有效调整。持续进行上述过程,并对稀疏速率进行合理地设置,即在不同的网络状态下设置不同的速率,如果网络敏感度较高,则速度后期增速减小;如果网络处于稳定的状态,则初期速率增速较大。上述算法在原理上与基于弱子模优化的贪心算法是相似的[60],然而后者受到剪枝中不确定性的影响,导致权重不佳,
[0026]修剪策略为:
[0027]输入:设置目标稀疏率S、阻尼比和
[0028]输出:稀疏模型
[0029]1:训练训练网络进行一次迭代
[0030]2:修剪
[0031]Fork=1,2...n
[0032]进行一次迭代训练网络。
[0033]枚举模型中的候选组件X。
[0034]更新当前稀疏率


[0035]修剪底部%的较大交叉熵误差的边。
[0036]保存完成修剪的组件
[0037]3:模型预测
[0038]将稀疏模型转化为有效结构。
[0039]在一优选的实施方式中,所述步骤S4中,CIN模块的输入输出描述如下:
[0040]输入:CIN网络的输入即Embedding的输出,
[0041]输出:CIN的第k层的输出,其中Hk为第k层特征向量的数量,且H0=m;
[0042]第k层的各个特征向量的表达式如下:
[0043][0044]该式中,

表示哈达玛乘积(HadamardProduct),即对应矩阵元素相乘。h、Hk分别表示特征向量数量和第k层特征向量的数量, 1≤h≤H
k
。表示Hk

1层二维矩阵,X0∈R
m
×
D
表示经Embedding层处理后的第0层二维矩阵,表示第0层第i个域的特征向量,表示第k层的二维矩阵。例如:T表示CIN模块的层数,每个隐藏层X
k
(其中,k∈[1,T])都与第 0层的二维向量进行计算,最终
[0045]在一优选的实施方式中,所述步骤S4中,对于CIN的计算方式,以第k+1层的输出为例。首先进行外积操作:引入一个过渡张量它是隐藏层与输出层的外积,然后将整个可以视为图片,视为过滤器,过滤器沿着Embedding维度(D)滑动。然后得到隐藏向量这被称为一个特征图或特征映射(featuremap)。
[0046]因此Xk是Hk个不同特征映射的集合。CIN网络种的压缩指的便是第k个隐藏层将Hk
‑1×
m向量空间压缩至Hk向量。
[0047]定义T为整个网络的深度。每个隐藏层的二维矩阵为Xk,k∈[1,T], 对于第k层,将所有的特征映射进行一个加和池化操作 (sumpooling),对公式(3.2)得到的各隐藏层的二维矩阵进行加和池化操作,即:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合压缩交叉网络的混合推荐方法,其特征在于:所述融合压缩交叉网络的混合推荐方法包括以下步骤:S1:将用户信息和商品信息等数据处理为稀疏矩阵的形式作为模型的输入;S2:将输入的稀疏矩阵经过Embedding层,通过向量内积处理为稠密的特征向量,即Embedding向量;S3:进行Embedding处理,首先,在DeepFC模型的输入层对输入数据进行数据预处理;然后再经过Embedding处理,将多个领域(field)组成的高维稀疏分类特征通过神经网络嵌入到低维密集特征;通过Embedding的处理,提升了向量之间的交互;将所有的Embedding向量作为一个矩阵公式化为:其中m表示field的数量,表示Embedding特征,D为Embedding维度S4:把计算的稠密特征向量作为FM模块、CIN模块和DNN模块三部分输入,从线性低阶交互、线性组合和非线性高阶交互三个角度分别处理输入特征S5:采用等权重线性加权各部分特征结果作为中间层的输出;输出特征再进行一层全连接,在激活函数作用后,作为模型整体的输出层;S6:在模型确定出之后,接着还应该设置适宜的参数,从而提高模型的性能;在研究时目标函数设为J(θ),通过求取此函数的最小值而使得实测值和预测值的偏差最小,从而起到优化模型的目的,通过优化的模型进行预测也有利于提高结果的精度;对参数进行训练时应用了Adam[45]方法;在求解最优化问题时Adam算法有明显的优势,基于这种方法对数据规模大的问题可以取得良好的效果,适用性强;这种算法融合了AdaGrad、RMSProp的优势[46];在进行参数更新时,AdaGrad算法应用了二阶动量,这样可以实现一定自适应效果;在对步长进行设置时,主要考虑的因素为更新频次;在更新频次大情况下,应该设置的步长小一些,相反情况下则设置大步长;根据实际应用经验表明,这种算法的缺陷表现为,学习率趋于零时,训练过程会提前结束,这样降低了训练效果;RMSProp算法则避免了持续积累问题[47];Adam在训练时对应的流程如下:输入:训练数据,学习率η,批量数据大小n输出:DeepFC模型1:初始化DeepFC模型2:for训练迭代次数do:3:通过Adam最小化目标函数:更新DeepFC模型参数4:endfor;S7:对DeepFC模型的进行模型压缩与加速;先进行一定次数的迭代训练,接着进行剪枝操作,在剪枝结束之后再次进行训练,以此
实现对网络的有效调整;持续进行上述过程,并对稀疏速率进行合理地设置,即在不同的网络状态下设置不同的速率,如果网络敏感度较高,则速度后期增速减小;如果网络处于稳定的状态,则初期速率增速较大;上述算法在原理上与基于弱子模优化的贪心算法是相似的[60],然而后者受到剪枝中不确定性的影响,导致权重不佳,修剪策略为:输入:设置目标稀疏率S、阻尼比和输出:稀疏模型1:训练训练网络进行一次迭代2:修剪Fork=1,2...n进行一次迭代训练网络;枚举模型中的候选组件X;更新当前稀疏率

;修剪底部%的较大交叉熵误差的边;保存完成修剪的组件3:模型预测将稀疏模型转化为有效结构。2.如权利要求1所述的一种融合压缩交叉网络的混合推荐方法,其特征在于:所述步骤S4中,CIN模块的输入输出描述如下:输入:CIN网络的输入即Embedding的输出,输出:CIN的第k层的输出,其中Hk为第k层特征向量的数量,且H0=m;第k层的各个特征向量的表达式如下:该式中,

表示哈达玛乘积(HadamardProduct),即对应矩阵元素相乘;h、Hk分别表示特征向量数量和第k层特征向量的数量,1≤h≤H
k
;表示Hk

1层二维矩阵,X0∈R
m
×
D
表示经Embedding层处理后的第0层二维矩阵,表示第0层第i个域的特征向量,表示第k层的二维矩阵;例如:T表示CIN模块的层数,每个隐藏层X
k
(其中,k∈[1,T])都与第0层的二维向量进行计算,最终3.如权利要求1所述的一种融合压缩交叉网络的混合推荐方法,其特征在于:所述步骤S4中,对于CIN的计算方式,以第k+1层的输出为例;首先进行外积操作:引入一个过渡张量它是隐藏层与输出层的外积,然后将整个可以视为图片,视为过滤器;如下图3.4所示,过滤器沿着Embedding维度(D)滑动;然后得到隐藏向量这被称为一个特征图或特征映射(featuremap);因此Xk是Hk个不同特征映射的集合;CIN网络种的压缩指的便是第k个隐藏层将Hk
‑1×
m向量空间压缩至Hk向量;定义T为整个网络的深度;每个隐藏层的二维矩阵为Xk,k∈[1,T],对于第k层,将所有的特征映射进行一个加和池化操作(sumpooling),对公式(3.2)得到的各隐藏层的二维矩阵进行加和池化操作,即:其中,i∈[1,H
k
],第k层的池化向量CIN模块的输出向量结果即为将各层的池化向量串联,即:由上述计算公式可知,CIN模型的第k层W
k,h
对应参数大小为Hk
×
Hk
‑1×
m,由于最后Sigmoid函数中的w0,因此CIN模型总的空间复杂度为第k层中,两个特征交互得到中间层的时间复杂度是O(mHD),由于每个隐藏层有H个特征层,CIN中包含T层,因此总的时间复杂是O(mh2DT);CIN模块的处理过程和CNN网络提取知识特征图的过程很类似,也就是先基于各卷积核提取输入数据的各方面信息,接着进行池化处理,以便对其中重要信息组合;在CIN中和各个特征映射保持对应关系;可在加和池化操作基础上汇总特征映射相关信息。4.如权利要求1所述的一种融合压缩交叉网络的混合推荐方法,其特征在于:所述步骤S4中,DNN模块通过前馈网络来得到隐性高阶特征组合,通过这种处理方式可以组合形成具有价值的新特征,从而改善模型的性能;前馈神经网络[40],作为一种非线性模型已经广泛应用到了多个领域中;该模型的基本原理如下所示:在变量从输入端到输入端的过程中需要通过隐含层进行处理,而隐含层的数目往往不低于1个,在各个层次中涉及到了大量的神经元,这里的总层数仅仅包括隐含层和输出层,并不包括输入层;对应的输出表达式如下:z=w1x1+w2x2+w3x3+w0ꢀꢀꢀꢀꢀꢀ
(3.5)y=g(z)
ꢀꢀꢀ
(3.6)在上述公式内,w1,w2,w3均为神经元参数,x1,x2,x3代表输入,y代表对应的输出;g(.)代表激活函数,使用较多的包括ReLU、Sigmoid函数等,一般需要结合具体的要求选择合适的激活函数;目前在深度学习领域中广泛采用了Sigmoid函数,其公式为5.如权利要求1所述的一种融合压缩交叉网络的混合推荐方法,其特征在于:所述步骤S4中,Sigmoid函数的输出范围限定在0到1区间,它会对每个单元的输出进行归一化,适合将预测概率作文输出的模型;Tanh函数表达式为该函数常用于二分类问题的隐藏层;ReLU函数和LeakyReLU函数不以0为中心,存在存在输入为负时,函数完全...

【专利技术属性】
技术研发人员:崔昊栾方军
申请(专利权)人:沈阳建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1