一种基于多模态特征融合的移动应用分类与推荐方法技术

技术编号:37595632 阅读:19 留言:0更新日期:2023-05-18 11:41
本发明专利技术公开了基于多模态特征融合的移动应用分类与推荐方法,包括如下步骤:(1)移动应用特征提取层;(2)移动应用分类层;(3)移动应用推荐层。本发明专利技术属于计算机网络技术领域,具体是指一种具有更好的推荐精度及质量,在Macro F1、Accurac、AUC及Logloss等指标上均优于其他方法的基于多模态特征融合的移动应用分类与推荐方法。分类与推荐方法。分类与推荐方法。

【技术实现步骤摘要】
一种基于多模态特征融合的移动应用分类与推荐方法


[0001]本专利技术属于计算机网络
,具体是指一种基于多模态特征融合的移动应用分类与推荐方法。

技术介绍

[0002]据Statista统计,至2021年10月,中国手机应用数量接近399万个,居全球第一。电子商务、网上外卖、游戏、自媒体等丰富应用将全面影响人们的衣食住行,改变了人们的生活方式。近年来,互联网上的移动应用数量呈指数级增长。面对这些海量的移动应用,虽然已经存在着大量的可供训练的样本数据,但是当有新的数据要处理时,仍会面临着冷启动、数据稀疏等问题。如何利用已有的大规模已经分类好的数据样本,对模型进行训练,主要问题是选取合适的模型。当新的移动应用出现时,移动应用所包含的信息大多只有图片、描述及发布者等信息。一方面对于从业者来说,他们很难对移动应用市场进行整体Bench Mark以及相关分析,因此需要对移动应用进行精确地分类才能完成后续的风险控制、数据分析等任务;另一方面对于用户来说,他们难以选择合适自己个性化偏好以及需求的移动应用。因此有必要提供高质量的移动应用推荐机制,进而提升用户的良好体验。
[0003]传统的移动应用分类方法,如多层感知机,支持向量机,其中多数分类模型的性能依赖于标注数据集的质量,而获取高质量的标注数据需要耗费大量的人工成本。但是该方法依赖人工设计,受人为因素影响,推广能力差,在某一领域表现优秀的特征不一定在其他领域也表现优秀。而传统的移动应用推荐方法,如协同过滤,矩阵分解,通常将移动应用推荐问题转化为有监督学习问题。本质上,这类模型首先分别嵌入用户和应用程序,然后利用它们之间的交互信息来优化模型和执行推荐。这些方法在许多推荐任务和排名任务中表现良好。但是,上述方法也存在一些不足,例如,它们对稀疏数据敏感,对新用户的预测能力有限,并且仅学习用户与服务之间的线性交互。
[0004]随着网络上多模态数据的增长,来自不同模态(视觉、听觉等)的内容信息最近被用来为传统文本特征提供互补的特征信号。该领域的大多数现有研究都关注对话中的情绪分类。具体而言,Poria等人在2015年以及2017年分别提出了一种多核学习方法和基于LSTM的顺序架构,以融合文本特征、视觉特征和音频特征。根据这项工作,Zadeh等人和Zadeh等人进一步设计了张量融合网络和记忆融合网络,以更好地捕捉不同模式之间的相互作用。然而,这些方法是为粗粒度分类而设计的,这对于我们的细粒度面向目标的移动应用分类可能不是很有效。

技术实现思路

[0005]为了解决上述难题,本专利技术提供了一种具有更好的推荐精度及质量,在Macro F1、Accurac、AUC及Logloss等指标上均优于其他方法的基于多模态特征融合的移动应用分类与推荐方法。
[0006]为了实现上述功能,本专利技术新型采取的技术方案如下:一种基于多模态特征融合
的移动应用分类与推荐方法,包括如下步骤:
[0007](1)移动应用特征提取层
[0008]从移动应用数据集中提取一组多模态样本D,针对每个样本c∈D,它包含一个由n个移动应用描述信息单词(w1,

,wn)组成的句子S以及一个关联的移动应用图像I;将D作为训练语料库,在移动应用分类器中进行训练学习,在未被学习到的样本中正确预测移动应用的类别标签;在完成初始归一化及自编码单词化预处理后,在特征提取层中使用Bert模型对移动应用描述特征进行提取,并使用内卷模块的残差网络(RedNet)进行图像特征提取;
[0009](2)移动应用分类层
[0010]使用Transformer中的自注意力与多头注意力机制区分不同模态的特征重要性并融合,并使用Softmax分类器根据融合后的特征信息将移动应用进行分类;
[0011](3)移动应用推荐层
[0012]将完成分类后的数据依据其类别输入FiBiNet模型,通过权重拟合特征和样本的关系,动态地学习特征的重要性;对于越重要的特征,将赋予更大的权重,并且弱化非关键特征的权重;利用双线性操作同时考虑各个维度的重要性以完成移动应用推荐;FiBiNet模型上半部分为深层部分,主要是MLP网络通过连接层将双线性交互层的输出连接集成到稠密向量中,再将交叉组合特征输入神经网络,在预测层得到预测分数;下半部分浅层部分是FiBiNet的核心,主要对输入特征进行处理。
[0013]进一步地,所述步骤1中描述特征进行提取包括如下步骤:
[0014]选取预训练好的双预料库BERT作为初始模型,通过Fine

Tune的方式对其参数进行调整与学习;将使用多头自我注意层将输入序列中的每个位置转换为输入层的加权和;具体来说,对于第i个头部注意,输入层X∈Rd
×
N是基于点积注意力机制转化的:
[0015][0016]其中,{W
Qi
,W
Ki
,W
Vi
}∈R
d/m
×
d
是分别对应于查询、键和值的可学习参数;之后,将m个注意机制的输出串联在一起进行线性变换;
[0017]将每个移动应用的描述信息通过自编码的方式对其进行表征并输入到预训练好的BERT中;除了单词的token之外,在输入的每一个序列开头都插入特定的分类token([CLS]),该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用,保留[CLS]向量与被提取的语义向量作为输出O,以提升模型精确性:
[0018]O=[H0,H
[CLS]][0019]之后将输出O通过Softmax函数进行线性变化,得到移动应用I的D*N维文本信息最终表征向量HS。
[0020]进一步地,所述步骤1中图像特征提取包括如下步骤:
[0021]内卷核H
,j
∈Rv由函数φ产生,以(i,j)处的单个像素为条件,然后进行通道到空间的重新排列,对合的乘加运算分解为两个步骤,乘积运算为将C个通道的张量分别与内卷核H相乘,相加运算则是将内卷核范围内的元素相加于内卷核核心,内卷核是专门位于对应坐标(i,j)的像素Xi,j定制的,但在通道上共享,G计算每个组共享相同的内卷核的组数,利用内卷核对输入进行乘加运算,得到内卷模块的表征输出定义为:
增加维度来重新存储原始维度。形式上,领域嵌入的权重可以计算如下:
[0043]A=σ2(W2σ1(W1Z))
[0044]其中为表征向量,σ1和σ2是激活函数。
[0045]进一步地,所述重新加权包括如下步骤:
[0046]嵌入层的每个字段乘以相应的权重,得到最终的嵌入结果V={v1,

,V
f
}。整个操作可以看作是学习每个域嵌入的权重系数,这使得模型对每个域嵌入的特征更具区分性。利用SENET机制,增加重要特征的权重,并减少那些信息不足特征的权重,得到SENET层输出V,表示如下:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态特征融合的移动应用分类与推荐方法,其特征在于,包括如下步骤:(1)移动应用特征提取层从移动应用数据集中提取一组多模态样本D,针对每个样本c∈D,它包含一个由n个移动应用描述信息单词(w1,

,wn)组成的句子S以及一个关联的移动应用图像I;将D作为训练语料库,在移动应用分类器中进行训练学习,在未被学习到的样本中正确预测移动应用的类别标签;在完成初始归一化及自编码单词化预处理后,在特征提取层中使用Bert模型对移动应用描述特征进行提取,并使用内卷模块的残差网络(RedNet)进行图像特征提取;(2)移动应用分类层使用Transformer中的自注意力与多头注意力机制区分不同模态的特征重要性并融合,并使用Softmax分类器根据融合后的特征信息将移动应用进行分类;(3)移动应用推荐层将完成分类后的数据依据其类别输入FiBiNet模型,通过权重拟合特征和样本的关系,动态地学习特征的重要性;对于越重要的特征,将赋予更大的权重,并且弱化非关键特征的权重;利用双线性操作同时考虑各个维度的重要性以完成移动应用推荐;FiBiNet模型上半部分为深层部分,主要是MLP网络通过连接层将双线性交互层的输出连接集成到稠密向量中,再将交叉组合特征输入神经网络,在预测层得到预测分数;下半部分浅层部分是FiBiNet的核心,主要对输入特征进行处理。2.根据权利要求1所述的基于多模态特征融合的移动应用分类与推荐方法,其特征在于,所述步骤1中描述特征进行提取包括如下步骤:选取预训练好的双预料库BERT作为初始模型,通过Fine

Tune的方式对其参数进行调整与学习;将使用多头自我注意层将输入序列中的每个位置转换为输入层的加权和;具体来说,对于第i个头部注意,输入层X∈Rd
×
N是基于点积注意力机制转化的:其中,{W
Qi
,W
Ki
,W
Vi
}∈R
d/m
×
d
是分别对应于查询、键和值的可学习参数;之后,将m个注意机制的输出串联在一起进行线性变换;将每个移动应用的描述信息通过自编码的方式对其进行表征并输入到预训练好的BERT中;除了单词的token之外,在输入的每一个序列开头都插入特定的分类token([CLS]),该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用,保留[CLS]向量与被提取的语义向量作为输出O,以提升模型精确性:O=[H0,H
[CLS]
]之后将输出O通过Softmax函数进行线性变化,得到移动应用I的D*N维文本信息最终表征向量HS。3.根据权利要求2所述的基于多模态特征融合的移动应用分类与推荐方法,其特征在于,所述步骤1中图像特征提取包括如下步骤:内卷核H
,j
∈Rv由函数产生,以(i,j)处的单个像素为条件,然后进行通道到空间的重新排列,对合的乘加运算分解为两个步骤,乘积运算为将C个通道的张量分别与内卷核H相乘,相加运算则是将内卷核范围内的元素相加于内卷核核心,内卷核是专门位于对应坐标
(i,j)的像素Xi,j定制的,但在通道上共享,G计算每个组共享相同的内卷核的组数,利用内卷核对输入进行乘加运算,得到内卷模块的表征输出定义为:将核生成函数符号为并将每个位置(i,j)的函数映射抽象为:H
i,j
=φ(X
Ψi,j
)将数据集中的移动应用图像I输入视觉模型RedNet

152中就得到最后一层卷积层输出:ResNet(I)={r
j
∣r
j
∈R
2048
,j=1,2,...,49}将原始移动应用图像分割为7
×
7=49个区域,每个区域由2048维向量rj表示,使用线性变换函数将移动应用视觉特征投影到文本特征的相同空间:G=WvResNet(I),其中Wv∈Rd
×...

【专利技术属性】
技术研发人员:曹步清钟为是
申请(专利权)人:湖南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1