一种面向多模态序列的推荐方法技术

技术编号：41876387 阅读：7 留言：0更新日期：2024-07-02 00:28

一种面向多模态序列的推荐方法，包括：将语言模型分为底层和顶层两个部分，底层用于完成表示空间的适配，以实现物品表示学习对齐，顶层用于学习任务的适配，以实现推荐任务对齐；将物品表示学习和用户行为预测任务分别作用于底层和顶层的参数；其中，针对表示空间的适配，使用视觉模态增强的语言建模学习任务训练底层的参数，以将语言模型从通用语料场景适配到推荐下的多模态物品描述场景；针对推荐任务的适配，采用“用户‑物品”对比学习任务训练顶层的参数，以为语言模型注入预测用户行为的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及序列推荐技术，特别是涉及一种面向多模态序列的推荐方法。

技术介绍

1、序列推荐任务指推荐系统中利用用户已有的行为历史对用户未来行为进行预测，从而提高推荐商品的点击率。该任务在工业界几乎所有的推荐场景，例如新闻推荐，商品推荐，短视频推荐，广告推荐中都有广泛的应用，具有极高的商业价值。因此受到学术界和工业界的重点关注。现有的主流技术利用基于注意力模块(transformer)的推荐模型来建模用户历史序列和单个商品，通过计算表征的相似度对商品进行排序。在模型的输入信息方面，传统方法一般只采用商品、用户的id作为输入。

2、发表于kdd2023的recformer方案，以语言模型为基座，利用表征相似度对商品进行排序，它与其他传统技术的不同点在于利用plm编码商品和用户行为序列：recformer建模单个商品的方法是，将单个商品的三种文本属性(商品名称、商品类别、商品描述)拼接成一个句子，将来自序列中多个商品的句子拼成一个长句，用语言模型编码单个商品或序列对应的句子，得到商品或序列的表征。

3、本专利技术的专利技术人发现，现有技术recformer的缺点存在于以下两个方面：1.该方案仅利用物品的文本描述作为输入，无法利用其他模态，例如图像，语音等形式的物品信息，使得该方法无法应用于主题推荐等文字匮乏的领域，在新闻、视频推荐上也无法取得良好的效果。2.该方案没有深入分析语言模型和推荐系统模型的差异，也没有对双方的差异做针对性的适配，限制了强大的语言模型在推荐场景下的表现。现有技术缺乏足够的多模态建模和多

4、需要说明的是，在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本专利技术的主要目的在于克服上述
技术介绍
的缺陷，提供一种面向多模态序列的推荐方法。

2、为实现上述目的，本专利技术采用以下技术方案：

3、一种面向多模态序列的推荐方法，包括：

4、将语言模型分为底层和顶层两个部分，所述底层用于完成表示空间的适配，以实现物品表示学习对齐，所述顶层用于学习任务的适配，以实现推荐任务对齐；

5、将物品表示学习和用户行为预测任务分别作用于所述底层和所述顶层的参数；其中，针对表示空间的适配，使用视觉模态增强的语言建模学习任务训练所述底层的参数，以将所述语言模型从通用语料场景适配到推荐下的多模态物品描述场景；针对推荐任务的适配，采用“用户-物品”对比学习任务训练所述顶层的参数，以为语言模型注入预测用户行为的能力。

6、进一步地：

7、所述语言模型为基于transformer的预训练语言模型。

8、将所述语言模型平均地分为所述底层和所述顶层。

9、对于物品表示学习，通过视觉模态增强的语言建模学习任务同时完成视觉信息的融合和文本差异的消除；其中，基于提示学习方法，将商品的图片用预训练视觉模型编码后，作为物品的图片属性加入文本属性构成的序列中，作为提示为文本建模提供辅助信息，以直接利用语言模型预测商品的描述文本。

10、所述语言模型包括生成式语言模型和编码式语言模型，分别采用自回归预测(ar)和掩码预测(mlm)任务完成语言建模。

11、对于用户行为预测任务，基于所述底层得到的序列编码进行“用户-物品”的对比学习，首先将序列中的[cls]词元对应的嵌入向量embedding作为用户和物品的表示，然后将其他用户选择的物品作为负样本，用户本人选择的物品作为正样本进行对比学习；在预训练过程中，提供来自不同领域的负样本，而在微调过程中，随机采样不同领域的负样本。

12、“用户-物品”对比学习所设计的损失函数如下：

13、

14、

15、其中，cos(x1,x2)表示利用模长||x1||、||x2||计算向量x1和向量x2之间余弦相似度，n是不同采样策略得到的负样本，τ是对比学习的温度系数，luic是损失函数，u表示模型生成的用户向量，i表示模型生成的物品向量，i+表示正样本，即用户实际点击的下一个物品。

16、预训练阶段学习各领域通用的推荐知识，微调阶段针对不同的目标领域进行适配；在预训练阶段，所述底层采用软性路由的混合适配器模块，以自适应学习多模态表示，所述顶层的混合适配器模块采用硬性路由，以建模不同领域的特性；在微调阶段，所述底层的网络保持不变，所述顶层的混合适配器模块改为软性路由，用于从不同的预训练领域迁移可用信息，并避免负向迁移。

17、所述混合适配器模块moa由作为n个专家的n个相同大小的全连接网络和路由网络组成，moa与transformer架构原有的前馈神经网络ffn接受相同的输入，并将输出结果与ffn的输出结果相加得到最终结果：

18、moa-ffn(x)＝ffn(x)+moa(x)

19、其中x表示通过预处理物品的信息得到的语言模型的文本输入，ffn(x)和moa(x)分别表示用前馈神经网络和混合适配器模块处理输入x得到的输出，两者相加得到moa-ffn(x)。

20、所述底层的moa以完成多模态融合为导向，所有的专家都被激活，并采用门控机制综合多个专家的输出结果，即：

21、

22、其中g(x)n是门控网络生成的n维系数的第n项，en(x)是第n个专家的输出结果；而moabottom是位于语言模型底层的混合专家适配器模块。

23、在所述顶层，在预训练阶段，将ffn作为领域之间的共享参数，将n个专家与n个预训练领域对应，作为对应领域的私有参数；来自不同领域的数据都经过ffn，而只有来自同一领域的数据才经过相同的专家；其中，通过ffn建模领域共性，而每个专家能够学到对应领域的特有特征；在微调阶段，只有一个目标领域，将多个上游领域的特性有选择地迁移到下游领域，并重新引入门控网络：

24、

25、用于为各个上游领域的专家计算合适的系数，以减少来自上游领域的冲突，避免负向迁移；其中moaupper-ft是微调(ft)阶段位于语言模型顶层的混合专家适配器模块。

26、一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现所述的面向多模态序列的推荐方法

27、本专利技术具有如下有益效果：

28、本专利技术提出一种面向多模态序列的推荐方法，通过一种面向多模态序列推荐的语言模型适配方案，将通用的预训练语言模型(plm)适配成多模态通用序列推荐系统，本专利技术基于对语言模型和推荐系统在表示学习和下游任务上的差异的深入分析，提出了模型分层策略、多任务学习策略以及多领域迁移策略，设计了针对性的适配任务和模型结构，本文档来自技高网...

【技术保护点】

1.一种面向多模态序列的推荐方法，其特征在于，包括：

2.如权利要求1所述的面向多模态序列的推荐方法，其特征在于，所述语言模型为基于Transformer的预训练语言模型。

3.如权利要求1或2所述的面向多模态序列的推荐方法，其特征在于，将所述语言模型平均地分为所述底层和所述顶层。

4.如权利要求1至3任一项所述的面向多模态序列的推荐方法，其特征在于，对于物品表示学习，通过视觉模态增强的语言建模学习任务同时完成视觉信息的融合和文本差异的消除；其中，基于提示学习方法，将商品的图片用预训练视觉模型编码后，作为物品的图片属性加入文本属性构成的序列中，作为提示为文本建模提供辅助信息，以直接利用语言模型预测商品的描述文本。

5.如权利要求4所述的面向多模态序列的推荐方法，其特征在于，所述语言模型包括生成式语言模型和编码式语言模型，分别采用自回归预测(AR)和掩码预测(MLM)任务完成语言建模。

6.如权利要求1至5任一项所述的面向多模态序列的推荐方法，其特征在于，对于用户行为预测任务，基于所述底层得到的序列编码进行“用户-物品”的

7.如权利要求6所述的面向多模态序列的推荐方法，其特征在于，“用户-物品”对比学习所设计的损失函数如下：

8.如权利要求1至7任一项所述的面向多模态序列的推荐方法，其特征在于，预训练阶段学习各领域通用的推荐知识，微调阶段针对不同的目标领域进行适配；在预训练阶段，所述底层采用软性路由的混合适配器模块，以自适应学习多模态表示，所述顶层的混合适配器模块采用硬性路由，以建模不同领域的特性；在微调阶段，所述底层的网络保持不变，所述顶层的混合适配器模块改为软性路由，用于从不同的预训练领域迁移可用信息，并避免负向迁移。

9.如权利要求8所述的面向多模态序列的推荐方法，其特征在于，所述混合适配器模块MoA由作为N个专家的N个相同大小的全连接网络和路由网络组成，MoA与Transformer架构原有的前馈神经网络FFN接受相同的输入，并将输出结果与FFN的输出结果相加得到最终结果：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至9任一项所述的面向多模态序列的推荐方法。

...

【技术特征摘要】

1.一种面向多模态序列的推荐方法，其特征在于，包括：

2.如权利要求1所述的面向多模态序列的推荐方法，其特征在于，所述语言模型为基于transformer的预训练语言模型。

3.如权利要求1或2所述的面向多模态序列的推荐方法，其特征在于，将所述语言模型平均地分为所述底层和所述顶层。

5.如权利要求4所述的面向多模态序列的推荐方法，其特征在于，所述语言模型包括生成式语言模型和编码式语言模型，分别采用自回归预测(ar)和掩码预测(mlm)任务完成语言建模。

6.如权利要求1至5任一项所述的面向多模态序列的推荐方法，其特征在于，对于用户行为预测任务，基于所述底层得到的序列编码进行“用户-物品”的对比学习，首先将序列中的[cls]词元对应的嵌入向量embedding作为用户和物品的表示，然后将其他用户选择的物品作...

【专利技术属性】
技术研发人员：郑海涛，卢星宇，朱杰明，王锦鹏，张瑞，夏树涛，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人