多模态导购方法、装置、设备及计算机可读介质制造方法及图纸

技术编号：43233119 阅读：1 留言：0更新日期：2024-11-05 17:20

本申请涉及一种多模态导购方法、装置、设备及计算机可读介质。该方法包括：接收用户输入的购物需求数据，其中，所述购物需求数据包括至少一个模态的输入数据；将所述购物需求数据进行多模态特征融合，得到多模态融合特征；基于所述多模态融合特征识别所述用户的购物意图；确定与所述购物意图匹配的目标推荐商品，并将所述目标推荐商品推荐给所述用户。本申请能够综合分析多模态输入数据，更深入地理解用户的具体意图和细微偏好，进而提供更为精准的商品推荐，解决了现有导购系统无法满足不同用户群体的交互需求导致个性化推荐不准确的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及个性化推荐，尤其涉及一种多模态导购方法、装置、设备及计算机可读介质。

技术介绍

1、随着互联网技术和人工智能的快速发展，线上购物已成为人们日常购物的重要方式。现有的在线购物平台提供了便捷的商品搜索、查看和购买流程，但大多数平台仍以单一模态的交互为主，例如仅可使用文本输入或触摸屏操作，限制了用户与系统的自然互动,对于有特殊需求的用户群体，如视觉或听力障碍者，现有的导购系统适应性不强，迫使用户使用特定的、不自然的命令格式进行商品搜索，缺乏提供有效交互方式的能力，同时这些系统往往在理解和处理自然语言方面存在不足，无法充分利用用户在购物过程中产生的多模态数据，如语音查询、图像上传、文本反馈和触觉偏好等，导致用户在海量产品中难以找到满足其独特需求的商品。

2、针对现有导购系统无法满足不同用户群体的交互需求导致个性化推荐不准确的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请提供了一种多模态导购方法、装置、设备及计算机可读介质，以解决现有导购系统无法满足不同用户群体的交互需求导致个性化推荐不准确的技术问题。

2、根据本申请实施例的一个方面，本申请提供了一种多模态导购方法，包括：接收用户输入的购物需求数据，其中，所述购物需求数据包括至少一个模态的输入数据；将所述购物需求数据进行多模态特征融合，得到多模态融合特征；基于所述多模态融合特征识别所述用户的购物意图；确定与所述购物意图匹配的目标推荐商品，并将所述目标推荐商品推荐给所述用户。

3、可

4、可选地，所述调用与所述购物需求数据的模态匹配的特征提取单元对所述购物需求数据进行特征提取包括以下至少之一：调取卷积神经网络对图像模态的所述购物需求数据提取所述图像特征；调取循环神经网络、基于自注意力机制的深度学习模型二者至少之一对文本模态的所述购物需求数据提取所述文本特征，并调用预训练大语言模型对文本模态的所述购物需求数据提取所述语义特征；使用梅尔频率倒谱系数对语音模态的所述购物需求数据提取所述语音特征。

5、可选地，所述将提取到的图像特征、文本特征、语义特征以及语音特征中的至少一种，采用特征拼接、注意力机制、决策层融合、中间层融合以及模型级融合中的至少一种方式进行特征融合，得到所述多模态融合特征包括：将所述图像特征、所述文本特征、所述语义特征以及所述语音特征中的至少一种进行拼接并相互补充，以基于特征拼接融合得到所述多模态融合特征；将所述图像特征、所述文本特征、所述语义特征以及所述语音特征中的至少一种输入基于自注意力机制的深度学习模型，以利用所述基于自注意力机制的深度学习模型自主学习不同特征的注意力并进行特征融合，以基于注意力机制融合得到所述多模态融合特征；在用户输入的不同模态的所述购物需求数据匹配度小于预设阈值的情况下，分别将所述图像特征、所述文本特征、所述语义特征以及所述语音特征输入对应的图像识别模型、文本分类模型、语义识别模型以及语音识别模型，得到图像识别结果、文本分类结果、语义识别结果以及语音识别结果，再将所述图像识别结果、所述文本分类结果、所述语义识别结果以及所述语音识别结果中的至少一种进行加权求和，将加权求和的结果输入全连接层，提取全连接层输出的隐层特征作为所述多模态融合特征，以基于决策层融合得到所述多模态融合特征；将所述图像特征、所述文本特征、所述语义特征以及所述语音特征中的至少一种输入全连接神经网络，并提取全连接层输出的隐层特征作为所述多模态融合特征，以基于中间层融合得到所述多模态融合特征；将所述图像特征、所述文本特征、所述语义特征以及所述语音特征中的至少一种输入多模态自编码器，使所述多模态自编码器学习不同模态之间的共享表示，获取所述多模态自编码器输出的同时表示多个模态信息的联合特征，以基于模型级融合得到所述多模态融合特征。

6、可选地，所述基于所述多模态融合特征识别所述用户的购物意图包括：将所述多模态融合特征输入基于多模态注意力机制的目标识别模型，以使所述目标识别模型将所述多模态融合特征映射到目标语义空间中进行多模态数据的理解和识别，其中，所述目标识别模型用于对所述多模态融合特征进行语义解释，所述目标语义空间为多个模态的所述购物需求数据共同的语义空间；获取所述目标识别模型输出的识别结果，其中，所述识别结果包括所述目标识别模型在所述目标语义空间中理解到的多个模态的所述购物需求数据的共同特征和差异化特征，所述共同特征用于表示用户所需的目标商品类别，所述差异化特征用于表示所述目标商品类别下每个模态的所述购物需求数据展现的商品属性特征；将所述识别结果和所述用户在购物平台上的历史行为数据输入目标预测模型，所述历史行为数据用于所述目标预测模型构建所述用户的偏好特征；将所述目标预测模型输出的预测结果作为所述用户的所述购物意图，其中，所述购物意图包括所述目标商品类别、不同模态数据对应的所述商品属性特征以及所述偏好特征至少一种。

7、可选地，所述确定与所述购物意图匹配的目标推荐商品，并将所述目标推荐商品推荐给所述用户包括：将所述购物意图输入目标推荐模型，以利用所述目标推荐模型获取与所述购物意图匹配的所述目标推荐商品，包括：在所述目标模型中，获取与所述目标商品类别一致的多个候选推荐商品；计算每个所述候选推荐商品与每个所述商品属性特征的第一匹配度；计算每个所述候选推荐商品与所述用户的所述偏好特征的第二匹配度；将每个所述候选推荐商品的所有所述第一匹配度和所有所述第二匹配度的累加值或平均值任意一种作为所述候选推荐商品的综合匹配度；按照所述综合匹配度从大到小的顺序对所述候选推荐商品进行排序；选取目标排序位置之前的排序结果作为所述目标推荐商品，并按照相同的顺序生成推荐列表；将所述推荐列表展示给所述用户。

8、可选地，所述将所述目标推荐商品推荐给所述用户之后，所述方法还包括：确定所述用户最终购买的目标交易商品，并获取所述用户对所述目标交易商品的评价数据；确定所述目标交易商品与所述目标推荐商品的商品特征差异；利用所述商品特征差异和所述评价数据调整所述目标识别模型、所述目标预测模型以及所述目标推荐模型至少一个的模型参数，以优化各模型输出结果的准确率。

9、根据本申请实施例的另一方面，本申请提供了一种多模态导购装置，包括：需求接收模块，用于接收用户输入的购物需求数据，其中，所述购物需求数据包括至少一个模态的输入数据；多模态融合模块，用于将所述购物需求数据进行多模态特征融合，得到多模态融合特征；意图识别模块，用于基于所述多模态融合特征识别所述用户的购物意图；推荐模块，用于确定与所述购物意图匹配的目标推荐商品，并将所述目标推荐商品推荐给所述用户。

<本文档来自技高网...

【技术保护点】

1.一种多模态导购方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述购物需求数据进行多模态特征融合，得到多模态融合特征包括：

3.根据权利要求2所述的方法，其特征在于，所述调用与所述购物需求数据的模态匹配的特征提取单元对所述购物需求数据进行特征提取包括以下至少之一：

4.根据权利要求2所述的方法，其特征在于，所述将提取到的图像特征、文本特征、语义特征以及语音特征中的至少一种，采用特征拼接、注意力机制、决策层融合、中间层融合以及模型级融合中的至少一种方式进行特征融合，得到所述多模态融合特征包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述多模态融合特征识别所述用户的购物意图包括：

6.根据权利要求5所述的方法，其特征在于，所述确定与所述购物意图匹配的目标推荐商品，并将所述目标推荐商品推荐给所述用户包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述目标推荐商品推荐给所述用户之后，所述方法还包括：

8.一种多模态导购装置，其特征在于，包括：

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至7任一所述的多模态导购方法。

...

【技术特征摘要】

1.一种多模态导购方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述购物需求数据进行多模态特征融合，得到多模态融合特征包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述多模态融合特征识别所述用户的购物意图包括：

6.根据权利要求5所述的...

【专利技术属性】
技术研发人员：谢泽铨，黎清顾，林永吉，
申请(专利权)人：珠海格力电器股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人