多任务智能膳食管理方法、装置、存储介质、计算机设备制造方法及图纸

技术编号：42428842 阅读：21 留言：0更新日期：2024-08-16 16:41

本发明专利技术提出一种多任务智能膳食管理方法、装置、存储介质、计算机设备，该方法包含：构建专门面向食品领域的食品多模态基础模型；将该食品多模态基础模型中融合多模态数据融合模块，以食品图像与膳食问题共同作为多模态输入，输出膳食上下文Token；将该食品多模态基础模型中融合多个细粒度食品分析模块，依据该膳食上下文Token，对不同类别的食品进行细粒度的特征提取，输出细粒度食品特征分析结果；依据该细粒度食品特征分析结果以及该膳食上下文Token，利用问答模型生成膳食回答。该方法通过精确定位用户的膳食问题，匹配精准的膳食回答，提高了膳食场景下膳食管理的准确性，同时提高了用户饮食体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态食品领域，具体涉及一种多任务智能膳食管理方法、装置、存储介质、计算机设备。

技术介绍

1、在智能化时代，人工智能解决方案正在逐渐渗透到食品和餐饮行业中，以提高服务质量和满足个性化需求。我们将这些在食品相关场景下辅助人们进行感知和决策的人工智能方法称为智能膳食管理助手，以下统一简称为膳食助手。当前市场上虽有多种膳食助手，如食品识别和膳食视觉问答等，但它们通常面临着以下技术难题：(1)食品具有细粒度特征，同类食品在视觉上可能存在显著差异，同时与其他类别的食品相似度高，这增加了识别细粒度食品的难度；(2)食品图像缺乏固定的空间结构，其外观易受到烹饪方式等因素的影响，导致难以进行准确检测和分析；(3)在现实世界中，人们的食品偏好受多种复杂因素影响，如个人口味、文化背景、健康状况等，这使得建立一个能够满足各种独特需求的食品模型变得极具挑战性。

2、为了满足多种多样的需求，目前已有研发者在探索基于基础模型的多任务膳食助手，如foodgpt模型提出通过知识图谱构造知识库，构建文本模态的食品大语言模型；进一步地，有研究通过食品大语言模型构建面向食材替代和食谱推荐的膳食助手；foodlmm模型进一步基于已有的多模态基础模型实现面向膳食分析等任务的膳食助手。

3、尽管现有的膳食助手在膳食多媒体分析和推荐等方面取得了进步，但它们仍存在多方面的局限。首先，此前的foodgpt等食品大语言模型只基于单一文本模态，功能受限，无法结合食品图像等进行综合分析；foodlmm等进一步的多模态膳食助手虽然实现了多模态输入

技术实现思路

1、针对现有技术的不足，本专利技术提出一种多任务智能膳食管理方法、装置、存储介质、计算机设备，其提高了膳食场景下膳食管理的准确性与用户饮食体验。

2、为了实现上述目的，本专利技术一方面提供一种多任务智能膳食管理方法，包括：

3、构建专门面向食品领域的食品多模态基础模型；

4、将该食品多模态基础模型中融合多模态数据融合模块，以食品图像与膳食问题共同作为多模态输入，输出膳食上下文token；

5、将该食品多模态基础模型中融合多个细粒度食品分析模块，依据该膳食上下文token，对不同类别的食品进行细粒度的特征提取，输出细粒度食品特征分析结果；

6、依据该细粒度食品特征分析结果以及该膳食上下文token，利用问答模型生成膳食回答。

7、在一实施例中，所述多模态数据融合模块采用多种注意力机制，整合食品图像、膳食问题以及用户历史数据，形成膳食上下文token；并通过该膳食上下文token编码上下文信息，将该膳食上下文token经过模型处理后，与该食品多模态基础模型中的特征表示相融合。

8、在一实施例中，该多种注意力机制包含：自注意力、交叉注意力、和/或，连接注意力。

9、在一实施例中，基于llava大型多模态模型构建该食品多模态基础模型。

10、在一实施例中，所述食品多模态基础模型允许模型通过推理出与每一用户饮食需求最相近的食品视觉特征与任务需求，并依据该食品视觉特征与任务需求选择最相近的一细粒度食品分析模块。

11、在一实施例中，所述细粒度食品分析模块包括：细粒度分类子模块、目标检测子模块和分割子模块，其中：

12、所述细粒度分类子模块用以对不同类别的食品进行细粒度的分类；

13、所述目标检测子模块用以检测食品在食品图像中的位置；

14、所述分割子模块用以提供食品分割结果。

15、在一实施例中，该回答模型采用自回归循环问答模型，接受不同的膳食问题、以及对应的膳食上下文token与细粒度食品特征分析结果生成问题链作为输入，学习在给定的膳食场景下形成问答思维路径，并通过迭代预测下一个问题或回答，构建膳食对话。

16、在一实施例中，所述自回归循环问答模型在每次生成一个问题或回答作为输出后，将该输出作为新的输入反馈到该自回归循环问答模型中。

17、在一实施例中，所述自回归循环问答模型采用编码器-解码器架构，其中：

18、编码器用以考虑输入的食品图像和膳食上下文token，处理不同膳食问题；

19、所述解码器用以基于当前的膳食问题，生成一系列递进的问题或回答。

20、在一实施例中，该方法还包含：

21、采用大规模多模态食品数据集对该食品多模态基础模型进行预训练。

22、在一实施例中，该大规模多模态食品数据集包含：多模态食品预训练数据集、细粒度食品图像数据集、以及视觉推理问答微调数据集。

23、本专利技术另一方面还提供了一种多任务智能膳食管理装置，包括：

24、基础模型构建模块，用以构建专门面向食品领域的食品多模态基础模型；

25、模型微调模块，用以将该食品多模态基础模型中融合多模态数据融合模块，以食品图像与膳食问题共同作为多模态输入，输出膳食上下文token；以及

26、将该食品多模态基础模型中融合多个细粒度食品分析模块，依据该膳食上下文token，对不同类别的食品进行细粒度的特征提取，输出细粒度食品特征分析结果；

27、问答模块，用以依据该细粒度食品特征分析结果以及该膳食上下文token，利用问答模型生成膳食回答。

28、在一实施例中，所述多模态数据融合模块采用多种注意力机制，整合食品图像、膳食问题以及用户历史数据，形成膳食上下文token；并通过该膳食上下文token编码上下文信息，将该膳食上下文token经过模型处理后，与该食品多模态基础模型中的特征表示相融合。

29、在一实施例中，所述细粒度食品分析模块包括：细粒度分类子模块、目标检测子模块和分割子模块，其中：

30、所述细粒度分类子模块用以对不同类别的食品进行细粒度的分类；

31、所述目标检测子模块用以检测食品在食品图像中的位置；

32、所述分割子模块用以提供食品分割结果。

33、在一实施例中，该回答模型采用自回归循环问答模型，接受不同的膳食问题、以及对应的膳食上下文token与细粒度食品特征分析结果生成问题链作为输入，学习在给定的膳食场景下形成问答思维路径，并通过迭代预测下一个问题或回答，构建膳食对话。

34、此外，本专利技术还提供了一种计算机设备，该计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器本文档来自技高网...

【技术保护点】

1.一种多任务智能膳食管理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，基于LLaVA大型多模态模型构建该食品多模态基础模型。

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求1或5所述的方法，其特征在于，

7.根据权利要求1所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求7所述的方法，其特征在于，

10.根据权利要求1所述的方法，其特征在于，还包含：

11.一种多任务智能膳食管理装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，

13.根据权利要求11所述的装置，其特征在于，

14.根据权利要求11所述的装置，其特征在于，

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由

16.一种计算机设备，其特征在于，括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至10任一所述的多任务智能膳食管理方法。

...

【技术特征摘要】

1.一种多任务智能膳食管理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，基于llava大型多模态模型构建该食品多模态基础模型。

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求1或5所述的方法，其特征在于，

7.根据权利要求1所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求7所述的方法，其特征在于，

10.根据权利要求1所述的方法，其特征在于，还包含：

11.一种多任务智...

【专利技术属性】
技术研发人员：闵巍庆，周鹏飞，金颖，蒋树强，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人