一种融合多模态大模型的图像识别方法及系统技术方案

技术编号：42477046 阅读：7 留言：0更新日期：2024-08-21 12:59

本申请实施例公开了一种融合多模态大模型的图像识别方法及系统。本申请实施例提供的技术方案，通过获取目标图像以及目标图像的交互式文本数据，将目标图像和交互式文本数据输入预构建的融合模型中，融合模型预先基于指定标签模型和多模态大模型采集训练样本的第一图像特征，并结合训练样本的第一文本特征进行模型训练；基于融合模型识别目标图像的第二图像特征以及交互式文本数据的第二文本特征；基于第二图像特征和第二文本特征确定标签识别结果，基于标签识别结果生成对应交互式文本数据的回复信息。采用上述技术手段，可以提升模型的泛化能力和识别精度，通过模型融合的方式实现对少样本的精准识别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机，尤其涉及一种融合多模态大模型的图像识别方法及系统。

技术介绍

1、目前，在许多图像业务场景中，都涉及到图像标签的识别。在识别图像标签类别时，主流方式是基于深度学习的方法，该方法要求从大量的数据中获取所关注的正样本，通过人工标注构建用于监督学习的训练集和本地测试集，进而训练得到标签识别模型，以对图像中预先标注的标签类别进行识别。

2、但是，相关的标签识别模型在应用到大规模的审核数据上时往往需要数十万或者数万累积量的正样本，然而在一些训练数据中未曾明确定义的类别识别上，难以通过人工收集标注这一类数据，并同时进一步训练一个单独的视觉识别模型，通过该种方式实现对新类别的有效识别。整个过程相对繁琐复杂，且标签识别模型对少样本的标签识别存在误差，其识别精度和泛化能力不足。

技术实现思路

1、本申请实施例提供一种融合多模态大模型的图像识别方法及系统，能够提升标签识别模型的识别精度和泛化能力，解决标签识别模型对少样本的标签识别误差偏大的技术问题。

2、在第一方面，本申请实施例提供了一种融合多模态大模型的图像识别方法，包括：

3、获取目标图像以及目标图像的交互式文本数据，将目标图像和交互式文本数据输入预构建的融合模型中，融合模型预先基于指定标签模型和多模态大模型采集训练样本的第一图像特征，并结合训练样本的第一文本特征进行模型训练，训练样本预先标注对应的标签信息；

4、基于融合模型识别目标图像的第二图像特征以及交互式文本数据的第二文本特征；

5、基于第二图像特征和第二文本特征确定标签识别结果，基于标签识别结果生成对应交互式文本数据的回复信息。

6、在第二方面，本申请实施例提供了一种融合多模态大模型的图像识别系统，包括：

7、输入模块，配置为获取目标图像以及目标图像的交互式文本数据，将目标图像和交互式文本数据输入预构建的融合模型中，融合模型预先基于指定标签模型和多模态大模型采集训练样本的第一图像特征，并结合训练样本的第一文本特征进行模型训练，训练样本预先标注对应的标签信息；

8、识别模块，配置为基于融合模型识别目标图像的第二图像特征以及交互式文本数据的第二文本特征；

9、输出模块，配置为基于第二图像特征和第二文本特征确定标签识别结果，基于标签识别结果生成对应交互式文本数据的回复信息。

10、在第三方面，本申请实施例提供了一种融合多模态大模型的图像识别设备，包括：

11、存储器以及一个或多个处理器；

12、所述存储器，配置为存储一个或多个程序；

13、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的融合多模态大模型的图像识别方法。

14、在第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时配置为执行如第一方面所述的融合多模态大模型的图像识别方法。

15、在第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中包含有指令，当指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面所述的融合多模态大模型的图像识别方法。

16、本申请实施例通过获取目标图像以及目标图像的交互式文本数据，将目标图像和交互式文本数据输入预构建的融合模型中，融合模型预先基于指定标签模型和多模态大模型采集训练样本的第一图像特征，并结合训练样本的第一文本特征进行模型训练，训练样本预先标注对应的标签信息；基于融合模型识别目标图像的第二图像特征以及交互式文本数据的第二文本特征；基于第二图像特征和第二文本特征确定标签识别结果，基于标签识别结果生成对应交互式文本数据的回复信息。采用上述技术手段，通过结合指定标签模型和多模态大模型识别图像特征，进而结合文本特征进行图像识别，以此可以利用多模态大模型提升模型的泛化能力，并利用指定标签模型保障模型的识别精度，通过模型融合的方式实现对少样本的精准识别，无需对少样本进行额外的训练，简化模型训练流程，提升模型训练效率。

本文档来自技高网...

【技术保护点】

1.一种融合多模态大模型的图像识别方法，其特征在于，包括：

2.根据权利要求1所述的融合多模态大模型的图像识别方法，其特征在于，所述训练样本包括训练图像和对应的文本描述信息，所述融合模型的训练过程包括：

3.根据权利要求2所述的融合多模态大模型的图像识别方法，其特征在于，所述将所述训练图像分别输入所述指定标签模型和所述多模态大模型，得到所述第一图像特征，包括：

4.根据权利要求3所述的融合多模态大模型的图像识别方法，其特征在于，所述第一子特征、所述第二子特征和所述第一图像特征为维度相同的特征向量。

5.根据权利要求3所述的融合多模态大模型的图像识别方法，其特征在于，将所述第一子特征和所述第二子特征融合生成所述第一图像特征，包括：

6.根据权利要求5所述的融合多模态大模型的图像识别方法，其特征在于，所述分块全连接神经网络包括多头自注意力层、残差链接层和前向网络层。

7.一种融合多模态大模型的图像识别系统，其特征在于，包括：

8.一种融合多模态大模型的图像识别设备，其特征在于，包括：

10.一种计算机程序产品，其特征在于，所述计算机程序产品中包含有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1-6任一所述的融合多模态大模型的图像识别方法。

...

【技术特征摘要】

1.一种融合多模态大模型的图像识别方法，其特征在于，包括：

5.根据权利要求3所述的融合多模态大模型的图像识别方法，其特征在于，将所述第一子特征和所述第二子特征融合生成所述第一图像特征，包括：

【专利技术属性】
技术研发人员：陈祥，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人