图像处理方法和装置、存储介质及电子设备制造方法及图纸

技术编号：40427675 阅读：8 留言：0更新日期：2024-02-20 22:48

本申请公开了一种图像处理方法和装置、存储介质及电子设备。其中，该方法包括：获取目标图像和一组文本信息，将目标图像和一组文本信息输入预训练的目标多模态匹配模型，得到目标图像表征向量和一组文本表征向量，目标多模态匹配模型使用的文本提示信息和图像提示信息由源提示信息通过计算得到，再通过计算目标图像表征向量与各个文本表征向量之间的相似度，将满足预设相似度条件的文本表征向量指示的目标内容类别确定为目标图像的内容类别。本申请解决了使用多模态匹配模型进行图像处理的效率较低的技术问题。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机领域，具体而言，涉及一种图像处理方法和装置、存储介质及电子设备。

技术介绍

1、相关技术中，通过将待审核图像输入多模态匹配模型，以确定待审核图像的内容类别，再根据待审核图像的内容类别，判断待审核图像是否违规，由于相关技术中多模态匹配模型的训练过程中只关注图像模态或者文本模态对多模态匹配模型的训练影响，也即，多模态匹配模型仅对单一模态进行调整，由于多模态匹配模型在训练过程中，图像模态与文本模态之间联系较少，从而破坏了多模态匹配模型的模态结构，导致了使用多模态匹配模型进行图像处理的效率较低的技术问题。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种图像处理方法和装置、存储介质及电子设备，以至少解决使用多模态匹配模型进行图像处理的效率较低的技术问题。

2、根据本申请实施例的一个方面，提供了一种图像处理方法，包括：获取目标图像和预先确定的一组文本信息，其中，所述一组文本信息中的一个文本信息用于表征预设内容类别集合中的一个内容类别；将所述目标图像和所述一组文本信息输入预训练的目标多模态匹配模型，得到目标图像表征向量和一组文本表征向量，其中，所述目标多模态匹配模型包括文本编码器、图像编码器、文本提示信息以及图像提示信息，所述文本提示信息和所述图像提示信息由源提示信息通过计算得到，所述图像提示信息用于和所述目标图像共同输入所述图像编码器，得到所述目标图像表征向量，所述文本提示信息用于和所述一组文本信息共同输入所述

3、根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：获取模块，用于获取目标图像和预先确定的一组文本信息，其中，所述一组文本信息中的一个文本信息用于表征预设内容类别集合中的一个内容类别；训练模块，用于将所述目标图像和所述一组文本信息输入预训练的目标多模态匹配模型，得到目标图像表征向量和一组文本表征向量，其中，所述目标多模态匹配模型包括文本编码器、图像编码器、文本提示信息以及图像提示信息，所述文本提示信息和所述图像提示信息由源提示信息通过计算得到，所述图像提示信息用于和所述目标图像共同输入所述图像编码器，得到所述目标图像表征向量，所述文本提示信息用于和所述一组文本信息共同输入所述文本编码器，得到所述一组文本表征向量；确定模块，用于通过所述目标多模态匹配模型确定所述目标图像表征向量与所述一组文本表征向量中各个文本表征向量之间的相似度，并将所述相似度满足预设相似度条件的文本表征向量所指示的目标内容类别确定为所述目标图像表征向量对应的内容类别。

4、可选地，所述装置用于通过如下方式将所述目标图像和所述一组文本信息输入预训练的目标多模态匹配模型，得到目标图像表征向量和一组文本表征向量：对所述源提示信息和图像缩放矩阵执行矩阵转化处理，确定所述图像提示信息，其中，所述矩阵转化处理用于将所述图像提示信息对应矩阵中第一位置的元素确定为所述源提示信息中所述第一位置上的元素与所述图像缩放矩阵中所述第一位置上的元素的乘积；对所述目标图像和所述图像提示信息执行拼接操作，确定图像拼接向量；将所述图像拼接向量映射至目标嵌入空间，确定所述目标图像表征向量。

5、可选地，所述装置用于通过如下方式对所述目标图像和所述图像提示信息执行拼接操作，确定图像拼接向量：将所述目标图像分割为多个图像补丁；将所述多个图像补丁投影至图像嵌入空间，得到多个补丁编码向量；对所述多个补丁编码向量和所述图像提示信息执行拼接操作，确定所述图像拼接向量。

6、可选地，所述装置用于通过如下方式将所述一组文本信息输入预训练的目标多模态匹配模型，得到一组文本表征向量：对所述源提示信息和文本缩放矩阵执行矩阵转化处理，确定所述文本提示信息，其中，所述矩阵转化处理用于将所述文本提示信息对应矩阵中第二位置的元素确定为所述源提示信息中所述第二位置上的元素与所述文本缩放矩阵中所述第二位置上的元素的乘积；对所述一组文本信息和所述文本提示信息分别执行拼接操作，确定一组文本拼接向量；将所述一组文本拼接向量分别映射至目标嵌入空间，确定所述一组文本表征向量。

7、可选地，所述装置用于通过如下方式对所述一组文本信息和所述文本提示信息分别执行拼接操作，确定一组文本拼接向量：通过如下方式对所述一组文本信息和所述文本提示信息分别执行拼接操作，确定一组文本拼接向量，其中，每次执行拼接操作的文本信息视为当前文本信息，每次执行拼接操作得到的文本拼接向量视为当前文本拼接向量：对所述当前文本信息执行分词操作，得到一组分词；将所述一组分词投影至文本嵌入空间，得到所述当前文本拼接向量。

8、可选地，所述装置还用于：获取样本图像和一组样本文本信息，其中，所述样本图像预先标注了与目标样本文本信息对应，所述一组样本文本信息包括所述目标样本文本信息；将所述样本图像和所述一组样本文本信息输入待训练的初始多模态匹配模型，得到样本图像表征向量和一组样本文本表征向量，其中，所述初始多模态匹配模型包括所述文本编码器、所述图像编码器、初始文本提示信息以及初始图像提示信息，所述初始文本提示信息和所述初始图像提示信息由初始源提示信息通过计算得到；通过所述初始多模态匹配模型确定所述样本图像表征向量与所述一组样本文本表征向量中各个样本文本表征向量之间的样本相似度；基于所述样本相似度计算损失参数，利用所述损失参数调整所述初始源提示信息和所述初始缩放矩阵，直到将所述初始多模态匹配模型训练为所述目标多模态匹配模型。

9、可选地，所述装置用于通过如下方式将所述样本图像和所述一组样本文本信息输入待训练的初始多模态匹配模型，得到样本图像表征向量和一组样本文本表征向量：获取所述初始源提示信息、所述初始图像缩放矩阵以及所述初始文本缩放矩阵，其中，所述初始源提示信息、所述初始图像缩放矩阵以及所述初始文本缩放矩阵是对所述初始多模态匹配模型进行训练的过程中允许调整的参数；对所述初始源提示信息和所述初始图像缩放矩阵执行矩阵转化处理，确定所述初始图像提示信息，其中，所述矩阵转化处理用于将所述初始图像提示信息对应矩阵中第三位置的元素确定为所述初始源提示信息中所述第三位置上的元素与所述初始图像缩放矩阵中所述第三位置上的元素的乘积；对所述初始源提示信息和所述初始文本缩放矩阵执行所述矩阵转化处理，确定所述初始文本提示信息，其中，所述矩阵转化处理用于将所述初始文本提示信息对应矩阵中第四位置的元素确定为所述初始源提示信息中所述第四位置上的元素与所述初始文本缩放矩阵中所述第四位置上的元素的乘积；对所述样本图像和所述初始图像提示信息执行拼接操作，确定样本图像拼接向量，并对所述一组样本文本信息和所述初始文本提示信息分别执行拼接操作，确定一组样本文本拼接向量；将所述样本图像拼接本文档来自技高网...

【技术保护点】

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标图像和所述一组文本信息输入预训练的目标多模态匹配模型，得到目标图像表征向量和一组文本表征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标图像和所述图像提示信息执行拼接操作，确定图像拼接向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述一组文本信息输入预训练的目标多模态匹配模型，得到一组文本表征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述一组文本信息和所述文本提示信息分别执行拼接操作，确定一组文本拼接向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述样本图像和所述一组样本文本信息输入待训练的初始多模态匹配模型，得到样本图像表征向量和一组样本文本表征向量，包括：

8.根据权利要求1所述的方法，其特征在于，所述将所述目标图像和所述一组文本信息输入预训练的目标多模态匹配模型，

9.根据权利要求1所述的方法，其特征在于，所述通过所述目标多模态匹配模型确定所述目标图像表征向量与所述一组文本表征向量中各个文本表征向量之间的相似度，并将所述相似度满足预设相似度条件的文本表征向量所指示的目标内容类别确定为所述目标图像表征向量对应的内容类别，包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

12.一种图像处理装置，其特征在于，包括：

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的计算机程序，其中，所述计算机程序可被电子设备运行时执行所述权利要求1至11任一项中所述的方法。

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。

...

【技术特征摘要】

1.一种图像处理方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标图像和所述图像提示信息执行拼接操作，确定图像拼接向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述一组文本信息输入预训练的目标多模态匹配模型，得到一组文本表征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述一组文本信息和所述文本提示信息分别执行拼接操作，确定一组文本拼接向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述将所述目标图像和所述...

【专利技术属性】
技术研发人员：辛毅，杜俊珑，鄢科，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人