视觉处理的方法、装置、设备和存储介质制造方法及图纸

技术编号：42983270 阅读：21 留言：0更新日期：2024-10-15 13:17

根据本公开的实施例，提供了视觉处理的方法、装置、设备和存储介质。该方法包括：将从视觉数据划分的多个图像块分别转换成多个嵌入表示，视觉数据包括图像或视频；利用经训练的视觉编码器中的第一处理块，根据第一注意力机制来从多个嵌入表示提取第一特征信息；利用视觉编码器中的第二处理块，根据第二注意力机制来从第一特征信息提取第二特征信息；以及利用视觉编码器中的令牌器，基于第二特征信息，生成视觉数据对应的编码表示。以此方式，可以提高编码效率并且实现更好的通用性和可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机，特别地涉及视觉处理的方法、装置、设备和计算机可读存储介质。

技术介绍

1、近年来，生成模型在人工智能领域快速发展，并且为生成视觉内容提供了更大的潜力。当前存在两种主流的视觉生成方法，即基于语言模型(language model，简称lm)的方法和基于扩散模型的方法。基于lm的方法利用语言模型的序列建模能力进行视觉生成，将其表述为下一个令牌(token)的预测过程，每个令牌可以表征部分视觉数据。扩散模型通过反向扩散将噪声逐渐转化为连贯的视觉结构。

技术实现思路

1、在本公开的第一方面，提供了一种视觉处理的方法。该方法包括：将从视觉数据划分的多个图像块分别转换成多个嵌入表示，所述视觉数据包括图像或视频；利用经训练的视觉编码器中的第一处理块，根据第一注意力机制来从所述多个嵌入表示提取第一特征信息；利用所述视觉编码器中的第二处理块，根据第二注意力机制来从第一特征信息提取第二特征信息，其中第一注意力机制包括以下中的一项并且第二注意力机制包括以下中的另一项：在空间维度上的窗口注意力机制，窗口注意力机制被施加到图像或视频中的各个视频帧，在时间维度上的因果注意力机制，因果注意力机制被施加到视频中的连续视频帧之间；以及利用视觉编码器中的令牌器，基于第二特征信息，生成视觉数据对应的编码表示。

2、在本公开的第二方面，提供了一种视觉处理的装置。该装置包括：嵌入表示转换模块，被配置为将从视觉数据划分的多个图像块分别转换成多个嵌入表示，视觉数据包括图像或视频；第

3、在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面，提供了一种计算机可读存储介质。该介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面的方法。

5、在本公开的第五方面，提供了一种计算机程序产品。该计算机程序产品包括计算机程序，计算机程序被处理器执行时实现第一方面的方法。

6、应当理解，该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种视觉处理的方法，包括：

2.根据权利要求1所述的方法，其中所述视觉编码器包括第一令牌器和第二令牌器，并且其中生成所述视觉数据对应的编码表示包括：

3.根据权利要求1所述的方法，其中所述第一处理块和所述第二处理块基于变换器模型结构。

4.根据权利要求1所述的方法，还包括：

5.根据权利要求4所述的方法，其中所述视觉解码器至少包括相连的第三处理块和第四处理块，其中所述第三处理块中根据所述第二注意力机制来处理所述第三处理块的输入，并且所述第四处理块根据所述第一注意力机制来从处理所述第四处理块的输入。

6.根据权利要求1所述的方法，其中所述视觉编码器的训练过程至少包括：

7.根据权利要求6所述的方法，其中所述视觉编码器包括第一令牌器和第二令牌器，在所述第一训练阶段和所述第二训练阶段，所述视觉编码器中的所述第一处理块、所述第二处理块和所述第一令牌器的参数被更新，而所述第二令牌器的参数保持不变。

8.根据权利要求7所述的方法，其中所述视觉编码器的所述训练过程还包括：

9.一种视觉处理的装置，包括：

10.一种电子设备，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种视觉处理的方法，包括：

2.根据权利要求1所述的方法，其中所述视觉编码器包括第一令牌器和第二令牌器，并且其中生成所述视觉数据对应的编码表示包括：

3.根据权利要求1所述的方法，其中所述第一处理块和所述第二处理块基于变换器模型结构。

4.根据权利要求1所述的方法，还包括：

6.根据权利要求1所述的方法，其中所述视觉编码器的训练过程至少包括：

7...

【专利技术属性】
技术研发人员：江毅，王君可，袁泽寰，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人