一种考虑空间位置的视觉大模型预训练方法技术

技术编号：41420409 阅读：16 留言：0更新日期：2024-05-28 20:21

本发明专利技术涉及人工智能图像视觉算法开发技术领域，尤其涉及一种考虑空间位置的视觉大模型预训练方法，包括：S1：输入大量图像数据，将所述图像数据分割成若干子区块并将所属子区块进行顺序编码来构建自监督标签；S2：将所述子区块打散，并将所述打散的子区块输入VI T模型进行特征提取；S3：在所述所述VI T模型的输出端将每个所述子区块映射到16*16长度的一维向量；S4：对输出的每个所述一维向量输入Softmax函数转成概率分布；S5：将所述自监督标签和所述概率分布输入交叉熵构建训练损失函数。通过设计以图像空间位置联系进行网络监督监督的预训练方式，提取图像通用语义信息，提升下游图像分类、检测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能图像视觉算法开发，尤其涉及一种考虑空间位置的视觉大模型预训练方法。

技术介绍

1、自然语言类大模型如chatgpt在通用人工智能上取得巨大成功，整体上可概括为算力与算法两个方面。在算力层面，硬件的升级与分布式训练技术的发展为算法提供了底层算力支持；在算法层面，一是互联网上每天都会产生大量新的文本语料库，这为大语言模型提供了丰富的训练数据；二是transformer这一先进的网络结构为算法提供的强大的学习及表征能力；三是针对语言序列特性发展出了bert、gpt等预训练技术，使得模型在海量无标注语料库上学习到通用语义并产生“涌现”成为可能。然而，如何将自然语言预训练这一范式迁移到视觉领域以显著提升下游任务表现仍是一项挑战。从监督方式的角度可将视觉预训练算法分为有标注监督与无监督(或自监督)两类方式。监督式预训练算法一般依赖大量人工清洗与标注，如imagenet数据集，并在此数据集上训练图像分类算法，从而得到有效的通用特征提取网络。无监督式预训练核心思想是将图像数据同时作为输入与输出进行自监督，先通过编码器(深度网络)将二维图像编码到低维空间，再通过解码器(深度网络)将低维空间解码到二维图像，从而将训练后的编码器作为通用特征提取网络。

2、以上两种图像预训练方式均有其特定的优势，同时也存在各自的不足。监督式预训练算法能够从图像中提取较好语义特征，但为提取更好的语义特征，通常需要更多的人工标注数据辅助模型学习。无监督式算法不依赖人工标注，因此可以在海量数据上进行预训练，但受限于训练方式，此类方式通常很难

技术实现思路

1、本专利技术的目的是为了解决上述现有技术中存在的缺点,针对现有监督与非监督视觉预训练模型存在的问题以及我们对人类理解图像的观察，而提供了一种考虑空间位置的视觉大模型预训练方法，包括如下步骤：

2、s1：输入大量图像数据，将所述图像数据分割成若干子区块并将所述子区块进行顺序编码来构建自监督标签；

3、s2：将所述子区块打散，并将打散的所述子区块输入vit模型进行特征提取；

4、s3：在所述vit模型的输出端将每个所述子区块映射到对应所述子区块尺寸长度的一维向量；

5、s4：将输出的每个所述一维向量输入softmax函数转成概率分布；

6、s5：将步骤s1中的所述自监督标签和步骤s4中的所述概率分布输入交叉熵来构建和训练损失函数。

7、进一步地，在步骤s1中，所述构建自监督标签具体包括：

8、每个所述图像数据划分成16*16个固定尺寸的子区块，同时按照从左到右、从上到下的顺序对每个所述子区块进行顺序编码。

9、进一步地，在步骤s2中，将所述子区块打散具体包括：

10、采取不同程度的打散方式对所述子区块进行打散，减少模型训练过程中出现的不稳定现象。

11、优选地，在步骤s2中，在将所述图像数据输入所述vit模型前，采用预训练的所述vit模型的参数进行初始化，加速所述vit模型的收敛过程。

12、更优地，为防止所述vit模型通过相邻像素变化而非依据高层语义特征来学习排序方式，先对所述图像数据进行预处理，所述预处理包括所述自监督标签的构建和所述所述子区块的打散；同时在对所述图像数据预处理时对子区块边缘进行一定程度扰动。

13、进一步地，在步骤s2中，所述vit模型以transformer模块为基础，所述transformer模块包括mlp层、norm层、多头注意力机制multi-head attention，通过所述transformer模块的多头注意力机制形成多个所述子空间，让所述vit模型关注不同方面的信息。

14、进一步地，为进一步增强预训练所述vit模型的迁移能力，从多个维度对数据进行筛选以保证分布的多样性。

15、进一步地，在步骤s5中，将输出的所述损失函数进行反向传播并更新网络参数。

16、进一步地，重复步骤s1至步骤s5，直至所述vit模型收敛。

17、进一步地，在下游任务微调时，直接基于训练好的所述vit模型进行全量或部分参数微调。

18、与现有技术相比，本专利技术的有益效果是：

19、(1)本专利技术通过设计以图像空间位置联系进行网络监督监督的预训练方式，来提取图像通用语义信息，实现提升下游图像分类、检测精度目的；

20、(2)本专利技术对输入图像数据预处理时对子区域快边缘进行一定程度扰动来防止模型通过相邻像素变化而非依据高层语义特征学习排序方式；

21、(3)本专利技术从多个维度对数据进行筛选以保证分布的多样性，包括分辨率、室内室外、白天黑夜、图像及视频等，进一步增强预训练视觉大模型迁移能力。

本文档来自技高网...

【技术保护点】

1.一种考虑空间位置的视觉大模型预训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤S1中，所述构建自监督标签具体包括：

3.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤S2中，将所述子区块打散具体包括：

4.根据权利要求3所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤S2中，在将所述图像数据输入所述VIT模型前，采用预训练的所述VIT模型的参数进行初始化，加速所述VIT模型的收敛过程。

5.根据权利要求4所述的考虑空间位置的视觉大模型预训练方法，其特征在于，为防止所述VIT模型通过相邻像素变化而非依据高层语义特征来学习排序方式，

6.根据权利要求4所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤S2中，所述VI T模型以Transformer模块为基础，所述Transformer模块包括MLP层、Norm层、多头注意力机制Mul ti-Head Attenti on，通过所述Transformer模

7.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，为进一步增强预训练所述VIT模型的迁移能力，从多个维度对数据进行筛选以保证分布的多样性。

8.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤S5中，将输出的所述损失函数进行反向传播并更新网络参数。

9.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，重复步骤S1至步骤S5，直至所述VIT模型收敛。

10.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在下游任务微调时，直接基于训练好的所述VIT模型进行全量或部分参数微调。

...

【技术特征摘要】

1.一种考虑空间位置的视觉大模型预训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤s1中，所述构建自监督标签具体包括：

3.根据权利要求1所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤s2中，将所述子区块打散具体包括：

4.根据权利要求3所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤s2中，在将所述图像数据输入所述vit模型前，采用预训练的所述vit模型的参数进行初始化，加速所述vit模型的收敛过程。

5.根据权利要求4所述的考虑空间位置的视觉大模型预训练方法，其特征在于，为防止所述vit模型通过相邻像素变化而非依据高层语义特征来学习排序方式，

6.根据权利要求4所述的考虑空间位置的视觉大模型预训练方法，其特征在于，在步骤s2中，所述vi t模型以transformer模块为基...

【专利技术属性】
技术研发人员：单存宇，唐杰，陈健，戴立言，
申请(专利权)人：上海网达软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人