System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能和计算机视觉领域,具体涉及一种基于去偏变分推断提示调优的图像识别方法。
技术介绍
1、视觉—语言预训练模型(vision-language pre-trained models,vlpms)在开放集视觉概念理解和零样本学习中具有强大的表现,已被广泛应用于数据稀缺或数据受限的下游场景。其中,对比语言—图像预训练模型(contrastive language-image pre-training,clip)是目前主流vlpms的基础框架之一。然而,由于clip是基于大量公开自然场景数据集实现模型训练,导致主流模型在特定领域应用时面临领域偏移问题,即下游场景数据与预训练数据存在分布偏移现象,限制了vlpms的泛化性能。提示调优(prompttuning, pt)作为一种通过调整或学习输入prompt来引导模型适应特定任务的高效方法,已成为将clip迁移至下游场景的主流手段之一。即:在无需改变vlpms参数的前提下,通过调整或学习prompt的方式来提升clip在特定任务上的表现。尽管pt在小样本下游任务中取得显著成效,但其泛化性能仍受两方面限制,具体如下:
2、其一,图像丰富的上下文信息迫使可学的文本prompt学习到特定任务描述,阻碍了视觉语言模型对新类的泛化能力。例如,当训练数据使用停在地面飞机图像数据时,clip极易学到“这是一架停在草地上的飞机”的特定prompt。然而,当测试数据包含在空中作业飞机数据时,模型极易因与训练数据存在上下文语义偏差进而导致泛化性能差现象。其二,主流视觉语言模型提示
3、本专利技术针对上述问题专利技术了一种基于去偏变分推断提示调优的图像识别方法,旨在为数据稀缺或数据受限等场景提供一套通用的小样本学习方法,提升视觉语言模型的泛化性能。
技术实现思路
1、本专利技术提供了一种基于去偏变分推断提示调优的图像识别方法,以解决现有技术中clip的泛化性能差的技术问题。
2、本专利技术提出的一种基于去偏变分推断提示调优的图像识别方法,具体包括以下步骤:
3、步骤s1:将配对的图像-文本fgvc-aircraft数据集分为训练集和测试集,其中训练集是从每个类别随机选取个配对的图像-文本标签构成的,将剩余配对的图像-文本标签作为测试集;
4、步骤s2:将对比语言—图像预训练模型作为基准框架,该基准框架包括一个图像分支、一个文本分支,图像分支包含图像块编码模块、图像编码器、imageproj函数;文本分支包括文本词嵌入模块、文本编码器、textproj函数;
5、步骤s3:基于基准框架的图像分支,设计一个基于风格扰动的图像编码器,选取步骤s1训练集中的2张图像数据,之后输入所述基于风格扰动的图像编码器,其中1张图像数据作为训练图像数据,另外1张图像数据作为辅助图像数据,得到去偏的视觉特征;
6、步骤s4:基于基准框架的文本分支,设计一个基于去偏变分推断的文本编码器;选取训练集中与步骤s3选取的训练图像数据配对的文本标签,将步骤s3得到的去偏的视觉特征和所述配对的文本标签输入基于去偏变分推断的文本编码器,得到去偏的文本特征;
7、步骤s5:在训练集中随机选择个类别的训练集数据,每个类别选择1个对应的图像和文本标签,执行步骤s3及步骤s4得组配对的去偏视觉特征及去偏文本特征;设计基于变分推断的损失函数,选取正样本对及负样本对输入基于变分推断的损失函数完成网络参数的更新;直到步骤s1构建的训练集中所有样本参与网络参数更新后,输出最优的模型参数和每个类别去偏的文本特征,得到参数最优的模型;
8、步骤s6:将测试集图像数据输入步骤s5优化后参数最优的模型,通过基于风格扰动的图像编码器得到去偏的视觉特征,通过计算去偏的视觉特征和所有类别去偏的文本特征间最高的余弦相似度获得图像识别结果。
9、进一步地,所述基于风格扰动的图像编码器通过对基准框架图像分支的图像编码器的前层进行风格扰动操作得到。
10、进一步地,步骤s3包括如下步骤:
11、步骤s31:将训练图像数据压缩至长为、宽为的压缩图像数据,随后将压缩图像数据裁剪为个尺寸为的图像块,,并将个图像块输入图像块编码模块,得到训练图像数据第0层视觉令牌,;其中,视觉令牌共有个视觉子令牌,表示每个视觉子令牌维度数,,表示每个图像块的通道数;同理,对辅助图像数据进行压缩、裁剪操作,得到辅助图像数据第0层视觉令牌,;
12、步骤s32:对训练图像数据第0层视觉令牌引入一个可学的类别词令牌,得到训练图像数据第0层带有类别名的视觉令牌<mstyle displaystyle="true" mathcolor="#000000"><mi>[</mi><msub><mi>c</mi><mn>0</mn></msub><mi>,</mi><msubsup><mi>e</mi><mn>0</mn><mi>训练</mi></msubsup><mi>]</mi></mstyle>;
13、步骤s33:将训练图像数据第0层带有类别名的视觉令牌<mstyle displaystyle="true" mathcolor="#000000"><mi>[</mi><msub><mi>c</mi><mn>0</mn></msub><mi>,</mi><msubsup><mi>e</mi><mn>0</mn><mi>训练</mi></msubsup><mi>]</mi></mstyle>输入图像编码器的第1层transformer网络层,输出训练图像数据第1层带有类别名的视觉令牌,表示为<mstyle displaystyle="true" mathcolor="#000000"><mi>[</mi><msub><mi>c</mi><mn>1</mn></msub><mi>,</mi><msubsup><mi>本文档来自技高网...
【技术保护点】
1.一种基于去偏变分推断提示调优的图像识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,
3.根据权利要求2所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,步骤S3包括如下步骤:
4.根据权利要求3所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,风格扰动操作包括如下步骤:
5.根据权利要求1所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,基于去偏变分推断的文本编码器通过将去偏视觉特征输入元学习网络得到的去偏视觉提示令牌及概率分布令牌,将去偏视觉提示令牌及概率分布令牌,与文本词嵌入模块输出的文本令牌进行融合,随后按基准框架的文本分支执行得到。
6.根据权利要求5所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,步骤S4包括如下步骤:
7.根据权利要求6所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,
8.根据权利要求6所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,步骤S5包括如
9.根据权利要求1所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,
...【技术特征摘要】
1.一种基于去偏变分推断提示调优的图像识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,
3.根据权利要求2所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,步骤s3包括如下步骤:
4.根据权利要求3所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,风格扰动操作包括如下步骤:
5.根据权利要求1所述的基于去偏变分推断提示调优的图像识别方法,其特征在于,基于去偏变分推断的文本编码器通过将去偏视觉特征输入元学习网络得到...
【专利技术属性】
技术研发人员:郭峰,左琳,郑志坤,彭浩然,陈中舒,陈彪,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。