图像预训练模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38130379 阅读:19 留言:0更新日期:2023-07-08 09:37
本申请涉及图像处理领域,提供了图像预训练模型的训练方法、装置、电子设备及存储介质。该方法包括:将多个图像块输入全局预训练模型中,以获得锚点向量;对多个图像块进行部分遮盖处理,重复将未遮盖图像块输入局部预训练模型中N次,以获得第N局部表征向量,N为≥3的正整数;在每次完整预训练过程中,基于锚点向量和第N局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;待每次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新;若更新全局预训练模型满足预设迭代结束条件,则结束预训练。本申请对预训练数据的利用率较高,可减少对预训练数据的需求量,训练速度较快。训练速度较快。训练速度较快。

【技术实现步骤摘要】
图像预训练模型的训练方法、装置、电子设备及存储介质


[0001]本申请涉及图像处理领域,尤其涉及一种图像预训练模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,Transformer模型在视觉任务中取得了较为显著的成果。其中,ViT(Vision Transformer)模型是目前最先进的Transformer模型之一。
[0003]现有的ViT模型在预训练过程中,需要采用大量的的训练数据来学习各类视觉特征,从而在各类视觉任务中取得较好的性能。
[0004]例如,现有的ViT模型以分类任务作为预训练任务时,在每个epoch中只对预训练数据利用一次,故预训练数据的利用率较低,对预训练数据的数据量需求较大,导致预训练成本较高;同时,现有的现有的ViT模型针对K(Key)、Q(Query)、V(Value)都需要采用大量参数来进行注意力计算,注意力头数目又很多,导致模型进行注意力计算耗费大量运算时长,因而训练速度较慢。
[0005]可见,现有的ViT模型对预训练数据的利用率较低,对预训练数据的需求量大,训练速度较慢。

技术实现思路

[0006]有鉴于此,本申请实施例提供了一种图像预训练模型的训练方法、装置、电子设备及存储介质,以解决现有的ViT模型对预训练数据的利用率较低,对预训练数据的需求量大,训练速度较慢的问题。
[0007]本申请实施例的第一方面,提供了一种图像预训练模型的训练方法,包括:对原始图像进行分割处理,得到形状大小相同的多个图像块;将多个图像块输入全局预训练模型中,以获得锚点向量;对多个图像块进行部分遮盖处理,得到未遮盖图像块和遮盖图像块;重复将未遮盖图像块输入局部预训练模型中N次,以获得第N局部表征向量,全局预训练模型与局部预训练模型的初始模型参数相同,N为≥3的正整数,每次输入局部预训练模型的未遮盖图像块不完全相同;在每一次完整预训练过程中,固定全局预训练模型的初始模型参数不变,基于锚点向量和第N局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;待每一次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型;若更新全局预训练模型满足预设迭代结束条件,则结束预训练,并将更新全局预训练模型确定为图像预训练模型。
[0008]本申请实施例的第二方面,提供了一种图像预训练模型的训练装置,包括:
分割模块,被配置为对原始图像进行分割处理,得到形状大小相同的多个图像块;第一编码模块,被配置为将多个图像块输入全局预训练模型中,以获得锚点向量;遮盖模块,被配置为对多个图像块进行部分遮盖处理,得到未遮盖图像块和遮盖图像块;第二编码模块,被配置为重复将未遮盖图像块输入局部预训练模型中N次,以获得第N局部表征向量,全局预训练模型与局部预训练模型的初始模型参数相同,N为≥3的正整数,每次输入局部预训练模型的未遮盖图像块不完全相同;训练模块,被配置为在每一次完整预训练过程中,固定全局预训练模型的初始模型参数不变,基于锚点向量和第N局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;更新模块,被配置为待每一次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型;确定模块,被配置为若更新全局预训练模型满足预设迭代结束条件,则结束预训练,并将更新全局预训练模型确定为图像预训练模型。
[0009]本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0010]本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0011]本申请实施例与现有技术相比,其有益效果至少包括:一方面,采用无标注的原始图像进行图像预训练模型的训练,可以大大减少对原始图像的标注时间成本和人力成本等,有利于降低整体的预训练成本;另一方面,通过先对无标注的原始图像进行分割处理,得到形状大小相同的多个图像块,再将多个图像块输入全局预训练模型中,以获得锚点向量;重复将未遮盖图像块输入局部预训练模型中N次,以获得第N局部表征向量,可提高对预训练数据(无标注的原始图像)的利用率,有利于大大降低对训练数据的需求量;然后,在每一次完整预训练过程中,固定全局预训练模型的初始模型参数不变,基于锚点向量和第N局部表征向量对局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;待每一次完整预训练结束后,采用更新局部模型参数对全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型,可以有效提高预训练模型学习到的视觉特征的稳定性,并且该方式仅有少量输入参与前向传播,可极大地减小训练的运算量,从而有利于提高训练的速度,进一步降低整体的预训练成本。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0013]图1是本申请实施例提供的一种图像预训练模型的训练方法的流程示意图;图2是本申请实施例提供的图像预训练模型的训练方法中的一种图像分割方式的
示意图;图3是本申请实施例提供的图像预训练模型的训练方法中的一种图像遮盖方式的示意图;图4是本申请实施例提供的图像预训练模型的训练方法中的一个训练示例;图5是本申请实施例提供的图像预训练模型的训练方法中一种图像块标记方式示意图;图6是本申请实施例提供的图像预训练模型与其他模型在imageNet图像分类任务上的模型推理效果的对比结果;图7是本申请实施例提供的图像预训练模型与其他模型在ADE20K数据集语义分割任务上的模型推理效果的对比结果;图8是本申请实施例提供的一种图像预训练模型的训练装置的结构示意图;图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0014]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0015]下面将结合附图详细说明根据本申请实施例的一种图像预训练模型的训练方法和装置。
[0016]图1是本申请实施例提供的一种图像预训练模型的训练方法的流程示意图。图1的图像预训练模型的训练方法可以由服务器执行。如图1所示,该图像预训练模型的训练方法包括:步骤S101,对无标注的原始图像进行分割处理,得到形状大小相同的多个图像块。
[0017]无标注的原始图像,可以是指不带有标注信息的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像预训练模型的训练方法,其特征在于,包括:对无标注的原始图像进行分割处理,得到形状大小相同的多个图像块;将所述多个图像块输入全局预训练模型中,以获得锚点向量;对所述多个图像块进行部分遮盖处理,得到未遮盖图像块和遮盖图像块;重复将所述未遮盖图像块输入局部预训练模型中N次,以获得第N局部表征向量,所述全局预训练模型与所述局部预训练模型的初始模型参数相同,N为≥3的正整数,每次输入所述局部预训练模型的未遮盖图像块不完全相同;在每一次完整预训练过程中,固定所述全局预训练模型的初始模型参数不变,基于所述锚点向量和第N局部表征向量对所述局部预训练模型的初始模型参数进行更新,得到更新局部模型参数;待每一次完整预训练结束后,采用所述更新局部模型参数对所述全局预训练模型的初始模型参数进行更新,得到更新全局预训练模型;若所述更新全局预训练模型满足预设迭代结束条件,则结束预训练,并将所述更新全局预训练模型确定为图像预训练模型。2.根据权利要求1所述的方法,其特征在于,所述全局预训练模型包括全局表征模型和第一交叉注意力层;其中,所述第一交叉注意力层的结构与所述全局表征模型中的任意一层的结构相同,所述第一交叉注意力层的第一权重值和与之对应的所述全局表征模型的任意一层的第二权重值不同;将所述多个图像块输入全局预训练模型中,以获得锚点向量,包括:将所述多个图像块输入全局表征模型中,以获得每一个所述图像块对应的图块表征向量;将每一个所述图像块对应的图块表征向量和一个全图表征向量输入第一交叉注意力层中,以获得锚点向量。3.根据权利要求1或2所述的方法,其特征在于,所述局部预训练模型包括局部表征模型和第二交叉注意力层;其中,所述第二交叉注意力层的结构与所述局部表征模型中的任意一层的结构相同,所述第二交叉注意力层的第三权重值和与之对应的所述局部表征模型的任意一层的第四权重值不同;所述局部表征模型与全局表征模型的模型结构及初始模型参数均相同;重复将所述未遮盖图像块输入局部预训练模型中N次,以获得第N局部表征向量,包括:重复将所述未遮盖图像块输入局部表征模型中N次,以获得第N图表征向量;将所述第N图表征向量和一个全图表征向量输入第二交叉注意力层中,以获得第N局部表征向量。4.根据权利要求1所述的方法,其特征在于,基于所述锚点向量和第N局部表征向量对所述局部预训练模型的初始模型参数进行更新,得到更新局部模型参数,包括:计算所述锚点向量与第N局部表征向量之间的平均距离值;根据所述平均距离值,计算所述局部预训练模型的损失函数值;基于所述损失函数值对所述局部预训练模型的初始模型参数进行更新,得到更新局部模型参数。5.根据权利要求1所述的方法,其特征在于,采用所述更新局部模型参数对所述全局预
训练模型的初始模型参数进行更新,得到更新全局预训练模型,包括:获取第一权重系数和第二权重系数,所述第一权重系数大于第二权重系数,所述第一权重系数为全局预训练模型的初始模型参数的权重系数,所述第二权重系数为更新局部模型参数的权重系数;根据所述第一权...

【专利技术属性】
技术研发人员:吴亚军蒋敏暴宇健
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1