一种基于Vision Transformer的相似性上色方法技术

技术编号：42370894 阅读：5 留言：0更新日期：2024-08-16 14:53

本发明专利技术公开了一种基于Vision Transformer的相似性上色方法，通过编码器获取四种不同尺度的图片的特征，通过标识匹配模块将一种尺度的待上色图片特征与参考图片特征计算出相似度矩阵，使用相似度矩阵得到本尺度的预测信息。标识匹配模块中的聚合子模块将四种尺度的预测信息聚合成最终的预测信息。通过损失模块计算预测信息与真实信息的差值，是对通过相似性上色算法的一种工程补充手段。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习领域中的图片自动上色领域，具体地说，是一种基于visiontransformer的相似性上色方法。

技术介绍

1、随着科技的进步，原本的黑白照相机被彩色照相机取代，彩色照片更容易引起人们的兴趣。在彩色照相机问世之前，大量被拍摄的黑白照片具有很高的研究价值或者是某种特殊含义。黑白图片上色具有很大的市场需求，因为很多经典的黑白电影想要再一次搬到大荧幕，需要更换一次崭新的面貌，需要变成彩色的形式，顺应大多数人的审美需要。将黑白照片利用人工上色需要的代价过高，所以需要人工智能领域来创造出自动上色的计算方法。人工智能上色算法普遍采用计算待上色图片和参考图片相似性，并且直接计算出具有三个颜色通道的上色结果，然后计算损失来指导模型训练。这种做法如果想要取得不错的上色结果，往往需要高昂的时间成本。

技术实现思路

1、本专利技术的目的在于提供一种基于vision transformer的相似性上色方法，该算法主要能实现(1)让参考图上的颜色能够被转移到需要上色的黑白图的正确像素上，(2)以较少的训练模型时间成本来获取不错的上色效果。

2、实现本专利技术的技术解决方案为：一种基于vision transformer的相似性上色方法，步骤如下：

3、步骤s1、进入训练第一阶段，获取待上色图片的黑白图片特征、参考图片的黑白图片特征和参考图片的通道a和通道b信息的特征。标识匹配模块将待上色图片的黑白图片特征和参考图片的黑白图片特征通过点乘和softmax操作计算相似度矩阵。

4、步骤s2、标识匹配模块将相似度矩阵和图片通道a或者图片通道b的特征通过矩阵乘法得到预测结果，即待上色图片的通道a或通道b的预测信息。

5、步骤s3、用待上色图片的通道a和通道b的预测信息分别和待上色图片的通道a或通道b的真实信息计算l1损失，并通过l1损失监督模型训练。

6、步骤s4、进入训练第二阶段，获取待上色图片的黑白图片特征、参考图片的黑白图片特征和lab格式的参考图片的特征。标识匹配模块将待上色图片的黑白图特征和参考图片的黑白图片特征通过点乘和softmax操作计算相似度矩阵。

7、步骤s5、标识匹配模块将相似度矩阵和lab格式的参考图片的特征通过矩阵乘法得到预测结果，即lab格式的待上色图片的预测信息。

8、步骤s6、用lab格式的待上色图片的预测信息和lab格式的待上色图片的真实信息计算l1损失、感知损失和对抗损失，并计算出最终损失指导模型训练

9、步骤s7、训练进入测试阶段，将待上色图片的黑白图片特征和参考图片的黑白图片特征通过点乘和softmax操作计算相似度矩阵。标识匹配模块将相似度矩阵和lab格式的参考图片的特征通过矩阵乘法得到预测结果，即lab格式的待上色图片的预测信息。

10、步骤s8、将lab格式的待上色图片的预测信息中的l通道的信息替换为lab格式的待上色图片的真实信息中的l通道的信息，最终得到模型上色结果。

11、进一步地，使用图片编码器模块提取待上色图片和参考图片黑白图片的特征，使用标识编码器提取参考图片通道a、通道b的特征和lab格式参考图片的特征；图片编码器和标识编码器模块使用的架构是vision transformer架构。

12、进一步地，使用图片编码器和标识编码器提取特征时提取四个不同尺度的特征，通过标识匹配模块获取不同尺度的预测结果，标识匹配模块中的子模块聚合子模块将一种尺度的预测结果进行卷积核大小为1的卷积操作，然后对结果进行上采样，之后再次进行卷积操作，得到一个可以与上一尺度预测信息的长宽相同的结果，将此结果进行卷积操作，并且进行上采样，最终通过卷积核大小为1的卷积操作，得到本尺度最终输出的预测结果；最后一个尺度的预测结果即为模型最终的预测结果。

13、进一步地，步骤s3所述的l1损失计算公式如下：

14、

15、其中，n表示预测信息上像素点的总个数；yi表示真实信息上第i个像素点上通道a或通道b的值；f(xi)表示预测信息上第i个像素点上通道a或通道b的值。

16、进一步地，步骤s6所述最终损失由l1损失、感知损失、对抗损失组成，l1损失计算公式如下：

17、

18、其中，n表示一张图上像素点的总个数；yic表示中间帧上第i个像素点上的第c个通道的真实值；f(xic)表示中间帧上第i个像素点上的第c个通道的预测值；

19、感知损失如下：

20、

21、其中，c是通道数，x是上色结果，即中间帧的lab格式图片的预测信息，xgt是指中间帧的lab格式图片的真实信息；‖.‖f是frobenius正则化；

22、对抗损失如下：

23、lossadv＝e[d(x)]-e[d(cgt)]

24、其中，x是上色结果，即中间帧的lab格式图片的预测信息，xgt是指中间帧的lab格式图片的真实信息；d是对抗网络的分辨器；

25、监督模型第二阶段训练的最终损失loss如下：

26、loss＝0.8×lossl1+0.1×lossadv+0.1×lossper。

27、本专利技术与现有技术相比，其显著优点在于：

28、1)本专利技术提出一个兼顾上色效果和训练成本的上色算法，本专利技术在设计训练方案时，采用了分段式训练的方法，将训练分为两个阶段，第一阶段用l1损失进行监督，提高了模型训练效率。第二阶段用l1损失、感知损失、对抗损失来监督模型训练，保证了上色效果。

29、2)本专利技术使用图片的rgb格式黑白图计算待上色图片和参考图片之间的相似性，训练模型时仅预测待上色图片的lab格式的通道a和通道b，将保留大量纹理信息的通道l直接替换到上色结果中，保证其不会出现模糊性。

30、3)本专利技术在训练的第二阶段直接根据相关实验数据分析给定了各损失的权重，与设置动态权重的方法相比，进一步降低了训练成本。

31、4)本专利技术计算特征时计算四个不同尺度的图片特征，并且设计了一种可以聚合不同尺度预测信息的聚合子模块。在获取不同尺度的图片特征的预测结果后，将一种尺度的预测结果进行卷积核大小为1的卷积操作，然后将结果进行上采样，之后再次进行卷积操作，得到一个可以与上一尺度预测信息的长宽相同的结果，将此结果进行卷积操作，并且进行上采样，最终通过卷积核大小为1的卷积操作得到本尺度最终输出的预测信息。

本文档来自技高网...

【技术保护点】

1.一种基于Vision Transformer的相似性上色方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Vision Transformer的相似性上色方法，其特征在于：使用图片编码器模块提取待上色图片和参考图片黑白图片的特征，使用标识编码器提取参考图片通道a、通道b的特征和lab格式参考图片的特征；图片编码器和标识编码器模块使用的架构是Vision Transformer架构。

3.根据权利要求1所述的基于Vision Transformer的相似性上色方法，其特征在于：使用图片编码器和标识编码器提取特征时提取四个不同尺度的特征，通过标识匹配模块获取不同尺度的预测结果，标识匹配模块中的子模块聚合子模块将一种尺度的预测结果进行卷积核大小为1的卷积操作，然后对结果进行上采样，之后再次进行卷积操作，得到一个可以与上一尺度预测信息的长宽相同的结果，将此结果进行卷积操作，并且进行上采样，最终通过卷积核大小为1的卷积操作，得到本尺度最终输出的预测结果；最后一个尺度的预测结果即为模型最终的预测结果。

4.根据权利要求1所述的基于Visio

5.根据权利要求1所述的基于Vision Transformer的相似性上色方法，其特征在于，步骤S6所述最终损失由L1损失、感知损失、对抗损失组成，L1损失计算公式如下：

...

【技术特征摘要】

1.一种基于vision transformer的相似性上色方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于vision transformer的相似性上色方法，其特征在于：使用图片编码器模块提取待上色图片和参考图片黑白图片的特征，使用标识编码器提取参考图片通道a、通道b的特征和lab格式参考图片的特征；图片编码器和标识编码器模块使用的架构是vision transformer架构。

3.根据权利要求1所述的基于vision transformer的相似性上色方法，其特征在于：使用图片编码器和标识编码器提取特征时提取四个不同尺度的特征，通过标识匹配模块获取不同尺度的预测结果，标识匹配模块中的...

【专利技术属性】
技术研发人员：代龙泉，李邦国，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人