图像上色方法、系统、终端及介质技术方案

技术编号：41733443 阅读：6 留言：0更新日期：2024-06-19 12:54

本发明专利技术提供一种图像上色方法及系统，其中方法包括：提供一图像上色模型，所述图像上色模型包括：预训练的文本编码器、实例掩码多层感知机、实例拼接多层感知机、预训练的视觉编码器、自注意力模型、视觉文本交叉注意力模型、条件图像引导网络模型、条件交叉注意力模型以及预训练的视觉解码器；提供一训练数据集，所述训练数据集包括：实例文本、实例掩码、彩色图像、整体文本以及黑白图像；利用所述训练数据对所述图像上色模型进行训练，得到训练后的图像上色模型；利用所述训练后的图像上色模型，进行图像上色。本发明专利技术使用输入的实例掩码和实例文本，允许使用者自定义图像中每个物体的颜色，改善了颜色绑定的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种计算机视觉和图像处理领域的方法，具体地，涉及一种图像上色方法、系统、终端及介质。

技术介绍

1、图像上色，旨在将一个黑白图像转换成相应的彩色图像。在过去的几年，基于深度神经网络的许多图像上色方法取得了巨大的成功。然而，图像上色是一个病态的问题，多个彩色图像退化后可为同一黑白图像，即一个黑白图像对应着多个彩色图像。在训练时，网络也受到这一对多关系的影响，拟合的是一个黑白图像对应多个彩色图像的平均，这导致了输出图像的色彩常常缺乏变化，无法满足使用者自定义颜色的需求。考虑到了这一点，有些方法使用了预训练的扩散模型，这些预训练的模型由于在大规模的高质量图像数据集上训练，它们的网络参数具有生成高质量图像的特性，且可以根据使用者提供的文本生成相应的图像。但是这些方法没有关注文本中颜色和物体的绑定关系，存在颜色绑定的问题，即输出结果中物体的颜色与文本描述的颜色不一致。另外，这些方法没有关注物体的边界信息，造成上色结果中经常出现颜色渗漏的问题，即物体的颜色渗出了边界并覆盖了其他物体，造成不好的观感。

技术实现思路

1、本专利技术针对现有技术中存在的上述不足，提供了一种图像上色方法、系统、终端及介质。

2、根据本专利技术的一个方面，提供了一种图像上色方法，包括：

3、提供一图像上色模型，所述图像上色模型包括：预训练的文本编码器、实例掩码多层感知机、实例拼接多层感知机、预训练的视觉编码器、自注意力模型、视觉文本交叉注意力模型、条件图像引导网络模型、条件交叉注意

4、提供一训练数据集，所述训练数据集包括：实例文本、实例掩码、彩色图像、整体文本以及黑白图像；

5、利用所述训练数据对所述图像上色模型进行如下训练，得到训练后的图像上色模型：

6、利用所述预训练的文本编码器，对所述实例文本提取实例文本特征；

7、利用所述实例掩码多层感知机，对所述实例掩码提取实例掩码特征；

8、将所述实例文本特征和所述实例掩码特征进行拼接得到实例拼接特征，并利用所述实例拼接多层感知机，对所述实例拼接特征提取实例总特征；

9、对所述彩色图像添加随机噪声生成含噪图像，并利用所述预训练的视觉编码器，对所述含噪图像提取视觉特征；

10、将所述实例总特征和所述视觉特征拼接成视觉拼接特征，并利用所述自注意力模型，对所述视觉拼接特征和所述实例掩码提取视觉总特征；

11、利用所述预训练的文本编码器，对所述整体文本提取整体文本特征；

12、利用所述视觉文本交叉注意力模型，对所述视觉总特征和所述整体文本特征提取视觉文本总特征；

13、利用所述条件图像引导网络模型，对所述黑白图像提取条件图像特征；

14、利用所述条件交叉注意力模型，对所述视觉文本总特征和所述条件图像特征提取最终总特征；

15、利用所述预训练的视觉解码器，获取所述最终总特征的预测噪声，并利用所述预测噪声对所述含噪图像进行去噪处理，得到最终彩色图像；

16、利用所述训练后的图像上色模型，进行图像上色。

17、优选地，所述利用所述预训练的文本编码器，对所述实例文本提取实例文本特征，包括：

18、输入实例文本其中，n为实例总数，l为文本的总字数，利用预训练的文本编码器τ提取实例文本特征其中，n为实例总数，lt为实例文本特征的长度。

19、优选地，所述利用所述实例掩码多层感知机，对所述实例掩码提取实例掩码特征，包括：

20、输入实例掩码{mi}i∈n∈{0,1}n×w×h，其中，n为实例总数，w为图像的宽，h为图像的高，利用实例掩码多层感知机mlp1提取实例掩码特征其中，n为实例总数，ln为实例掩码特征的长度。

21、优选地，所述对所述彩色图像添加随机噪声生成含噪图像，并利用所述预训练的视觉编码器，对所述含噪图像提取视觉特征，包括：

22、输入彩色图像其中，c为图像信道数，w为图像的宽，h为图像的高，添加随机噪声其中，c为图像信道数，w为图像的宽，h为图像的高，生成含噪图像对含噪图像n利用预训练的扩散模型的视觉编码器e提取视觉特征其中，lv为视觉特征的长度。

23、优选地，所述利用所述预训练的文本编码器，对所述整体文本提取整体文本特征，包括：

24、输入整体文本其中，l为整体文本的总字数，利用预训练的文本编码器τ提取实例文本特征其中，lt为整体文本特征的长度。

25、优选地，所述利用所述条件图像引导网络模型，对所述黑白图像提取条件图像特征，包括：

26、输入黑白图像其中，c为图像信道数，w为图像的宽，h为图像的高，利用条件图像引导网络controlnet提取条件图像特征其中，lh为条件图像特征的长度。

27、优选地，所述将所述实例文本特征和所述实例掩码特征进行拼接得到实例拼接特征，并利用所述实例拼接多层感知机，对所述实例拼接特征提取实例总特征，包括：

28、对实例拼接特征{ai}i∈n，利用实例拼接多层感知机mlp2提取实例总特征其中，n为实例总数，lf为实例总特征的长度。

29、优选地，所述将所述实例总特征和所述视觉特征拼接成视觉拼接特征，并利用所述自注意力模型，对所述视觉拼接特征和所述实例掩码提取视觉总特征，包括：

30、将实例总特征{fi}i∈n和视觉特征v拼接成视觉拼接特征其中，lk为视觉拼接特征的长度；对视觉拼接特征k利用自注意力模型self和实例掩码{mi}i∈n提取视觉总特征其中，lp为视觉总特征的长度。

31、优选地，所述利用所述视觉文本交叉注意力模型，对所述视觉总特征和所述整体文本特征提取视觉文本总特征，包括：

32、对视觉总特征p和整体文本特征tg通过视觉文本交叉注意力模型cross1提取视觉文本总特征其中，lu为视觉文本总特征的长度。

33、优选地，所述利用所述条件交叉注意力模型，对所述视觉文本总特征和所述条件图像特征提取最终总特征，包括：

34、对视觉文本总特征u和条件图像特征h利用条件交叉注意力模型cross2提取最终总特征其中，ly为最终总特征的长度。

35、优选地，所述利用所述预训练的视觉解码器，获取所述最终总特征的预测噪声，并利用所述预测噪声对所述含噪图像进行去噪处理，包括：

36、对最终总特征y利用预训练的扩散模型的视觉解码器d输出预测噪声其中，c为图像信道数，w为图像的宽，h为图像的高，并对含噪图像n利用预测噪声去噪得到输出最终彩色图像

37、优选地，所述图像上色方法，还包括：

38、对所述图像上色模型进行损失约束，所述训练过程在所述损失约束下进行。

39、优选地，所述图像上色模型的实例掩码多层感知机、实例拼接多层感知机、自注意力模型、视觉文本交叉注意力模型、条件图像引导网络模型和条件交叉注意力模型构成本文档来自技高网...

【技术保护点】

1.一种图像上色方法，其特征在于，包括：

2.根据权利要求1所述的图像上色方法，其特征在于，还包括如下任意一项或任意多项：

3.根据权利要求2所述的图像上色方法，其特征在于，还包括如下任意一项或任意多项：

4.根据权利要求3所述的图像上色方法，其特征在于，所述利用所述预训练的视觉解码器，获取所述最终总特征的预测噪声，并利用所述预测噪声对所述含噪图像进行去噪处理，包括：

5.根据权利要求1-4中任一项所述的图像上色方法，其特征在于，还包括：

6.根据权利要求5所述的图像上色方法，其特征在于，所述图像上色模型的实例掩码多层感知机、实例拼接多层感知机、自注意力模型、视觉文本交叉注意力模型、条件图像引导网络模型和条件交叉注意力模型构成特征提取网络部分，其损失约束L1，包括：

7.一种图像上色系统，其特征在于，包括：

8.根据权利要求7所述的图像上色系统，其特征在于，还包括：

9.一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，该处理器执行该计算机程

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时可用于执行权利要求1-6中任一项所述的方法，或，运行权利要求7-8中任一项所述的系统。

...

【技术特征摘要】

1.一种图像上色方法，其特征在于，包括：

2.根据权利要求1所述的图像上色方法，其特征在于，还包括如下任意一项或任意多项：

3.根据权利要求2所述的图像上色方法，其特征在于，还包括如下任意一项或任意多项：

5.根据权利要求1-4中任一项所述的图像上色方法，其特征在于，还包括：

6.根据权利要求5所述的图像上色方法，其特征在于，所述图像上色模型的实例掩码多层感知机、实例拼接多层感知机、自注意力模型、视觉文本交叉...

【专利技术属性】
技术研发人员：张小云，桂凌，胡强，王延峰，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人