当前位置: 首页 > 专利查询>天津大学专利>正文

基于Transformer的Raw视频去噪方法技术

技术编号:38528926 阅读:20 留言:0更新日期:2023-08-19 17:03
本发明专利技术公开了基于Transformer的Raw视频去噪方法,涉及视频信号处理技术领域。基于Transformer的Raw视频去噪方法,包括如下步骤:S1、基于Transformer设计Raw视频去噪算法;S2、训练模型;S3、将测试集中的带噪声的Raw视频序列输入到模型中,得到相应的去除噪声后的视频序列。本发明专利技术通过利用所提出的时空融合重建模块以及空间优化模块,将Raw视频去噪性能提升到了新的高度。提升到了新的高度。提升到了新的高度。

【技术实现步骤摘要】
基于Transformer的Raw视频去噪方法


[0001]本专利技术涉及视频信号处理
,尤其涉及一种基于Transformer的Raw视频去噪方法。

技术介绍

[0002]噪声存在于每一个图像传感器中,图像噪声不止影响观感,还影响后续对图像内容的分析。与图像去噪相比,视频去噪旨在利用连续视频帧间的关联信息提高去噪效果。近年多采用数据驱动的深度学习方法进行视频去噪。一些方法使用光流或可变形卷积对相邻帧进行显式或隐式的对齐,以更好的利用时域相关信息;另一些基于Transformer的视频去噪算法,由于其高效的全局时空注意力机制,有效地利用了时间和空间关联信息,取得了较好的去噪效果;除此之外,由于监督训练所使用的视频对数据难以获得,一些工作关注无监督训练策略,提出了许多基于盲点的训练策略,减少了对数据量的需求。
[0003]另一方面,利用Raw域数据进行真实场景图像(视频)恢复已成趋势,例如HDR,去噪,去模糊和超分辨率。主要原因是Raw域数据具有较宽的位深度(12或14位),即包含最原始的信息,并且其噪声仅与像素有关。相比于sRGB数据,由于未经过ISP处理,其噪声分布更加简单,在raw域数据上进行噪声去除更加高效。
[0004]但是,目前基于Transformer的视频去噪算法多采用移位窗口自注意力的空间信息交互方法。由于仅实现了窗口内的信息交互,限制了空域和时域的信息传递。对于空间信息交互,单张图像内的相似像素信息有利于噪声的去除,但是相似像素信息分布在整个图像内,而远程像素信息无法通过移位窗口自注意力传递;对于时域信息交互,由于帧间运动,不同帧之间相似像素信息的距离不同,导致移位窗口自注意力不能使用不同帧之间的时域相关性信息。
[0005]为了解决上述问题,本专利技术提出一种基于Transformer的Raw视频去噪方法,在多种复杂度下均实现了最优的去噪效果。

技术实现思路

[0006]本专利技术的目的在于提出一种基于Transformer的Raw视频去噪方法以解决
技术介绍
中所提出的问题,实现对有噪声视频数据的高效去噪。
[0007]为了实现上述目的,本专利技术采用了如下技术方案:
[0008]基于Transformer的Raw视频去噪方法,具体包括以下步骤:
[0009]S1、设计Raw视频去噪算法:基于Transformer技术,设计一个由时空重建模块和空间优化模块组成的Raw视频去噪算法;
[0010]所述时空重建模块由多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)交叉级联而成;所述空间优化模块由多个多分支空间自注意力模块(MSSB)级联而成;
[0011]S2、搭建、训练模型:基于S1中所设计的Raw视频去噪算法搭建Raw视频去噪模型,
利用深度学习框架Pytorch平台训练模型,在整个RECRVD训练数据集上迭代12k次,学习率从1e

4开始,在总epoch的2/6和5/6后下降到5e

5和2e

5;
[0012]S3、输出结果:将数据集的测试集中带有噪声的Raw视频序列输入到S2中训练好的Raw视频去噪模型中,输入得到相应的去除噪声的视频序列。
[0013]优选地,S1中所述时空重建模块采用与U

net相同的编码器

解码器结构,在经过一对多分支空间自注意力模块(MSSB)和多分支时域互注意力模块(MTSB)后对特征图进行下采样,后续经过上采样恢复,并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。
[0014]优选地,S1中所述Raw视频去噪算法具体包括以下内容:
[0015]①
多分支空间自注意力模块(MSSB):所述多分支空间自注意力模块(MSSB)由若干个多分支空间自注意力层和一个重参数化后的卷积层级联而成,其中,所述多分支空间自注意力层为3分支结构,包括:
[0016]1)移位窗口自注意力(SWSA);
[0017]2)全局窗口自注意力(GWSA)或邻域窗口自注意力(NWSA);
[0018]3)低分辨率窗口自注意力(LWSA);
[0019]其中,所述全局窗口自注意力(GWSA)应用于低分辨率的多分支空间自注意力层,所述邻域窗口自注意力(NWSA)应用于原始分辨率的多分支空间自注意力层;
[0020]②
多分支时域自注意力模块(MTSB):所述多分支时域自注意力模块由若干个时域自注意力层和一个重参数化后的卷积层级联而成,其中,所述时域自注意力层包括:
[0021]1)时域互注意力(TMA);
[0022]2)全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA);
[0023]3)多分支空间自注意力;
[0024]其中,所述全局窗口自注意力(GWSA)应用于低分辨率的多分支时域自注意力层,所述邻域窗口自注意力(NWSA)应用于原始分辨率的多分支时域自注意力层;
[0025]所述时域互注意力(TMA)与全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)为2分支结构,其输出通过1
×
1卷积层融合后与多分支空间自注意力的输出拼接,然后通过重参数化后的MLP,最后通过具有残差结构的层归一化和重参数化的MLP;
[0026]③
重参数化模块:使用多网络层数来训练网络,应用重参数化策略融合不同网络层,减少网格参数。
[0027]优选地,所述多分支空间自注意力层为3分支结构具体包括以下内容:
[0028](1)移位窗口自注意力(SWSA):用于计算窗口信息的相关性;通过对窗口像素间计算注意力,利用窗口像素的相关性信息,对噪声进行减弱;
[0029](2)全局窗口自注意力(GWSA)或邻域窗口自注意力(NWSA):
[0030]所述全局窗口自注意力(GWSA)用于计算窗口信息和全局信息的相关性;通过对窗口像素和全局像素计算注意力,利用窗口像素和全局像素的相关性信息,对噪声进行减弱;通过下采样整个噪声特征帧至窗口大小来形成全局窗口;
[0031]所述邻域窗口自注意力(NWSA)用于计算窗口信息和邻域信息的相关性;通过对窗口像素和邻域像素计算注意力,利用窗口像素和邻域像素的相关性信息,对噪声进行减弱;通过下采样窗口及其邻域至窗口大小来形成邻域窗口;
[0032](3)低分辨率窗口自注意力(LWSA):用于计算窗口信息和低分辨率窗口信息的相
关性;通过对窗口像素和低分辨率窗口像素计算注意力,利用窗口像素和低分辨率窗口像素的相关性信息,对噪声进行减弱;通过对窗口进行下采样得到低分辨率窗口。
[0033]优选地,所述时域互注意力(TMA)与全局窗口互注意力(GTMA)或邻域窗口互注意力(NTMA)组成的2分支结构具体包括以下内容:
[0034](1)时域互注意力(TMA):用于计算相邻帧间窗口信息的相关性;通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Transformer的Raw视频去噪方法,其特征在于,具体包括以下步骤:S1、设计Raw视频去噪算法:基于Transformer技术,设计一个由时空重建模块和空间优化模块组成的Raw视频去噪算法;所述时空重建模块由多分支空间自注意力模块和多分支时域互注意力模块交叉级联而成;所述空间优化模块由多个多分支空间自注意力模块级联而成;S2、搭建、训练模型:基于S1中所设计的Raw视频去噪算法搭建Raw视频去噪模型,利用深度学习框架Pytorch平台训练模型,在整个RECRVD训练数据集上迭代12k次,学习率从1e

4开始,在总epoch的2/6和5/6后下降到5e

5和2e

5;S3、输出结果:将数据集的测试集中带有噪声的Raw视频序列输入到S2中训练好的Raw视频去噪模型中,输入得到相应的去除噪声的视频序列。2.根据权利要求1所述的基于Transformer的Raw视频去噪方法,其特征在于,S1中所述时空重建模块采用与U

net相同的编码器

解码器结构,在经过一对多分支空间自注意力模块和多分支时域互注意力模块后对特征图进行下采样,后续经过上采样恢复,并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。3.根据权利要求1所述的基于Transformer的Raw视频去噪方法,其特征在于,S1中所述Raw视频去噪算法具体包括以下内容:

多分支空间自注意力模块:所述多分支空间自注意力模块由若干个多分支空间自注意力层和一个重参数化后的卷积层级联而成,其中,所述多分支空间自注意力层为3分支结构,包括:1)移位窗口自注意力;2)全局窗口自注意力或邻域窗口自注意力;3)低分辨率窗口自注意力;其中,所述全局窗口自注意力应用于低分辨率的多分支空间自注意力层,所述邻域窗口自注意力应用于原始分辨率的多分支空间自注意力层;

多分支时域自注意力模块:所述多分支时域自注意力模块由若干个时域自注意力层和一个重参数化后的卷积层级联而成,其中,所述时域自注意力层包括:1)时域互注意力;2)全局窗口互注意力或邻域窗口互注意力;3)多分支空间自注意力;其中,所述全局窗口自注意力应用于低分辨率的多分支时域自注意力层,所述邻域窗口自注意力应用于原始分辨率的多分支时域自注意力层;所述时域互注意力与全局窗口互注意力或邻域窗口互注意力为2分支结构,其输出通过1
×
1卷积层融合后与多分支空间自注意力的输出拼接,然后通过重参数化后的MLP,最后通过具有残差结构的层归一化和重参数化的MLP;

重参数化模块:使用多网络层数来训练网络,应用重参数化策略融合不同网络层,减少网格参数。4.根据权利要求3所述的基于Transformer的Raw视频去噪方法,其特征在于,所述多分支空间自注意力层为3分支结构具体包括以下内容:(1)移位窗口自注意力:用于计算窗口信息的相关性;通过对窗口像素间计算注意力,
利用窗口像素的相关性信息,对噪声进行减弱;(2)全局窗口自注意力或邻域窗口自注意力:所述全局窗口自注意力用于计算窗口信息和全局信息的相关性;通过对窗口像素和全局像素计算注意...

【专利技术属性】
技术研发人员:岳焕景曹聪廖磊杨敬钰
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1