【技术实现步骤摘要】
基于Transformer的Raw视频去噪方法
[0001]本专利技术涉及视频信号处理
,尤其涉及一种基于Transformer的Raw视频去噪方法。
技术介绍
[0002]噪声存在于每一个图像传感器中,图像噪声不止影响观感,还影响后续对图像内容的分析。与图像去噪相比,视频去噪旨在利用连续视频帧间的关联信息提高去噪效果。近年多采用数据驱动的深度学习方法进行视频去噪。一些方法使用光流或可变形卷积对相邻帧进行显式或隐式的对齐,以更好的利用时域相关信息;另一些基于Transformer的视频去噪算法,由于其高效的全局时空注意力机制,有效地利用了时间和空间关联信息,取得了较好的去噪效果;除此之外,由于监督训练所使用的视频对数据难以获得,一些工作关注无监督训练策略,提出了许多基于盲点的训练策略,减少了对数据量的需求。
[0003]另一方面,利用Raw域数据进行真实场景图像(视频)恢复已成趋势,例如HDR,去噪,去模糊和超分辨率。主要原因是Raw域数据具有较宽的位深度(12或14位),即包含最原始的信息,并且其噪声仅与像素有关。相比于sRGB数据,由于未经过ISP处理,其噪声分布更加简单,在raw域数据上进行噪声去除更加高效。
[0004]但是,目前基于Transformer的视频去噪算法多采用移位窗口自注意力的空间信息交互方法。由于仅实现了窗口内的信息交互,限制了空域和时域的信息传递。对于空间信息交互,单张图像内的相似像素信息有利于噪声的去除,但是相似像素信息分布在整个图像内,而远程像素信息无法通过移位窗 ...
【技术保护点】
【技术特征摘要】
1.基于Transformer的Raw视频去噪方法,其特征在于,具体包括以下步骤:S1、设计Raw视频去噪算法:基于Transformer技术,设计一个由时空重建模块和空间优化模块组成的Raw视频去噪算法;所述时空重建模块由多分支空间自注意力模块和多分支时域互注意力模块交叉级联而成;所述空间优化模块由多个多分支空间自注意力模块级联而成;S2、搭建、训练模型:基于S1中所设计的Raw视频去噪算法搭建Raw视频去噪模型,利用深度学习框架Pytorch平台训练模型,在整个RECRVD训练数据集上迭代12k次,学习率从1e
‑
4开始,在总epoch的2/6和5/6后下降到5e
‑
5和2e
‑
5;S3、输出结果:将数据集的测试集中带有噪声的Raw视频序列输入到S2中训练好的Raw视频去噪模型中,输入得到相应的去除噪声的视频序列。2.根据权利要求1所述的基于Transformer的Raw视频去噪方法,其特征在于,S1中所述时空重建模块采用与U
‑
net相同的编码器
‑
解码器结构,在经过一对多分支空间自注意力模块和多分支时域互注意力模块后对特征图进行下采样,后续经过上采样恢复,并将恢复后的特征图与编码阶段相同尺寸的特征图拼接。3.根据权利要求1所述的基于Transformer的Raw视频去噪方法,其特征在于,S1中所述Raw视频去噪算法具体包括以下内容:
①
多分支空间自注意力模块:所述多分支空间自注意力模块由若干个多分支空间自注意力层和一个重参数化后的卷积层级联而成,其中,所述多分支空间自注意力层为3分支结构,包括:1)移位窗口自注意力;2)全局窗口自注意力或邻域窗口自注意力;3)低分辨率窗口自注意力;其中,所述全局窗口自注意力应用于低分辨率的多分支空间自注意力层,所述邻域窗口自注意力应用于原始分辨率的多分支空间自注意力层;
②
多分支时域自注意力模块:所述多分支时域自注意力模块由若干个时域自注意力层和一个重参数化后的卷积层级联而成,其中,所述时域自注意力层包括:1)时域互注意力;2)全局窗口互注意力或邻域窗口互注意力;3)多分支空间自注意力;其中,所述全局窗口自注意力应用于低分辨率的多分支时域自注意力层,所述邻域窗口自注意力应用于原始分辨率的多分支时域自注意力层;所述时域互注意力与全局窗口互注意力或邻域窗口互注意力为2分支结构,其输出通过1
×
1卷积层融合后与多分支空间自注意力的输出拼接,然后通过重参数化后的MLP,最后通过具有残差结构的层归一化和重参数化的MLP;
③
重参数化模块:使用多网络层数来训练网络,应用重参数化策略融合不同网络层,减少网格参数。4.根据权利要求3所述的基于Transformer的Raw视频去噪方法,其特征在于,所述多分支空间自注意力层为3分支结构具体包括以下内容:(1)移位窗口自注意力:用于计算窗口信息的相关性;通过对窗口像素间计算注意力,
利用窗口像素的相关性信息,对噪声进行减弱;(2)全局窗口自注意力或邻域窗口自注意力:所述全局窗口自注意力用于计算窗口信息和全局信息的相关性;通过对窗口像素和全局像素计算注意...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。