一种基于注意力机制稠密光流计算方法技术

技术编号:34549728 阅读:20 留言:0更新日期:2022-08-17 12:33
本发明专利技术涉及一种基于注意力机制稠密光流计算方法。本发明专利技术提出一种基于Unet和Transformer的稠密光流计算方法,该方法在Unet结构中引入Transformer模块处理特征序列,有效利用了Transformer的多头自注意力机在序列到序列预测方面的全局自注意力优势。本发明专利技术中,先通过下采样模块将相邻两帧在通道上拼接后输入到卷积网络进行下采样;再使用特征处理模块将来自下采样网络输出的特征图编码输入序列进行全局上下文特征处理;最后通过上采样模块将特征处理后的特征图上采样重建成与输入图片尺寸相同大小的光流图。与输入图片尺寸相同大小的光流图。与输入图片尺寸相同大小的光流图。

【技术实现步骤摘要】
一种基于注意力机制稠密光流计算方法


[0001]本专利技术涉及图像处理领域,主要涉及稠密光流计算领域。

技术介绍

[0002]当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像一种光的“流”,故称之为光流(optical flow)。具体而言,光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。传统计算光流的方法主要有基于梯度、基于频率、基于相位和基于匹配的方法。
[0003]稠密光流是一种针对图像或指定的某一片区域进行逐点匹配的图像配准方法,它计算图像上所有的点的偏移量,从而形成一个稠密的光流场。通过这个稠密的光流场,可以进行像素级别的图像配准。Horn

Schunck算法以及基于区域匹配的大多数光流法都属于稠密光流的范畴。在使用深度学习的光流计算方法中,FlowNet在实际应用中最为广泛。
[0004]专利“金字塔遮挡检测块匹配的鲁棒插值光流计算方法”(CN112509014A)公开了一种金字塔遮挡检测块匹配的鲁棒插值光流计算方法,首先进行金字塔遮挡检测块匹配得到稀疏的鲁棒运动场,对连续两帧图像通过下采样因子构成k层图像金字塔,在每一层金字塔进行块匹配,获取带有初始遮挡的匹配结果;通过基于变形误差的遮挡检测算法,得到遮挡检测信息;由匹配得到准确的稀疏匹配结果,需要经过鲁棒插值算法获取稠密光流;由鲁棒插值算法得到稠密光流后,经过全局能量泛函变分优化稠密光流:经过全局能量泛函变分优化得到最终光流。
[0005]专利“一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法”(CN112465872A)公开了一种基于可学习遮挡掩模和二次变形优化的图像序列光流估计方法,首先输入图像序列中任意连续两帧图像,对其进行特征金字塔下采样分层,获得多分辨率两帧特征;在每层金字塔中计算第一帧特征和第二帧特征的相关度,利用相关度构建基于遮挡掩模模块;然后利用得到的遮挡掩模去除变形特征边缘伪影来优化图像运动边缘模糊的光流;并且使用遮挡约束后的光流构建二次变形优化模块,二次变形在亚像素级进一步优化图像运动边缘光流估计;在金字塔各层中对变形特征进行相同的遮挡掩模以及二次变形求取残差流来细化光流,在到达金字塔底层时,输出最终优化的光流估计。
[0006]上述两个专利都有效地提高了光流估计的计算精度,但在稠密光流的精确度上还是不能满足视频编码和HDR合成等任务对光流的要求。因此,需要一种改进的技术来提升稠密光流计算的准确度。

技术实现思路

[0007]提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用
于帮助确定所要求保护的主题的范围。
[0008]相比现有的稠密光流方法,本专利技术在光流预测计算任务中引入多头自注意力机,利用Transformer在序列到序列预测方面的全局自注意力优势,提高光流计算任务的效果。此外,本专利技术能够提高关键位置稠密光流图的准确度,同时通过减少Unet的上采样和下采样的网络深度,提高了稠密光流计算的时效性。
[0009]根据本专利技术的一个实施例,公开了一种用于稠密光流计算的方法,包括:将相邻帧在通道上进行拼接,以生成拼接后的向量图;将拼接后的向量图输入下采样网络进行特征提取,以生成特征向量;将生成的特征向量映射到潜层的高维嵌入空间,以生成一个高维嵌入表示序列;将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络,以生成隐藏特征序列;将生成的隐藏特征序列进行重组,以生成重组后的特征向量;以及将重组后的特征向量输入上采样网络进行处理,以生成稠密光流图。
[0010]根据本专利技术的另一个实施例,公开了一种用于稠密光流计算的系统,包括下采样模块,特征处理模块和上采样模块。下采样模块被配置为:将相邻帧在通道上进行拼接,以生成拼接后的向量图;将拼接后的向量图输入下采样网络进行特征提取,以生成特征向量。特征处理模块被配置为:将所述下采样模块生成的特征向量映射到潜层的高维嵌入空间,以生成一个高维嵌入表示序列;将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络,以生成隐藏特征序列。上采样模块被配置为:将所述特征处理模块生成的隐藏特征序列进行重组,以生成重组后的特征向量;以及将重组后的特征向量输入上采样网络进行处理,以生成稠密光流图。
[0011]根据本专利技术的另一个实施例,公开了一种用于稠密光流计算的计算设备,包括:处理器;存储器,所述存储器存储有指令,所述指令在被所述处理器执行时能执行如上所述的方法。
[0012]通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
[0013]为了能详细地理解本专利技术的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本专利技术的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
[0014]图1示出了根据本专利技术的一个实施例用于稠密光流计算的系统100的框图;
[0015]图2示出了根据本专利技术的一个实施例的图1中的各模块101

103的详细示图200;
[0016]图3示出了根据本专利技术的一个实施例的用于稠密光流计算的方法300的流程图;以及
[0017]图4出了根据本专利技术的一个实施例的示例性计算设备的框图400。
具体实施方式
[0018]下面结合附图详细描述本专利技术,本专利技术的特点将在以下的具体描述中得到进一步
的显现。
[0019]以下为在本专利技术中使用的术语的解释,其包括本领域的技术人员所熟知的一般含义:
[0020]Unet:是一种分割模型,具体而言,其是一个包含4层降采样、4层升采样和类似跳跃连接结构的全卷积网络,其特点是卷积层在降采样和升采样部分完全对称,且降采样端的特征图可以跳过深层采样,被拼接至对应的升采样端。
[0021]Transformer:Transformer是一种自然语言处理(NLP)模型,其采用注意力机制来实现机器翻译任务。
[0022]在计算机视觉中,光流扮演着重要角色,在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。光流计算可以广泛应用于各种场景,例如,云存视频压缩任务中视频编解码的运动检测、高空抛物、摔倒检测等运动识别和视频理解任务等。为了获得更准确地运动估计,稠密光流计算是视频编解码技术中的关键模块。传统的稠密光流计算方法计算量较大,时效性较差。现有基于深度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于稠密光流计算的方法,包括:将相邻帧在通道上进行拼接,以生成拼接后的向量图;将拼接后的向量图输入下采样网络进行特征提取,以生成特征向量;将生成的特征向量映射到潜层的高维嵌入空间,以生成一个高维嵌入表示序列;将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络,以生成隐藏特征序列;将生成的隐藏特征序列进行重组,以生成重组后的特征向量;以及将重组后的特征向量输入上采样网络进行处理,以生成稠密光流图。2.如权利要求1所述的方法,其特征在于,所述下采样网络由7个卷积块组成,每个卷积块由一个卷积层和一个ReLU激活函数组成,其中5个卷积层的步长为2。3.如权利要求1所述的方法,其特征在于,所述Transformer层由多头自注意力机和多层感知机组成。4.如权利要求1所述的方法,其特征在于,所述上采样网络为级联上采样网络,并且由7个反卷积块组成,每个反卷积块由一个反卷积层和一个ReLU激活函数组成,其中5个反卷积层的步长为2。5.如权利要求1所述的方法,其特征在于,将生成的特征向量映射到潜层的高维嵌入空间,以生成一个高维嵌入表示序列进一步包括:使用一个可训练的线性映射E将所述特征向量映射到潜层的高维嵌入空间中。6.一种用于稠密光流计算的系统,包括:下采样模块,所述下采样模块被配置为:将相邻帧在通道上进行拼接,以生成拼接后的向量图;将拼接后的向量图输入下采样网络进...

【专利技术属性】
技术研发人员:张继东吕超曹靖城涂娟娟
申请(专利权)人:天翼数字生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1