一种基于注意力机制稠密光流计算方法技术

技术编号：34549728 阅读：29 留言：0更新日期：2022-08-17 12:33

本发明专利技术涉及一种基于注意力机制稠密光流计算方法。本发明专利技术提出一种基于Unet和Transformer的稠密光流计算方法，该方法在Unet结构中引入Transformer模块处理特征序列，有效利用了Transformer的多头自注意力机在序列到序列预测方面的全局自注意力优势。本发明专利技术中，先通过下采样模块将相邻两帧在通道上拼接后输入到卷积网络进行下采样；再使用特征处理模块将来自下采样网络输出的特征图编码输入序列进行全局上下文特征处理；最后通过上采样模块将特征处理后的特征图上采样重建成与输入图片尺寸相同大小的光流图。与输入图片尺寸相同大小的光流图。与输入图片尺寸相同大小的光流图。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制稠密光流计算方法

[0001]本专利技术涉及图像处理领域，主要涉及稠密光流计算领域。

技术介绍

[0002]当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像一种光的“流”，故称之为光流(optical flow)。具体而言，光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。传统计算光流的方法主要有基于梯度、基于频率、基于相位和基于匹配的方法。
[0003]稠密光流是一种针对图像或指定的某一片区域进行逐点匹配的图像配准方法，它计算图像上所有的点的偏移量，从而形成一个稠密的光流场。通过这个稠密的光流场，可以进行像素级别的图像配准。Horn
‑
Schunck算法以及基于区域匹配的大多数光流法都属于稠密光流的范畴。在使用深度学习的光流计算方法中，FlowNet在实际应用中最为广泛。
[0004]专利“金字塔遮挡检测块匹配的鲁棒插值光流计算方法”(CN112509014A)公开了一种金字塔遮挡检测块匹配的鲁棒插值光流计算方法，首先进行金字塔遮挡检测块匹配得到稀疏的鲁棒运动场，对连续两帧图像通过下采样因子构成k层图像金字塔，在每一层金字塔进行块匹配，获取带有初始遮挡的匹配结果；通过基于变形误差的遮挡检测算法，得到遮挡检测信息；由匹配得到...

【技术保护点】

【技术特征摘要】
1.一种用于稠密光流计算的方法，包括：将相邻帧在通道上进行拼接，以生成拼接后的向量图；将拼接后的向量图输入下采样网络进行特征提取，以生成特征向量；将生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列；将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络，以生成隐藏特征序列；将生成的隐藏特征序列进行重组，以生成重组后的特征向量；以及将重组后的特征向量输入上采样网络进行处理，以生成稠密光流图。2.如权利要求1所述的方法，其特征在于，所述下采样网络由7个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活函数组成，其中5个卷积层的步长为2。3.如权利要求1所述的方法，其特征在于，所述Transformer层由多头自注意力机和多层感知机组成。4.如权利要求1所述的方法，其特征在于，所述上采样网络为级联上采样网络，并且由7个反卷积块组成，每个反卷积块由一个反卷积层和一个ReLU激活函数组成，其中5个反卷积层的步长为2。5.如权利要求1所述的方法，其特征在于，将生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列进一步包括：使用一个可训练的线性映射E将所述特征向量映射到潜层的高维嵌入空间中。6.一种用于稠密光流计算的系统，包括：下采样模块，所述下采样模块被配置为：将相邻帧在通道上进行拼接，以生成拼接后的向量图；将拼接后的向量图输入下采样网络进...

【专利技术属性】
技术研发人员：张继东，吕超，曹靖城，涂娟娟，
申请(专利权)人：天翼数字生活科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人