一种基于自监督学习的视频目标分割方法技术

技术编号:28874437 阅读:19 留言:0更新日期:2021-06-15 23:08
本发明专利技术公开了一种基于自监督学习的视频目标分割方法,所述方法包括以下步骤:步骤1,建立视频目标分割网络;步骤2,对视频目标分割网络进行训练,所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络,其中,所述记忆检索子网络用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜传播到后续帧;所述协作优化子网络用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。本发明专利技术公开的基于自监督学习的视频目标分割方法显著提高了预测结果的精度,降低了噪声影响。

【技术实现步骤摘要】
一种基于自监督学习的视频目标分割方法
本专利技术属于计算机视觉
,具体涉及用于自监督视频目标分割的协作优化网络,尤其涉及一种基于自监督学习的视频目标分割方法。
技术介绍
视频目标分割是计算机视觉中的一项基本任务,有许多重要的应用,例如:视频编辑、机器人技术和自动驾驶汽车等,其旨在从整个视频的背景中分割出感兴趣的目标。现有技术中的大多数视频目标分割(VOS)方法都需要大量带有逐像素标注的视频序列,以构建健壮的模型。然而,收集如此大量的具有完整标注的视频序列既昂贵又费时。针对上述情况,研究人员提出了自我监督方法,尝试在训练阶段利用几乎无限的未标记视频数据来学习视频特征表示,尽管它们受到各种动机的驱动,但是这些方法在很大程度上都依赖于像素点之间的匹配关系。为了以自监督的方式学习特征表示,研究人员提出了两种辅助任务——视频着色和循环一致性跟踪。但是,由于视频的不连续性(例如遮挡、快速运动和运动模糊),像素级匹配策略并不是最优的预测方法,经常会导致预测结果中产生大量噪声。因此,有必要提供一种预测结果噪声小、准确性高的基于自监督学习的视频目标分割方法。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,设计出一种基于自监督学习的视频目标分割方法,该方法采用记忆检索子网络基于像素级对应关系将mask传播到后续帧,采用协作优化子网络融合参考帧和查询帧信息,并学习参考帧与查询帧之间的协作关系以优化传播的mask;具体使用视频着色任务来训练记忆检索子网络,使用循环一致性区域跟踪来训练协作优化子网络,显著提高了预测结果的精度,降低了结果中的噪声,从而完成了本专利技术。具体来说,本专利技术的目的在于提供以下方面:第一方面,提供了一种基于自监督学习的视频目标分割方法,所述方法包括以下步骤:步骤1,建立视频目标分割网络;步骤2,对视频目标分割网络进行训练。第二方面,提供了一种基于自监督学习的视频目标分割系统,优选用于实施第一方面所述的方法,所述系统包括记忆检索单元和协作优化单元,其中,记忆检索单元,用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜传播到后续帧;协作优化单元,用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。第三方面,提供了一种计算机可读存储介质,存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行第一方面所述基于自监督学习的视频目标分割方法的步骤。第四方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于自监督学习的视频目标分割程序,所述程序被处理器执行时,使得处理器执行第一方面所述基于自监督学习的视频目标分割方法的步骤。本专利技术所具有的有益效果包括:(1)本专利技术提供的基于自监督学习的视频目标分割方法,通过未标记的视频数以自监督的方式训练网络模型,无需任何人工注释,节约了成本;(2)本专利技术提供的基于自监督学习的视频目标分割方法,在训练网络模型的过程中,采用视频着色和循环一致性跟踪作为辅助任务,显著提高了预测结果的精度,降低了噪声影响。附图说明图1示出根据本专利技术一种优选实施方式的基于自监督学习的视频目标分割网络的架构图;图2示出根据本专利技术一种优选实施方式的解码子网络的结构示意图;图3示出本专利技术实施例1中不同方法的视频分割效果对比图。具体实施方式下面通过优选实施方式和实施例对本专利技术进一步详细说明。通过这些说明,本专利技术的特点和优点将变得更为清楚明确。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。本专利技术提供了一种基于自监督学习的视频目标分割方法,所述方法包括以下步骤:步骤1,建立视频目标分割网络;步骤2,对视频目标分割网络进行训练。以下进一步描述所述训练步骤:步骤1,建立视频目标分割网络。根据本专利技术一种优选的实施方式,如图1所示,所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络,其中,所述记忆检索子网络用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜(mask)传播到后续帧;所述协作优化子网络用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。在本专利技术中,根据视频在时间上的连贯性,目标或场景会随着时间的推移逐渐平滑且逐渐移动,可以根据目标的运动从较早的帧传播到后续帧。本专利技术人研究发现,如果仅从最近的帧传播目标掩膜,则很容易导致跟踪器漂移,即随后的预测会变得不准确,因为视频中的外观会发生变化或被遮挡,因此,本专利技术中优选在记忆检索子网络中设置了外部记忆单元。在进一步优选的实施方式中,所述记忆检索子网络包括特征提取网络和外部记忆单元,其中,特征提取网络用于提取视频帧的特征,并将特征存储至外部记忆单元。具体地,设定视频帧为It,特征提取网络将视频帧编码到特征子空间ft=φ(It),其中φ(·)是特征嵌入网络。将查询帧和参考帧分别定义为Iq,Ir,并将其对应的特征定义为fq,fr,令和分别表示fr中的第i个像素和fq中的第j个像素,则fq和fr之间的相似度矩阵如下式(一)所示:其中,运算符“·”表示内积。本专利技术人考虑到,由于视频帧在时间上是连贯的,在目标掩膜(mask)传播期间应考虑空间依赖性,设定参考帧R和查询帧Q,查询帧Q中位于位置loc(q)的像素q更可能在参考帧R中找到与之匹配的像素,因此,本专利技术中优选将上式(一)所示的相似度矩阵与空间相似度系数相乘来更新相似度矩阵,更新后的相似度矩阵如下式(二)所示:其中,loc(i)表示第i个像素点的坐标,loc(j)表示第j个像素点的坐标,σ表示超参数。在本专利技术中,由于在时域中距离较远的像素具有较弱的空间依赖性,因此优选设置一个超参数来控制空间依赖性的强度。优选地,当参考帧和查询帧之间的帧间隔较长时(优选间隔大于5帧),设置的超参数较大(优选σ=21);当参考帧和查询帧之间的帧间隔较接近时(优选间隔小于等于5帧),设置的超参数较小(优选σ=8)。本专利技术人研究发现,从成对的视频帧(一个参考帧与一个查询帧为一对视频帧)中学习匹配关系的一个问题是不能有效地处理物体的消失和再现,例如,如果对象在一个帧It中被遮挡并在下一帧It+1中重新出现,则成对匹配将被视为失败,因为It+1中的对象不能在上一帧It中找到其对应项。因此,本专利技术中优选在记忆检索子网络中设置外部记忆单元,以缓存多个先前帧的特征嵌入和相应的预测蒙版。但是,在所有先前帧上计算相似度矩阵是不可行的,因此,在更进一步优选的实施方式中,通过下述采样策略从外部记忆单元中采样少量帧:(i)从先前的N帧中抽取T帧;(ii)在T帧中,在查询帧之前对3个连续帧进行采样,以对局部依赖本文档来自技高网...

【技术保护点】
1.一种基于自监督学习的视频目标分割方法,其特征在于,所述方法包括以下步骤:/n步骤1,建立视频目标分割网络;/n步骤2,对视频目标分割网络进行训练。/n

【技术特征摘要】
1.一种基于自监督学习的视频目标分割方法,其特征在于,所述方法包括以下步骤:
步骤1,建立视频目标分割网络;
步骤2,对视频目标分割网络进行训练。


2.根据权利要求1所述的基于自监督学习的视频目标分割方法,其特征在于,所述建立的视频目标分割网络包括记忆检索子网络和协作优化子网络,
其中,所述记忆检索子网络用于学习视频帧的特征嵌入,执行逐像素对应关系并将目标掩膜传播到后续帧;
所述协作优化子网络用于汇总参考帧和查询帧的信息,并学习参考帧与查询帧之间的协作关系,以优化传播的目标掩膜。


3.根据权利要求1所述的基于自监督学习的视频目标分割方法,其特征在于,步骤2包括训练记忆检索子网络和训练协作优化子网络;
所述记忆检索子网络的训练包括以下步骤:
步骤2-1,对视频帧进行预处理;
步骤2-2,获得查询帧与参考帧的相似度矩阵;
步骤2-3,重建参考帧。


4.根据权利要求3所述的基于自监督学习的视频目标分割方法,其特征在于,
步骤2-1中,所述预处理包括将视频RGB帧转换为LAB颜色空间的步骤。


5.根据权利要求3所述的基于自监督学习的视频目标分割方法,其特征在于,所述协作优化子网络的训练按照包括以下步骤的方法进行:
步骤I,在视频帧序列中采样两个帧,在第一帧上初始化目标掩膜;
步骤II,在上述两个帧上执行向前和向后跟踪,将最后预测的目标掩膜与初...

【专利技术属性】
技术研发人员:洪德祥李国荣苏荔黄庆明
申请(专利权)人:中国科学院大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1