基于深度学习的视频一致性融合方法技术

技术编号:35021881 阅读:26 留言:0更新日期:2022-09-24 22:51
本申请提出了一种基于深度学习的视频一致性融合方法,涉及视频图像融合技术领域,其中,该方法包括:获取源视频和目标场景视频;对源视频进行视频目标分割,得到视频分割结果;将视频分割结果与目标场景进行前后景和谐化,以生成目标视频。采用上述方案的本申请实现了不同视频之间的无缝融合。不同视频之间的无缝融合。不同视频之间的无缝融合。

【技术实现步骤摘要】
基于深度学习的视频一致性融合方法


[0001]本申请涉及视频图像融合
,尤其涉及基于深度学习的视频一致性融合方法和装置。

技术介绍

[0002]视频前背景分割或图像抠图和无缝合成是指提取视频或图像中的感兴趣区域以及其对应的alpha掩膜(alpha mask),再与指定的目标图像或视频进行无缝融合生成一个新的视频或图像的过程。其“无缝”是对最终合成图像中源图像与目标图像合成边缘的视觉效果的基本要求,即合成视频或者图像在人眼视觉效果上是光滑自然的,其合成视频或者图像可以媲美真实拍摄的视频或图像。目前图像的分割和融合技术的研究已经相对成熟,并能够在复杂环境中取得比较好的结果。但在视频领域中还有许多问题尚未解决,例如视频抖动,前后帧结果不一致等。
[0003]视频前背景分割即为分割视频中每一帧图像的前景物体并提取前景mask的一种视频处理技术。视频前背景分割相较于图像抠图具有更多的不可控性以及不确定性是一个具有挑战的研究工作。不同于抠图,视频前背景分割不仅需要视频序列中每一帧都要有精确的分割结果,还要求所有分割结果在需要保持时间一致性。其困难主要为:大规模数据的高效处理;保持分割结果时间的一致性;运动模糊。
[0004]目前视频合成技术主要采用图像合成算法,即调整前景对象以无缝匹配背景图像。在对现有的各类图像融合模型调研时发现,传统的方法主要是基于一些手工制作的算法,在更好的匹配技术上,来确保低级别统计信息的一致性,例如匹配颜色分布,应用梯度域合成,以及映射多尺度统计信息等,在视觉真实感上体验不佳。最近,得益于深度学习的方法,卷积神经网络被开发用于端到端图像合成,很多利用在辅助语义特征来改进基本的图像和谐网络。例如,引入域验证判别法,即拉近前景域和背景域以及各种注意力机制来合成图像。这些算法大多数只注重无缝合成而忽略了光照、色彩等的一致性。

技术实现思路

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本申请的第一个目的在于提出一种基于深度学习的视频一致性融合方法,提高了现有视频对象分割的效率,并重点解决了在源、目标场景光照条件不一致条件下存在的色彩兼容问题,使得被融合对象与目标场景高度和谐自然,实现生成有高度真实感的新视频场景的效果。
[0007]本申请的第二个目的在于提出一种基于深度学习的视频一致性融合装置。
[0008]为达上述目的,本申请第一方面实施例提出了一种基于深度学习的视频一致性融合方法,包括:获取源视频和目标场景视频;对源视频进行视频目标分割,得到视频分割结果;将视频分割结果与目标场景进行前后景和谐化,以生成目标视频。
[0009]本申请实施例的基于深度学习的视频一致性融合方法,通过对源视频进行目标分
割,将分割出的前背景与目标场景视频融合,在目标分割时使用最新的非深网络ParNet网络作为backbone,代替传统ResNet网络,同时对前后景和谐化方法进行了优化,使得生成的目标视频有较好的视觉效果。
[0010]可选地,在本申请的一个实施例中,对源视频进行视频目标分割,得到视频分割结果,包括:
[0011]获取当前帧待分割图像、视频首帧图像以及对应的分割结果标注、前一帧图像以及对应的分割结果,其中,分割结果标注为给定的标注;
[0012]将当前帧待分割图像、视频首帧图像、前一帧图像输入特征提取骨干网络中,得到当前帧向量、视频首帧向量及前一帧向量;
[0013]根据分割结果标注、分割结果将当前帧向量分别与视频首帧向量及前一帧向量进行全局匹配和局部匹配,得到距离图谱;
[0014]将距离图谱输入解码器进行预测,得到视频分割结果。
[0015]可选地,在本申请的一个实施例中,对视频分割结果与目标场景进行前后景和谐化,包括:
[0016]对目标场景视频中的每帧图像进行前后景分离,得到特征图,其中,特征图包括图像对应的前后景的低级特征信息;
[0017]将特征图与视频分割结果在通道维度连接一起送入编码器进行特征的统一编码压缩,之后通过解码器和跳跃连接恢复原始图像;
[0018]将处理后的每帧图像输出,生成目标视频。
[0019]为达上述目的,本专利技术第二方面实施例提出了一种基于深度学习的视频一致性融合装置,包括获取模块、视频目标分割网络、前后景和谐化网络,其中,
[0020]获取模块,用于获取源视频和目标场景视频;
[0021]视频目标分割网络,用于对源视频进行视频目标分割,得到视频分割结果;
[0022]前后景和谐化网络,用于对视频分割结果与目标场景进行前后景和谐化,生成目标视频。
[0023]可选地,在本申请的一个实施例中,视频目标分割网络,具体用于:
[0024]获取当前帧待分割图像、视频首帧图像以及对应的分割结果标注、前一帧图像以及对应的分割结果;
[0025]将当前帧待分割图像、视频首帧图像、前一帧图像输入特征提取骨干网络中,得到当前帧向量、视频首帧向量及前一帧向量;
[0026]根据分割结果标注、分割结果将当前帧向量分别与视频首帧向量及前一帧向量进行全局匹配和局部匹配,得到距离图谱,其中,分割结果标注为给定的标注;
[0027]将距离图谱输入解码器进行预测,得到视频分割结果。
[0028]可选地,在本申请的一个实施例中,前后景和谐化网络,具体用于:
[0029]对目标场景视频中的每帧图像进行前后景分离,得到特征图,其中,特征图包括图像对应的前后景的低级特征信息;
[0030]将特征图与视频分割结果在通道维度连接一起送入编码器进行特征的统一编码压缩,之后通过解码器和跳跃连接恢复原始图像;
[0031]将处理后的每帧图像输出,生成目标视频。
[0032]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0033]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0034]图1为本申请实施例一所提供的一种基于深度学习的视频一致性融合方法的流程示意图;
[0035]图2为本申请实施例的总体流程框架图;
[0036]图3为本申请实施例的ETEFNet网络模型框架图;
[0037]图4为本申请实施例的Parnet残差模块示意图;
[0038]图5为本申请实施例的FHGNet网络模型框架图;
[0039]图6为本申请实施例提供的一种基于深度学习的视频一致性融合装置的结构示意图。
具体实施方式
[0040]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0041]相关术语解释:...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频一致性融合方法,其特征在于,包括以下步骤:获取源视频和目标场景视频;对所述源视频进行视频目标分割,得到视频分割结果;将所述视频分割结果与目标场景进行前后景和谐化,以生成目标视频。2.如权利要求1所述的方法,其特征在于,所述对所述源视频进行视频目标分割,得到视频分割结果,包括:获取当前帧待分割图像、视频首帧图像以及对应的分割结果标注、前一帧图像以及对应的分割结果,其中,所述分割结果标注为给定的标注;将所述当前帧待分割图像、视频首帧图像、前一帧图像输入特征提取骨干网络中,得到当前帧向量、视频首帧向量及前一帧向量;根据所述分割结果标注、所述分割结果将所述当前帧向量分别与所述视频首帧向量及所述前一帧向量进行全局匹配和局部匹配,得到距离图谱;将所述距离图谱输入解码器进行预测,得到视频分割结果。3.如权利要求1所述的方法,其特征在于,所述对所述视频分割结果与所述目标场景进行前后景和谐化,包括:对所述目标场景视频中的每帧图像进行前后景分离,得到特征图,其中,所述特征图包括图像对应的前后景的低级特征信息;将所述特征图与所述视频分割结果在通道维度连接一起送入编码器进行特征的统一编码压缩,之后通过解码器和跳跃连接恢复原始图像;将处理后的每帧图像输出,生成目标视频。4.一种基于深度学习的视频一致性融合装置,其...

【专利技术属性】
技术研发人员:陈洪张舒黄海周萍张惠阳陈傲然朱玥琰薛俊笙于华妍
申请(专利权)人:华邮数字文化技术研究院厦门有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1