图像引导的视频语义对象分割方法及装置制造方法及图纸

技术编号:15691999 阅读:108 留言:0更新日期:2017-06-24 05:39
本发明专利技术涉及一种图像引导的视频语义对象分割方法及装置,根据给定语义类别,在样本图像中定位目标对象,得到对象样例;对输入视频中每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优候选区域集合;将最优候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。

Image guided video semantic object segmentation method and device

The present invention relates to a method and apparatus for dividing a video semantic object image guidance, according to the semantic category, the target location in the sample image, get the object sample; extract candidate regions in each frame image of input video object; according to the sample, to match multiple candidate regions and objects extracted per sample in the frame, each candidate region similarity scores to rank; each candidate region in each frame similarity scores, which meets the preset number of candidate regions, the similarity scores from high to low score candidate regions; initial foreground and background of the selected high candidate region segmentation; consistency and prospect the background after the initial segmentation and ambiguity of the two constraint conditions based on the initial segmentation of the candidate region after construction optimization function, solving the optimization function The optimal candidate region set is obtained, and the initial foreground segmentation is propagated to the whole video, and then the semantic object segmentation of the input video is obtained.

【技术实现步骤摘要】
图像引导的视频语义对象分割方法及装置
本专利技术涉及计算机视觉与多媒体分析领域,尤其涉及一种图像引导的视频语义对象分割方法及装置。
技术介绍
随着计算机视觉、多媒体分析技术的发展,以直观形象为特征的多媒体信息资源日益丰富且深受社会大众的喜爱,如何高效地从视频信息中定位并分割出需要的视频资源亦成为了研究热点。视频语义对象分割是一种针对特定语义类别,从输入视频中定位并分割出属于该类别对象的视频像素的技术。该技术可应用于大规模互联网分析,影视制作中的视频编辑,以及基于视频的三维建模等。目前的视频语义对象分割方法主要为参数化方法,所谓参数化方法,就是在视频中对对象的所处位置进行一一标注,并收集大量已经标注了对象位置或对象轮廓的图像视频,从中学习出一个统一的、由参数作为表达形式的视觉模型,并将该视觉模型应用于输入的测试视频,基于该学习得到的视觉模型对该测试视频中的目标对象进行对象分割。例如,美国乔治亚理工大学的Kundu等人提出了基于特征空间优化的视频语义对象分割方法,该参数化方法通过大量精确标注的视频帧学习卷积神经网络得到视觉模型。美国密西根大学的Lei等人于2016年提出了机器学习模型递归时域深度场(RecurrentTemporalDeepField),并应用于视频语义对象分割。然而,这类参数化的方法存在以下问题:一方面,采用参数化方法需要对大量的图像进行精确标注得到训练样本,因此训练样本的收集过程较为困难且耗时较长;另一方面,训练得到的参数模型难以根据新增加的图像进行高效地更新和迭代,因此对于视觉资源的动态增长的适应性不好。例如,若在已有的视觉系统中增加新的训练样本或者语义类别,采用参数化方法则需要重新训练视觉模型,而该模型的训练过程是耗时耗力的,对于现代的机器学习模型,可能需要数天甚至数周的时间。
技术实现思路
本专利技术提供一种图像引导的视频语义对象分割方法及装置,该方法属于非参数化的视频语义对象分割方法,基于仅标注了语义类别标签的样本图像集合得到对象样例,并根据该对象样例对输入的视频进行语义对象分割。相比现有技术中的参数化方法,本专利技术能够充分利用互联网上广泛存在的弱标注图像集,不需要像参数化方法那样对训练样本进行精确标注;通过建立输入视频与图像集的匹配,定位视频语义对象,省略了对视觉模型的训练过程,还能够支持图像集的动态增长,简单且高效地实现对视频的语义对象分割。本专利技术提供一种图像引导的视频语义对象分割方法,包括:根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的所述高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。本专利技术还提供一种图像引导的视频语义对象分割装置,包括:定位模块,用于根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;提取模块,用于对输入视频中的每帧图像进行候选区域的提取;匹配模块,用于根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;排序模块,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;处理模块,用于对选出的所述高分候选区域进行前景与背景的初始分割处理;计算模块,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;传播模块,用于将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。本专利技术的图像引导的视频语义对象分割方法及装置,通过根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。该方案无需训练视觉模型,充分利用互联网上广泛存在的弱标注图像代替以往方法所需的精确标注的训练样本,从而省略了模型的训练过程,能较好地支持图像集合的动态增长,高效且准确地得到视频资源的语义对象分割结果。附图说明图1为本专利技术一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;图2a、图2b为图1所示实施例的对象样例的示意图;图3为图1所示实施例的视频帧的示意图;图4为本专利技术另一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;图5为本专利技术一示例性实施例示出的图像引导的视频语义对象分割装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图,如图1所示,本实施例示出的图像引导的视频语义对象分割方法,包括:步骤101、根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例。具体的,根据事前给定的语义类别,在包含该语义类别对象的大量图像中共定位出目标对象,从而构造得到对象样例。如在图2a、图2b所示的图像中,假定语义类别为“牛”,则根据语义类别“牛”在图2a和图2b的样本图像中分别对“牛”的目标对象进行定位,定位后的结果分别如图2a和图2b中的矩形框所示,需要注意的是,此处,定位得到的对象样例虽然是根据语义类别“牛”进行的定位,但是有可能定位得到的结果是错误的,例如图2b中,“牛”的图像被错误定位到了“树”的图像。其中,定位目标图像的方法可以采用现有技术中的共定位方法,如2015年法国国家信息与自动化研究所、巴黎高等工程学院与法国国家科学研究中心的联合WILLOW实验室的Cho等人所提出的“概率哈夫匹配”(ProbabilisticHoughMatching)共定位算法。该算法首先从每幅图像中提取大量候选矩形区域,然后计算每个矩形区域的“共显著性”(Co-Saliency),并在每幅图像中选取共显著性最高的区域作为对象样例。该过程是完全自动的,因此存在对本文档来自技高网
...
图像引导的视频语义对象分割方法及装置

【技术保护点】
一种图像引导的视频语义对象分割方法,其特征在于,包括:根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的所述高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。

【技术特征摘要】
1.一种图像引导的视频语义对象分割方法,其特征在于,包括:根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的所述高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。2.根据权利要求1所述的方法,其特征在于,所述根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数,包括:在所述对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定所述图像区域在所述对象样例的样本图像中的相对坐标和尺寸参数;保持所述相对坐标和尺寸参数,在所述输入视频的对应帧中构造一个新的对象区域;根据构造的所述新的对象区域为每一个所述候选区域评分,得到每个候选区域的相似度分数。3.根据权利要求1所述的方法,其特征在于,所述对选出的所述高分候选区域进行前景与背景的初始分割处理,包括:对所述高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。4.根据权利要求3所述的方法,其特征在于,所述基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合,包括:对所述输入视频构建第一超像素图,将所述初始前景分割向量与所述初始背景分割向量沿着所述第一超像素图传播至整个所述输入视频,得到传播后的前景和背景分割向量;根据所述传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成所述优化函数;基于贪婪算法,对所述优化函数进行求解,得到最优的候选区域集合。5.根据权利要求1所述的方法,其特征在于,所述将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割,包括:根据给定的视频帧数,给定的每帧上的所述高分候选区域的个数,在所述高分候选区域中选取候选区域,得到精选候选区域集合;其中,所述精选候选区域集合中包含有所述给定的视频帧数与所述给定的每帧上的所述高分候选区域的个数的乘积个高分候选区域;对选取的所述精选候选区域集合建立第二超像素图,采用随机游走算法将所述精选候选区域集合中候选区域对应的初始前景分割沿所述第二超像素图传播,得到传播后的前景概率分布;以所述传播后的前景概率分布作为初始分布,在所述输入视频的所述第一超像素图上基于所述随机游走算法进行二次传播,得到最终的超像素前景...

【专利技术属性】
技术研发人员:陈小武张宇李甲滕炜宋昊坤赵沁平
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1