图像引导的视频语义对象分割方法及装置制造方法及图纸

技术编号：15691999 阅读：117 留言：0更新日期：2017-06-24 05:39

本发明专利技术涉及一种图像引导的视频语义对象分割方法及装置，根据给定语义类别，在样本图像中定位目标对象，得到对象样例；对输入视频中每帧图像进行候选区域的提取；根据对象样例，将每帧中所提取的多个候选区域与对象样例进行匹配，得到每个候选区域的相似度分数；对每帧中各个候选区域的相似度分数进行排序，选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域；对选出的高分候选区域进行前景与背景的初始分割处理；基于初始分割后前景与背景的一致性和无二义性约束条件，对初始分割处理后的候选区域构建优化函数，求解优化函数得到最优候选区域集合；将最优候选区域对应的初始前景分割传播到整个视频，得到输入视频的语义对象分割。

Image guided video semantic object segmentation method and device

The present invention relates to a method and apparatus for dividing a video semantic object image guidance, according to the semantic category, the target location in the sample image, get the object sample; extract candidate regions in each frame image of input video object; according to the sample, to match multiple candidate regions and objects extracted per sample in the frame, each candidate region similarity scores to rank; each candidate region in each frame similarity scores, which meets the preset number of candidate regions, the similarity scores from high to low score candidate regions; initial foreground and background of the selected high candidate region segmentation; consistency and prospect the background after the initial segmentation and ambiguity of the two constraint conditions based on the initial segmentation of the candidate region after construction optimization function, solving the optimization function The optimal candidate region set is obtained, and the initial foreground segmentation is propagated to the whole video, and then the semantic object segmentation of the input video is obtained.

全部详细技术资料下载

【技术实现步骤摘要】
图像引导的视频语义对象分割方法及装置
本专利技术涉及计算机视觉与多媒体分析领域，尤其涉及一种图像引导的视频语义对象分割方法及装置。
技术介绍
随着计算机视觉、多媒体分析技术的发展，以直观形象为特征的多媒体信息资源日益丰富且深受社会大众的喜爱，如何高效地从视频信息中定位并分割出需要的视频资源亦成为了研究热点。视频语义对象分割是一种针对特定语义类别，从输入视频中定位并分割出属于该类别对象的视频像素的技术。该技术可应用于大规模互联网分析，影视制作中的视频编辑，以及基于视频的三维建模等。目前的视频语义对象分割方法主要为参数化方法，所谓参数化方法，就是在视频中对对象的所处位置进行一一标注，并收集大量已经标注了对象位置或对象轮廓的图像视频，从中学习出一个统一的、由参数作为表达形式的视觉模型，并将该视觉模型应用于输入的测试视频，基于该学习得到的视觉模型对该测试视频中的目标对象进行对象分割。例如，美国乔治亚理工大学的Kundu等人提出了基于特征空间优化的视频语义对象分割方法，该参数化方法通过大量精确标注的视频帧学习卷积神经网络得到视觉模型。美国密西根大学的Lei等人于2016年提出了机器学习模型递归时域深度场(RecurrentTemporalDeepField)，并应用于视频语义对象分割。然而，这类参数化的方法存在以下问题：一方面，采用参数化方法需要对大量的图像进行精确标注得到训练样本，因此训练样本的收集过程较为困难且耗时较长；另一方面，训练得到的参数模型难以根据新增加的图像进行高效地更新和迭代，因此对于视觉资源的动态增长的适应性不好。例如，若在已有的视觉系统中增加新的...
图像引导的视频语义对象分割方法及装置

【技术保护点】
一种图像引导的视频语义对象分割方法，其特征在于，包括：根据给定的语义类别，在样本图像中定位出与所述语义类别对应的目标对象，得到对象样例；对输入视频中的每帧图像进行候选区域的提取；根据所述对象样例，将每帧中所提取的多个候选区域与所述对象样例进行匹配处理，得到每个候选区域的相似度分数；对每帧中各个候选区域的相似度分数进行排序，选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域；对选出的所述高分候选区域进行前景与背景的初始分割处理；基于初始分割后前景与背景的一致性和无二义性约束条件，对初始分割处理后的候选区域构建优化函数，求解所述优化函数得到最优的候选区域集合；将所述最优的候选区域对应的初始前景分割传播到整个视频，得到所述输入视频的语义对象分割。

【技术特征摘要】
1.一种图像引导的视频语义对象分割方法，其特征在于，包括：根据给定的语义类别，在样本图像中定位出与所述语义类别对应的目标对象，得到对象样例；对输入视频中的每帧图像进行候选区域的提取；根据所述对象样例，将每帧中所提取的多个候选区域与所述对象样例进行匹配处理，得到每个候选区域的相似度分数；对每帧中各个候选区域的相似度分数进行排序，选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域；对选出的所述高分候选区域进行前景与背景的初始分割处理；基于初始分割后前景与背景的一致性和无二义性约束条件，对初始分割处理后的候选区域构建优化函数，求解所述优化函数得到最优的候选区域集合；将所述最优的候选区域对应的初始前景分割传播到整个视频，得到所述输入视频的语义对象分割。2.根据权利要求1所述的方法，其特征在于，所述根据所述对象样例，将每帧中所提取的多个候选区域与所述对象样例进行匹配处理，得到每个候选区域的相似度分数，包括：在所述对象样例中，确定与每帧中的每个候选区域外观相似的图像区域；确定所述图像区域在所述对象样例的样本图像中的相对坐标和尺寸参数；保持所述相对坐标和尺寸参数，在所述输入视频的对应帧中构造一个新的对象区域；根据构造的所述新的对象区域为每一个所述候选区域评分，得到每个候选区域的相似度分数。3.根据权利要求1所述的方法，其特征在于，所述对选出的所述高分候选区域进行前景与背景的初始分割处理，包括：对所述高分候选区域内的每个超像素的前景与背景的概率值进行计算，得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。4.根据权利要求3所述的方法，其特征在于，所述基于初始分割后前景与背景的一致性和无二义性约束条件，对初始分割处理后的候选区域构建优化函数，求解所述优化函数得到最优的候选区域集合，包括：对所述输入视频构建第一超像素图，将所述初始前景分割向量与所述初始背景分割向量沿着所述第一超像素图传播至整个所述输入视频，得到传播后的前景和背景分割向量；根据所述传播后的前景和背景分割向量，构造分割的一致性约束项和无二义性约束项，形成所述优化函数；基于贪婪算法，对所述优化函数进行求解，得到最优的候选区域集合。5.根据权利要求1所述的方法，其特征在于，所述将所述最优的候选区域对应的初始前景分割传播到整个视频，得到所述输入视频的语义对象分割，包括：根据给定的视频帧数，给定的每帧上的所述高分候选区域的个数，在所述高分候选区域中选取候选区域，得到精选候选区域集合；其中，所述精选候选区域集合中包含有所述给定的视频帧数与所述给定的每帧上的所述高分候选区域的个数的乘积个高分候选区域；对选取的所述精选候选区域集合建立第二超像素图，采用随机游走算法将所述精选候选区域集合中候选区域对应的初始前景分割沿所述第二超像素图传播，得到传播后的前景概率分布；以所述传播后的前景概率分布作为初始分布，在所述输入视频的所述第一超像素图上基于所述随机游走算法进行二次传播，得到最终的超像素前景...

【专利技术属性】
技术研发人员：陈小武，张宇，李甲，滕炜，宋昊坤，赵沁平，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人