本方法申请提供了使用机器学习识别候选视频插入对象类型的方法、系统和计算机程序。机器学习用于处理源视频的场景的若干帧的图像内容的至少一部分。该处理包括识别候选插入区以及确定所识别的候选插入区的插入区描述符,所述候选插入区用于将一个对象插入到若干帧中的至少一些帧的图像内容中,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合插入所述候选插入区的对象的类型。
【技术实现步骤摘要】
用于识别候选视频插入对象类型的机器学习
本申请涉及用于处理源视频的场景的若干帧的图像内容的系统、方法、软件、装置,及用于训练该系统的装置。
技术介绍
随着数字文件处理的出现,可将对象数字插入(本申请中也称为“嵌入”)到视频中。在视频中数字插入对象可具有许多优点,例如,增强视频的视觉效果,或改善视频的真实感,或允许视频在拍摄后更灵活,这意味着在拍摄场景的阶段对于场景中要包含的对象需要做的决定更少。因此,数字对象插入正变得越来越普遍并被视频制作者用于各种用途。目前,数字对象插入通常需要许多处理阶段。虽然下面会做进一步描述,但这些可以大致分为:1.切变(cut)检测;2.相似镜头的融合和分组;3.插入机会(在文中可与插入区互换)检测;4.插入区的背景(context)特性;和5.插入区和插入对象之间的匹配。切变检测一个节目通常可以是半小时或一小时的展示,节目素材被分解成若干镜头。镜头是不包括任何编辑点的连续帧序列,即它们通常保持一致性,表明它们是由单台摄相机记录的。镜头通过切变分界,在切变处通常摄相机停止录制、或者将素材编辑为产生这一感觉。从广义上讲,有两种类型的切变:“硬”切变和“软”切变。例如,当连续帧之间的视觉相似性突然中断时,检测到硬切变,指示编辑点或相机角度的变化。软切变对应于软转换的开始或结束,例如擦除或淡入淡出转换,其具有跨过若干帧的视频的视觉外观显著但逐渐改变的特点。首先,可能需要分析源视频素材(例如节目素材),并找到适合对象插入的场景。这通常被称为预分析道次,最好通过将源视频划分为若干场景,特别是划分为从相同摄像机位置拍摄的若干场景来完成。通常可以使用镜头变化检测将视频素材自动分割成若干场景。视频分析模块可以自动检测不同镜头之间的分别对应于硬转换和软转换的硬切变和软切变。相似镜头的融合与分组一旦检测到一个或多个镜头,也可以在进一步的处理步骤中应用连续性检测,以识别已在源视频中检测到的类似的镜头。以这种方式,当在一个镜头中识别出插入机会时,镜头相似性算法可以识别可能存在相同机会的其他镜头。插入区检测源视频内容中适合于插入其他素材的图像区域被称为插入区,且这些区域大致可分为表面和物体。通常,表面可适合于素材的插入。例如,在有墙的情况下,可以添加海报。在有桌子的情况下,可以插入如饮料的物体。当一个物体被识别为插入区时,插入素材的机会可能涉及重新标记在产品上标识的任何品牌标志、用属于同一类物体的另一个物体替换该物体,或者靠近该物体添加另一个相似物体。通过跟踪整个源视频素材中的一致移动像素,可以进行并改进插入区检测。基于图像的跟踪技术包括但不限于平面跟踪算法,以计算并模拟源视频中每个图像的二维变换。插入区的背景特性可能需要操作员评估所识别的插入区并为可插入其中的可能的其他素材提供背景。随着通过因特网广播或流式传输的数字视频内容量的快速增加,人类操作员无法比实时更快地处理插入机会以识别背景可能是一个问题。插入区和产品类别之间的匹配仅通过模式识别方法识别插入机会是不够的,在选择要插入视频内容的素材时可能还需要应用一些智能技术。对于不妨碍观看体验的对象插入的实例,它应该在其被放置的源视频内容的背景中有意义。例如,如果场景发生在厨房中,则放置在该场景中的附加内容应该与观看者期望在该位置看到的对象相关。例如,人们可能不希望看到水壶旁的厨房侧板上放置的香水瓶。在所描绘的背景中更适合的可能是一罐咖啡。同样,浴室场景适合放置浴室或卫生相关物品,而不是杂货。因此,可能需要操作员评估场景以选择适合插入任何被识别插入区的特定对象或对象类别。同样,人类操作员无法比实时更快地处理插入机会以识别背景可能是一个问题。从上面可以理解,识别插入区机会及用于插入的合适对象通常可能是耗时的多阶段过程,其可能限制能被分析的视频素材量。
技术实现思路
本申请的第一方面提供了一种系统,包括:候选插入区模块,被配置为:接收源视频的场景的若干帧;和至少部分使用机器学习对所述若干帧的图像内容进行处理,以便识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图像内容中;和确定所识别的候选插入区的插入区描述符,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合于插入所述候选插入区的对象的类型。所述候选插入区模块可包括识别子模块,被配置为识别所述候选插入区及确定所识别的候选插入区的插入区描述符;和确定所述场景的若干帧的至少部分像素的插入概率向量,所述插入概率向量包括若干插入标签中每个标签的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的可能性。所述若干插入标签可包括表示所述像素不适合于对象插入的标签;和表示对应的一个或多个对象类型的一个或多个标签。所述候选插入区可包括具有若干插入概率向量的若干个像素,所述若干插入概率向量均具有与表示所述候选对象类型的标签对应的概率值的最大参数。所述候选插入区模块可包括场景描述符子模块,被配置为利用机器学习处理所述若干帧中至少部分帧的图像内容,以便确定场景描述符,其中所述候选对象类型的确定至少部分地基于所述场景描述符。所述候选插入区的识别可至少部分地基于所述场景描述符。所述场景描述符可包括至少一个整体描述符,其中每个整体背景描述符表示场景场所、情绪、人类特征、人类行为、当日时间、一年中的季节、天气、和/或拍摄地点中的任意一个。所述场景描述子模块还可被配置为:接收与所述源视频的场景有关的音频内容;和至少部分地基于所接收的音频内容确定所述场景描述符。所述场景描述符可包括表示所述场景中的被识别实体的至少一个局部背景描述符,所述至少一个局部背景描述符可表示场景中的被识别实体是人、动物、表面、或物体中的任意一个。所述场景描述子模块可被配置为,使用机器学习处理所述若干帧的图像内容,以便为所述场景的若干帧的至少部分像素确定局部背景概率向量,所述局部背景概率向量包括若干局部背景标签中每个标签的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的可能性。所述若干局部背景标签可包括:表示像素与任何事物无关的标签,以及以下至少一个:表示人类的一个或多个标签、表示动物的一个或多个标签、表示物体的一个或多个标签,和/或表示表面的一个或多个标签。所述候选插入区模块还包括:包含背景索引的插入对象类型库的数据库,其中,确定所述候选对象类型至少部分地基于所述插入对象类型库和场景描述符。所述插入区和插入对象识别子模块还可被配置为通过使用机器学习处理所述若干帧的图像内容来识别所述候选插入区和候选对象类型,以确定所述场景的若干帧的至少部分像素中每个像素的插入概率向量,所述插入概率向量包括若干插入标签中每个标签的概率值,每个概率值表示所述对应插入标签适用于所述像素的可能性。所述若干插入标签包括:表示所述像素不适合于对象插入的标签;和表示对应的一个或多个对象类型适合于在所述像素中插入的一个或多个标签。所述候选插入区可包括具有若干插入概率向量的若干个像素,所述若干插入概率向量均具有与表示所述候选对象类型的标签对应的概率值的最大参数。在任一上述系统实现中,所述候选插入区模块还包括后处理子模块,被配置为确定跨所述若干帧的候选插入区的持续时间和/或所述候选插入区的大小。所述插入区域描述符还可包括跨本文档来自技高网...
【技术保护点】
1.一种系统,包括:候选插入区模块,被配置为:接收源视频的场景的若干帧;和至少部分使用机器学习对所述若干帧的图像内容进行处理,以便识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图像内容中;和确定所识别的候选插入区的插入区描述符,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合于插入所述候选插入区的对象的类型。
【技术特征摘要】
2017.08.31 GB GB1714000.51.一种系统,包括:候选插入区模块,被配置为:接收源视频的场景的若干帧;和至少部分使用机器学习对所述若干帧的图像内容进行处理,以便识别候选插入区,所述候选插入区用于将一个对象插入到所述若干帧中的至少部分帧的图像内容中;和确定所识别的候选插入区的插入区描述符,所述插入区描述符包括候选对象类型,所述候选对象类型表示适合于插入所述候选插入区的对象的类型。2.如权利要求1所述的系统,其中,所述候选插入区模块包括:识别子模块,被配置为识别所述候选插入区及确定所识别的候选插入区的插入区描述符;和确定所述场景的若干帧的至少部分像素的插入概率向量,所述插入概率向量包括若干插入标签中每个标签的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的可能性。3.如权利要求2所述的系统,其中,所述若干插入标签包括:表示所述像素不适合于对象插入的标签;和表示对应的一个或多个对象类型的一个或多个标签。4.如权利要求2或3所述的系统,其中,所述候选插入区包括具有若干插入概率向量的若干个像素,所述若干插入概率向量均具有与表示所述候选对象类型的标签对应的概率值的最大参数。5.根据任一前述权利要求的系统,其中,所述候选插入区模块包括:场景描述符子模块,被配置为利用机器学习处理所述若干帧中至少部分帧的图像内容,以便确定场景描述符,其中所述候选对象类型的确定至少部分地基于所述场景描述符。6.如权利要求5所述的系统,其中:所述候选插入区的识别至少部分地基于所述场景描述符。7.如权利要求5或6所述的系统,其中,所述场景描述符包括至少一个表示所述场景中的被识别实体的局部背景描述符。8.如权利要求7所述的系统,其中,所述场景描述子模块被配置为,使用机器学习处理所述若干帧的图像内容,以便为所述场景的若干帧的至少部分像素确定局部背景概率向量,所述局部背景概率向量包括若干局部背景标签中每个标签的概率值,每个概率值表示由对应插入标签所指示的插入类型适用于所述像素的可能性。9.如权利要求8所述的系统,其中,所述若干局部背景标签包括:表示所述像素与任何事物无关的标签;和以下至少其中一个:表示人的一个或多个标签;表示动物的一个或多个标签;表...
【专利技术属性】
技术研发人员:提姆·哈里斯,菲利普·麦克劳克伦,戴维·奥克,
申请(专利权)人:米利雅得广告公开股份有限公司,
类型:发明
国别省市:英国,GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。