一种基于视频对象追踪的实时3D声场构建和混音系统技术方案

技术编号:19391293 阅读:49 留言:0更新日期:2018-11-10 02:55
本发明专利技术涉及一种基于视频对象追踪的实时3D声场构建和混音方法及系统,所述方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;空间音响合成,生成多种格式输出。与现有技术相比,本发明专利技术具有灵活、有效、精确等优点,且系统的各个模块间彼此间信息和数据的共享与交互,便于操作。

A real-time 3D sound field construction and mixing system based on video object tracking

The invention relates to a real-time 3D sound field construction and mixing method and system based on video object tracking. The method comprises the following steps: acquiring video stream, detecting and tracking the video stream, forming three-dimensional space trajectories of multiple objects, each object has object tags, and the object includes sound source object and non-sound source object. Sound source object; acquisition of multi-channel audio signal, the audio signal includes real-time radio signal and prefabricated audio signal; matching each object with audio signal according to the object label, building 3D sound field based on the three-dimensional space trajectory rendering; spatial sound synthesis, generating multiple formats of output. Compared with the prior art, the invention has the advantages of flexibility, effectiveness and accuracy, and the sharing and interaction of information and data among various modules of the system is convenient for operation.

【技术实现步骤摘要】
一种基于视频对象追踪的实时3D声场构建和混音系统
本专利技术涉及一种信号处理技术,尤其是涉及一种基于视频对象追踪的实时3D声场构建和混音系统。
技术介绍
在当前虚拟现实、电影、游戏娱乐、多媒体展厅等迅速发展与推广的背景下,音视频交互领域成为了关注的重点。然而,在现有的技术条件下,无论是音频、视频还是音视频的交互方面,都没有将每一个对象进行逐一的对象化的处理,因此这就直接造成了无法自动寻找轨迹而需手动跟踪,实时性、用户的交互性体验感较差的尴尬局面,与此同时音频混音也仅局限于一个大的声场的概念下,没有进行精细的划分。在系统层面,也并无一体化的系统可供直接使用。究其原因,主要有二大技术瓶颈:(1)视频对象的对象化处理难点:无法对视频对象进行充分的对象化处理,传统的技术在最终呈现手段方面也极为复杂,无法自动追踪声音、位置等信息,而需要手动操作。(2)3D声场的实时构建难点:对声场的还原与构建若仅对空间感进行处理,会造成声音的层次感和方位感不清晰,整体混响过大等缺陷。目前已知的技术和系统均无法彻底解决以上技术难点。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种更为灵活、有效和精确的、适用于音视频交互领域的基于视频对象追踪的实时3D声场构建和混音系统。本专利技术的目的可以通过以下技术方案来实现:一种基于视频对象追踪的实时3D声场构建和混音方法,该方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;空间音响合成,生成多种格式输出。进一步地,通过机器学习方法提取声源相关对象的特征,建立一对象库,基于所述对象库进行对象检测,并利用图像边界追踪技术进行对象追踪。进一步地,所述各对象与音频信号进行匹配具体为:对于声源对象,采用一对一或多对一的方式将各声源对象匹配到一路音频信号中,形成声场中的有效音源;对于非声源对象,根据各非声源对象的特性匹配获得吸音与反射声波系数。进一步地,采用音源信号在空间传播衰减模型与观测点反向模型进行所述3D声场的构建,同时提供多颗粒度选择。进一步地,所述空间音响合成具体为:将相关线路匹配到3D声场中带有声源信息的对象上或者一个包含多个声源对象和非声源对象的集合上,并根据声场环境参数,获得一个或多个位置上的声音频谱分布,实现收音线路和预制线路的混音。一种基于视频对象追踪的实时3D声场构建和混音系统,该方法包括以下步骤:视频对象检测与追踪模块,用于获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;音频信号采集模块,用于获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;3D声场构建模块,用于根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;终混模块,用于整合以上模块所得到的参数,空间音响合成,生成多种格式输出。进一步地,所述视频对象检测与追踪模块中,通过机器学习方法提取声源相关对象的特征,建立一对象库,基于所述对象库进行对象检测,并利用图像边界追踪技术进行对象追踪。进一步地,所述3D声场构建模块中,各对象与音频信号进行匹配具体为:对于声源对象,采用一对一或多对一的方式将各声源对象匹配到一路音频信号中,形成声场中的有效音源;对于非声源对象,根据各非声源对象的特性匹配获得吸音与反射声波系数。进一步地,所述3D声场构建模块中,采用音源信号在空间传播衰减模型与观测点反向模型进行所述3D声场的构建,同时提供多颗粒度选择。进一步地,所述终混模块中,将相关线路到3D声场中带有声源信息的对象上或者一个包含多个声源对象和非声源对象的集合上,并根据声场环境参数,获得一个或多个位置上的声音频谱分布,实现收音线路和预制线路的混音。与现有技术相比,本专利技术具有以下有益效果:(1)本专利技术基于对象与音频信号的融合形成3D声场,具有更好的准确性和精确度且具有较高的灵活性,所生成的3D声场具有高度的三维空间感和沉浸感,是对声场的高度的还原与再现。(2)本专利技术的视频对象追踪能够有效的解决传统手动跟踪方式操作复杂的难题,其基于对声源对象与非声源对象的定义、分类与学习,追踪产生对象相对视频空间的左右,上下和景深三个参数相对于视频时间变量的函数,并且根据视频播放格式进行转换。(3)本专利技术系统各模块采用多项技术相结合,构成一个完整的系统集成,实现各个模块间彼此间信息和数据的共享与交互便于操作,且充分发挥了各个模块间的交互作用。附图说明图1为本专利技术的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。如图1所示,本专利技术提供一种基于视频对象追踪的实时3D声场构建和混音方法,该方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;空间音响合成,生成多种格式输出。(1)视频对象检测与追踪在进行对象检测与追踪前期,通过机器学习方法(如监督学习、深度学习、迁移学习等)在图片和视频参考库中提取声源相关对象的特征,建立一定规模的对象库。获取视频流后,基于所述对象库在视频帧上对对象进行识别,形成场景动态分割并且链接对应语义,设置每一对象的对象标签。在视频流中采用图像边界追踪技术等方法对对象进行跟踪并且形成三维空间上的轨迹。该方法也支持特定对象的手动标注功能。采用的图像边界追踪技术具体步骤为:a)选取图像中的坐标原点,并标记为P0(0,0),最靠近P0即为最小行数与最小列数的像素。b)定义变量dir为边界移动的方向,存储从前一个边界元素到当前元素沿着边界的移动方向。同时判断dir的奇偶性,同时对dir进行计算更改。c)边界是一个闭合空间,搜索到首尾相接时即结束。同时,删除重复计算的Pn-1与Pn,得出最后边界为P0到Pn-2。通过上述对象追踪可以获得对象相对视频空间的左右,上下和景深三个参数相对于视频时间变量的函数,并且根据视频播放格式进行转换。(2)音频信号采集接收音频信号,包括实时收音信号也可以是预制音频信号。(3)3D声场构建根据所述对象标签将获得的各对象与音频信号进行匹配,有些对象为音源对象,有些为非音源对,基于所述三维空间轨迹渲染构建3D声场。对于声源对象,采用一对一或多对一的方式将各声源对象匹配到一路音频信号中,形成声场中的有效音源;对于非声源对象,作为声场中的障碍对象,根据各非声源对象的特性匹配获得吸音与反射声波系数。声场构建采用音源信号在空间传播衰减模型与观测点反向模型,同时提供多颗粒度选择。(4)混音把相关线路,即各路收音信号和预制线路信号匹配到声场中带有声源信息的对象或者一个包含多个声源对象和非声源本文档来自技高网...

【技术保护点】
1.一种基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,该方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;空间音响合成,生成多种格式输出。

【技术特征摘要】
1.一种基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,该方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;空间音响合成,生成多种格式输出。2.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,通过机器学习方法提取声源相关对象的特征,建立一对象库,基于所述对象库进行对象检测,并利用图像边界追踪技术进行对象追踪。3.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,所述各对象与音频信号进行匹配具体为:对于声源对象,采用一对一或多对一的方式将各声源对象匹配到一路音频信号中,形成声场中的有效音源;对于非声源对象,根据各非声源对象的特性匹配获得吸音与反射声波系数。4.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,采用音源信号在空间传播衰减模型与观测点反向模型进行所述3D声场的构建,同时提供多颗粒度选择。5.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,所述空间音响合成具体为:将相关线路匹配到3D声场中带有声源信息的对象上或者一个包含多个声源对象和非声源对象的集合上,并根据声场环境参数,获得一个或多个位置上的声音频谱分布,实现收音线路和预制线路的混音。6.一种基于视频对象追踪的实时3D声场构建和混音系统,其特征在于,该方法包括以下步骤:...

【专利技术属性】
技术研发人员:王雨霓秦明昌
申请(专利权)人:上海艺瓣文化传播有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1