The invention relates to a real-time 3D sound field construction and mixing method and system based on video object tracking. The method comprises the following steps: acquiring video stream, detecting and tracking the video stream, forming three-dimensional space trajectories of multiple objects, each object has object tags, and the object includes sound source object and non-sound source object. Sound source object; acquisition of multi-channel audio signal, the audio signal includes real-time radio signal and prefabricated audio signal; matching each object with audio signal according to the object label, building 3D sound field based on the three-dimensional space trajectory rendering; spatial sound synthesis, generating multiple formats of output. Compared with the prior art, the invention has the advantages of flexibility, effectiveness and accuracy, and the sharing and interaction of information and data among various modules of the system is convenient for operation.
【技术实现步骤摘要】
一种基于视频对象追踪的实时3D声场构建和混音系统
本专利技术涉及一种信号处理技术,尤其是涉及一种基于视频对象追踪的实时3D声场构建和混音系统。
技术介绍
在当前虚拟现实、电影、游戏娱乐、多媒体展厅等迅速发展与推广的背景下,音视频交互领域成为了关注的重点。然而,在现有的技术条件下,无论是音频、视频还是音视频的交互方面,都没有将每一个对象进行逐一的对象化的处理,因此这就直接造成了无法自动寻找轨迹而需手动跟踪,实时性、用户的交互性体验感较差的尴尬局面,与此同时音频混音也仅局限于一个大的声场的概念下,没有进行精细的划分。在系统层面,也并无一体化的系统可供直接使用。究其原因,主要有二大技术瓶颈:(1)视频对象的对象化处理难点:无法对视频对象进行充分的对象化处理,传统的技术在最终呈现手段方面也极为复杂,无法自动追踪声音、位置等信息,而需要手动操作。(2)3D声场的实时构建难点:对声场的还原与构建若仅对空间感进行处理,会造成声音的层次感和方位感不清晰,整体混响过大等缺陷。目前已知的技术和系统均无法彻底解决以上技术难点。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种更为灵活、有效和精确的、适用于音视频交互领域的基于视频对象追踪的实时3D声场构建和混音系统。本专利技术的目的可以通过以下技术方案来实现:一种基于视频对象追踪的实时3D声场构建和混音方法,该方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信 ...
【技术保护点】
1.一种基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,该方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;空间音响合成,生成多种格式输出。
【技术特征摘要】
1.一种基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,该方法包括以下步骤:获取视频流,对该视频流进行对象检测及追踪,形成多个对象的三维空间轨迹,各对象具有对象标签,所述对象包括声源对象和非声源对象;获取多路音频信号,所述音频信号包括实时收音信号和预制音频信号;根据所述对象标签将获得的各对象与音频信号进行匹配,基于所述三维空间轨迹渲染构建3D声场;空间音响合成,生成多种格式输出。2.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,通过机器学习方法提取声源相关对象的特征,建立一对象库,基于所述对象库进行对象检测,并利用图像边界追踪技术进行对象追踪。3.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,所述各对象与音频信号进行匹配具体为:对于声源对象,采用一对一或多对一的方式将各声源对象匹配到一路音频信号中,形成声场中的有效音源;对于非声源对象,根据各非声源对象的特性匹配获得吸音与反射声波系数。4.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,采用音源信号在空间传播衰减模型与观测点反向模型进行所述3D声场的构建,同时提供多颗粒度选择。5.根据权利要求1所述的基于视频对象追踪的实时3D声场构建和混音方法,其特征在于,所述空间音响合成具体为:将相关线路匹配到3D声场中带有声源信息的对象上或者一个包含多个声源对象和非声源对象的集合上,并根据声场环境参数,获得一个或多个位置上的声音频谱分布,实现收音线路和预制线路的混音。6.一种基于视频对象追踪的实时3D声场构建和混音系统,其特征在于,该方法包括以下步骤:...
【专利技术属性】
技术研发人员:王雨霓,秦明昌,
申请(专利权)人:上海艺瓣文化传播有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。