本发明专利技术提供一种结合图像的语音定位和增强系统及方法,所述定位系统包括图像识别跟踪子系统和语音定位和增强子系统。图像识别跟踪子系统包括:摄像头,用于采集图像序列;图像识别跟踪单元,用于识别人员并缓存脸部三维坐标;通过识别人员执行的第一预定义操作唤醒语音定位和增强子系统,并发送脸部三维坐标;跟踪识别所述人员,并发送更新的脸部三维坐标。语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位。本发明专利技术实现了结合图像的语音跟踪定位,且具备适用于复杂环境的优点。
【技术实现步骤摘要】
本申请涉及语音定位
,具体涉及一种结合图像的语音定位和增强系统及方法。
技术介绍
现有的语音定位系统和方法都是基于麦克风阵列来完成定位,无法实现实时跟踪,只能通过语音唤醒定位系统重新进行麦克风阵列的定位,无法实时跟踪监控,用户体验效果较差。同时,现有的语音定位系统和方法因自身的限制对适用环境的要求较高:一方面,抗干扰能力较差,例如抗回声干扰的能力较差,又例如集成在电视、音响等设备中的语音定位系统,因设备本身发音,自身发声内容同样会对定位干扰;另一方面,复杂环境的适应能力较差,噪声环境会降低定位精度,非稳态噪声的干扰,例如同时有多人说话,房间混响也会对定位精度造成影响,例如周围硬反射介质的高混响环境,如玻璃等。此外,现有的语音定位系统和方法还受到麦克风阵列的限制,例如双麦克风阵列只能满足180°的平面定位,四阵列麦克风只能满足360°的平面定位,通常需要通过复杂阵型的麦克风阵列实现空间定位,而难以通过较简单设备实现立体的空间定位。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种能实现跟踪的语音定位且适用于复杂环境的结合图像的语音定位和增强系统及方法。第一方面,本专利技术提供一种结合图像的语音定位和增强系统,所述系统包括图像识别跟踪子系统和语音定位和增强子系统。所述图像识别跟踪子系统包括:摄像头,用于采集当前场景的图像序列;图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统。所述语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。第二方面,本专利技术提供一种结合图像的语音定位和增强方法,所述方法包括:采集当前场景的图像序列;识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;唤醒语音定位和增强子系统,并将所述脸部三维坐标发送至所述语音定位和增强子系统;根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回上一步进行循环,直至无法跟踪识别所述人员。本专利技术诸多实施例提供的结合图像的语音定位和增强系统及方法通过摄像头识别人员并缓存脸部三维坐标,通过自定义的动作开启跟踪识别,为语音定位和增强子系统提供了实时的脸部三维坐标,语音定位和增强单元根据空间滤波算法和实时的脸部三维坐标控制所述麦
克风阵列定向聚焦采集所跟踪人员的语音信息,最终实现了结合图像的语音跟踪定位和语音增强,同时实现了避免其它音源的干扰,具备了适用于复杂环境的优点;本专利技术一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过识别自定义的动作关闭跟踪定位和语音增强,实现了智能控制跟踪定位和语音增强的开关;本专利技术一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过根据摄像头的位置和麦克风阵列的位置统一三维坐标系,使语音定位和增强单元无需对接收的脸部三维坐标进行换算,减少了计算的工作量,降低了设备的硬件要求;本专利技术一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过利用所述空间滤波算法根据实时脸部三维坐标进行实时的空域滤波调整,优化了语音信息的采集效果,从而优化了最终跟踪定位的效果;本专利技术一些实施例提供的结合图像的语音定位和增强系统及方法进一步通过采用一组双麦克风阵列,即实现了通过双麦克风阵列和摄像头实现立体的空间定位。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本专利技术一实施例中结合图像的语音定位和增强系统的结构示意图。图2为本专利技术一实施例中结合图像的语音定位和增强方法的流程图。图3为本专利技术一优选实施例中步骤S60的流程图。图4为本专利技术一优选实施例中结合图像的语音定位和增强方法的流程图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1为本专利技术一实施例中结合图像的语音定位和增强系统的结构示意图。如图1所示,在本实施例中,本专利技术提供的定位系统包括图像识别跟踪子系统和语音定位和增强子系统。所述图像识别跟踪子系统包括摄像头10和图像识别跟踪单元30。摄像头10用于采集当前场景的图像序列。图像识别跟踪单元30用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统。所述语音定位和增强子系统包括麦克风阵列50和语音定位和增强单元70。麦克风阵列50用于采集语音信息。语音定位和增强单元70用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列50定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。图2为本专利技术一实施例中结合图像的语音定位和增强方法的流程图。图2所示的定位方法可应用在图1所示的定位系统中。如图2所示,在本实施例中,本专利技术提供的结合图像的语音定位和增强方法具体包括:S20:采集当前场景的图像序列。S30:识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标。S40:通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统。S50:根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。S60:跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;返回步骤S50进行循环,直至无法跟踪识别所述人员。例如在设置了上述定位系统的一间房间内,同时有甲、乙、丙、丁四个人,图像识别跟踪单元30识别四人的脸部并分别缓存各人的脸部三维坐标。图像识别跟踪单元30中预设了可以通过招手3秒开启跟踪识别。在本实施例中,所述第一预定义操作设置为招手3秒,在更多实施例中,还可以根据实际需求将所述第一预定义操作设置为各种不同的手势、各类肢体动作等不同的操作,只要可以通过摄像头10采集并通过图像识别跟踪单元30识别,即可实现相同的技术效果。当甲招手3秒之后,摄像头10采集到这一序列图本文档来自技高网...
【技术保护点】
一种结合图像的语音定位和增强系统,其特征在于,所述系统包括图像识别跟踪子系统和语音定位和增强子系统;所述图像识别跟踪子系统包括:摄像头,用于采集当前场景的图像序列;图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;所述语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。
【技术特征摘要】
1.一种结合图像的语音定位和增强系统,其特征在于,所述系统包括图像识别跟踪子系统和语音定位和增强子系统;所述图像识别跟踪子系统包括:摄像头,用于采集当前场景的图像序列;图像识别跟踪单元,用于识别所述图像序列中的人员并缓存识别出的人员的脸部三维坐标;通过识别所述人员执行的第一预定义操作唤醒语音定位和增强子系统,并将所缓存的所述人员的脸部三维坐标发送至所述语音定位和增强子系统;跟踪识别所述人员,并将更新的所述脸部三维坐标发送至所述语音定位和增强子系统;所述语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据接收的脸部三维坐标计算脸部角度信息,根据空间滤波算法和所述脸部角度信息控制所述麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位和语音增强。2.根据权利要求1所述的系统,其特征在于,所述图像识别跟踪单元还用于识别所述人员执行的第二预定义操作:若识别出,则停止跟踪识别所述人员,进入并维持等待唤醒状态。3.根据权利要求1所述的系统,其特征在于,所述图像识别跟踪单元和所述语音定位和增强单元还用于根据所述摄像头的位置和所述麦克风阵列的位置统一三维坐标系。4.根据权利要求1所述的系统,其特征在于,所述语音定位和增强单元还用于利用所述空间滤波算法,根据所述接收的脸部三维坐标进行实时的空域滤波调整。5.根据权利要求1所述的定位系统,其特征在于,所述语音增强通过对根据所述脸部角度信息所定位方向的声音信号进行加强、同时对其它方向的声音信号进行抑制实现。6.根据权利要求1-5任一项所述的系统,其特征在于,所述麦克
\t风阵列包括一组双麦克风阵列。7.一种结合图像的语音定位和增强方法,其特征在于,所述方法包括:采集当前场景的图像序列;识别所述图像序列中的人员并缓存识别出的人员的...
【专利技术属性】
技术研发人员:徐荣强,
申请(专利权)人:北京地平线信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。