本发明专利技术提供了一种自校准的远场语音交互设备及远场语音自校准方法,麦克风阵列采集远场语音信号,自校准和语音识别终端对由麦克风通道增益和信号传播衰减引起的误差进行校准,得到增强语音输出。本发明专利技术利用通道增益校准的方式,保证各个麦克风通道相对增益一致,提高了后端GSC的性能;采用语音段作为校准声源,后续处理保证语音损伤较小,有利于目标信号的消除和噪声干扰信号的保留;还可以自动判断麦克风工作状态,能够保证在麦克风损坏情况下,设备仍然能够正常工作,提高了设备的稳健性。
【技术实现步骤摘要】
本专利技术总体上涉及语音处理
,尤其涉及自校准的远场语音交互设备及远场语音自校准方法。
技术介绍
麦克风阵列技术近几十年来受到了研究者的广泛关注,特别是最近几年来受到人工智能繁荣发展的驱动,远场语音识别技术得到更大的关注,对作为远场语音识别前端的麦克风阵列技术提出了更大的要求。目前针对远场语音识别的主要方法包括MVDR(MinimumVarianceDistortionlessResponse,最小方差无畸变响应)和多通道维纳滤波方法,不管哪一种方法都是进行了远场假设,通常认为通道到达每个麦克风的幅度一致,只是声波到达时间不同,但实际中通常不同通道麦克风增益不同,同时由于距离衰减等因素造成幅度差异,因此需要对麦克风增益及信号幅度衰减进行补偿,才能保证算法性能。同时上述算法都需要明确麦克风的准确位置,大量方法与研究也是基于麦克风准确位置设计的,并且所有麦克风都能正常工作,极端情况下,一旦麦克风无法正常录音工作,将导致算法性能急剧下降,在实际产品应用中,麦克风位置通常是已知的,但在使用过程中很难保证其中的某个麦克风发生问题,无法正常录音,这种情形下需要剔除问题麦克风,此时原有的麦克风位置信息需要更新,为保证阵列算法仍然能够正常工作,此时需要校准确定正常麦克风阵列构成的新麦克风阵列及其相关信息。现有技术对麦克风信号的校准,通常采用大型校准设备在专用的实验室内完成,非常费时费力,并不适用于消费电子。例如,现有技术一(CN200810213962,一种麦克风阵列及麦克风阵列校准的方法和模块)采用静默期的背景噪声作为校准声源,计算不同通道的增益,调整不同通道到相同增益。该技术方案采用静默期的相干性较低的背景噪声作为校准声源,麦克风接收信号的信噪比较低,校准误差较大,同时只考虑麦克风自身的增益,没有考虑传播衰减等造成的幅度误差,特别对于远场情形下,各麦克风的语音信号之间仍然存在较大幅度误差,不适合于麦克风阵列信号处理。现有技术二“Robustspeechrecognitionusingbeamformingwithadaptivemicrophonegainsandmultichannelnoisereduction”采用语音段信号作为校准声源,计算不同通道的增益。该技术方案一方面在增益计算中没有剔出噪声的影响,噪声增益计算不准确,另一方面对于极端情况,即麦克风损坏无法正常工作的情形下,针对麦克风阵列没有提出解决方案。
技术实现思路
(一)要解决的技术问题本专利技术提供了一种自校准的远场语音交互设备及远场语音自校准方法。(二)技术方案本专利技术提供了一种自校准的远场语音交互设备,包括:麦克风阵列与自校准和语音识别终端,所述麦克风阵列与所述自校准和语音识别终端电性连接;所述麦克风阵列采集远场语音信号,并将所述远场语音信号传输至所述自校准和语音识别终端,其中,所述远场语音信号包含由麦克风通道增益和信号传播衰减引起的误差;所述自校准和语音识别终端对所述误差进行校准,得到增强语音输出。本专利技术还提供了一种远场语音交互设备的自校准方法,包括:采集步骤:采集远场语音信号;校准步骤:对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准;处理步骤:对校准后的远场语音信号进行处理,得到增强语音输出。(三)有益效果从上述技术方案可以看出,本专利技术的自校准的远场语音交互设备及远场语音自校准方法具有以下有益效果:(1)利用通道增益校准的方式,保证各个麦克风通道相对增益一致,使得进入GSC的各个通道期望目标信号幅度一致,提高了后端GSC的性能;(2)采用语音段作为校准声源,不仅有利于固定波束形成,同时对于阻塞矩阵模块,当语音段幅度保持一致时,阻塞矩阵模块处理后残留的语音段较少,后续处理保证语音损伤较小,有利于目标信号消除,而保留噪声或者干扰信号;(3)还可以自动判断麦克风工作状态,能够保证在麦克风损坏情况下,设备仍然能够正常工作,提高了设备的稳健性。附图说明为了更完整地理解本专利技术及其优势,现在将参考结合附图的以下描述,其中:图1为本专利技术实施例的自校准的远场语音交互设备的整体结构图;图2为本专利技术实施例的自校准的远场语音交互设备的结构示意图;图3为本专利技术另一实施例的自校准的远场语音交互设备的结构示意图;图4为本专利技术又一实施例的自校准的远场语音交互设备的结构示意图;图5为本专利技术再一实施例的自校准的远场语音交互设备的整体结构图;图6为本专利技术实施例的远场语音自校准方法的流程图。【符号说明】10-麦克风阵列;20-自校准和语音识别终端;21-语音活动检测模块;22-相对增益计算模块;23-增益校准模块;24-固定波束形成参数校准模块;25-信噪比计算模块;31-固定波束形成模块;32-阻塞矩阵模块;33-自适应噪声抵消模块;34-增强语音输出;35-语音段判定模块;40-控制端。具体实施方式根据结合附图对本专利技术示例性实施例的以下详细描述,本专利技术的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。在本专利技术中,术语“包括”和“含有”及其派生词意为包括而非限制;术语“或”是包含性的,意为和/或。在本说明书中,下述用于描述本专利技术原理的各种实施例只是说明,不应该以任何方式解释为限制专利技术的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本专利技术的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不背离本专利技术的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同参考数字用于相似功能和操作。语音信号的校准,目标包含麦克风自身增益差异和由传播衰减等造成的幅度衰减构成的误差,这些误差将造成远场语音增强性能下降。极端情况下,麦克风的损坏将使得远场语音增强完全失效。因此,本专利技术不但对麦克风的误差进行校准,同时也对麦克风阵列进行校准,使得远场语音增强在某个麦克风损坏情形下仍然能够正常工作。本专利技术实施例的一种远场语音交互设备,参见图1,其带有自校准功能,该远场语音交互设备包括:麦克风阵列10、与自校准和语音识别终端20,麦克风阵列10与自校准和语音识别终端20电性连接。自校准和语音识别终端20包括:自校准模块和广义旁瓣对消器(GSC,GeneralSidelobeCancellation),麦克风阵列10连接自校准模块,自校准模块连接GSC,其中,麦克风阵列10采集远场语音信号,并将远场语音信号传输至自校准模块,自校准模块对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准,并且检测麦克风阵列的工作状态,校准固定波束形成(FBF,FixedBeamforming)参数,校准后的远场语音信号传输至GSC,GSC利用校准后的FBF参数对校准后的远场语音信号进行处理,得到增强语音输出34。麦克风阵列10是由多个麦克风组成的封闭式阵列,在图1中,麦克风阵列包括4个麦克风(mic1、mic2、mic3、mic4),但麦克风的数量可以根据需要设置,例如大于等于5个,麦克风阵列的形状可以是矩形、圆形、椭圆形等。麦克风阵列的各个麦克风用于采集原始的远场语音信号,由于各个麦克风的通道增益有所差异本文档来自技高网...
【技术保护点】
一种自校准的远场语音交互设备,其特征在于,包括:麦克风阵列与自校准和语音识别终端,所述麦克风阵列与所述自校准和语音识别终端电性连接;所述麦克风阵列采集远场语音信号,并将所述远场语音信号传输至所述自校准和语音识别终端,其中,所述远场语音信号包含由麦克风通道增益和信号传播衰减引起的误差;所述自校准和语音识别终端对所述误差进行校准,得到增强语音输出。
【技术特征摘要】
1.一种自校准的远场语音交互设备,其特征在于,包括:麦克风阵列与自校准和语音识别终端,所述麦克风阵列与所述自校准和语音识别终端电性连接;所述麦克风阵列采集远场语音信号,并将所述远场语音信号传输至所述自校准和语音识别终端,其中,所述远场语音信号包含由麦克风通道增益和信号传播衰减引起的误差;所述自校准和语音识别终端对所述误差进行校准,得到增强语音输出。2.如权利要求1所述的远场语音交互设备,其特征在于,所述自校准和语音识别终端包括:自校准模块和广义旁瓣对消器,所述麦克风阵列连接自校准模块,所述自校准模块连接所述广义旁瓣对消器,其中,所述自校准模块对所述误差进行校准,校准后的远场语音信号传输至所述广义旁瓣对消器;所述广义旁瓣对消器对校准后的远场语音信号进行处理,得到增强语音输出。3.如权利要求2所述的远场语音交互设备,其特征在于,所述自校准模块包括:语音活动检测模块、相对增益计算模块和增益校准模块;其中,所述语音活动检测模块选取麦克风阵列的一个麦克风作为参考通道,利用所述参考通道提取远场语音信号中的语音段;所述相对增益计算模块连接所述语音活动检测模块,利用所述语音段计算麦克风阵列中的其他麦克风相对于所述参考通道的相对增益;所述增益校准模块连接所述相对增益计算模块,根据所述相对增益,将其他麦克风的语音段调整到参考通道的增益水平,得到校准后的远场语音信号。4.如权利要求2所述的远场语音交互设备,其特征在于,所述广义旁瓣对消器包括:固定波束形成模块、阻塞矩阵模块、自适应噪声抵消模块;其中,校准后的远场语音信号分别进入固定波束形成模块和阻塞矩阵模块;固定波束形成模块对校准后的远场语音信号进行处理,生成语音参考信号;阻塞矩阵模...
【专利技术属性】
技术研发人员:陈日林,冯大航,陈孝良,常乐,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。