语音感知音频系统及方法技术方案

技术编号:27466421 阅读:23 留言:0更新日期:2021-03-02 17:29
一种用于使佩戴耳机的用户在收听音乐或任何其他音频源的同时感知外部声音环境的语音感知音频系统和方法。可调整声音感知区赋予用户灵活性,以避免听到远距离的语音。能够在频域中分析外部声音,以选择振荡频率备选项,并且能够在时域中分析外部声音,以确定振荡频率备选项是否为感兴趣的信号。如果确定被导向至外部声音的信号是感兴趣的信号,则使外部声音与来自音频源的音频混合。音与来自音频源的音频混合。

【技术实现步骤摘要】
【国外来华专利技术】语音感知音频系统及方法


[0001]本专利技术涉及一种使佩戴耳机的用户在收听音乐或任何其他音频源的同时感知外部声音环境的系统和方法。

技术介绍

[0002]语音活动检测(VAD),也被称为话语活动检测或话语检测,是检测人类话语的存在或缺失的话语处理中所使用的技术。已知各种VAD算法。已知VAD所使用的常规算法方案在输入信号有噪声时会遇到检测分值较低的问题。
[0003]在包括话语识别的许多话语处理应用中,VAD扮演话语压缩与降噪系统的角色。在图1中,描述了由下列项构成的常规VAD的基本原理,即,从成帧的输入信号提取特征,然后,基于从最近几帧获取的信息,适配多维阈值,并且进行特征与该阈值的比较,以确定帧是话语还是噪声。通常,通常存在确定拖尾的最后阶段,其目标是确保句子中出现包括正常短的静默期的连续话语流。一般,选择10ms至40ms持续时间之间的帧长度,因为此长度与话语被视为统计静止的时间窗对应。
[0004]检测话语的标准是找到语音部分,由于这些是周期性并且具有算法中使用的数学上限定良好的结构。另一解决方案是使用话语的统计模型、从所获取的数据采样中估计其参数、并且使用确定理论的经典结果进行帧话语/噪声分类。
[0005]图2示出了在时域方法中用于检测话语的技术。这些技术包括短时能量、过零率、互相关、周期性测量、线性预测分析,以及音高估计。图3示出了频域方法中用于检测话语的技术。这些技术包括子带能量、维纳熵(Weiner entropy)、倒谱、能量熵、调和比、以及频谱峰值分析。常规的VAD算法使用时域或频域特征或者使用统计或其他具体的算法机制。一些常规的VAD使用包括时域或频域中的长期频谱发散、倒谱峰、MEL-滤波频谱、以及频谱-时间调制的一系列功能。
[0006]已知当噪声量增加时,VAD性能会下降。常规解决方案是在VAD系统前添加降噪(NR)模块。当利用降噪(NR)对话语信号进行预处理时,一种已知的局限性是可能会出现音乐噪声,这种音乐噪声会被添加至输入信号,从而可能误导VAD模块并且建立错误的检测。
[0007]利用常规NR模块的另一缺点是难以设置甚至无法设置使系统针对不同的噪声级别和类别正常工作的内部参数。例如,如果本领域技术人员选择一组内部参数来解决非常嘈杂的环境,则无声和安静的环境中将出现相对严重的失真。
[0008]为了克服不仅影响音频质量、而且可能甚至危害VAD模块性能的上述缺点,希望提供一种用于检测噪声级别环境并且允许对NR内部参数进行动态设置的提高机制。
[0009]希望提供一种允许用户在收听音乐或任何其他音频源的同时感知外部声音环境的提高的抗噪VAD方法及系统。

技术实现思路

[0010]本专利技术涉及一种用于使佩戴耳机的用户在收听音乐或任何其他音频源的同时感
知外部声音环境的语音感知音频系统和方法。本专利技术涉及一种给用户提供灵活性、以避免听到远距离的语音的可调整声音感知区的概念。本专利技术的系统能够使用美国专利公开号2016/0241947中描述的耳机的特征,特此,通过引用将其结合于本申请中。在一个实施方式中,耳机包括具有四个输入麦克风的麦克风阵列。这提供了空间声音获取选择性并且允许将麦克风阵列转向感兴趣的方向。使用波束成形方法并且与类似本专利技术的降噪系统、分数延迟处理、以及语音活动检测(VAD)算法的不同技术组合,提供了嘈杂环境中具有提高性能的新音频架构。
[0011]本专利技术包括含降噪和阵列处理的不同信号处理模块。具体地,提供对噪声级别进行估计的过程,该过程被称为噪声感测(NS)。该过程对降噪参数进行适配,以使得输出声音质量被优化。一旦检测到语音,则能够在不干扰用户所收听的音乐或其他音频源的情况下,经由耳机信号向用户发出警报。通过将外部语音与耳机引导信号混合而完成此操作。
[0012]使用这样一种混合机制,即,能够考虑心理声学特性并且允许在使清晰度最大化的同时、在不降低音乐信号的音量的情况下进行最终混合。
[0013]本专利技术的语音感知音频系统的典型应用能够出现在下列情景中:语音,例如,人的呼喊、谈话或打电话、婴儿哭叫、公共交通通告;铃声和警报,例如,某人在按门铃、激活门铃交付包裹、房屋、汽车、以及其他警报;以及其他,例如,汽车喇叭、警车及救护车鸣笛、以及口哨。通过参考下列附图将对本专利技术进行更为全面地描述。
附图说明
[0014]图1是语音活动检测(VAD)的现有技术原理的示意图。
[0015]图2是示例性的现有技术时域话语检测技术的示意图。
[0016]图3是示例性的现有技术频域话语检测技术的示意图。
[0017]图4是其中根据本专利技术的教导的使感兴趣的外部语音与用户音乐混合的语音感知音频系统的示意图。
[0018]图5是本专利技术的语音感知音频系统中所使用的可调整声音感知区的示意图。
[0019]图6是本专利技术的耳机中所使用的麦克风阵列的示意图。
[0020]图7是根据本专利技术的教导的语音活动检测的方法的流程图。
[0021]图8A是话语信号的示意图。
[0022]图8B是对数维纳熵的示意图。
[0023]图8C是简化的对数维纳熵的示意图。
[0024]图9是包括降噪(NR)周围的数据缓冲器组织和语音活动检测(VAD)模块的语音活动检测架构系统的示意图。
[0025]图10是拖尾过程的状态机图的示意图。
[0026]图11A是128缓冲长度的话语信号的示意图。
[0027]图11B是图11A中所示的信号的对数维纳熵的示意图。
[0028]图11C是图11A中所示的信号的简化对数维纳熵的示意图。
[0029]图12A是258缓冲长度的话语信号的示意图。
[0030]图12B是图12A中所示的信号的对数维纳熵的示意图。
[0031]图12C是图12A中所示的信号的简化对数维纳熵的示意图。
[0032]图13A是128缓冲长度的话语信号的示意图。
[0033]图13B是图13A中所示的信号的对数维纳熵的示意图。
[0034]图13C是图13A中所示的信号的简化对数维纳熵的示意图。
[0035]图14是根据本专利技术的教导的自适应降噪模块的示意图。
[0036]图15A是包括噪声的输入信号的示意图。
[0037]图15B是麦克风左前方与麦克风右前方的相差的示意图。
[0038]图15C是麦克风右前方与麦克风右后方的示意图。
[0039]图16是使用微处理器阵列提高包括定位和波束成形的语音活动检测(VAD)输出质量的方法的流程图。
[0040]图17是针对漫射噪声提高语音活动检测(VAD)的鲁棒性的示意图。
[0041]图18是针对感知区中的不需要的语音提高语音活动检测(VAD)的鲁棒性的方法的流程图。
[0042]图19是用于实现包括自适应频谱均衡的语音感知音频系统的方法的流程图。
[0043]图20A是具有话语的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种语音感知音频系统,包括:耳机,被配置为从音频源接收音频;至少一个麦克风,与所述耳机相关联,所述至少一个麦克风被配置为检测外部声音环境中的外部声音并且生成被导向至所述外部声音的信号;以及分析器模块,用于确定被导向至所述外部声音的所述信号是否为感兴趣的信号;其中,如果确定被导向至所述外部声音的所述信号为所述感兴趣的信号,则使所述外部声音与来自所述音频源的所述音频混合。2.根据权利要求1所述的语音感知音频系统,其中,所述分析器模块被配置为分析频域中被导向至所述外部声音的所述信号以选择振荡频率备选项,并且分析时域中被导向至所述外部声音的所述信号来确定所述振荡频率备选项是否为所述感兴趣的信号。3.根据权利要求2所述的语音感知音频系统,其中,所述分析器模块将被导向至所述外部声音的所述信号接收在输入缓冲器中,并且所述频域的分析使用所述输入缓冲器中的所述信号的FFT来生成输入帧,且所述时域的分析递归地使用具有所述输入帧的子帧。4.根据权利要求3所述的语音感知音频系统,其中,利用维纳熵或简化的维纳熵来执行所述频域的分析。5.根据权利要求3所述的语音感知音频系统,其中,利用音高估计或YIN算法来执行所述时域的分析。6.根据权利要求1所述的语音感知音频系统,其中,所述分析器模块还包括拖尾模块,所述拖尾模块用于确定在所述时域中确定的所述感兴趣的信号中的话语存在或话语缺失。7.根据权利要求2所述的语音感知系统,其中,在降噪算法中使用所述频域的分析,以估计所述外部声音环境中的噪声级别并且基于所述噪声级别对所述语音感知音频系统进行调谐。8.根据权利要求1所述的语音感知音频系统,其中,限定所述耳机周围的可调整声音感知区,所述可调整声音感知区具有一个或多个调谐区,并且当所述外部声音处于所述一个或多个调谐区中的一个预定调谐区内时,将所述外部声音确定为所述感兴趣的信号。9.根据权利要求1所述的语音感知音频系统,其中,所述音频是音乐。10.根据权利要求1所述的语音感知音频系统,其中,所述耳机包括麦克风阵列,所述麦克风阵列被布置成使来自所选择方向的音频衰减或放大,所述麦克风阵列中的所述麦克风指向各个方向,以实现用户周围环境的360
°
音频图像。11.根据权利要求10所述的语音感知音频系统,其中,限定所述耳机周围的可调整声音感知区,所述可调整声音感知区具有一个或多个调谐区,并且当所述外部声音处于所述一个或多个调谐区中的一个预定调谐区内时,确定所述外部声音是感兴趣的信号,所述麦克风阵列去除来自非期望方向的信号并且将所述麦克风阵列导向至感兴趣的方向。12.一种使佩戴耳机的用户感知外部声音环境的方法,所述耳机被配置为从音频源接收音频,所述方法包括下列步骤:a.利用与所述耳机相关联的至少一个麦克风来检测所述外部声音环境中的外部声音;b.生成被导向至所述外部声音的信号;c.确定被导向至所述外部声音的所述信号是否为感兴趣的信号;并且d.如果确定被导向至所述外部声音的所述信号是所述感兴趣的信号,则使所述外部声
音与来自所述音频源的所述音频混合。13.根据权利要求12所述的方...

【专利技术属性】
技术研发人员:蒂莫西
申请(专利权)人:HED科技有限责任公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1