本公开提供一种使用入耳音频传感器检测语音的方法,包括对入耳音频传感器采集的输入信号的每一帧执行以下处理:基于当前帧的输入信号的至少一个特征,来计算计数改变值,其中所述至少一个特征包括估计信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个;将计算的计数改变值与前一帧的先前计数值相加,获得当前计数值;将获得的当前计数值与计数阈值进行比较;并且基于比较结果和特征属性来判断所述当前帧的输入信号的类别,其中所述类别包括噪声、浊音或清音。浊音或清音。浊音或清音。
【技术实现步骤摘要】
语音检测方法
[0001]本公开总体涉及语音检测方法,尤其涉及一种使用入耳音频传感器检测佩戴者语音的方法。
技术介绍
[0002]语音检测(或通常称为语音活动检测(VAD))用于指示一段声音是否包含人类语音。它被广泛使用并可以在诸如耳机、助听器等语音处理系统和设备中发挥重要作用。从发音原理上讲,语音和噪声是可区分的,因为产生语音的过程使人的声音,尤其是浊音音素与大多数噪声不同。另外,噪声环境中的语音的强度通常高于纯噪声,因为带噪语音是互不相关的人类语音和噪声的和。然而,准确地区分语音信号和噪声是一个行业难题。其原因在于:部分语音信号强度较弱;噪声类型多变的,而且并不总是稳定;更难的是,在人类语音中超过20%的清音音素不具有谐波结构,相对强度弱,并且本身频谱结构类似于一些噪声。因此,在嘈杂环境中的准确地语音检测始终是一项挑战性很强的工作。
[0003]此外,清音检测仍然是一个困难且未解决的问题。现有的技术中缺乏针对语音检测中的清音、浊音和多种噪声场景进行分类的一种兼备低漏检率和低误报率的检测机制。
技术实现思路
[0004]本公开的一方面的一个或多个实施例提供了一种使用入耳音频传感器检测语音的方法。该方法包括对入耳音频传感器采集的输入信号的每一帧执行以下处理:基于当前帧的输入信号的至少一个特征,来计算计数改变值,其中所述至少一个特征包括信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个;将计算的计数改变值与前一帧的先前计数值相加,获得当前计数值;将获得的当前计数值与计数阈值进行比较;并且基于比较结果来判断所述当前帧的输入信号的类别,其中所述类别包括噪声、浊音、清音。
附图说明
[0005]通过参考附图阅读对非限制性实施方案的以下描述,可更好地理解本公开,其中:
[0006]图1示意性示出了耳机中的入耳麦克风位置的示意图;
[0007]图2举例示出了由入耳麦克风测得一段语音信号;
[0008]图3示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方法的流程图;
[0009]图4示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方法的一个示例;
[0010]图5示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方法的一个检测结果的仿真图;
[0011]图6示出了根据本公开的一个或多个实施例的基于入耳音频传感器的语音检测方
法的另一个检测结果的仿真图。
具体实施方式
[0012]应当理解,给出实施例的以下描述仅仅是为了说明的目的,而不是限制性的。
[0013]单数术语(例如但不限于“一”)的使用并不旨在限制项目的数量。关系术语的使用,例如但不限于“顶部”、“底部”、“左”、“右”、“上部”、“下部”、“向下”、“向上”、“侧”、“第一”,“第二”(“第三”等),“入口”,“出口”等用于书面说明是为了在具体参考附图时清楚,而非意图限制本公开或随附的权利要求书的范围,除非另外指出。术语“包括”和“诸如”是说明性的而非限制性的,除非另有说明,词语“可以”的意思是“可以,但不必须”。尽管在本公开中使用任何其他语言,但是在附图中示出的实施例是为了说明和解释的目的给出的示例,而不是本文的主题的唯一实施例。
[0014]本公开主要专注于用于耳机设备的语音检测。该耳机设备包含至少一个入耳音频传感器。该入耳音频传感器例如可以是入耳麦克风。通常,耳机中的入耳麦克风可以被作为反馈(FB)麦克风而广泛用于主动降噪(ANC)功能。图1示出了耳机中的入耳麦克风的位置的一个示例。
[0015]本公开的检测语音的方法仅使用由入耳音频传感器接收到的信号,基于关键的声学特征,尤其是基于与关键的声学特征相关联的阈值条件的组合,通过投票机制来对输入信号进行检测,从而能够高精度地检测出浊音、清音和噪声。
[0016]专利技术人对入耳麦克风所捕获的信号进行了研究。在入耳麦克风被正确佩戴的情况下,即入耳麦克风插入人耳并与环境物理上隔离的情况下,接收到的环境噪声得以极大的衰减。同样,通过空气传播的人声也被一定程度地隔绝。然而,人类的语音信号也可以经由骨骼和组织传导,还可以通过咽鼓管。咽鼓管是连接喉咙和中耳的小通道。与空气传导的语音信号相比,入耳麦克风接收到的语音信号在极低频带(例如,200Hz以下)显示出了较强的强度。然而在200~2500Hz的频带中,信号的强度逐渐降低,并且在更高频率范围信号几乎消失。有趣的是,专利技术人发现清音信号可以通过狭窄的咽鼓管传播,尽管它们的强度非常微弱,即使在6000Hz以上的高频带也是如此。图2示出了一个简短的由入耳麦克风接收到的语音信号的示例。在该示例中,语音信号包含浊音和清音部分。可以看出,浊音主要集中在低频带。图中的椭圆圈示例性标记了两个清音例子,矩形框示例性标记了两个浊音例子。与目前大多数只能捕获1000Hz以下的浊音信号而错过清音的骨导传感器相比,入耳音频传感器,例如麦克风仍然可以捕获更丰富的声学信息。
[0017]专利技术人进一步基于由入耳音频传感器,例如入耳麦克风接收到的声音信号进行的全面分析,总结了浊音、清音的特征,并与各种类型的噪声进行比较。具体来说,在入耳通道中,清音、浊音信号和噪声是不同的,总结如下。
[0018]·
浊音:
[0019]1)在入耳通道中强度大/信噪比(SNR)高;
[0020]2)在每句的开头和结尾处,SNR低,但谱平坦度低;
[0021]3)有基频(F0)信号,同时频谱中有与之相对应的谐波结构;由于传播介质原因,能量集中在中低频(2500Hz以下);
[0022]4)谱质心低,但不会低于或接近基频;
[0023]5)谱通量高;
[0024]6)声音开头的谱通量变化是正数;
[0025]7)能量衰减在2500Hz以下随频率增加而增多,但在2500Hz以上有显著损失;
[0026]8)在全频带上谱平坦度低;
[0027]9)包含大部分能量的频率子带上的谱平坦度低;
[0028]10)谱延展度(频谱二阶中心矩)低;
[0029]11)大部分分布在较宽的频带中,除了句子开头或结尾的低频;
[0030]12)通常与几个相邻的帧有很好的相关性。
[0031]·
清音:
[0032]1)在入耳通道中强度相对较弱/SNR低;
[0033]2)谱质心中/高;
[0034]3)某些具有宽频带、谱平坦度高并且遍布于全频带,例如摩擦音/s/、/∫/;
[0035]4)某些在高频带有更多的能量分布,例如超过5000Hz或更高;
[0036]5)某些仅在高频带具有高谱平坦度;
[0037]6)某些在中频到高频带(例如3000
‑
7000Hz)具有高谱平坦度;
[0038]7)某些在中频带(例如3000
‑
5000Hz)具有显本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种使用入耳音频传感器检测语音的方法,包括:对所述入耳音频传感器采集的输入信号的每一帧执行以下处理:基于当前帧的输入信号的至少一个特征,来计算计数改变值,其中所述至少一个特征包括估计信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个;将计算的计数改变值与前一帧的先前计数值相加,获得当前计数值;将获得的当前计数值与计数阈值进行比较;并且基于比较结果来判断所述当前帧的输入信号的类别,其中,所述类别包括噪声、浊音、清音。2.根据权利要求1所述的方法,其中每个特征具有与其相关联的一个或多个阈值条件,并且其中,所述基于当前帧的输入信号的至少一个特征,来计算计数改变值包括:通过组合至少一个特征的至少一个阈值条件,获得至少一个组合阈值条件,所述至少一个组合阈值条件包括至少一个加分组合阈值条件和至少一个减分组合阈值条件;基于所述至少一个加分组合阈值条件,获得加分值;基于所述至少一个减分组合阈值条件,获得减分值;以及基于所述加分值和减分值,计算出所述计数改变值。3.根据权利要求1或2所述的方法,还包括:判断当前帧的估计信噪比是否大于等于信噪比阈值并且所述谱平坦度小于等于谱平坦度阈值;并且响应于所述当前帧的估计信噪比大于等于所述信噪比阈值并且所述谱平坦度小于等于所述谱平坦度阈值,执行第一计数改变值的计算;或者响应于所述当前帧的估计信噪比小于所述信噪比阈值或谱平坦度大于所述谱平坦度阈值,执行第二计数改变值的计算。4.根据权利要求3所述的方法,其中,所述执行第一计数改变值的计算包括:判断是否满足至少一个加分组合阈值条件中的第一加分组合阈值条件,所述第一加分组合阈值条件包括与估计信噪比和谱平坦度相关联的组合阈值条件;响应于满足所述第一加分组合阈值条件,基于所述信噪比的值,计...
【专利技术属性】
技术研发人员:杨锐廷,时林伟,王义圆,邓祥,彭少敏,
申请(专利权)人:哈曼国际工业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。