语音检测方法技术

技术编号：39173820 阅读：20 留言：0更新日期：2023-10-27 08:21

本公开提供一种使用入耳音频传感器检测语音的方法，包括对入耳音频传感器采集的输入信号的每一帧执行以下处理：基于当前帧的输入信号的至少一个特征，来计算计数改变值，其中所述至少一个特征包括估计信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个；将计算的计数改变值与前一帧的先前计数值相加，获得当前计数值；将获得的当前计数值与计数阈值进行比较；并且基于比较结果和特征属性来判断所述当前帧的输入信号的类别，其中所述类别包括噪声、浊音或清音。浊音或清音。浊音或清音。

全部详细技术资料下载

【技术实现步骤摘要】
语音检测方法

[0001]本公开总体涉及语音检测方法，尤其涉及一种使用入耳音频传感器检测佩戴者语音的方法。

技术介绍

[0002]语音检测(或通常称为语音活动检测(VAD))用于指示一段声音是否包含人类语音。它被广泛使用并可以在诸如耳机、助听器等语音处理系统和设备中发挥重要作用。从发音原理上讲，语音和噪声是可区分的，因为产生语音的过程使人的声音，尤其是浊音音素与大多数噪声不同。另外，噪声环境中的语音的强度通常高于纯噪声，因为带噪语音是互不相关的人类语音和噪声的和。然而，准确地区分语音信号和噪声是一个行业难题。其原因在于：部分语音信号强度较弱；噪声类型多变的，而且并不总是稳定；更难的是，在人类语音中超过20％的清音音素不具有谐波结构，相对强度弱，并且本身频谱结构类似于一些噪声。因此，在嘈杂环境中的准确地语音检测始终是一项挑战性很强的工作。
[0003]此外，清音检测仍然是一个困难且未解决的问题。现有的技术中缺乏针对语音检测中的清音、浊音和多种噪声场景进行分类的一种兼备低漏检率和低误报率的检测机制。

技术实现思路

[0004]本公开的一方面的一个或多个实施例提供了一种使用入耳音频传感器检测语音的方法。该方法包括对入耳音频传感器采集的输入信号的每一帧执行以下处理：基于当前帧的输入信号的至少一个特征，来计算计数改变值，其中所述至少一个特征包括信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个；将计算的计数改变值与前一帧的先前计数值相加，获得当前计数值；将获得的当前...

【技术保护点】

【技术特征摘要】
1.一种使用入耳音频传感器检测语音的方法，包括：对所述入耳音频传感器采集的输入信号的每一帧执行以下处理：基于当前帧的输入信号的至少一个特征，来计算计数改变值，其中所述至少一个特征包括估计信噪比、谱质心、谱通量、谱通量差值、谱平坦度、能量分布和邻帧之间的频谱相关性中的至少一个；将计算的计数改变值与前一帧的先前计数值相加，获得当前计数值；将获得的当前计数值与计数阈值进行比较；并且基于比较结果来判断所述当前帧的输入信号的类别，其中，所述类别包括噪声、浊音、清音。2.根据权利要求1所述的方法，其中每个特征具有与其相关联的一个或多个阈值条件，并且其中，所述基于当前帧的输入信号的至少一个特征，来计算计数改变值包括：通过组合至少一个特征的至少一个阈值条件，获得至少一个组合阈值条件，所述至少一个组合阈值条件包括至少一个加分组合阈值条件和至少一个减分组合阈值条件；基于所述至少一个加分组合阈值条件，获得加分值；基于所述至少一个减分组合阈值条件，获得减分值；以及基于所述加分值和减分值，计算出所述计数改变值。3.根据权利要求1或2所述的方法，还包括：判断当前帧的估计信噪比是否大于等于信噪比阈值并且所述谱平坦度小于等于谱平坦度阈值；并且响应于所述当前帧的估计信噪比大于等于所述信噪比阈值并且所述谱平坦度小于等于所述谱平坦度阈值，执行第一计数改变值的计算；或者响应于所述当前帧的估计信噪比小于所述信噪比阈值或谱平坦度大于所述谱平坦度阈值，执行第二计数改变值的计算。4.根据权利要求3所述的方法，其中，所述执行第一计数改变值的计算包括：判断是否满足至少一个加分组合阈值条件中的第一加分组合阈值条件，所述第一加分组合阈值条件包括与估计信噪比和谱平坦度相关联的组合阈值条件；响应于满足所述第一加分组合阈值条件，基于所述信噪比的值，计...

【专利技术属性】
技术研发人员：杨锐廷，时林伟，王义圆，邓祥，彭少敏，
申请(专利权)人：哈曼国际工业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人