共振峰包络估计、语音处理方法及装置、存储介质、终端制造方法及图纸

技术编号：27451166 阅读：64 留言：0更新日期：2021-02-25 04:34

一种共振峰包络估计、语音处理方法及装置、存储介质、终端，共振峰包络估计方法包括：获取频域语音信号；确定所述频域语音信号在预估频率范围内的多个频谱峰，所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的；对所述多个频谱峰进行插值运算，以得到所述频域语音信号的共振峰包络。本发明专利技术技术方案能够在保证共振峰估计的简单易实现的基础上保证估计的准确性。易实现的基础上保证估计的准确性。易实现的基础上保证估计的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
共振峰包络估计、语音处理方法及装置、存储介质、终端

[0001]本专利技术涉及语音处理
，尤其涉及一种共振峰包络估计、语音处理方法及装置、存储介质、终端。

技术介绍

[0002]人类语音的基本物理特征包括音高、响度、共振峰、音质和声音持续时间。传统上，语音分为两大类：元音和辅音。元音通常与更高的能量和更强的周期性相关。元音和辅音在语音感知中的相对重要性一直是多项研究的主题。在存在背景噪音的情况下使用口语句子的研究中，它表明元音比辅音在单词识别中起着更重要的作用。在存在噪声的情况下，元音会携带更多语音信息，这可能是因为共振峰提示即使在噪声中也很鲁棒。由于声道的共振，共振峰频率对应于浊音的短时能量谱中的峰值。共振峰是元音感知的主要线索之一，还有其他因素，例如频谱形状和共振峰比率。感知元音空间的多维分析已确定，占感知空间差异最大的两个维度对应于前两个共振峰频率。
[0003]通常，从语音信号中提取的共振峰频率个体依赖性较小，而上下文依赖性较大。此外，人声的性质在一定范围内是可变的，可以仔细测量并映射到词汇系统。因此，包含共振峰信息的语音特征被广泛用于语音识别任务中。从传统特征处理中提取的共振峰信息，如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)，感知线性预测(Preceptual Linear Prediction，PLP),很容易被噪声信号破坏。针对共振峰频率，数十年来已经提出了许多精确估计或增强技术。共振峰估计任务有三种主要方法：1.基于LPC。2.基...

【技术保护点】

【技术特征摘要】
1.一种共振峰包络估计方法，其特征在于，包括：获取频域语音信号；确定所述频域语音信号在预估频率范围内的多个频谱峰，所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的；对所述多个频谱峰进行插值运算，以得到所述频域语音信号的共振峰包络。2.根据权利要求1所述的共振峰包络估计方法，其特征在于，所述对所述多个频谱峰进行插值运算包括：对所述多个频谱峰进行线性插值运算，以得到所述频域语音信号的共振峰包络。3.根据权利要求1所述的共振峰包络估计方法，其特征在于，所述对所述多个频谱峰进行插值运算包括：对所述多个频谱峰进行多次元内插插值，以得到所述频域语音信号的共振峰包络。4.根据权利要求1所述的共振峰包络估计方法，其特征在于，所述确定所述频域语音信号在预估频率范围内的多个频谱峰包括：将所述频域语音信号在所述预估频率范围内划分为预设数量个频段；在每一频段内确定频率值最大的位置为该频段内的频谱峰。5.根据权利要求1所述的共振峰包络估计方法，其特征在于，所述获取频域语音信号包括：获取采集到的多帧时域语音信号；将每帧时域语音信号转换为对应的频域语音信号。6.一种语音处理方法，其特征在于，包括：获取采集到的语音信号；计算所述语音信号的共振峰包络，所述共振峰包络是采用以下方式得到的：获取频域语音信号，确定所述频域语音信号在预估频率范围内的多个频谱峰，所述预估频率范围是根据预设声源的声道特性以及所述预设声源的感知频率确定的，对所述多个频谱峰进行插值运算，以得到所述频域语音信号的共振峰包络；根据所述语音信号的共振峰包络提取所述语音信号的共振峰；根据所述语音信号的共振峰对所述语音信号进行语音识别或语音合成。...

【专利技术属性】
技术研发人员：張維城，姜双双，戚萌，董斐，
申请(专利权)人：展讯通信上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人