一种语音增强方法技术

技术编号：39772297 阅读：8 留言：0更新日期：2023-12-22 02:22

本申请公开了一种语音增强方法

全部详细技术资料下载

【技术实现步骤摘要】
一种语音增强方法、装置、介质、设备和程序产品

[0001]本申请涉及音频编解码
，特别涉及一种语音增强方法、装置、存储介质、电子设备和计算机程序产品。

技术介绍

[0002]蓝牙语音通信中通常需要降噪，图1是现有技术的降噪流程的示意图，如图1所示，在现有技术中，对音频数据的降噪流程是先将时域的音频数据转换为频域的音频谱系数，然后利用噪声估计与消除模块将音频谱系数进行降噪处理，之后将降噪的音频谱系数转换为时域的降噪音频数据，最后利用降噪的音频数据进行音频编码、码流传输和音频解码等处理。
[0003]但在音频编码过程中会重复进行时频转换处理，在音频解码过程中会重复出现时频逆变换处理，且时频变换和时频逆变换对算力的要求都比较高，因此现有技术所需的存储空间与算力都较高，且现有技术增加了功耗，降低了用户体验，重复的计算会造成算力消耗。同时，将语音增强作为单独的模块使用会造成后续语音不连续的问题，而为了避免增强后的语音不连续，通常基于重叠相加法来消除语音不连续问题，但其引入增加了整体系统的延迟，而低延迟蓝牙传输中对端到端延迟要求严格，这会使得系统延迟优化变得困难。

技术实现思路

[0004]针对现有技术存在的算力浪费和系统延迟等的问题，本申请主要提供一种语音增强方法、装置、存储介质、电子设备和计算机程序产品。
[0005]为了实现上述目的，本申请采用的第一个技术方案是：提供一种语音增强方法，其包括：利用编码过程中的时频转换模块，对音频数据进行处理得到音频数据对应的音频谱系数；对音频谱系数执行

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，其特征在于，包括：利用编码过程中的时频转换模块，对音频数据进行处理得到所述音频数据对应的音频谱系数；对所述音频谱系数执行降噪处理，得到第一消噪音频谱系数；利用预训练神经网络模型，对所述第一消噪音频谱系数进行处理，得到谱系数差异；根据所述谱系数差异对所述第一消噪音频谱系数进行差异补偿，得到第二消噪音频谱系数；利用所述第二消噪音频谱系数进行编码，得到无噪音频码流。2.根据权利要求1所述的语音增强方法，其特征在于，所述对所述音频谱系数执行降噪处理，得到第一消噪音频谱系数，包括：利用所述音频谱系数，计算得到所述音频谱系数对应的伪谱；对所述伪谱进行子带划分并计算每一个子带的子带能量；根据每一个子带的子带能量，计算得到子带总能量；根据所述子带总能量和每一个子带的所述子带能量，计算得到每一个子带的能量概率；根据所述能量概率，计算得到伪谱谱熵。3.根据权利要求2所述的语音增强方法，其特征在于，所述对所述音频谱系数执行降噪处理，得到第一消噪音频谱系数，包括：根据预设的门限值和所述伪谱谱熵判断所述音频谱系数是否包含噪音；其中，当所述伪谱谱熵不小于所述预设的门限值时，所述音频谱系数中包含噪音，对所述音频谱系数执行降噪处理；以及当所述伪谱谱熵小于所述预设的门限值时，所述音频谱系数中不包含噪音，不对所述音频谱系数执行降噪处理。4.根据权利要求1所述的语音增强方法，其特征在于，所述对所述音频谱系数执行降噪处理，得到第一消噪音频谱系数，包括：根据所述音频谱系数对应的子带，利用噪声能量调节因子，按照所述子带对所述音频谱系数进行噪声消除，得到所述第一消噪音频谱系数。5.根据权利要求1所述的语音增强方法，其特征在于，所述预训练神经网络模型的训练过程包括：分别获取纯净语音、带噪语音和初步消...

【专利技术属性】
技术研发人员：李强，王凌志，叶东翔，朱勇，
申请(专利权)人：深圳百瑞互联技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人