一种语音增强方法技术

技术编号:39772297 阅读:8 留言:0更新日期:2023-12-22 02:22
本申请公开了一种语音增强方法

【技术实现步骤摘要】
一种语音增强方法、装置、介质、设备和程序产品


[0001]本申请涉及音频编解码
,特别涉及一种语音增强方法、装置、存储介质、电子设备和计算机程序产品。

技术介绍

[0002]蓝牙语音通信中通常需要降噪,图1是现有技术的降噪流程的示意图,如图1所示,在现有技术中,对音频数据的降噪流程是先将时域的音频数据转换为频域的音频谱系数,然后利用噪声估计与消除模块将音频谱系数进行降噪处理,之后将降噪的音频谱系数转换为时域的降噪音频数据,最后利用降噪的音频数据进行音频编码、码流传输和音频解码等处理。
[0003]但在音频编码过程中会重复进行时频转换处理,在音频解码过程中会重复出现时频逆变换处理,且时频变换和时频逆变换对算力的要求都比较高,因此现有技术所需的存储空间与算力都较高,且现有技术增加了功耗,降低了用户体验,重复的计算会造成算力消耗。同时,将语音增强作为单独的模块使用会造成后续语音不连续的问题,而为了避免增强后的语音不连续,通常基于重叠相加法来消除语音不连续问题,但其引入增加了整体系统的延迟,而低延迟蓝牙传输中对端到端延迟要求严格,这会使得系统延迟优化变得困难。

技术实现思路

[0004]针对现有技术存在的算力浪费和系统延迟等的问题,本申请主要提供一种语音增强方法、装置、存储介质、电子设备和计算机程序产品。
[0005]为了实现上述目的,本申请采用的第一个技术方案是:提供一种语音增强方法,其包括:利用编码过程中的时频转换模块,对音频数据进行处理得到音频数据对应的音频谱系数;对音频谱系数执行降噪处理,得到第一消噪音频谱系数;利用预训练神经网络模型,对第一消噪音频谱系数进行处理,得到谱系数差异;根据谱系数差异对第一消噪音频谱系数进行差异补偿,得到第二消噪音频谱系数;利用第二消噪音频谱系数进行编码,得到无噪音频码流。
[0006]可选的,对音频谱系数执行降噪处理,得到第一消噪音频谱系数,包括:利用音频谱系数,计算得到音频谱系数对应的伪谱;对伪谱进行子带划分并计算每一个子带的子带能量;根据每一个子带的子带能量,计算得到子带总能量;根据子带总能量和每一个子带的子带能量,计算得到每一个子带的能量概率;以及根据能量概率,计算得到伪谱谱熵。
[0007]可选的,对音频谱系数执行降噪处理,得到第一消噪音频谱系数,包括:根据预设的门限值和伪谱谱熵判断音频谱系数是否包含噪音;其中,当伪谱谱熵不小于预设的门限值时,音频谱系数中包含噪音,对音频谱系数执行降噪处理;以及当伪谱谱熵小于预设的门限值时,音频谱系数中不包含噪音,不对音频谱系数执行降噪处理。
[0008]可选的,对音频谱系数执行降噪处理,得到第一消噪音频谱系数,包括:根据音频谱系数对应的子带,利用噪声能量调节因子,按照子带对音频谱系数进行噪声消除,得到第
一消噪音频谱系数。
[0009]可选的,预训练神经网络模型的训练过程包括:分别获取纯净语音、带噪语音和谱减法消噪后的带噪语音对应的纯净语音特征、带噪语音特征和消噪语音特征;计算得到带噪语音特征和纯净语音特征之间的第一特征差异,以及带噪语音特征和消噪语音特征之间的第二特征差异;在神经网络模型中,以第一特征差异为目标训练第二特征差异,并将第一特征差异和第二特征差异之间误差最小时的参数配置作为预训练神经网络模型的参数。
[0010]可选的,语音增强方法还包括:利用音频解码器的解码模块对无噪音频码流进行解码,得到无噪音频数据。
[0011]本申请采用的第二个技术方案是:提供一种语音增强装置,其包括:谱系数获取模块,用于利用编码过程中的时频转换模块,对音频数据进行处理得到音频数据对应的音频谱系数;第一消噪模块,用于对音频谱系数执行降噪处理,得到第一消噪音频谱系数;谱系数差异计算模块,用于利用预训练神经网络模型,对第一消噪音频谱系数进行处理,得到谱系数差异;差异补偿模块,用于根据谱系数差异对第一消噪音频谱系数进行差异补偿,得到第二消噪音频谱系数;编码模块,用于利用第二消噪音频谱系数进行编码,得到无噪音频码流。
[0012]可选的,第一消噪模块包括:利用音频谱系数,计算得到音频谱系数对应的伪谱;对伪谱进行子带划分并计算每一个子带的子带能量;根据每一个子带的子带能量,计算得到子带总能量;根据子带总能量和每一个子带的子带能量,计算得到每一个子带的能量概率;以及根据能量概率,计算得到伪谱谱熵。
[0013]可选的,第一消噪模块包括:根据预设的门限值和伪谱谱熵判断音频谱系数是否包含噪音;其中,当伪谱谱熵不小于预设的门限值时,音频谱系数中包含噪音,对音频谱系数执行降噪处理;以及当伪谱谱熵小于预设的门限值时,音频谱系数中不包含噪音,不对音频谱系数执行降噪处理。
[0014]可选的,第一消噪模块包括:根据音频谱系数对应的子带,利用噪声能量调节因子,按照子带对音频谱系数进行噪声消除,得到第一消噪音频谱系数。
[0015]可选的,预训练神经网络模型的训练过程包括:分别获取纯净语音、带噪语音和初步消噪后的带噪语音对应的纯净语音特征、带噪语音特征和消噪语音特征;计算得到带噪语音特征和纯净语音特征之间的第一特征差异,以及带噪语音特征和消噪语音特征之间的第二特征差异;在神经网络模型中,以第一特征差异为目标训练第二特征差异,并将第一特征差异和第二特征差异之间误差最小时的参数配置作为预训练神经网络模型的参数。
[0016]可选的,语音增强装置还包括:利用音频解码器的解码模块对无噪音频码流进行解码,得到无噪音频数据。
[0017]本申请采用的第三个技术方案是:提供一种计算机可读存储介质,其存储有计算机程序/指令,该计算机程序/指令被操作以执行方案一中的语音增强方法。
[0018]本申请采用的第四个技术方案是:提供一种计算机设备,包括存储器、处理器以及存储在存储器上的计算机程序,该处理器执行计算机程序以实现方案一中的语音增强方法。
[0019]本申请采用的第五个技术方案是:提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如方案一中的语音增强方法。
[0020]本申请的技术方案可以达到的有益效果是:能够在保证音质的条件下,减少算力和系统对存储空间的需求,同时能够减少系统延迟,提高用户体验。
附图说明
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是现有技术的降噪流程的示意图;
[0023]图2是本申请一种语音增强方法的一个具体实施方式的示意图;
[0024]图3是本申请LC3编码器编码流程的示意图;
[0025]图4是本申请神经网络模型的训练流程和推理流程的示意图;
[0026]图5是本申请一种语音增强装置的一个具体实施方式的示意图。...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:利用编码过程中的时频转换模块,对音频数据进行处理得到所述音频数据对应的音频谱系数;对所述音频谱系数执行降噪处理,得到第一消噪音频谱系数;利用预训练神经网络模型,对所述第一消噪音频谱系数进行处理,得到谱系数差异;根据所述谱系数差异对所述第一消噪音频谱系数进行差异补偿,得到第二消噪音频谱系数;利用所述第二消噪音频谱系数进行编码,得到无噪音频码流。2.根据权利要求1所述的语音增强方法,其特征在于,所述对所述音频谱系数执行降噪处理,得到第一消噪音频谱系数,包括:利用所述音频谱系数,计算得到所述音频谱系数对应的伪谱;对所述伪谱进行子带划分并计算每一个子带的子带能量;根据每一个子带的子带能量,计算得到子带总能量;根据所述子带总能量和每一个子带的所述子带能量,计算得到每一个子带的能量概率;根据所述能量概率,计算得到伪谱谱熵。3.根据权利要求2所述的语音增强方法,其特征在于,所述对所述音频谱系数执行降噪处理,得到第一消噪音频谱系数,包括:根据预设的门限值和所述伪谱谱熵判断所述音频谱系数是否包含噪音;其中,当所述伪谱谱熵不小于所述预设的门限值时,所述音频谱系数中包含噪音,对所述音频谱系数执行降噪处理;以及当所述伪谱谱熵小于所述预设的门限值时,所述音频谱系数中不包含噪音,不对所述音频谱系数执行降噪处理。4.根据权利要求1所述的语音增强方法,其特征在于,所述对所述音频谱系数执行降噪处理,得到第一消噪音频谱系数,包括:根据所述音频谱系数对应的子带,利用噪声能量调节因子,按照所述子带对所述音频谱系数进行噪声消除,得到所述第一消噪音频谱系数。5.根据权利要求1所述的语音增强方法,其特征在于,所述预训练神经网络模型的训练过程包括:分别获取纯净语音、带噪语音和初步消...

【专利技术属性】
技术研发人员:李强王凌志叶东翔朱勇
申请(专利权)人:深圳百瑞互联技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1