一种音频处理方法、装置、设备和介质制造方法及图纸

技术编号:38272681 阅读:14 留言:0更新日期:2023-07-27 10:26
本发明专利技术实施例公开了一种音频处理方法、装置、设备和介质,其中,方法包括:获取待处理音频信号对应的初始幅度谱和初始相位谱;将初始幅度谱输入到经过训练的目标混响参数估计模型中,得到混响消除参数;根据混响消除参数和初始幅度谱,预估待处理音频信号的晚期混响功率谱;根据晚期混响功率谱确定音频处理后的目标音频信号的目标幅度谱中各频点的增益,并基于增益和初始相位谱对待处理音频信号进行音频处理,得到目标音频信号。本发明专利技术实施例的技术方案,解决了利用线性滤波器的方法线性预测音频信号晚期谱再减去混响尾部的去混响效果不佳的问题,可以更准确的估计有混响的音频的晚期谱,从而提升去混响效果。从而提升去混响效果。从而提升去混响效果。

【技术实现步骤摘要】
一种音频处理方法、装置、设备和介质


[0001]本专利技术实施例涉及音频处理
,尤其涉及一种音频处理方法、装置、设备和介质。

技术介绍

[0002]当声源发出的声音在一个空间内传播时,会出现混响现象。特别是在音视频会议或直播场景中,如果音频混响明显,则严重影响会议或者直播体验,需要进行混响消除处理。目前,消除和抑制混响的方法主要采用加权预测误差(Weighted Predict Error,WPE)算法,即首先利用最优的线性预测滤波器估计信号的混响尾部,然后再从采集到的音频信号中减去混响尾部,得到对弱混响信号的极大似然意义下的最优估计。
[0003]但是,在实现本专利技术的过程中,发现现有技术中至少存在以下技术问题:利用线性滤波器的方法线性预测晚期谱方差,数学模型上只采用了线性估计方法,对单通道(单麦克风)声音信号去混响效果较差。

技术实现思路

[0004]本专利技术实施例提供了一种音频处理方法、装置、设备和介质,可以提高混响消除关键参数的准确性,进而提高加权预测误差算法进行晚期谱方差估计的准确性,以更好的实现达到混响消除的目的。
[0005]第一方面,本专利技术实施例提供了一种音频处理方法,该方法包括:
[0006]获取待处理音频信号对应的初始幅度谱和初始相位谱;
[0007]将所述初始幅度谱输入到经过训练的目标混响参数估计模型中,得到混响消除参数;
[0008]根据所述混响消除参数和所述初始幅度谱,预估所述待处理音频信号的晚期混响功率谱;
[0009]根据所述晚期混响功率谱确定音频处理后的目标音频信号的目标幅度谱中各频点的增益,并基于所述增益和所述初始相位谱对所述待处理音频信号进行音频处理,得到所述目标音频信号。
[0010]第二方面,本专利技术实施例还提供了一种音频处理装置,该装置包括:
[0011]音频信号预处理模块,用于获取待处理音频信号对应的初始幅度谱和初始相位谱;
[0012]音频处理参数估计模块,用于将所述初始幅度谱输入到经过训练的目标混响参数估计模型中,得到混响消除参数;
[0013]音频晚期混响估计模块,用于根据所述混响消除参数和所述初始幅度谱,预估所述待处理音频信号的晚期混响功率谱;
[0014]音频去混响处理模块,用于根据所述晚期混响功率谱确定音频处理后的目标音频信号的目标幅度谱中各频点的增益,并基于所述增益和所述初始相位谱对所述待处理音频
信号进行音频处理,得到所述目标音频信号。
[0015]第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0016]一个或多个处理器;
[0017]存储器,用于存储一个或多个程序;
[0018]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所提供的音频处理方法。
[0019]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所提供的音频处理方法。
[0020]上述专利技术中的实施例具有如下优点或有益效果:
[0021]本专利技术实施例,通过获取待处理音频信号对应的初始幅度谱和初始相位谱;将所述初始幅度谱输入到经过训练的目标混响参数估计模型中,得到混响消除参数;根据所述混响消除参数和所述初始幅度谱,预估所述待处理音频信号的晚期混响功率谱;根据所述晚期混响功率谱确定音频处理后的目标音频信号的目标幅度谱中各频点的增益,并基于所述增益和所述初始相位谱对所述待处理音频信号进行音频处理,得到所述目标音频信号。即利用神经网络估计混响消除关键参数,辅助加权预测误差(WPE)算法更准确的进行晚期谱方差估计,以达到混响消除的目的。本专利技术实施例的技术方案,解决了利用线性滤波器的方法线性预测音频信号晚期谱再减去混响尾部的去混响效果不佳的问题,可以更准确的估计有混响的音频的晚期谱,从而提升去混响效果。
附图说明
[0022]图1是本专利技术实施例提供的一种音频处理方法的流程图;
[0023]图2是本专利技术实施例提供的一种音频处理实例中的流程图;
[0024]图3是本专利技术实施例提供的一种音频处理方法的流程图;
[0025]图4是本专利技术实施例提供的一种目标混响参数估计模型训练过程的流程图;
[0026]图5是本专利技术实施例提供的一种混响参数估计模型的神经网络结构示意图;
[0027]图6是本专利技术实施例提供的一种音频处理装置的结构示意图;
[0028]图7是本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0029]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0030]图1为本专利技术实施例提供的一种音频处理方法的流程图,本实施例可适用于消除音频混响的情形。该方法可以由音频处理装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
[0031]如图1所示,本实施例的音频处理方法包括以下步骤:
[0032]S110、获取待处理音频信号对应的初始幅度谱和初始相位谱。
[0033]待处理音频信号可以是在传播过程中会产生混响信号影响其本身音频信号的音效的音频信号。例如,可以是在室内传播的音频信号,特别是音视频会议或直播场景中的音
频信号。
[0034]在本实施例中并没有采用线性滤波器的方式去预测待处理音频信号的晚期方差谱,而是基于待处理音频信号的频谱信息去预测用于消除混响信号的关键混响消除参数。具体的,在本步骤中则对待处理的音频信号进行预处理得到对应的频谱信息。
[0035]针对所述待处理音频信号,首先,以预设采样点数量为单位对待处理音频信号进行分帧处理,得到多帧音频信号;然后,按照时间顺序将所述多帧音频信号与预设窗函数进行卷积,并对卷积后的信号进行短时傅里叶变换处理,得到频域音频信号;最终,对所述频域音频信号进行取模计算和取相角计算,分别得到所述待处理音频信号的初始幅度谱和初始相位谱。
[0036]示例性的,接收到的待处理音频信号表示为x(t)。首先,对x(t)进行分帧处理,在分帧过程中以M个采样点为单位进行划分将x(t)分为多帧。其中,一帧音频表示为:x(m),m=1,
……
,M。将该帧信号与之前保存的N

M个采样点拼接组成N个采样点,即:x(n),其中:n=1,
……
,N。然后,对N个采样点进行加窗处理,即:将帧信号与预设窗函数ω(k)进行卷积:
[0037][0038]接着对加窗后的N个采样点进行短时傅里叶变换(Short

Time Fourier Transform,STFT),即:
[0039][0040]其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取待处理音频信号对应的初始幅度谱和初始相位谱;将所述初始幅度谱输入到经过训练的目标混响参数估计模型中,得到混响消除参数;根据所述混响消除参数和所述初始幅度谱,预估所述待处理音频信号的晚期混响功率谱;根据所述晚期混响功率谱确定音频处理后的目标音频信号的目标幅度谱中各频点的增益,并基于所述增益和所述初始相位谱对所述待处理音频信号进行音频处理,得到所述目标音频信号。2.根据权利要求1所述的方法,其特征在于,所述目标混响参数估计模型的训练过程,包括:根据预设信噪比参数和预设声源环境参数构造混响样本音频信号,并获取所述混响样本音频信号的幅度谱,作为样本幅度谱;将所述样本幅度谱输入到初始混响参数估计模型中,得到所述混响样本音频信号的混响消除参数估计值;根据所述混响消除参数估计值与对应的混响消除参数真实值之间的误差值,调整所述初始混响参数估计模型的参数,最终训练得到所述目标混响参数估计模型。3.根据权利要求2所述的方法,其特征在于,所述根据预设信噪比参数和预设声源环境参数构造混响样本音频信号,包括:将所述预设声源环境参数输入房间冲激响应模拟器中,得到对应的房间冲激响应,其中,所述预设声源环境参数包括环境大小信息和样本混响时间;根据所述房间冲激响应计算得到样本混响消除参数真实值;在预设纯净音频库中随机选择一条纯净音频信号与所述房间冲激响应进行卷积,并在预设噪声音频库中随机选择一条噪声音频信号;根据所述预设信噪比参数调整经过卷积的纯净音频信号和所述噪声音频信号的功率,并将经过功率调整后的音频信号进行音频叠加,得到混响样本音频信号,并将所述样本混响时间和所述样本混响消除参数真实值为所述混响样本音频信号对应的混响消除参数真实值。4.根据权利要求1

3中任一所述的方法,其特征在于,所述目标混响参数估计模型包括至少一层卷积神经网络、至少一层长短时记忆网络和至少一个前馈神经网络;其中,所述卷积神经网络用于提取所述初始幅度谱的空间特征,所述长短时记忆网络用于提取所述初始幅度谱的时序特征,所述前馈神经网络用于对所述混响消除参数进行估计。5.根据权利要求1所述的方法,其特征在于,所述根据所述混响消除参数和所述初始幅度谱,预估所述待处理音频信号的晚期混响功率谱,包括:根据所述混响消除参数中的混响时间确定指数衰减系数,并根据所述混响消除参数的直达径与反射径比值确定直达反射能量比值系数;根据所述初始幅度谱确定所述待处理音频信号中不同音频帧的音频功率谱,并基...

【专利技术属性】
技术研发人员:马路魏伟
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1