The invention discloses an audio processing method, a device, a storage medium and a terminal, which belongs to the field of multimedia technology. The method includes: to be treated for the first time the conversion of audio signal spectrum; the first spectral signal is decomposed into the original amplitude spectrum and phase spectrum of the original; according to the target speed ratio on the original amplitude spectrum resampling, generate the target amplitude spectrum; the original phase spectrum reconstruction processing, get the target according to the target phase spectrum; the amplitude spectrum and phase spectrum of the target, can be generated according to the target variable multiple target audio playback. The present invention in the audio signal for the spectral signal, and then continue to be decomposed into the amplitude spectrum and phase spectrum, through multiple transmission according to the target of amplitude spectrum resampling, and the phase spectrum reconstruction to ensure continuous phase, so in the processing of synthetic target video after the target video can not only realize the speed changing times, but also has high quality.
【技术实现步骤摘要】
音频处理方法、装置、存储介质及终端
本专利技术涉及多媒体
,特别涉及一种音频处理方法、装置、存储介质及终端。
技术介绍
音频的变速不变调指代的是,针对一定时长的音频,保持音调和语义信息不变,而改变音频的速度。比如将音频进行加快调整处理或者变慢调整处理,使得处理后的音频相较于原始音频实现加快播放或者变慢播放。相关技术在针对音频的变速不变调处理中,通常基于WSOLA(WaveformSimilarityandOverlapAdd,波形相似叠加)算法实现。其中,WSOLA算法是一种基于时域的变速算法,比如经典的soundtouch变速方式便是基于WSOLA算法实现的。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:WSOLA算法不适用于多倍大幅度的音频处理,即在对音频进行多倍变速的变速不变调处理时,会导致音频质量急剧下降。例如,在进行快3倍变速时,音频的波形会多重交叠,从而致使音质模糊;在进行慢3倍变速时,基音断裂严重从而致使音质变渣、导致声音颤抖。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种音频处理方法、装置、存储介质及终端。所述技术方案如下:第一方面,提供了一种音频处理方法,所述方法包括:将待处理音频转换为第一短时频谱信号;将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;根据目标变速倍数对所述原始幅度谱进行重采样处理,生成目标幅度谱;对所述原始相位谱进行重构处理,得到目标相位谱;根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频。在另一个实施例中,所述将待处理音频转换为第一短时频谱信号 ...
【技术保护点】
一种音频处理方法,其特征在于,所述方法包括:将待处理音频转换为第一短时频谱信号;将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;根据目标变速倍数对所述原始幅度谱进行重采样处理,生成目标幅度谱;对所述原始相位谱进行重构处理,得到目标相位谱;根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频。
【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:将待处理音频转换为第一短时频谱信号;将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;根据目标变速倍数对所述原始幅度谱进行重采样处理,生成目标幅度谱;对所述原始相位谱进行重构处理,得到目标相位谱;根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频。2.根据权利要求1所述的方法,其特征在于,所述将待处理音频转换为第一短时频谱信号,包括:对所述待处理音频进行分帧处理,得到分帧后的音频信号;对所述分帧后的音频信号进行加窗处理,并对位于窗口内的音频信号进行短时傅里叶变换,得到所述第一短时频谱信号。3.根据权利要求1所述的方法,其特征在于,所述根据目标变速倍数对所述幅度谱进行重采样处理,生成目标幅度谱,包括:根据所述目标变速倍数,对所述原始幅度谱以帧为单位进行重采样处理,生成所述目标幅度谱。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标变速倍数,对所述原始幅度谱以帧为单位进行重采样处理,包括:根据所述原始幅度谱包含的帧数以及所述目标变速倍数,确定所述目标幅度谱包含的帧数;以帧为单位,对于任一帧对应的各个频率点,根据所述原始幅度谱的第一目标帧以及第二目标帧的相应频率点的幅值,确定所述各个频率点的幅值,得到所述帧的幅度谱;其中,所述第一目标帧为所述原始幅度谱的重采样位置处的前一帧,所述第二目标帧为所述原始幅度谱的重采样位置处的后一帧。5.根据权利要求1所述的方法,其特征在于,所述对所述原始相位谱进行重构处理,得到目标相位谱,包括:根据所述原始相位谱包含的帧数以及所述目标变速倍数,确定所述目标相位谱包含的帧数;对于所述目标相位谱的第一帧,将所述原始相位谱的第一帧的相位谱作为所述目标相位谱的第一帧的相位谱;对于所述目标相位谱中的第m帧,将所述目标相位谱的第m-1帧的相位谱以及目标相位增量的和值作为所述第m帧的相位谱;其中,m的取值大于1,所述目标相位增量为所述原始幅度谱的重采样位置处前一帧以及后一帧的相位差。6.根据权利要求1所述的方法,其特征在于,所述根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频,包括:将所述目标幅度谱以及所述目标相位谱进行合成处理,得到第二短时频谱信号;对所述第二短时频谱信号进行短时傅里叶逆变换,得到中间处理音频信号;对所述中间处理音频信号进行加窗处理以及叠加处理,得到所述可按照所述目标变速倍数播放的目标音频。7.一种音频处理装置,其特征在于,所述装置包括:转换模块,用于将待处理音频转换为第一短时频谱信号;分解模块,用于将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;第一处...
【专利技术属性】
技术研发人员:肖纯智,
申请(专利权)人:广州酷狗计算机科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。