音频处理方法、装置、存储介质及终端制造方法及图纸

技术编号:17394908 阅读:73 留言:0更新日期:2018-03-04 18:23
本发明专利技术公开了一种音频处理方法、装置、存储介质及终端,属于多媒体技术领域。所述方法包括:将待处理音频转换为第一短时频谱信号;将第一短时频谱信号分解为原始幅度谱和原始相位谱;根据目标变速倍数对原始幅度谱进行重采样处理,生成目标幅度谱;对原始相位谱进行重构处理,得到目标相位谱;根据目标幅度谱以及目标相位谱,生成可按照目标变速倍数播放的目标音频。本发明专利技术在将音频信号转换为短时频谱信号后,再继续将其分解为幅度谱和相位谱,以通过按照目标变速倍数来对幅度谱进行重采样,并通过对相位谱进行重构来保证相位的连续性,这样在进行上述处理合成目标视频后,目标视频不但可以实现多倍的变速不变调,而且还具有高质量。

Audio processing method, device, storage medium and terminal

The invention discloses an audio processing method, a device, a storage medium and a terminal, which belongs to the field of multimedia technology. The method includes: to be treated for the first time the conversion of audio signal spectrum; the first spectral signal is decomposed into the original amplitude spectrum and phase spectrum of the original; according to the target speed ratio on the original amplitude spectrum resampling, generate the target amplitude spectrum; the original phase spectrum reconstruction processing, get the target according to the target phase spectrum; the amplitude spectrum and phase spectrum of the target, can be generated according to the target variable multiple target audio playback. The present invention in the audio signal for the spectral signal, and then continue to be decomposed into the amplitude spectrum and phase spectrum, through multiple transmission according to the target of amplitude spectrum resampling, and the phase spectrum reconstruction to ensure continuous phase, so in the processing of synthetic target video after the target video can not only realize the speed changing times, but also has high quality.

【技术实现步骤摘要】
音频处理方法、装置、存储介质及终端
本专利技术涉及多媒体
,特别涉及一种音频处理方法、装置、存储介质及终端。
技术介绍
音频的变速不变调指代的是,针对一定时长的音频,保持音调和语义信息不变,而改变音频的速度。比如将音频进行加快调整处理或者变慢调整处理,使得处理后的音频相较于原始音频实现加快播放或者变慢播放。相关技术在针对音频的变速不变调处理中,通常基于WSOLA(WaveformSimilarityandOverlapAdd,波形相似叠加)算法实现。其中,WSOLA算法是一种基于时域的变速算法,比如经典的soundtouch变速方式便是基于WSOLA算法实现的。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:WSOLA算法不适用于多倍大幅度的音频处理,即在对音频进行多倍变速的变速不变调处理时,会导致音频质量急剧下降。例如,在进行快3倍变速时,音频的波形会多重交叠,从而致使音质模糊;在进行慢3倍变速时,基音断裂严重从而致使音质变渣、导致声音颤抖。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种音频处理方法、装置、存储介质及终端。所述技术方案如下:第一方面,提供了一种音频处理方法,所述方法包括:将待处理音频转换为第一短时频谱信号;将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;根据目标变速倍数对所述原始幅度谱进行重采样处理,生成目标幅度谱;对所述原始相位谱进行重构处理,得到目标相位谱;根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频。在另一个实施例中,所述将待处理音频转换为第一短时频谱信号,包括:对所述待处理音频进行分帧处理,得到分帧后的音频信号;对所述分帧后的音频信号进行加窗处理,并对位于窗口内的音频信号进行短时傅里叶变换,得到所述第一短时频谱信号。在另一个实施例中,所述根据目标变速倍数对所述幅度谱进行重采样处理,生成目标幅度谱,包括:根据所述目标变速倍数,对所述原始幅度谱以帧为单位进行重采样处理,生成所述目标幅度谱。在另一个实施例中,所述根据所述目标变速倍数,对所述原始幅度谱以帧为单位进行重采样处理,包括:根据所述原始幅度谱包含的帧数以及所述目标变速倍数,确定所述目标幅度谱包含的帧数;以帧为单位,对于任一帧对应的各个频率点,根据所述原始幅度谱的第一目标帧以及第二目标帧的相应频率点的幅值,确定所述各个频率点的幅值,得到所述帧的幅度谱;其中,所述第一目标帧为所述原始幅度谱的重采样位置处的前一帧,所述第二目标帧为所述原始幅度谱的重采样位置处的后一帧。在另一个实施例中,所述对所述原始相位谱进行重构处理,得到目标相位谱,包括:根据所述原始相位谱包含的帧数以及所述目标变速倍数,确定所述目标相位谱包含的帧数;对于所述目标相位谱的第一帧,将所述原始相位谱的第一帧的相位谱作为所述目标相位谱的第一帧的相位谱;对于所述目标相位谱中的第m帧,将所述目标相位谱的第m-1帧的相位谱以及目标相位增量的和值作为所述第m帧的相位谱;其中,m的取值大于1,所述目标相位增量为所述原始幅度谱的重采样位置处前一帧以及后一帧的相位差。在另一个实施例中,所述根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频,包括:将所述目标幅度谱以及所述目标相位谱进行合成处理,得到第二短时频谱信号;对所述第二短时频谱信号进行短时傅里叶逆变换,得到中间处理音频信号;对所述中间处理音频信号进行加窗处理以及叠加处理,得到所述可按照所述目标变速倍数播放的目标音频。第二方面,提供了一种音频处理装置,所述装置包括:转换模块,用于将待处理音频转换为第一短时频谱信号;分解模块,用于将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;第一处理模块,用于根据目标变速倍数对所述原始幅度谱进行重采样处理,生成目标幅度谱;第二处理模块,用于对所述原始相位谱进行重构处理,得到目标相位谱;生成模块,用于根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频。在另一个实施例中,所述转换模块,用于对所述待处理音频进行分帧处理,得到分帧后的音频信号;对所述分帧后的音频信号进行加窗处理,并对位于窗口内的音频信号进行短时傅里叶变换,得到所述第一短时频谱信号。在另一个实施例中,所述第一处理模块,用于根据所述目标变速倍数,对所述原始幅度谱以帧为单位进行重采样处理,生成所述目标幅度谱。在另一个实施例中,所述第一处理模块,用于根据所述原始幅度谱包含的帧数以及所述目标变速倍数,确定所述目标幅度谱包含的帧数;以帧为单位,对于任一帧对应的各个频率点,根据所述原始幅度谱的第一目标帧以及第二目标帧的相应频率点的幅值,确定所述各个频率点的幅值,得到所述帧的幅度谱;其中,所述第一目标帧为所述原始幅度谱的重采样位置处的前一帧,所述第二目标帧为所述原始幅度谱的重采样位置处的后一帧。在另一个实施例中,所述第二处理模块,用于根据所述原始相位谱包含的帧数以及所述目标变速倍数,确定所述目标相位谱包含的帧数;对于所述目标相位谱的第一帧,将所述原始相位谱的第一帧的相位谱作为所述目标相位谱的第一帧的相位谱;对于所述目标相位谱中的第m帧,将所述目标相位谱的第m-1帧的相位谱以及目标相位增量的和值作为所述第m帧的相位谱;其中,m的取值大于1,所述目标相位增量为所述原始幅度谱的重采样位置处前一帧以及后一帧的相位差。在另一个实施例中,所述生成模块,用于将所述目标幅度谱以及所述目标相位谱进行合成处理,得到第二短时频谱信号;对所述第二短时频谱信号进行短时傅里叶逆变换,得到中间处理音频信号;对所述中间处理音频信号进行加窗处理以及叠加处理,得到所述可按照所述目标变速倍数播放的目标音频。第三方面,提供了一种存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的音频处理方法。第四方面,提供了一种用于音频处理的终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的音频处理方法。本专利技术实施例提供的技术方案带来的有益效果是:在将音频信号转换为短时频谱信号后,再继续将其分解为幅度谱和相位谱,以通过按照目标变速倍数来对幅度谱进行重采样,并通过对相位谱进行重构来保证相位的连续性,这样在进行上述处理合成目标视频后,目标视频不但可以实现多倍的变速不变调,而且还具有高质量。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种音频处理方法的流程图;图2是本专利技术实施例提供的一种音频处理装置的结构示意图;图3是本专利技术实施例提供的一种用于音频处理的终端的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。在对本专利技术实施例进行详本文档来自技高网...
音频处理方法、装置、存储介质及终端

【技术保护点】
一种音频处理方法,其特征在于,所述方法包括:将待处理音频转换为第一短时频谱信号;将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;根据目标变速倍数对所述原始幅度谱进行重采样处理,生成目标幅度谱;对所述原始相位谱进行重构处理,得到目标相位谱;根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频。

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:将待处理音频转换为第一短时频谱信号;将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;根据目标变速倍数对所述原始幅度谱进行重采样处理,生成目标幅度谱;对所述原始相位谱进行重构处理,得到目标相位谱;根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频。2.根据权利要求1所述的方法,其特征在于,所述将待处理音频转换为第一短时频谱信号,包括:对所述待处理音频进行分帧处理,得到分帧后的音频信号;对所述分帧后的音频信号进行加窗处理,并对位于窗口内的音频信号进行短时傅里叶变换,得到所述第一短时频谱信号。3.根据权利要求1所述的方法,其特征在于,所述根据目标变速倍数对所述幅度谱进行重采样处理,生成目标幅度谱,包括:根据所述目标变速倍数,对所述原始幅度谱以帧为单位进行重采样处理,生成所述目标幅度谱。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标变速倍数,对所述原始幅度谱以帧为单位进行重采样处理,包括:根据所述原始幅度谱包含的帧数以及所述目标变速倍数,确定所述目标幅度谱包含的帧数;以帧为单位,对于任一帧对应的各个频率点,根据所述原始幅度谱的第一目标帧以及第二目标帧的相应频率点的幅值,确定所述各个频率点的幅值,得到所述帧的幅度谱;其中,所述第一目标帧为所述原始幅度谱的重采样位置处的前一帧,所述第二目标帧为所述原始幅度谱的重采样位置处的后一帧。5.根据权利要求1所述的方法,其特征在于,所述对所述原始相位谱进行重构处理,得到目标相位谱,包括:根据所述原始相位谱包含的帧数以及所述目标变速倍数,确定所述目标相位谱包含的帧数;对于所述目标相位谱的第一帧,将所述原始相位谱的第一帧的相位谱作为所述目标相位谱的第一帧的相位谱;对于所述目标相位谱中的第m帧,将所述目标相位谱的第m-1帧的相位谱以及目标相位增量的和值作为所述第m帧的相位谱;其中,m的取值大于1,所述目标相位增量为所述原始幅度谱的重采样位置处前一帧以及后一帧的相位差。6.根据权利要求1所述的方法,其特征在于,所述根据所述目标幅度谱以及所述目标相位谱,生成可按照所述目标变速倍数播放的目标音频,包括:将所述目标幅度谱以及所述目标相位谱进行合成处理,得到第二短时频谱信号;对所述第二短时频谱信号进行短时傅里叶逆变换,得到中间处理音频信号;对所述中间处理音频信号进行加窗处理以及叠加处理,得到所述可按照所述目标变速倍数播放的目标音频。7.一种音频处理装置,其特征在于,所述装置包括:转换模块,用于将待处理音频转换为第一短时频谱信号;分解模块,用于将所述第一短时频谱信号分解为原始幅度谱和原始相位谱;第一处...

【专利技术属性】
技术研发人员:肖纯智
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1