音频处理方法、装置、设备及存储介质制造方法及图纸

技术编号:29050871 阅读:12 留言:0更新日期:2021-06-26 06:14
本公开实施例提供一种音频处理方法、装置、设备及存储介质,该方法包括:对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。本公开实施例提供的音频处理方法、装置、设备及存储介质,结合时域和频域的分析处理对爆破音进行层进高效检测,有效节约了计算量,提高了音频处理效率,能够快速、准确地检测出爆破音并进行平滑处理,有效提升用户的听感。有效提升用户的听感。有效提升用户的听感。

【技术实现步骤摘要】
音频处理方法、装置、设备及存储介质


[0001]本公开实施例涉及音频处理
,尤其涉及一种音频处理方法、装置、设备及存储介质。

技术介绍

[0002]爆破音是指音频里面出现的刺耳卡顿等噪音,产生的原因主要包括音频数据点的截波、音频算法处理漏洞以及设备或者网络延迟等。
[0003]在一些技术中,可以使用频谱分析来检测音频中存在的爆破音,以提高音频播放效果。但是,频谱分析的计算成本较高,效率低下。

技术实现思路

[0004]本公开实施例提供一种音频处理方法、装置、设备及存储介质,以解决对音频数据的处理效率低下的技术问题。
[0005]第一方面,本公开实施例提供一种音频处理方法,包括:
[0006]对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;
[0007]对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;
[0008]若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
[0009]第二方面,本公开实施例提供一种音频处理装置,包括:
[0010]时域分析模块,用于对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;
[0011]频域分析模块,用于对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;
[0012]处理模块,用于在存在爆破音时,对所述爆破音候选点进行平滑处理,得到处理后的音频数据。
[0013]第三方面,本公开实施例提供一种电子设备,包括:存储器和至少一个处理器;
[0014]所述存储器存储计算机执行指令;
[0015]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面所述的音频处理方法。
[0016]第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面所述的音频处理方法。
[0017]第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面所述的音频处理方法。
[0018]本公开实施例提供的音频处理方法、装置、设备及存储介质,通过对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点,对所述爆破音候选点所在的音频帧
进行频域分析处理,确定所述爆破音候选点是否存在爆破音,若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据,能够结合时域和频域的分析处理对爆破音进行层进高效检测,先从时域上进行初步过滤,找出可能存在爆破音的位置,再进一步进行频域分析,检测是否存在爆破音,有效节约了计算量,提高了音频处理效率,从而快速、准确地检测出爆破音并进行平滑处理,有效提升用户的听感。
附图说明
[0019]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0020]图1为本公开实施例提供的一种应用场景示意图;
[0021]图2为本公开实施例提供的一种音频处理方法的流程示意图;
[0022]图3为本公开实施例提供的一种卡顿截断候选点和卡顿截出候选点的示意图;
[0023]图4为本公开实施例提供的一种选取关键音频帧的示意图;
[0024]图5为本公开实施例提供的一种施加淡出窗的效果示意图;
[0025]图6为本公开实施例提供的一种施加淡入窗的效果示意图;
[0026]图7为本公开实施例提供的一种同步淡入淡出时施加的淡入窗和淡出窗的示意图;
[0027]图8为本公开实施例提供的另一种音频处理方法的流程示意图;
[0028]图9为本公开实施例提供的一种音频处理装置的结构框图;
[0029]图10为本公开实施例提供的一种电子设备的结构框图。
具体实施方式
[0030]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
[0031]图1为本公开实施例提供的一种应用场景示意图。如图1所示,用户设备1和用户设备2之间进行音频通话,用户设备1将音频数据发送到服务器,服务器再将音频数据发送给用户设备2,用户设备2可以对音频数据进行处理并播放给用户。在一些场景中,也可以减少图中的部分设备或增加其它设备,例如可以省略服务器或用户设备1。
[0032]由于设备和网络性能限制等原因,用户设备获取到的音频数据中常常会存在爆破音,影响用户听感。
[0033]在一些技术中,可以基于短时傅里叶变换(Short

Time Fourier Transform,STFT)与频谱分析,探测频谱上突然出现的竖线形状或突然出现的短促高频能量,从而实现爆破音检测。这种方法一方面进行频谱分析的计算成本较高,另一方面短时傅里叶变换时爆破音在分析窗的位置可能影响到探测结果的准确度。
[0034]有鉴于此,本公开实施例提供一种音频处理方法,可以先对音频数据进行时域分
析处理,找出可能存在爆破音的候选点,并进一步基于候选点对音频帧进行频域分析处理,确定是否存在爆破音,在存在爆破音时,对爆破音进行平滑处理,得到处理后的音频数据并播放,能够结合时域和频域的分析处理对爆破音进行层进高效检测,先从时域上进行初步过滤,找出可能存在爆破音的位置,再进一步进行频域分析检测实际的爆破音,有效节约了计算量,提高了音频处理效率,能够快速、准确地检测出爆破音并进行平滑处理,有效提升用户的听感。
[0035]下面结合附图,对本公开的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0036]图2为本公开实施例提供的一种音频处理方法的流程示意图。本实施例中的方法可以应用于播放音频的设备,例如图1中的用户设备。如图2所示,所述音频处理方法可以包括:
[0037]步骤201、对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点。
[0038]其中,本公开实施例中所述的爆破音,可以是指音频里面出现的刺耳卡顿等噪音,常常因为设备的稳定性、网络延迟、算法漏洞出现。所述音频数据可以是待播放的音频数据,可以是从其它设备获取的,也可以是本地生成的。所述音频数据中可以包括多个采样点,所述爆破音候选点可以是指可能存在爆破音的采样点。
[0039]对于待处理的音频数据,可以基于时域分析处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点;对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音;若存在爆破音,则对所述爆破音候选点进行平滑处理,得到处理后的音频数据。2.根据权利要求1所述的方法,其特征在于,对音频数据进行时域分析处理,确定所述音频数据中的爆破音候选点,包括:获取所述音频数据中的各采样点的幅值;根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点。3.根据权利要求2所述的方法,其特征在于,所述爆破音候选点包括卡顿截断候选点和/或卡顿截出候选点;根据任一采样点的幅值以及该采样点在时域上的相邻采样点的幅值,确定该采样点是否为爆破音候选点,包括:若检测到任一采样点的幅值的绝对值大于相邻多个采样点的绝对幅值均值的第一预设倍数,则确定该采样点为爆破音候选点,其中,所述绝对幅值均值为所述相邻多个采样点的幅值的平均值的绝对值,所述相邻多个采样点为时域上与该采样点距离最近的多个采样点;和/或,若检测到任一采样点的幅值的绝对值大于第一预设阈值,且该采样点的后N个采样点的幅值均为零,则确定该采样点为卡顿截断候选点;和/或,若检测到任一采样点的幅值的绝对值大于第二预设阈值,且该采样点的前M个采样点的幅值均为零,则确定该采样点为卡顿截出候选点;其中,M和N均为大于1的整数。4.根据权利要求1

3任一项所述的方法,其特征在于,对所述爆破音候选点所在的音频帧进行频域分析处理,确定所述爆破音候选点是否存在爆破音,包括:以所述爆破音候选点为中心选取关键音频帧;根据帧移确定所述关键音频帧的前一音频帧和后一音频帧;对所述关键音频帧、所述前一音频帧及所述后一音频帧分别加窗并进行短时傅里叶变换,得到每一帧对应的频域信息;根据所述频域信息确定所述爆破音候选点是否存在爆破音。5.根据权利要求4所述的方法,其特征在于,根据所述频域信息确定所述爆破音候选点是否存在爆破音,包括:根据所述频域信息,计算所述关键音频帧、所述前一音频帧及所述后一音频帧中每一帧对应的高频能量;若所述关键音频帧的高频能量大于能量阈值,且大于所述前一音频帧与后一音频帧的平均高频能量的第二预设倍数,则确定所述爆破音候选点存在爆破音。6.根据权利要求3所述的方法,其特征在于,对所述爆破音候选点进行平滑处理,包括:若所述爆破音候选点为卡顿截断候选点,则对所述爆破音候选点进行淡出处理;和/或,
若所述爆破音候选点为卡顿截出候选点,则对所述爆破音候选点进行淡入处理;和/或,若...

【专利技术属性】
技术研发人员:刘琨周新权
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1