音频处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:24582925 阅读:69 留言:0更新日期:2020-06-21 01:22
本申请公开了一种音频处理方法,包括:获取歌曲音频以及该歌曲音频对应的伴奏音频;若该歌曲音频和该伴奏音频的采样率不一致,则对该歌曲音频和该伴奏音频的采样率进行预设处理,以使该歌曲音频和该伴奏音频的采样率一致;对采样率一致的该歌曲音频和该伴奏音频进行音频特征检测,得到音频特征检测结果;提取该歌曲音频的第一音频指纹信息以及该伴奏音频的第二音频指纹信息,并对该第一音频指纹信息和该第二音频指纹信息进行匹配,得到音频指纹信息匹配结果;根据该音频特征检测结果和该音频指纹信息匹配结果,输出该歌曲音频和该伴奏音频的时间偏移值。本申请可以准确检测出完整歌曲和相应的伴奏之间的时间偏移值。

Audio processing method, device, storage medium and electronic equipment

【技术实现步骤摘要】
音频处理方法、装置、存储介质及电子设备
本申请属于音频
,尤其涉及一种音频处理方法、装置、存储介质及电子设备。
技术介绍
目前,用户可以利用诸如智能手机等终端设备提供的伴奏音频来录制自己演唱的歌曲。但是,如果该伴奏音频与完整的歌曲音频在时间上存在偏移,那么用户利用该伴奏音频录制的歌曲相对于完整的歌曲音频也将出现时间偏移,即如果同时播放用户录制的歌曲和完整歌曲的话,这二者在步调上会出现不同步的问题。相关技术中,无法准确地对完整歌曲和其相应的伴奏音频存在的时间偏移进行检测。
技术实现思路
本申请实施例提供一种音频处理方法、装置、存储介质及电子设备,可以有效检测出完整的歌曲音频和相应的伴奏音频存在的时间偏移值。本申请实施例提供一种音频处理方法,包括:获取歌曲音频以及所述歌曲音频对应的伴奏音频;若所述歌曲音频和所述伴奏音频的采样率不一致,则对所述歌曲音频和所述伴奏音频的采样率进行预设处理,以使所述歌曲音频和所述伴奏音频的采样率一致;对采样率一致的所述歌曲音频和所述伴奏音频进行音频特征检测,得到音频特征检测结果,所述音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种;提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息,并对所述第一音频指纹信息和所述第二音频指纹信息进行匹配,得到音频指纹信息匹配结果;根据所述音频特征检测结果和所述音频指纹信息匹配结果,输出所述歌曲音频和所述伴奏音频的时间偏移值。本申请实施例提供一种音频处理装置,包括:获取单元,用于获取歌曲音频以及所述歌曲音频对应的伴奏音频;处理单元,用于若所述歌曲音频和所述伴奏音频的采样率不一致,则对所述歌曲音频和所述伴奏音频的采样率进行预设处理,以使所述歌曲音频和所述伴奏音频的采样率一致;检测单元,用于对采样率一致的所述歌曲音频和所述伴奏音频进行音频特征检测,得到音频特征检测结果,所述音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种;匹配单元,用于提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息,并对所述第一音频指纹信息和所述第二音频指纹信息进行匹配,得到音频指纹信息匹配结果;判断单元,用于根据所述音频特征检测结果和所述音频指纹匹配结果,输出所述歌曲音频和所述伴奏音频的时间偏移值。本申请实施例提供一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行本申请实施例提供的音频处理方法中的流程。本申请实施例还提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本申请实施例提供的音频处理方法中的流程。本申请实施例中,由于对歌曲音频和伴奏音频进行的包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种在内的音频特征检测结果,以及音频指纹信息匹配结果,均可以表示歌曲音频和伴奏音频存在时间偏移的可能性大小。并且,通过音频指纹信息匹配结果电子设备可以输出该歌曲音频和该伴奏音频的具体的时间偏移值。因此,电子设备可以通过音频特征检测以及音频指纹信息匹配来有效地判定歌曲音频和伴奏音频是否存在时间偏移,以及具体的时间偏移值。附图说明下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其有益效果显而易见。图1是本申请实施例提供的音频处理方法的流程示意图。图2A是本申请实施例提供的音频处理方法的另一流程示意图。图2B是本申请实施例提供的电子设备对歌曲和伴奏进行音频帧功率差检测的流程示意图。图2C是本申请实施例提供的电子设备对歌曲和伴奏进行端点静音时长差检测的流程示意图。图2D为本申请实施例提供的电子设备对歌曲和伴奏进行鼓点同步数量检测的流程示意图。图3A至图3D是本申请实施例提供的音频处理方法的场景示意图。图4是本申请实施例提供的音频处理装置的结构示意图。图5是本申请实施例提供的电子设备的结构示意图。图6是本申请实施例提供的电子设备的另一结构示意图。具体实施方式请参照图示,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。可以理解的是,本申请实施例的执行主体可以是诸如智能手机或平板电脑等的电子设备。请参阅图1,图1是本申请实施例提供的音频处理方法的流程示意图,流程可以包括:101、获取歌曲音频以及该歌曲音频对应的伴奏音频。伴奏是指伴随衬托歌曲的器乐演奏。一般的,将完整歌曲(或称之为原唱歌曲)中歌手的人声部分消除后得到的音乐即为伴奏。相关技术中可以利用人声分离等消音处理技术对完整歌曲进行消音处理,从而得到歌曲消音后的伴奏。用户可以利用诸如智能手机等终端设备提供的伴奏音频来录制自己演唱的歌曲。但是,如果该伴奏音频与完整的歌曲音频在时间上存在偏移,那么用户利用该伴奏音频录制的歌曲相对于完整的歌曲音频也将出现时间偏移,即如果同时播放用户录制的歌曲和完整歌曲的话,这二者在步调上会出现不同步的问题。例如,在完整歌曲中播放到第10秒出现歌词A和伴奏B,但在用户利用伴奏音频录制的歌曲中直到第12秒才出现歌词A和伴奏B,即二者存在时间偏移。又如,完整歌曲的播放时长一共有5分钟,但伴奏音频的播放时长只有4分30秒(例如伴奏音频是从完整歌曲中截取的一部分),那么利用该伴奏音频录制的歌曲也将只有4份30秒。显然这将导致用户利用该伴奏音频录制的歌曲与完整歌曲在步调上不同步,即二者存在时间偏移。然而,相关技术中,无法准确地对完整歌曲和其相应的伴奏音频存在的时间偏移进行检测。在本申请实施例的101中,比如,电子设备可以先获取需要进行时间偏移检测的歌曲音频以及该歌曲音频对应的伴奏音频。可以理解的是,该歌曲音频可以为包含歌手的人声和伴奏的音频(即完整歌曲),该伴奏音频为不包含歌手人声的音频,例如该伴奏音频为将完整歌曲中歌手的人声部分消除后得到的音频。在本申请实施例中,歌曲音频和伴奏音频的格式、大小、声道数、码率、采样率等不限。例如,歌曲音频和伴奏音频的格式可以是mp3、flac、wav、ogg等格式中的任意一种。歌曲音频和伴奏音频可以是单声道、双声道或多声道等。歌曲音频和伴奏音频的码率可以是128kpbs或256kpbs等。歌曲音频和伴奏音频的采样率可以是16kHz、44.1kHz或48kHz等等。在获取到歌曲音频和对应的伴奏音频后,电子设备可以检测该歌曲音频和该伴奏音频的采样率是否一致。如果检测到该歌曲音频和该伴奏音频的采样率不一致,那么可以进入102中。如果检测到该歌曲音频和该伴奏音频的采样率一致,那么可以直接进入103中。102、本文档来自技高网...

【技术保护点】
1.一种音频处理方法,其特征在于,包括:/n获取歌曲音频以及所述歌曲音频对应的伴奏音频;/n若所述歌曲音频和所述伴奏音频的采样率不一致,则对所述歌曲音频和所述伴奏音频的采样率进行预设处理,以使所述歌曲音频和所述伴奏音频的采样率一致;/n对采样率一致的所述歌曲音频和所述伴奏音频进行音频特征检测,得到音频特征检测结果,所述音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种;/n提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息,并对所述第一音频指纹信息和所述第二音频指纹信息进行匹配,得到音频指纹信息匹配结果;/n根据所述音频特征检测结果和所述音频指纹信息匹配结果,输出所述歌曲音频和所述伴奏音频的时间偏移值。/n

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:
获取歌曲音频以及所述歌曲音频对应的伴奏音频;
若所述歌曲音频和所述伴奏音频的采样率不一致,则对所述歌曲音频和所述伴奏音频的采样率进行预设处理,以使所述歌曲音频和所述伴奏音频的采样率一致;
对采样率一致的所述歌曲音频和所述伴奏音频进行音频特征检测,得到音频特征检测结果,所述音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种;
提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息,并对所述第一音频指纹信息和所述第二音频指纹信息进行匹配,得到音频指纹信息匹配结果;
根据所述音频特征检测结果和所述音频指纹信息匹配结果,输出所述歌曲音频和所述伴奏音频的时间偏移值。


2.根据权利要求1所述的音频处理方法,其特征在于,提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息,包括:
将所述歌曲音频划分为多个歌曲音频帧,得到歌曲音频帧序列;
获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹信息,得到对应的歌曲音频指纹信息序列,并将所述歌曲音频指纹信息序列确定为第一音频指纹信息;
将所述伴奏音频划分为多个伴奏音频帧,得到伴奏音频帧序列;
获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹信息,得到对应的伴奏音频指纹信息序列,并将所述伴奏音频指纹信息序列确定为第二音频指纹信息。


3.根据权利要求2所述的音频处理方法,其特征在于,获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹信息,得到对应的歌曲音频指纹信息序列,包括:获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹,并获取每一歌曲音频帧的音频指纹所对应的哈希值,将每一歌曲音频帧对应的哈希值确定为每一歌曲音频帧的音频指纹信息,得到对应的第一哈希值序列,将所述第一哈希值序列确定为对应的歌曲音频指纹信息序列;
获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹信息,得到对应的伴奏音频指纹信息序列,包括:获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹,并获取每一伴奏音频帧的音频指纹所对应的哈希值,将每一伴奏音频帧对应的哈希值确定为每一伴奏音频帧的音频指纹信息,得到对应的第二哈希值序列,将所述第二哈希值序列确定为对应的伴奏音频指纹信息序列;
对所述第一音频指纹信息和所述第二音频指纹信息进行匹配,得到音频指纹信息匹配结果,包括:对所述第一哈希值序列和所述第二哈希值序列进行匹配,得到对应的匹配结果,并将所述对应的匹配结果确定为音频指纹信息匹配结果。


4.根据权利要求2或3所述的音频处理方法,其特征在于,所述将所述歌曲音频划分为多个歌曲音频帧,得到歌曲音频帧序列,包括:将所述歌曲音频进行降采样,将降采样后的歌曲音频划分为多个歌曲音频帧,得到歌曲音频帧序列;
所述将所述伴奏音频划分为多个伴奏音频帧,得到伴奏音频帧序列,包括:将所述伴奏音频进行降采样,将降采样后的伴奏音频划分为多个伴奏音频帧,得到伴奏音频帧序列;
其中,所述降采样后的歌曲音频和所述降采样后的伴奏音频的采样率一致。


5.根据权利要求4所述的音频处理方法,其特征在于,所述歌曲音频帧序列中顺序相邻的前后两帧具有第一重叠率,并且所述伴奏音频帧序列中顺序相邻的前后两帧具有所述第一重叠率。


6.根据权利要求3所述的音频处理方法,其特征在于,对所述第一哈希值序列和所述第二哈希值序列进行匹配,得到对应的匹配结果,并将所述对应的匹配结果确定为音频指纹信息匹配结果,包括:
获取多个偏移值,每一所述偏移值为整数;
按照每一所述偏移值,将所述第一哈希值序列和所述第二哈希值序列中的哈希值进行匹配,其中,进行匹配的每两个哈希值的位次相差所...

【专利技术属性】
技术研发人员:徐东
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1