一种音频信息处理方法及终端技术

技术编号:13290368 阅读:161 留言:0更新日期:2016-07-09 09:03
本发明专利技术公开了一种音频信息处理方法及终端,包括:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,尤其涉及一种音频信息处理方法及终端
技术介绍
传统的具有伴奏功能的音频文件一般具有两个声道,一个是原声声道(伴奏+人声)、一个是伴奏声道,用于在用户k歌时进行切换,但由于没有固定标准,不同渠道获取的音频文件版本不一致,有的第一声道是伴奏,有的是第二声道是伴奏,导致在得到这些音频文件后无法确认哪一个声道是伴奏声道,通常需要人工识别或设备自动分辨后将其调整为统一格式后才能上线。然而,若通过人工过滤,效率低、成本高;而很多伴奏音频存在大量的人声伴唱等原因,采用设备分辨的方式正确率不高。对于上述问题,目前尚无有效解决方案。
技术实现思路
本专利技术实施例提供一种音频信息处理方法及终端,至少解决了现有技术中存在的问题,能够高效、准确的分辨音频文件对应的伴奏声道。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种音频信息处理方法,所述方法包括:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。上述方案中,所述方法还包括:分别对预设的多个音频文件进行频谱特征提取;对提取的频谱特征采用误差反向传播(BP)算法训练得到深度神经网络(DNN)模型;所述从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据,包括:采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。上述方案中,所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。上述方案中,所述方法还包括:对预设的多个音频文件进行感知线性预测(PLP)特征参数提取;基于提取的PLP特征参数采用最大期望(EM)算法训练得到混合高斯模型(GMM);所述采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道;判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值;当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时,确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。上述方案中,所述方法还包括:当判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时,输出提示信息。上述方案中,所述第一音频数据表征所述第一声道输出的人声音频,所述第二音频数据表征所述第二声道输出的人声音频;所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道,包括:基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出伴奏音频的声道。上述方案中,所述确定所述第一声道或所述第二声道为满足特定属性需求的声道之后,所述方法还包括:标记所述满足特定属性需求的声道;确定需要进行声道切换时,基于对所述满足特定属性需求的声道的标记进行声道的切换;或者,将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道。本专利技术实施例还提供了一种终端,所述终端包括:解码模块、提取模块、获取模块及处理模块;其中,所述解码模块,用于对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;所述提取模块,用于从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;所述获取模块,用于获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;所述处理模块,用于基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。上述方案中,所述终端还包括第一模型训练模块,用于分别对预设的多个音频文件进行频谱特征提取;对提取的频谱特征采用误差反向传播(BP)算法训练得到深度神经网络(DNN)模型;所述提取模块,还用于采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据。上述方案中,所述处理模块,还用于检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道;或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。上述方案中,所述终端还包括第二模型训练模块,用于对预设的多个音频文件进行感知线性预测(PLP)特征参数提取;基于提取的PLP特征参数采用最大期望(EM)算法训练得到混合高斯模型(GMM);所述处理模块,还用于采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道;判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值;当判断结果为所述初步满足特定属性需求的声本文档来自技高网...

【技术保护点】
一种音频信息处理方法,其特征在于,所述方法包括:对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件;从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性相同;获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的第二音频能量值;基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所述第二声道为满足特定属性需求的声道。

【技术特征摘要】
1.一种音频信息处理方法,其特征在于,所述方法包括:
对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表
征第二声道输出的第二音频子文件;
从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频子文
件中提取出第二音频数据;所述第一音频数据和所述第二音频数据表征的属性
相同;
获取所述第一音频数据的第一音频能量值,以及获取所述第二音频数据的
第二音频能量值;
基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道或所
述第二声道为满足特定属性需求的声道。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分别对预设的多个音频文件进行频谱特征提取;
对提取的频谱特征采用误差反向传播BP算法训练得到深度神经网络DNN
模型;
所述从所述第一音频子文件中提取出第一音频数据,以及从所述第二音频
子文件中提取出第二音频数据,包括:
采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据,
以及从所述第二音频子文件中提取出第二音频数据。
3.根据权利要求1或2所述的方法,其特征在于,
所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道
或所述第二声道为满足特定属性需求的声道,包括:
检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差
阈值时,确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所
述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件,所述满
足特定属性需求的音频子文件对应的声道为满足特定需求的声道;
或者,检测到所述第一音频能量值及所述第二音频能量值的差值不大于预
设能量差阈值时,采用预设分类方法确定所述第一声道或所述第二声道为满足
特定属性需求的声道。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对预设的多个音频文件进行感知线性预测PLP特征参数提取;
基于提取的PLP特征参数采用最大期望EM算法训练得到混合高斯模型
GMM;
所述采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性
需求的声道,包括:
采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定
属性需求的声道;
判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声
道对应的音频能量值;
当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另
一声道对应的音频能量值时,确定所述初步满足特定属性需求的声道为满足特
定属性需求的声道。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所
述另一声道对应的音频能量值时,输出提示信息。
6.根据权利要求1所述的方法,其特征在于,所述第一音频数据表征所述
第一声道输出的人声音频,所述第二音频数据表征所述第二声道输出的人声音
频;
所述基于所述第一音频能量值及所述第二音频能量值,确定所述第一声道
或所述第二声道为满足特定属性需求的声道,包括:
基于所述第一声道输出的人声音频的第一音频能量值,以及所述第二声道
输出的人声音频的第二音频能量值,确定所述第一声道或所述第二声道为输出
伴奏音频的声道。
7.根据权利要求1所述的方法,其特征在于,所述确定所述第一声道或所
述第二声道为满足特定属性需求的声道之后,所述方法还包括:
标记所述满足特定属性需求的声道;
确定需要进行声道切换时,基于对所述满足特定属性需求的声道的标记进<...

【专利技术属性】
技术研发人员:赵伟峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1