一种音频信息处理方法及终端技术

技术编号：13290368 阅读：173 留言：0更新日期：2016-07-09 09:03

本发明专利技术公开了一种音频信息处理方法及终端，包括：对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理技术，尤其涉及一种音频信息处理方法及终端。
技术介绍
传统的具有伴奏功能的音频文件一般具有两个声道，一个是原声声道(伴奏+人声)、一个是伴奏声道，用于在用户k歌时进行切换，但由于没有固定标准，不同渠道获取的音频文件版本不一致，有的第一声道是伴奏，有的是第二声道是伴奏，导致在得到这些音频文件后无法确认哪一个声道是伴奏声道，通常需要人工识别或设备自动分辨后将其调整为统一格式后才能上线。然而，若通过人工过滤，效率低、成本高；而很多伴奏音频存在大量的人声伴唱等原因，采用设备分辨的方式正确率不高。对于上述问题，目前尚无有效解决方案。
技术实现思路
本专利技术实施例提供一种音频信息处理方法及终端，至少解决了现有技术中存在的问题，能够高效、准确的分辨音频文件对应的伴奏声道。本专利技术实施例的技术方案是这样实现的：本专利技术实施例提供了一种音频信息处理方法，所述方法包括：对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满...

【技术保护点】
一种音频信息处理方法，其特征在于，所述方法包括：对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

【技术特征摘要】
1.一种音频信息处理方法，其特征在于，所述方法包括：
对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表
征第二声道输出的第二音频子文件；
从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文
件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性
相同；
获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的
第二音频能量值；
基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所
述第二声道为满足特定属性需求的声道。
2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
分别对预设的多个音频文件进行频谱特征提取；
对提取的频谱特征采用误差反向传播BP算法训练得到深度神经网络DNN
模型；
所述从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频
子文件中提取出第二音频数据，包括：
采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据，
以及从所述第二音频子文件中提取出第二音频数据。
3.根据权利要求1或2所述的方法，其特征在于，
所述基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道
或所述第二声道为满足特定属性需求的声道，包括：
检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差
阈值时，确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所
述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件，所述满
足特定属性需求的音频子文件对应的声道为满足特定需求的声道；
或者，检测到所述第一音频能量值及所述第二音频能量值的差值不大于预
设能量差阈值时，采用预设分类方法确定所述第一声道或所述第二声道为满足
特定属性需求的声道。
4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
对预设的多个音频文件进行感知线性预测PLP特征参数提取；
基于提取的PLP特征参数采用最大期望EM算法训练得到混合高斯模型
GMM；
所述采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性
需求的声道，包括：
采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定
属性需求的声道；
判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声
道对应的音频能量值；
当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另
一声道对应的音频能量值时，确定所述初步满足特定属性需求的声道为满足特
定属性需求的声道。
5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
当判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所
述另一声道对应的音频能量值时，输出提示信息。
6.根据权利要求1所述的方法，其特征在于，所述第一音频数据表征所述
第一声道输出的人声音频，所述第二音频数据表征所述第二声道输出的人声音
频；
所述基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道
或所述第二声道为满足特定属性需求的声道，包括：
基于所述第一声道输出的人声音频的第一音频能量值，以及所述第二声道
输出的人声音频的第二音频能量值，确定所述第一声道或所述第二声道为输出
伴奏音频的声道。
7.根据权利要求1所述的方法，其特征在于，所述确定所述第一声道或所
述第二声道为满足特定属性需求的声道之后，所述方法还包括：
标记所述满足特定属性需求的声道；
确定需要进行声道切换时，基于对所述满足特定属性需求的声道的标记进<...

【专利技术属性】
技术研发人员：赵伟峰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人