音频数据的增益控制方法及装置制造方法及图纸

技术编号：12890877 阅读：98 留言：0更新日期：2016-02-18 00:46

本发明专利技术提供一种音频数据的增益控制方法及装置。本发明专利技术实施例通过获取第N帧音频数据和所述第N帧音频数据的VAD信息，以及根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益，进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，使得能够利用所述控制增益，对所述第N帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。

全部详细技术资料下载

【技术实现步骤摘要】
【专利说明】
本专利技术涉及音频信号处理技术，尤其涉及一种音频数据的增益控制方法及装置。【
技术介绍
】随着通信技术的发展，终端集成了越来越多的功能，从而使得终端的系统功能列表中包含了越来越多相应的应用程序。有些应用程序中会涉及语音识别服务，例如，微信中的语音输入功能，搜索应用中的语音助手，等。然而，在语音识别服务中，通常要求采集的音频数据的幅度数值大于或等于一定的识别阈值，一旦音频数据的幅度数值小于该识别阈值，则识别性能就会大大降低。因此，亟需提供一种音频数据的增益控制方法及装置，以将待识别音频数据的幅度数值控制在识别阈值之上，避免语音识别性能的降低。【
技术实现思路
】本专利技术从多个方面提供一种音频数据的增益控制方法及装置，用以将待识别音频数据的幅度数值控制在识别阈值之上，避免语音识别性能的降低。本专利技术的一方面，提供一种音频数据的增益控制方法，包括:获取第N帧音频数据和所述第N帧音频数据的VAD信息，N为大于Μ的整数，Μ为大于或等于1的整数；根据期望幅度数值和所述第Ν帧音频数据，获得所述第Ν帧音频数据的期望增益；根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的VAD信息、所述第Ν帧音频数据的期望增益和所述第Ν帧音频数据之前相邻的Μ帧音频数据中每帧音频数据的期望增益，获得所述第Ν帧音频数据的控制增益；利用所述控制增益，对所述第Ν帧音频数据进行增益控制处理。如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第Ν帧音频数据的VAD信息、所述第Ν帧音频数据之前相邻的Μ帧音频数据中每...

【技术保护点】
一种音频数据的增益控制方法，其特征在于，包括：获取第N帧音频数据和所述第N帧音频数据的VAD信息，N为大于M的整数，M为大于或等于1的整数；根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益；根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益；利用所述控制增益，对所述第N帧音频数据进行增益控制处理。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐杨飞，魏建强，崔玮玮，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人