一种音频数据处理方法、装置及存储介质制造方法及图纸

技术编号：22660187 阅读：20 留言：0更新日期：2019-11-28 03:59

本发明专利技术实施例公开一种音频数据处理方法、装置及存储介质，其中，该方法应用于人工智能领域，包括：获取环境空间中的多路音频数据，并基于多路音频数据得到语音数据集合，并在多个增强方向上分别生成语音数据集合对应的增强语音信息；将增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向；获取增强语音信息中的语音频谱特征，并在语音频谱特征中获取目标音频方向上的语音频谱特征；基于目标匹配词对目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果。采用本发明专利技术，可以在提高语音控制的准确度的同时，有效地降低误识别率。

An audio data processing method, device and storage medium

The embodiment of the invention discloses an audio data processing method, device and storage medium, wherein, the method is applied to the field of artificial intelligence, including: acquiring multi-channel audio data in the environment space, obtaining voice data set based on multi-channel audio data, and generating the corresponding enhanced voice information of the voice data set in multiple enhancement directions; and According to the speech hidden feature and the target matching words, the enhancement direction corresponding to the enhanced speech information with the highest matching degree with the target matching words is determined as the target audio direction; the speech spectrum feature in the enhanced speech information is obtained, and the speech spectrum feature in the target audio direction is obtained in the speech spectrum feature; based on the target matching words, the target audio direction is determined The hidden feature and spectrum feature of speech are used for speech verification, and the result of target verification is obtained. The invention can improve the accuracy of voice control and effectively reduce the error recognition rate.

全部详细技术资料下载

【技术实现步骤摘要】
一种音频数据处理方法、装置及存储介质
本专利技术涉及互联网
，尤其涉及一种音频数据处理方法、装置及存储介质。
技术介绍
随着科技的发展，智能语音设备逐渐被普及应用，在智能语音设备的实施过程中，语音命令与智能语音设备之间的语音交互是实现设备智能化的一项重要技术手段。在目前的智能语音设备的语音交互系统，在唤醒语及命令语的拾取过程中，不可避免地会受到外界环境噪音和其他人说话的干扰，如果干扰噪音过强，会严重影响语音交互系统的灵敏性，进而使得在设备唤醒的过程中会存在唤醒失灵或者误唤醒的现象，即无法确保设备唤醒的准确性。
技术实现思路
本专利技术实施例提供一种音频数据处理方法、装置及存储介质，可以在确保语音控制的准确度的同时，有效地降低误识别率。本专利技术实施例一方面提供了一种音频数据处理方法，所述方法包括：获取环境空间中的多路音频数据，并基于所述多路音频数据得到语音数据集合，并在多个增强方向上分别生成所述语音数据集合对应的增强语音信息；将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向；获取所述增强语音信息中的语音频谱特征，并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征；基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果；所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。其中，所...

【技术保护点】
1.一种音频数据处理方法，其特征在于，包括：/n通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号，将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据；/n通过回声消除器消除每路音频数据中的第二语音信号，将消除第二语音信号后的每路音频数据确定为待增强语音数据，将各待增强语音数据分别添加到语音数据集合；/n在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理，将增强后的第一语音信号作为各增强方向上的方向性增强数据；一个增强方向对应一个方向性增强数据；/n基于各增强方向上的方向性增强数据，确定所述语音数据集合对应的增强语音信息。/n

【技术特征摘要】
1.一种音频数据处理方法，其特征在于，包括：
通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号，将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据；
通过回声消除器消除每路音频数据中的第二语音信号，将消除第二语音信号后的每路音频数据确定为待增强语音数据，将各待增强语音数据分别添加到语音数据集合；
在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理，将增强后的第一语音信号作为各增强方向上的方向性增强数据；一个增强方向对应一个方向性增强数据；
基于各增强方向上的方向性增强数据，确定所述语音数据集合对应的增强语音信息。

2.根据权利要求1所述的方法，其特征在于，所述通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号，将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据，包括：
获取终端所处环境空间对应的麦克风阵列；所述麦克风阵列中的麦克风为一组位于空间不同位置的全向麦克风；
基于所述麦克风阵列中的各全向麦克风所构成的阵列结构采集所述环境空间中的音频信号；所述音频信号包含第一语音信号和第二语音信号；
将所述各全向麦克风所采集到的包含第一语音信号和第二语音信号的音频信号，分别确定为所述各全向麦克风对应的一路音频数据；一路音频数据为一个全向麦克风所采集到的第一语音信号和第二语音信号。

3.根据权利要求2所述的方法，其特征在于，所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号，所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号；
所述通过回声消除器消除每路音频数据中的第二语音信号，将消除第二语音信号后的每路音频数据确定为待增强语音数据，将各待增强语音数据分别添加到语音数据集合，包括：
从所述麦克风阵列中的各全向麦克风中获取目标全向麦克风，并将所述目标全向麦克风对应的包含所述用户发出的声音信号和所述终端发出的声音信号的音频数据，作为目标音频数据；
使用回声消除器消除所述目标音频数据中的所述终端发出的声音信号，并将消除所述终端发出的声音信号后的目标音频数据确定为待增强语音数据；
当所述麦克风阵列中的每个全向麦克风均被确定为目标全向麦克风时，得到与各路音频数据分别对应的待增强语音数据；每个待增强语音数据中均携带所述用户发出的声音信号；
将携带所述用户发出的声音信号的各待增强语音数据分别添加到语音数据集合。

4.根据权利要求3所述的方法，其特征在于，所述在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理，以在所述波束形成器的多个增强方向上将增强后的第一语音信号确定为方向性增强数据，包括：
从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向；
在所述目标增强方向上对输入所述波束形成器的所述语音数据集合中的所述用户发出的声音信号进行叠加处理，并将叠加处理后的用户发出的声音信号作为所述目标增强方向上的方向性增强数据；
当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时，得到各增强方向上的方向性增强数据。

5....

【专利技术属性】
技术研发人员：高毅，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人