一种音频数据处理方法、装置及存储介质制造方法及图纸

技术编号:22660187 阅读:20 留言:0更新日期:2019-11-28 03:59
本发明专利技术实施例公开一种音频数据处理方法、装置及存储介质,其中,该方法应用于人工智能领域,包括:获取环境空间中的多路音频数据,并基于多路音频数据得到语音数据集合,并在多个增强方向上分别生成语音数据集合对应的增强语音信息;将增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;获取增强语音信息中的语音频谱特征,并在语音频谱特征中获取目标音频方向上的语音频谱特征;基于目标匹配词对目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果。采用本发明专利技术,可以在提高语音控制的准确度的同时,有效地降低误识别率。

An audio data processing method, device and storage medium

The embodiment of the invention discloses an audio data processing method, device and storage medium, wherein, the method is applied to the field of artificial intelligence, including: acquiring multi-channel audio data in the environment space, obtaining voice data set based on multi-channel audio data, and generating the corresponding enhanced voice information of the voice data set in multiple enhancement directions; and According to the speech hidden feature and the target matching words, the enhancement direction corresponding to the enhanced speech information with the highest matching degree with the target matching words is determined as the target audio direction; the speech spectrum feature in the enhanced speech information is obtained, and the speech spectrum feature in the target audio direction is obtained in the speech spectrum feature; based on the target matching words, the target audio direction is determined The hidden feature and spectrum feature of speech are used for speech verification, and the result of target verification is obtained. The invention can improve the accuracy of voice control and effectively reduce the error recognition rate.

【技术实现步骤摘要】
一种音频数据处理方法、装置及存储介质
本专利技术涉及互联网
,尤其涉及一种音频数据处理方法、装置及存储介质。
技术介绍
随着科技的发展,智能语音设备逐渐被普及应用,在智能语音设备的实施过程中,语音命令与智能语音设备之间的语音交互是实现设备智能化的一项重要技术手段。在目前的智能语音设备的语音交互系统,在唤醒语及命令语的拾取过程中,不可避免地会受到外界环境噪音和其他人说话的干扰,如果干扰噪音过强,会严重影响语音交互系统的灵敏性,进而使得在设备唤醒的过程中会存在唤醒失灵或者误唤醒的现象,即无法确保设备唤醒的准确性。
技术实现思路
本专利技术实施例提供一种音频数据处理方法、装置及存储介质,可以在确保语音控制的准确度的同时,有效地降低误识别率。本专利技术实施例一方面提供了一种音频数据处理方法,所述方法包括:获取环境空间中的多路音频数据,并基于所述多路音频数据得到语音数据集合,并在多个增强方向上分别生成所述语音数据集合对应的增强语音信息;将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;获取所述增强语音信息中的语音频谱特征,并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征;基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果;所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。其中,所述获取环境空间中的多路音频数据,包括:获取终端所处环境空间对应的麦克风阵列;所述麦克风阵列包含多个麦克风,以及各麦克风对应的阵列结构;基于所述各麦克风的阵列结构采集所述环境空间中的音频信号;所述音频信号包含至少一个语音信号;将所述各麦克风采集到的所述至少一个语音信号,分别确定为所述各麦克风对应的一路音频数据;一路音频数据为一个麦克风所采集到的所述至少一个语音信号。其中,所述各麦克风对应的一路音频数据包含第一语音信号和第二语音信号;所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号,所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号;所述基于所述多路音频数据得到语音数据集合,包括:从所述麦克风阵列中的各麦克风中获取目标麦克风,并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据,作为目标音频数据;使用回声消除器消除所述目标音频数据中的第二语音信号,并将消除第二语音信号后的目标音频数据确定为待增强语音数据;当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时,得到与各路音频数据分别对应的待增强语音数据;将各待增强语音数据分别添加到语音数据集合。其中,所述在多个增强方向上分别生成所述语音数据集合对应的增强语音信息,包括:从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向,并基于所述波束形成器增强所述语音数据集合中的第一语音信号,并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据;基于噪声消除器和混响消除器,滤除所述方向性增强数据中所携带的环境噪音,并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息;当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时,得到所述语音数据集合在各增强方向上的增强语音信息。其中,所述语音数据集合中的第一语音信号包含第一用户发出的声音子信号和第二用户发出的声音子信号;所述第一用户为所述目标增强方向上的用户,且所述第二用户为所述多个增强方向中除所述目标增强方向之外的增强方向上的用户;所述基于所述波束形成器增强所述语音数据集合中的第一语音信号,并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据,包括:基于波束形成器,增强所述语音数据集合中所述第一用户发出的声音子信号,并在所述目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据,以输出增强后的第一语音信号;将所述增强后的第一语音信号作为所述目标增强方向上的方向性增强数据。其中,所述将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向,包括:基于第一唤醒检测模型,获取每个增强方向上的增强语音信息中的语音隐藏特征;一个语音隐藏特征为所述第一唤醒检测模型对一个增强语音信息的语音频谱特征进行特征提取处理后所得到的特征;基于目标匹配词对各语音隐藏特征进行语音识别,得到所述第一唤醒检测模型对应的语音识别结果;所述语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度;根据语音识别结果将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向。其中,所述基于目标匹配词对各语音隐藏特征进行语音识别,得到所述第一唤醒检测模型对应的语音识别结果,包括:基于所述第一唤醒检测模型,获取各语音隐藏特征与所述第一唤醒检测模型中多个唤醒特征之间的匹配度;将所述第一唤醒检测模型所得到的匹配度与所述第一唤醒检测模型中多个唤醒特征对应的目标匹配词进行关联,得到所述第一唤醒检测模型对应的语音识别结果。其中,所述每个增强语音信息中的语音频谱特征是由第二唤醒检测模型所提取到的;所述基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果,包括:从所述第一唤醒检测模型中获取所述目标音频方向上的语音隐藏特征;将所述目标音频方向上的语音频谱特征和语音隐藏特征进行拼接,得到拼接向量特征;将所述拼接向量特征输入所述第二唤醒检测模型,并输出所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度,并根据所述第二唤醒检测模型所输出的匹配度生成目标验证结果;若所述目标验证结果中的匹配度大于或等于所述目标匹配词对应的匹配阈值,则唤醒终端。其中,所述方法还包括:若所述目标验证结果中的匹配度小于所述目标匹配词对应的匹配阈值,则确定验证失败,并执行所述获取环境空间中的多路音频数据的步骤。本专利技术实施例一方面提供了一种音频数据处理装置,所述音频数据处理装置包括:语音采集模块,用于获取环境空间中的多路音频数据;集合确定模块,用于基于所述多路音频数据得到语音数据集合;语音增强模块,用于在多个增强方向上分别生成所述语音数据集合对应的增强语音信息;音频方向确定模块,用于将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;频谱获取模块,用于获取所述增强语音信息中的语音频谱特征,并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征;语音验证模块,用于基于所述目标匹配词对所述目标音频方本文档来自技高网...

【技术保护点】
1.一种音频数据处理方法,其特征在于,包括:/n通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号,将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据;/n通过回声消除器消除每路音频数据中的第二语音信号,将消除第二语音信号后的每路音频数据确定为待增强语音数据,将各待增强语音数据分别添加到语音数据集合;/n在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理,将增强后的第一语音信号作为各增强方向上的方向性增强数据;一个增强方向对应一个方向性增强数据;/n基于各增强方向上的方向性增强数据,确定所述语音数据集合对应的增强语音信息。/n

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:
通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号,将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据;
通过回声消除器消除每路音频数据中的第二语音信号,将消除第二语音信号后的每路音频数据确定为待增强语音数据,将各待增强语音数据分别添加到语音数据集合;
在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理,将增强后的第一语音信号作为各增强方向上的方向性增强数据;一个增强方向对应一个方向性增强数据;
基于各增强方向上的方向性增强数据,确定所述语音数据集合对应的增强语音信息。


2.根据权利要求1所述的方法,其特征在于,所述通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号,将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据,包括:
获取终端所处环境空间对应的麦克风阵列;所述麦克风阵列中的麦克风为一组位于空间不同位置的全向麦克风;
基于所述麦克风阵列中的各全向麦克风所构成的阵列结构采集所述环境空间中的音频信号;所述音频信号包含第一语音信号和第二语音信号;
将所述各全向麦克风所采集到的包含第一语音信号和第二语音信号的音频信号,分别确定为所述各全向麦克风对应的一路音频数据;一路音频数据为一个全向麦克风所采集到的第一语音信号和第二语音信号。


3.根据权利要求2所述的方法,其特征在于,所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号,所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号;
所述通过回声消除器消除每路音频数据中的第二语音信号,将消除第二语音信号后的每路音频数据确定为待增强语音数据,将各待增强语音数据分别添加到语音数据集合,包括:
从所述麦克风阵列中的各全向麦克风中获取目标全向麦克风,并将所述目标全向麦克风对应的包含所述用户发出的声音信号和所述终端发出的声音信号的音频数据,作为目标音频数据;
使用回声消除器消除所述目标音频数据中的所述终端发出的声音信号,并将消除所述终端发出的声音信号后的目标音频数据确定为待增强语音数据;
当所述麦克风阵列中的每个全向麦克风均被确定为目标全向麦克风时,得到与各路音频数据分别对应的待增强语音数据;每个待增强语音数据中均携带所述用户发出的声音信号;
将携带所述用户发出的声音信号的各待增强语音数据分别添加到语音数据集合。


4.根据权利要求3所述的方法,其特征在于,所述在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理,以在所述波束形成器的多个增强方向上将增强后的第一语音信号确定为方向性增强数据,包括:
从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向;
在所述目标增强方向上对输入所述波束形成器的所述语音数据集合中的所述用户发出的声音信号进行叠加处理,并将叠加处理后的用户发出的声音信号作为所述目标增强方向上的方向性增强数据;
当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时,得到各增强方向上的方向性增强数据。


5....

【专利技术属性】
技术研发人员:高毅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1