人声激活检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：29258316 阅读：12 留言：0更新日期：2021-07-13 17:30

本申请提供一种人声激活检测方法、装置、计算机设备和存储介质，其中方法包括：实时采集语音数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声，不仅检测速度快，且模型结合了当前帧及其上下文的语音，检测效果好。

全部详细技术资料下载

【技术实现步骤摘要】
人声激活检测方法、装置、计算机设备和存储介质
本申请涉及语音识别
，特别涉及一种人声激活检测方法、装置、计算机设备和存储介质。
技术介绍
传统的VAD(voiceactivitydetection，声音激活检测)算法作为一个前端监测模块，常用于实时唤醒系统以及实时语音识别等系统中，用于过滤实时录音数据，减少后续模型不必要的计算。但是，目前的VAD算法只能检测环境中有没有声音，无法区分这个声音是不是后续模型需要的声音，即无法区分人声和非人声。
技术实现思路
本申请的主要目的为提供一种人声激活检测方法、装置、计算机设备和存储介质，旨在克服目前无法检测环境中是否有人声的缺陷。为实现上述目的，本申请提供了一种人声激活检测方法，包括以下步骤：实时采集语音数据；所述语音数据包括多帧音频数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。进一步地，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；所述基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声的步骤，包括：将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算，得到第一中间特征向量；将...

【技术保护点】
1.一种人声激活检测方法，其特征在于，包括以下步骤：/n实时采集语音数据；所述语音数据包括多帧音频数据；/n提取所述语音数据中每一帧音频数据对应的语音特征向量；/n依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；/n基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。/n

【技术特征摘要】
1.一种人声激活检测方法，其特征在于，包括以下步骤：
实时采集语音数据；所述语音数据包括多帧音频数据；
提取所述语音数据中每一帧音频数据对应的语音特征向量；
依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；
基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

2.根据权利要求1所述的人声激活检测方法，其特征在于，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；
所述基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声的步骤，包括：
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算，得到第一中间特征向量；
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算，得到第二中间特征向量；
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算，得到第三中间特征向量；
将所述第三中间特征向量输入至所述分类层中进行分类，得出所述预设帧音频数据中是否包括人声的检测结果。

3.根据权利要求2所述的人声激活检测方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络；其中，所述第一卷积层的dilate＝1，context＝3，所述第二卷积层的dilate＝3，context＝3，所述第三卷积层的dilate＝3，context＝15。

4.根据权利要求1所述的人声激活检测方法，其特征在于，所述实时采集语音数据的步骤之前，还包括：
获取训练数据；所述训练数据包括多帧训练音频，所述训练数据为带噪的音频文件；
提取每一帧训练音频对应的训练特征向量；
依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练，得到所述人声激活检测模型。

5.根据权利要求4所述的人声激活检测方法，其特征在于，所述获取训练数据的步骤，包括：
获取干净的人声语音；其中，所述干净的人声语音为不包括噪声以及混响的语音；
基于预设的语音识别模型检测所述干净的人声语音中每个字对应...

【专利技术属性】
技术研发人员：徐泓洋，王广新，杨汉丹，
申请(专利权)人：深圳市友杰智新科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人