人声激活检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:29258316 阅读:12 留言:0更新日期:2021-07-13 17:30
本申请提供一种人声激活检测方法、装置、计算机设备和存储介质,其中方法包括:实时采集语音数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声,不仅检测速度快,且模型结合了当前帧及其上下文的语音,检测效果好。

【技术实现步骤摘要】
人声激活检测方法、装置、计算机设备和存储介质
本申请涉及语音识别
,特别涉及一种人声激活检测方法、装置、计算机设备和存储介质。
技术介绍
传统的VAD(voiceactivitydetection,声音激活检测)算法作为一个前端监测模块,常用于实时唤醒系统以及实时语音识别等系统中,用于过滤实时录音数据,减少后续模型不必要的计算。但是,目前的VAD算法只能检测环境中有没有声音,无法区分这个声音是不是后续模型需要的声音,即无法区分人声和非人声。
技术实现思路
本申请的主要目的为提供一种人声激活检测方法、装置、计算机设备和存储介质,旨在克服目前无法检测环境中是否有人声的缺陷。为实现上述目的,本申请提供了一种人声激活检测方法,包括以下步骤:实时采集语音数据;所述语音数据包括多帧音频数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。进一步地,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;所述基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声的步骤,包括:将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。进一步地,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。进一步地,所述实时采集语音数据的步骤之前,还包括:获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;提取每一帧训练音频对应的训练特征向量;依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。进一步地,所述获取训练数据的步骤,包括:获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;对标注后的所述干净的人声语音进行加噪以及加混响处理,得到所述训练数据。本申请还提供了一种人声激活检测装置,包括:采集单元,用于实时采集语音数据;所述语音数据包括多帧音频数据;第一提取单元,用于提取所述语音数据中每一帧音频数据对应的语音特征向量;第一输入单元,用于依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;检测单元,用于基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。进一步地,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;所述检测单元,具体用于:将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。进一步地,还包括:获取单元,用于获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;第二提取单元,用于提取每一帧训练音频对应的训练特征向量;训练单元,用于依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。进一步地,所述获取单元,具体包括:获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧;将所述干净的人声语音中每个字对应的音频帧标注为第一标签,将其余的音频帧标注为第二标签;对标注后的所述干净的人声语音进行加噪以及加混响处理,得到所述训练数据。进一步地,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请提供的人声激活检测方法、装置、计算机设备和存储介质,包括:实时采集语音数据;提取所述语音数据中每一帧音频数据对应的语音特征向量;依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,所述预设的人声激活检测模型基于时延神经网络训练得到,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声,不仅检测速度快,且模型结合了当前帧及其上下文的语音,检测效果好。附图说明图1是本申请一实施例中人声激活检测方法步骤示意图;图2是本申请一实施例中人声激活检测装置结构框图;图3为本申请一实施例的计算机设备的结构示意框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。参照图1,本申请一实施例在提供了一种人声激活检测方法,包括以下步骤:步骤S1,实时采集语音数据;所述语音数据包括多帧音频数据;步骤S2,提取所述语音数据中每一帧音频数据对应的语音特征向量;步骤S3,依序将预本文档来自技高网...

【技术保护点】
1.一种人声激活检测方法,其特征在于,包括以下步骤:/n实时采集语音数据;所述语音数据包括多帧音频数据;/n提取所述语音数据中每一帧音频数据对应的语音特征向量;/n依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;/n基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。/n

【技术特征摘要】
1.一种人声激活检测方法,其特征在于,包括以下步骤:
实时采集语音数据;所述语音数据包括多帧音频数据;
提取所述语音数据中每一帧音频数据对应的语音特征向量;
依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中;其中,输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量;
基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声。


2.根据权利要求1所述的人声激活检测方法,其特征在于,所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层;
所述基于所述人声激活检测模型,检测所述预设帧音频数据中是否包括人声的步骤,包括:
将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算,得到第一中间特征向量;
将所述第一中间特征向量输入至所述第二卷积层进行卷积运算,得到第二中间特征向量;
将所述第二中间特征向量输入至所述第三卷积层进行卷积运算,得到第三中间特征向量;
将所述第三中间特征向量输入至所述分类层中进行分类,得出所述预设帧音频数据中是否包括人声的检测结果。


3.根据权利要求2所述的人声激活检测方法,其特征在于,所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络;其中,所述第一卷积层的dilate=1,context=3,所述第二卷积层的dilate=3,context=3,所述第三卷积层的dilate=3,context=15。


4.根据权利要求1所述的人声激活检测方法,其特征在于,所述实时采集语音数据的步骤之前,还包括:
获取训练数据;所述训练数据包括多帧训练音频,所述训练数据为带噪的音频文件;
提取每一帧训练音频对应的训练特征向量;
依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练,得到所述人声激活检测模型。


5.根据权利要求4所述的人声激活检测方法,其特征在于,所述获取训练数据的步骤,包括:
获取干净的人声语音;其中,所述干净的人声语音为不包括噪声以及混响的语音;
基于预设的语音识别模型检测所述干净的人声语音中每个字对应...

【专利技术属性】
技术研发人员:徐泓洋王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1