一种命令词检测方法及电子设备技术

技术编号:23052894 阅读:27 留言:0更新日期:2020-01-07 15:12
本发明专利技术公开了一种命令词检测方法及电子设备,首先采集语音信号;之后对所采集的语音信号进行特征提取,得到包括多个命令词的音频特征;接着将所述包括多个命令词的音频特征进行编码,得到多个命令词向量;进一步将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,得到有效命令词。

A command word detection method and electronic equipment

【技术实现步骤摘要】
一种命令词检测方法及电子设备
本专利技术涉及语言识别技术,尤其涉及一种基于场景的命令词检测方法及电子设备。
技术介绍
随着人工智能技术的发展及智能设备的普及,命令词识别作为语音交互手段的关键技术之一,已成为一个重要的研究内容。现有的命令词检测主要是在离线设备上,相对于在服务器进行语音识别,由于离线设备上资源有限,运算条件受到了很多限制。为了满足命令词数量不断增加情况下的检测需求,考虑到硬件条件,模型大小必须控制,就会导致命令词检测的准确率下降,严重影响用户体验。
技术实现思路
本专利技术实施例为了解决当前多命令词检测所存在的以上缺陷,创造性地提供一种基于场景的命令词检测方法及电子设备。根据本专利技术的第一方面,提供一种命令词检测方法,所述方法包括:采集语音信号;对所采集的语音信号进行特征提取,得到包括多个命令词的音频特征;将所述包括多个命令词的音频特征进行编码,得到多个命令词向量;将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,得到有效命令词。根据本专利技术一实施方式,将所述包括多个命令词的音频特征进行编码,包括:利用特定网络结构的编码器将所述包括多个命令词的音频特征进行编码处理;其中,所述特定网络结构包括如下网络结构之一:RNN、TDNN或CNN。根据本专利技术一实施方式,在利用特定网络结构的编码器将所述包括毒功而命令词的音频特征进行编码处理之前,所述方法还包括:根据命令词长度或上下文关联度来选取特定网络结构的编码器。根据本专利技术一实施方式,将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,包括:基于场景类别与多分类器的对应关系,将所述多个命令词按照对应场景类别的不同分别选择不同的多分类器进行命令词检测。根据本专利技术一实施方式,将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,包括:通过外部环境或内部控制来识别场景类别;将所述多个命令词按照所识别的场景类别选择特定多分类器进行命令词检测。根据本专利技术一实施方式,当所述电子设备为智能耳机时,所述场景类别包括如下场景类别至少之一:噪音场景、安静场景、音频播放场景或通话场景。根据本专利技术一实施方式,所述方法还包括:控制执行对应所述有效命令词的操作。根据本专利技术的第二方面,又提供一种电子设备,所述电子设备包括:采集模块,用于采集语音信号;特征提取模块,用于对所采集的语音信号进行特征提取,得到包括多个命令词的音频特征;编码处理模块,用于将所述包括多个命令词的音频特征进行编码,得到多个命令词向量;命令词检测模块,用于将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,得到有效命令词。根据本专利技术一实施方式,所述编码处理模块具体用于,利用特定网络结构的编码器将所述包括多个命令词的音频特征进行编码处理;其中,所述特定网络结构为如下网络结构之一:RNN、TDNN或CNN。根据本专利技术一实施方式,所述电子设备还包括:选取模块,用于在利用特定网络结构的编码器将所述包括毒功而命令词的音频特征进行编码处理之前,根据命令词长度或上下文关联度来选取特定网络结构的编码器。根据本专利技术一实施方式,所述命令词检测模块具体用于,基于场景类别与多分类器的对应关系,将所述多个命令词按照对应场景类别的不同分别选择不同的多分类器进行命令词检测。根据本专利技术一实施方式,所述命令词检测模块包括:识别单元,用于通过外部环境或内部控制来识别场景类别;命令词检测单元,用于将所述多个命令词按照所识别的场景类别选择特定多分类器进行命令词检测。根据本专利技术一实施方式,所述电子设备为智能耳机。根据本专利技术一实施方式,所述电子设备还包括:控制执行模块,用于控制执行对应所述有效命令词的操作。本专利技术实施例命令词检测方法及电子设备,首先采集语音信号;之后对所采集的语音信号进行特征提取,得到包括多个命令词的音频特征;接着将所述包括多个命令词的音频特征进行编码,得到多个命令词向量;进一步将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,得到有效命令词。如此,本专利技术将整个深度学习模型分为编码器和多分类器两部分,所有命令词的检测过程共享同一个编码器,但是在不同场景下对使用不同的多多分类器检测命令词。这样,所有命令词检测只是复用了同一个编码器,而不同多多分类器下的命令词数量就会明显减小,从而保证命令词检测的准确率,进而在有限的资源下极大的扩展了命令词的数量。需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1示出了本专利技术实施例命令词检测方法的实现流程示意图一;图2示出了本专利技术一应用示例对应不同场景类别的命令词拆分示意图;图3示出了本专利技术实施例命令词检测方法的实现流程示意图二;图4示出了本专利技术实施例命令词检测方法的实现流程示意图三;图5示出了本专利技术一应用示例命令词检测方法的具体实现流程示意图;图6示出了本专利技术实施例电子设备的组成结构示意图。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为使本专利技术更加透彻和完整,并能够将本专利技术的范围完整地传达给本领域的技术人员。下面结合附图和具体实施例对本专利技术的技术方案进一步详细阐述。图1示出了本专利技术实施例命令词检测方法的实现流程示意图一;图2示出了本专利技术一应用示例对应不同场景类别的命令词拆分示意图。参考图1,本专利技术实施例命令词检测方法包括:操作101,采集语音信号;操作102,对所采集的语音信号进行特征提取,得到包括多个命令词的音频特征;操作103,将所述包括多个命令词的音频特征进行编码,得到多个命令词向量;操作104,将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,得到有效命令词。在操作101,所采集的语音信号的具体参数可以是单通道,16000Hz采样率,16位的脉冲编码调制(PulseCodeModulation,PCM)格式。当然,本领域技术人员应该理解的是,前述具体参数仅仅是一示例性语音信号,本专利技术实施例并不对语音信号的具体参数进行限定。在操作102,可以以帧为单位来对所采集语音信号进行特征提取。具体地,可以对所采集的语音信号进行FBank特征提取;或,对所采集的语音信号进行MFCC特征提取。当然,这里对语音信号的特征提取方式不限于Fbank和MFCC,还可以为现有的或将来所改进或创造的任意其他符合条件本文档来自技高网...

【技术保护点】
1.一种命令词检测方法,其特征在于,应用于电子设备,所述方法包括:/n采集语音信号;/n对所采集的语音信号进行特征提取,得到包括多个命令词的音频特征;/n将所述包括多个命令词的音频特征进行编码,得到多个命令词向量;/n将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,得到有效命令词。/n

【技术特征摘要】
1.一种命令词检测方法,其特征在于,应用于电子设备,所述方法包括:
采集语音信号;
对所采集的语音信号进行特征提取,得到包括多个命令词的音频特征;
将所述包括多个命令词的音频特征进行编码,得到多个命令词向量;
将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,得到有效命令词。


2.根据权利要求1所述的方法,其特征在于,将所述包括多个命令词的音频特征进行编码,包括:
利用特定网络结构的编码器将所述包括多个命令词的音频特征进行编码处理;其中,所述特定网络结构包括如下网络结构之一:RNN、TDNN或CNN。


3.根据权利要求2所述的方法,其特征在于,在利用特定网络结构的编码器将所述包括多个命令词的音频特征进行编码处理之前,所述方法还包括:
根据命令词长度或上下文关联度来选取特定网络结构的编码器。


4.根据权利要求1所述的方法,其特征在于,将所述多个命令词向量按照对应场景类别选择特定多分类器进行命令词检测,包括:
基于场景类别与多分类器的对应关系,将所述多个命令词按照对应场景类别的不同分别选择不同的多分类器进行命令词检测。


5.根据权利要求1所述的方法,其特征在于,将所述多个命令词向量按照对应场景类别选择特定多分类器进行命...

【专利技术属性】
技术研发人员:刘梦歌李深雷欣李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1