语音识别方法和装置制造方法及图纸

技术编号:14505240 阅读:64 留言:0更新日期:2017-01-31 14:26
本发明专利技术提出一种语音识别方法和装置,该语音识别方法包括:获取待识别的语音信号的特征;根据所述特征在构图生成的搜索空间内进行路径搜索,输出解码结果;根据所述解码结果判断是否需要拒识;如果需要拒识,则确定语音识别结果是拒识,如果不需要拒识,则根据所述解码结果获取语音识别结果。该方法具有很好的拒识效果。

【技术实现步骤摘要】

本专利技术涉及语音
,尤其涉及一种语音识别方法和装置
技术介绍
语音技术可以为人们提供非常方便的用户体验,尤其是在移动端和可穿戴设备上。目前语音识别技术主要是通过线上服务进行识别,但是如果在没有网络或者网络不稳定情况下,在线服务便不能够满足需求,并且传统的离线语音识别系统识别不具有拒识效果。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种语音识别方法,该方法具有很好的拒识效果。本专利技术的另一个目的在于提出一种语音识别装置。为达到上述目的,本专利技术第一方面实施例提出的语音识别方法,包括:获取待识别的语音信号的特征;根据所述特征在构图生成的搜索空间内进行路径搜索,输出解码结果;根据所述解码结果判断是否需要拒识;如果需要拒识,则确定语音识别结果是拒识,如果不需要拒识,则根据所述解码结果获取语音识别结果。本专利技术第一方面实施例提出的语音识别方法,通过判断是否需要拒识,在需要时进行拒识处理,可以具有较好的拒识效果,同时由于存在拒识情况,可以提高识别精度。为达到上述目的,本专利技术第二方面实施例提出的语音识别装置,包括:获取模块,用于获取待识别的语音信号的特征;解码模块,用于根据所述特征在构图生成的搜索空间内进行路径搜索,输出解码结果;判断模块,用于根据所述解码结果判断是否需要拒识;确定模块,用于如果需要拒识,则确定语音识别结果是拒识,如果不需要拒识,则根据所述解码结果获取语音识别结果。本专利技术第二方面实施例提出的语音识别装置,通过判断是否需要拒识,在需要时进行拒识处理,可以具有较好的拒识效果,同时由于存在拒识情况,可以提高识别精度。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的语音识别方法的流程示意图;图2是本专利技术实施例中获取语音信号的特征的流程示意图;图3是本专利技术实施例中构图的流程示意图;图4是本专利技术实施例中构图生成的一种搜索空间的示意图;图5是本专利技术另一实施例提出的语音识别方法的流程示意图;图6是本专利技术另一实施例提出的语音识别装置的结构示意图;图7是本专利技术另一实施例提出的语音识别装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的语音识别方法的流程示意图,该方法包括:S11:获取待识别的语音信号的特征。例如,参见图2,获取语音信号的特征的流程可以包括:S21:获取待识别的语音信号。以车载设备进行离线语音识别为例,可以由车载设备的麦克风检测待识别的语音信号。可以理解的是,本专利技术将以离线语音识别为例,由客户端本地执行。但是,本专利技术的方法也可以应用于在线语音识别,由在线语音识别的服务端执行。S22:对所述语音信号进行前端信号处理,所述前端信号处理包括:低频去噪,和/或,信号增强。例如,在车载或者音乐、空调、以及风声等噪声比较强以及远场等环境下,如果将原始信号直接送入到解码器当中,效果非常不好,所以需要在声音进入到解码器之前,首先对原始信号进行低频去噪以消除汽车行驶过程中产生的低频噪声,同时由于用户在车载等环境下往往离麦克风的距离较远或者由于硬件等原因会导致声音音量过小,可以采用信号幅度增强技术对原始的声音信号幅度进行放大操作。通过前端信号处理后的语音信号具有非常良好的抗噪性。S23:对前端信号处理后的语音信号进行语音活动检测(VoiceActivityDetection,VAD)。VAD可以检测到语音信号的起始端点和结束端点。S24:对VAD检测出的语音信号进行特征提取,获取所述语音信号的特征。在检测到起始端点和结束端点之后,可以对这两个端点之间的语音信号进行特征提取,以获取语音信号的特征。语音信号的特征例如是梅尔倒谱系数(Mel-scaleFrequencyCepstralCoefficients,MFCC)。S12:根据所述特征在构图生成的搜索空间内进行路径搜索,输出解码结果。一些实施例中,该方法还可以包括构图生成搜索空间的流程,参见图3,构图生成搜索空间的流程可以包括:S31:获取开发者编辑的内容。例如,向开发者提供开发者语法编辑模块,并接收开发者通过所述开发者语法编辑模块输入的内容。本专利技术首先需要开发者按照语法规则进行语法编辑,便于在构图当中进行使用。开发者编辑的内容中,例如,使用尖括号〈〉将开发者期望输出含有关键词的意图对象进行标记,意图对象中的内容用“|”进行分隔,同时意图对象的末尾要以“;”结束。使用小括号标记语法规则,并使用关键词_SCENE_ID_来标记场景ID。示例如下:<name>=张三|郑三|李四;<phoneType>=手机|公司号码;<cmd1>=打开视频;<cmd2>=关闭视频;_SCENE_ID_0(打电话给<name>)(打电话给<name>的<phoneType>)(给<name>打个电话)_SCENE_ID_1(<cmd1>)(<cmd2>)S32:确定所述内容中的意图对象和非意图对象,并获取所述意图对象和非意图对象对应的反模型和垃圾词模型。例如,尖括号〈〉标记的对象称为意图对象,例如,上述的name、phoneType、cmd1、cmd2是意图对象,非意图对象是开发者编辑的内容中除意图对象之外的内容,例如,“打电话给”属于非意图对象。意图对象包括的内容称为关键词,例如对应name这个意图对象,张三、郑三、李四是关键词。在确定出意图对象和非意图对象后,可以分别对应意图对象获取垃圾词模型和反模型,对应非意图对象获取垃圾词模型和反模型。其中,垃圾词本文档来自技高网...
语音识别方法和装置

【技术保护点】
一种语音识别方法,其特征在于,包括:获取待识别的语音信号的特征;根据所述特征在构图生成的搜索空间内进行路径搜索,输出解码结果;根据所述解码结果判断是否需要拒识;如果需要拒识,则确定语音识别结果是拒识,如果不需要拒识,则根据所述解码结果获取语音识别结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取待识别的语音信号的特征;
根据所述特征在构图生成的搜索空间内进行路径搜索,输出解码结果;
根据所述解码结果判断是否需要拒识;
如果需要拒识,则确定语音识别结果是拒识,如果不需要拒识,则根据所
述解码结果获取语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述解码结果判
断是否需要拒识,包括:
根据所述解码结果,统计垃圾词和反模型的数量、非意图对象的数量、
关键词的数量和句子长度,并获取每个关键词的置信度;
如果所述垃圾词和反模型的数量大于0,则判断出需要拒识;或者,
确定非意图对象的数量和关键词的数量之和与句子长度的比值,如果
所述比值小于预设比值,则判断出需要拒识;或者,
如果关键词的置信度小于预设置信度值,则判断出需要拒识。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取开发者编辑的内容;
确定所述内容中的意图对象和非意图对象,并获取所述意图对象和非意图
对象对应的反模型和垃圾词模型;
根据所述开发者编辑的内容、所述反模型和垃圾词模型,构图生成搜索空
间。
4.根据权利要求3所述的方法,其特征在于,还包括:
获取语言模型,并在构图生成搜索空间时,在所述搜索空间的静音状态后
加入所述语言模型。
5.根据权利要求3或4所述的方法,其特征在于,还包括:
在所述搜索空间的路径结尾处加入预设标识,以便在路径搜索包含所述预
设标识时,即时输出解码结果。
6.根据权利要求1所述的方法,其特征在于,所述获取待识别的语音信
号的特征,包括:
获取待识别的语音信号;
对所述语音信号进行前端信号处理,所述前端信号处理包括:低频去噪,
和/或,信号增强;
对前端信号处理后的语音信号进行VAD;
对VAD检测出的语音信号进行特征提取,获取所述语音信号的特征。
7.根据权利要求1所述的方法,其特征在于,还包括:
在获取语音识别结果后,重置语音识别的场景。
8.一种语音识别装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:袁斌彭守业徐杨飞
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1