一种关键词语音检索系统及方法技术方案

技术编号：10166493 阅读：337 留言：0更新日期：2014-07-02 01:22

一种新的关键语音检索系统及方法，包括：多唤醒资源模块，语音预处理模块，语音解码模块。本发明专利技术针对特定几个关键词进行检索，同时采用倒序viterbi解码方案，节省内存，响应速度在100ms以内，内存占用在9k以内，运算量在29Mips以内。

全部详细技术资料下载

【技术实现步骤摘要】
一种关键词语音检索系统及方法
本专利技术涉及一种语音信号处理
，特别涉及在连续的语音当中对某几个关键词语音的检索中使用语音信号处理的方法。
技术介绍
实现人机之间人性化，智能化的有效交互，构建高效自然的人机交流环境，已经成为当前信息技术应用和发展的迫切需求。特别是近年来随着无线通讯网络的普及，智能化便携式移动设备在人们生活中担任着越来越重要的角色。语音交互作为最自然人性的交互方式受到了青睐，提高了人机交互效率。如今在科技高度发达的社会，人们对于生活质量的要求越来越高，对于驾驶安全性也越来越高，用语音来代替实体按钮，会给人们的生活带来更加便捷的操作，可以让驾驶者专心的将双手停留在方向盘上，在其他产品上可以给人们带来更多的娱乐性，和实用性。在现有语音命令控制系统中，系统需要用户输入语音的前后都有一定的静音，这样才能或者到真正的语音片段，否则无法获取真正需要识别的语音段，这样就无法准确识别，所以这种语音识别系统对用户的使用环境要求非常严格，下面举例说明普通的命令次识别，如“拍照”等，需要事先静音一段时间，如果在连续的语音中说出关键词语音，则无法实现触发功能，严重影响了用户体验。现有技术可以实现单个关键词的语音检索，但是无法实现多个关键词同时检索，而且对于嵌入式系统来说内存占用较大，响应速度不够快，准确率不高,现有技术中为什么内存占用大以及相应速度不高以及准确率不高，原因在于模型复杂度较高，导致资源较大，内存占用较大，大约在4M左右，对于嵌入式来说简直是天数，现有采用一个吸收模型作为置信度以及采用的解码方式，必然为获取到一个识别结果，而并不是用户所说的结果，...
一种关键词语音检索系统及方法

【技术保护点】
一种关键词语音检索系统，其特征在于包括：多唤醒资源模块，语音预处理模块，语音解码模块；其中：多唤醒资源模块，对关键词进行描述，被解码网络模块加载；所述多唤醒资源模块为一个二进制文件，描述了关键词的声学发音及声学模型和不同的发音之间的跳转关系，同时它还描述了非关键词的所有其他声音的描述，这部分需要在系统初始化时加载到内存中，送入到语音解码模块中形成一套解码网络，后续解码就是在此网络中运行；语音预处理模块，对语音进行特征处理，实时提取语音中的声学特征，将提取的声学特征送入语音解码模块；完成对语音数据进行分帧预加重，然后进行分帧加窗、FFT生成MFCC特征，再经过一阶差分、二级差分，生成39维声学特征；所述语音解码模块，它采用多唤醒资源模块中生成的网络以及语音预处理模块生成的声学特征进行解码，即将所述声学特征在网络中对每个关键词的发音进行相似度计算，所述发音称之为不同的状态，每个状态包含多个高斯，解码就是特征在高斯中进行似然计算。

【技术特征摘要】
1.一种关键词语音检索系统，其特征在于包括：多唤醒资源模块，语音预处理模块，语音解码模块；其中：多唤醒资源模块，对关键词进行描述，被解码网络模块加载；所述多唤醒资源模块为一个二进制文件，描述了关键词的声学发音及声学模型和不同的发音之间的跳转关系，同时它还描述了非关键词的所有其他声音的描述，这部分需要在系统初始化时加载到内存中，送入到语音解码模块中形成一套解码网络，后续解码就是在此网络中运行；语音预处理模块，对语音进行特征处理，实时提取语音中的声学特征，将提取的声学特征送入语音解码模块；完成对语音数据进行分帧预加重，然后进行分帧加窗、FFT生成MFCC特征，再经过一阶差分、二级差分，生成39维声学特征；所述语音解码模块，它采用多唤醒资源模块中生成的网络以及语音预处理模块生成的声学特征进行解码，即将所述声学特征在网络中对每个关键词的发音进行相似度计算，所述发音称之为不同的状态，每个状态包含多个高斯，解码就是特征在高斯中进行似然计算，其中，所述语音解码模块具体实现如下：(1)语音的特征提取，目前采用的是39维mfcc特征；(2)将提取的语音特征送入解码器中；(3)在多个吸收网络filler以及静音模型sil中计算得到最大得分；(4)在多个关键词路径上进行viterbi解码，同时根据第(3)步得到的最大filler得分计算每个状态的置信度CM得分；(5)如果关键词上的得分大于filler上的最大得分，进行判断是否解码到关键词末尾，否则返回第(1)步；(6)如果己经到关键词末尾，计算整个词的CM得分，否则返回第(1)步；(7)判断CM...

【专利技术属性】
技术研发人员：张凯，陈盛，
申请(专利权)人：安徽科大讯飞信息科技股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人