一种新的关键语音检索系统及方法,包括:多唤醒资源模块,语音预处理模块,语音解码模块。本发明专利技术针对特定几个关键词进行检索,同时采用倒序viterbi解码方案,节省内存,响应速度在100ms以内,内存占用在9k以内,运算量在29Mips以内。
【技术实现步骤摘要】
一种关键词语音检索系统及方法
本专利技术涉及一种语音信号处理
,特别涉及在连续的语音当中对某几个关键词语音的检索中使用语音信号处理的方法。
技术介绍
实现人机之间人性化,智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。特别是近年来随着无线通讯网络的普及,智能化便携式移动设备在人们生活中担任着越来越重要的角色。语音交互作为最自然人性的交互方式受到了青睐,提高了人机交互效率。如今在科技高度发达的社会,人们对于生活质量的要求越来越高,对于驾驶安全性也越来越高,用语音来代替实体按钮,会给人们的生活带来更加便捷的操作,可以让驾驶者专心的将双手停留在方向盘上,在其他产品上可以给人们带来更多的娱乐性,和实用性。在现有语音命令控制系统中,系统需要用户输入语音的前后都有一定的静音,这样才能或者到真正的语音片段,否则无法获取真正需要识别的语音段,这样就无法准确识别,所以这种语音识别系统对用户的使用环境要求非常严格,下面举例说明普通的命令次识别,如“拍照”等,需要事先静音一段时间,如果在连续的语音中说出关键词语音,则无法实现触发功能,严重影响了用户体验。现有技术可以实现单个关键词的语音检索,但是无法实现多个关键词同时检索,而且对于嵌入式系统来说内存占用较大,响应速度不够快,准确率不高,现有技术中为什么内存占用大以及相应速度不高以及准确率不高,原因在于模型复杂度较高,导致资源较大,内存占用较大,大约在4M左右,对于嵌入式来说简直是天数,现有采用一个吸收模型作为置信度以及采用的解码方式,必然为获取到一个识别结果,而并不是用户所说的结果,因为现有的解码网络不存在重置机制,运行几秒后,必然会强制获取结果,而本专利技术采用定期清理,可以长期运行,检测环境中的关键词语音,并及时给出反馈。
技术实现思路
本专利技术技术解决问题:克服传统的语音命令控制系统采取的统一解码方式,容易引起语音命令响应错误,或者无法响应的问题,本专利技术提供一种新的关键语音检索系统和方法,针对特定几个关键词进行检索,同时采用倒序viterbi解码方案,节省内存,响应速度在100ms以内,内存占用在9k以内,运算量在29Mips以内。本专利技术的技术解决方案:一种新的关键语音检索系统,包括:多唤醒资源模块,语音预处理模块,语音解码模块。多唤醒资源模块,主要是为了对关键词进行描述,被解码网络模块加载;语音预处理模块,主要对语音进行特征处理,将提取的特征送入语音解码模块;语音解码模块,在多唤醒资源提供的关键词描述中进行解码,实现核心唤醒功能;所述多唤醒资源模块,其具体为一个二进制文件,描述了关键词的声学发音以及声学模型和不同的发音之间的跳转关系,同时它还描述了非关键词的所有其他声音的描述,这部分需要在系统初始化时加载到内存中,送入到解码网络模块中形成一套解码网络,后续解码就是在此网络中运行。所述语音预处理模块,主要为了实时提取语音中的声学特征,同时为了降低运算量采用MFCC特征。语音预处理模块还包括完成对语音数据进行分帧预加重,然后进行分帧加窗、FFT生成MFCC特征,再经过一阶差分、二级差分,生成39维声学特征。所述语音解码模块,它采用多唤醒资源模块中生成的网络以及语音预处理模块生成的特征,将特征在网络中对每个关键词的发音进行相似度计算,这里的发音称之为不同的状态,每个状态包含多个高斯,解码就是特征在高斯中进行似然计算。一种关键语音检索方法,其特征在于实现步骤如下:(1)首先需要申请内存需要运行的内存空间,10K内存;(2)读取多唤醒资源模型,初始化解码模块所需的网络,初始化数据预处理空间;(3)用户实时输入语音进入引擎;(4)数据预处理模块,对送入语音进行预加重、分帧、加窗、FFT,一阶差分、二阶差分生成39维MFCC(MFCC:Mel频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)的缩写。Mel(美尔)是主观音高的单位,而Hz(赫兹)则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。)动态特征;(5)将特征送入语音解码模块,特征在解码网络中对于每个声学状态都进行计算比较,然后记录状态;(6)当关键词语音的所有特征都送入解码网络中进行解码,则网络中关键词网络的计算的相似度很高,即到达设定门限,则认为用户说出关键词,并提示用户。本专利技术与现有技术相比的优点在于:(1)本专利技术内存占用很小,实际应用中只需6k字节空间,可以在低端玩具上运行;在原先的识别引擎中需要使用复杂的模型,以及吸收模型,数据精度较大,而现在采用原来一半的模型复杂度,同时优化了吸收模型,采用了20个聚类之后的filler模型,比原来的filler模型精度更高,所以达到很强的干扰词吸收能力;同时裁剪了原来大规模的声学模型,将仅关键词的模型保存,这个是ROM占用已经减少到39K左右原先在4M左右,内存部分因为模型数据减少,内存占用同时减少,录音部分采用实时解码,不需要缓存录音,以及MFCC特征,内存部分也大量减少,同时采用了倒序解码,关于关键词在内存中的描述又少了部分内存,同时因为是已知关键词解码,所以解码空间固定,不需要动态生成解码空间,又减少了大部分内存占用;(2)本专利技术运行速度快,可以实时处理用户语音,并在0.12秒内给予反馈;(3)本专利技术支持多个关键词同时检出,可以在一个引擎中实现同时对多个关键词进行检索,判断,并对不同的关键词给予不同的提示;(4)在支持多关键词检索的系统中,系统对不同的关键词语音做出快速响应,而传统系统采取的统一解码方式,容易引起语音命令响应错误,或者无法响应。附图说明图1为本专利技术整个系统的UML时序图;图2为本专利技术的关键语音检索系统实现流程图;图3为本专利技术中多唤醒网络模块图;图4为本专利技术中语音解码模块实现图。具体实施方式如图1所示,为整个系统的UML时序图,图2为流程图;从图1中可以看出系统包括三个模块组成,1:引擎接口部分,2:前端语音处理模块,3:解码器模块。引擎接口部分,可以看到整个引擎的API,包括:a、初始化,b、参数设置,c、输入音频接口,d、数据处理接口,e、重置接口;a.初始化接口中,需要传入申请的内存首址,多唤醒资源首址,以及相应的资源空间大小,接口内部实现内存地址初始化,完成前端以及解码器部分的内存分配,完成前端语音处理时的参数,包括分帧长度(本专利技术实施例中采用25ms),帧移动长度(10ms)以及FFT计算的空间分配,同时将传入的多唤醒资源传递给解码接口,完成解码网络的初始化,包括总共多少个filler,多少个关键词状态节点,以及每个状态节点中的变量初始化。b.参数设置,主要完成唤醒时门限的设置;c.语音输入接口,作为外部将语音传入的接口,需要传入语音首址以及语音大小;d.数据处理接口,包括前端特征提取以及语音解码部分,特征提取主要是用来接收外部送进来的语音,然后将语音进行分帧,加窗,FFT,动态规整,最后形成39为动态MFCC特征,作为解码器的输入;语音解码,将生成的特征在初始过程中生成的解码网络中做倒序viterbi算法,计算结果保存至每个状态响应的变量中。详本文档来自技高网...
【技术保护点】
一种关键词语音检索系统,其特征在于包括:多唤醒资源模块,语音预处理模块,语音解码模块;其中:多唤醒资源模块,对关键词进行描述,被解码网络模块加载;所述多唤醒资源模块为一个二进制文件,描述了关键词的声学发音及声学模型和不同的发音之间的跳转关系,同时它还描述了非关键词的所有其他声音的描述,这部分需要在系统初始化时加载到内存中,送入到语音解码模块中形成一套解码网络,后续解码就是在此网络中运行;语音预处理模块,对语音进行特征处理,实时提取语音中的声学特征,将提取的声学特征送入语音解码模块;完成对语音数据进行分帧预加重,然后进行分帧加窗、FFT生成MFCC特征,再经过一阶差分、二级差分,生成39维声学特征;所述语音解码模块,它采用多唤醒资源模块中生成的网络以及语音预处理模块生成的声学特征进行解码,即将所述声学特征在网络中对每个关键词的发音进行相似度计算,所述发音称之为不同的状态,每个状态包含多个高斯,解码就是特征在高斯中进行似然计算。
【技术特征摘要】
1.一种关键词语音检索系统,其特征在于包括:多唤醒资源模块,语音预处理模块,语音解码模块;其中:多唤醒资源模块,对关键词进行描述,被解码网络模块加载;所述多唤醒资源模块为一个二进制文件,描述了关键词的声学发音及声学模型和不同的发音之间的跳转关系,同时它还描述了非关键词的所有其他声音的描述,这部分需要在系统初始化时加载到内存中,送入到语音解码模块中形成一套解码网络,后续解码就是在此网络中运行;语音预处理模块,对语音进行特征处理,实时提取语音中的声学特征,将提取的声学特征送入语音解码模块;完成对语音数据进行分帧预加重,然后进行分帧加窗、FFT生成MFCC特征,再经过一阶差分、二级差分,生成39维声学特征;所述语音解码模块,它采用多唤醒资源模块中生成的网络以及语音预处理模块生成的声学特征进行解码,即将所述声学特征在网络中对每个关键词的发音进行相似度计算,所述发音称之为不同的状态,每个状态包含多个高斯,解码就是特征在高斯中进行似然计算,其中,所述语音解码模块具体实现如下:(1)语音的特征提取,目前采用的是39维mfcc特征;(2)将提取的语音特征送入解码器中;(3)在多个吸收网络filler以及静音模型sil中计算得到最大得分;(4)在多个关键词路径上进行viterbi解码,同时根据第(3)步得到的最大filler得分计算每个状态的置信度CM得分;(5)如果关键词上的得分大于filler上的最大得分,进行判断是否解码到关键词末尾,否则返回第(1)步;(6)如果己经到关键词末尾,计算整个词的CM得分,否则返回第(1)步;(7)判断CM...
【专利技术属性】
技术研发人员:张凯,陈盛,
申请(专利权)人:安徽科大讯飞信息科技股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。