本发明专利技术公开了一种语音端点检测方法及装置,该方法包括:在确定出有语音输入时,确定当前的网络传输速率;根据确定出的网络传输速率,确定用于表征语音输入的时长的语音延时;根据确定出的语音延时,得到语音输入的终止点。能够较好地解决在网络传输带宽不够的情况下,信号传输延时比较长,使得语音端点识别准确率较低的问题。
【技术实现步骤摘要】
本专利技术涉及移动多媒体
,尤其是涉及一种语音端点检测方法及装置。
技术介绍
随着人机信息交互技术的发展,语音识别技术显示出其重要性,语音识别需要确 定语音短短。语音端点包括语音录入的起始点,以及语音录入的终止点。从语音录入的起 始点开始计时,延时一段时长后得到语音录入的终止点。语音端点检测是语音识别是否正 确的关键技术之一,可以在语音识别中提高识别精度及减少识别时间。 通常情况下,语音端点检测的具体流程如下述: 步骤一:接收用户输入的触发语音输入的触发指令。 用户可以通过点击语音输入按钮,触发启动终端中的语音输入程序,开启语音录 入模式。 步骤二:接收用户录入的语音。 步骤三:终端进入语音录入状态,接收用户录入的语音的起始点。 步骤四:在检测到语音录入的起始点时,开始计时。 步骤五:计时结束后,得到语音录入的终止点。 步骤六:根据得到的语音起始点和语音终止点,完成语音端点检测。 但是,上述语音端点检测过程,语音录入时需要通过网络传输,因此在网络传输带 宽不够的情况下,信号传输延时比较长,使得语音端点识别准确率较低。
技术实现思路
本专利技术提供了一种语音端点检测方法及装置,能够较好地解决在网络传输带宽不 够的情况下,信号传输延时比较长,使得语音端点识别准确率较低的问题。 一种语音端点检测方法,包括:在确定出有语音输入时,确定当前的网络传输速 率;根据确定出的网络传输速率,确定用于表征语音输入的时长的语音延时;根据确定出 的语音延时,得到语音输入的终止点。 在语音端点确定的过程中,引入网络传输速率,最终根据当前的网络传输速率来 确定语音延时,在高带宽的情况下,可以延长语音延时,在网路拥塞的情况下,可以缩短语 音延时,从而增加语音识别等应用的成功率,从而增加语音端点检测的准确性。 按照下述公式确定当前的网络传输速率:【主权项】1. 一种语音端点检测方法,其特征在于,包括: 在确定出有语音输入时,确定当前的网络传输速率; 根据确定出的网络传输速率,确定用于表征语音输入的时长的语音延时; 根据确定出的语音延时,得到语音输入的终止点。2. 如权利要求1所述的方法,其特征在于,按照下述公式确定当前的网络传输速率:其中,V是当前的网络传输速率,P。是语音输入过程中,语音编码队列的当前占用率,TVA,是语音输入的时长,R。语音输入输入过程中,输入的语音的编码速率。3. 如权利要求1或2所述的方法,其特征在于,按照下述公式确定用于表征语音输入的 时长的语音延时: d=SD*V*a 其中,d是语音延时,V是当前的网络传输速率,SD是设定的常量,a是网络传输速率 的权重。4. 如权利要求1或2所述的方法,其特征在于,在确定出当前的网络传输速率之后,确 定用于表征语音输入的时长的语音延时之前,还包括: 确定语音输入过程中,在确定出有和语音输入的识别错误率反馈信息时,确定所述识 别错误率;以及 在确定出没有和语音输入的识别错误率反馈信息时,确定场景因子,所述场景因子用 于表征语音输入过程所在的场景。5. 如权利要求4所述的方法,其特征在于,按照下述公式确定用于表征语音输入的时 长的语音延时: d=SD*V*a+SD*Fs* 3 其中,其中,d是语音延时,V是当前的网络传输速率,SD是设定的常量,a是网络传输 速率的权重,Fs是识别错误率或场景因子,若Fs是识别错误率时,根据网络传输速率估计的 延时确定,0是错误识别率权重,若Fs是场景因子时,Fs =Evb/Eva,Evb是语音输入过程中, 背景音的功率,EVa是语音输入过程中,输入的语音的功率,0是场景因子权重。6. -种语音端点检测装置,其特征在于,包括: 语音确定模块,用于确定是否有语音输入; 网络传输速率确定模块,用于在确定出有语音输入时,确定当前的网络传输速率; 语音延时确定模块,用于根据确定出的网络传输速率,确定用于表征语音输入的时长 的语音延时; 端点确定模块,用于根据确定出的语音延时,得到语音输入的终止点。7. 如权利要求6所述的装置,其特征在于,所述网络传输速率确定模块,具体用于按照 下述公式确定当前的网络传输速率:其中,V是当前的网络传输速率,P。是语音输入过程中,语音编码队列的当前占用率, TVA,是语音输入的时长,R。语音输入输入过程中,输入的语音的编码速率。8. 如权利要求6或7所述的装置,其特征在于,所述语音延时确定模块,具体用于按照 下述公式确定用于表征语音输入的时长的语音延时: d=SD*V*a 其中,d是语音延时,V是当前的网络传输速率,SD是设定的常量,a是网络传输速率 的权重。9. 如权利要求6或7所述的装置,其特征在于,还包括: 识别错误率确定模块,用于确定语音输入过程中,在确定出有和语音输入的识别错误 率反馈信息时,确定所述识别错误率;以及在确定出没有和语音输入的识别错误率反馈信 息时,确定场景因子,所述场景因子用于表征语音输入过程所在的场景。10. 如权利要求9所述的装置,其特征在于,所述语音延时确定模块,具体用于按照下 述公式确定用于表征语音输入的时长的语音延时: d=SD*V*a+SD*Fs* 3 其中,其中,d是语音延时,V是当前的网络传输速率,SD是设定的常量,a是网络传输 速率的权重,Fs是识别错误率或场景因子,若Fs是识别错误率时,根据网络传输速率估计的 延时确定,0是错误识别率权重,若Fs是场景因子时,Fs =Evb/Eva,Evb是语音输入过程中, 背景音的功率,EVa是语音输入过程中,输入的语音的功率,0是场景因子权重。【专利摘要】本专利技术公开了一种语音端点检测方法及装置,该方法包括:在确定出有语音输入时,确定当前的网络传输速率;根据确定出的网络传输速率,确定用于表征语音输入的时长的语音延时;根据确定出的语音延时,得到语音输入的终止点。能够较好地解决在网络传输带宽不够的情况下,信号传输延时比较长,使得语音端点识别准确率较低的问题。【IPC分类】G10L25-87, G10L15-04【公开号】CN104700830【申请号】CN201310656959【专利技术人】郭勐, 杨蕾, 张俭 【申请人】中国移动通信集团公司【公开日】2015年6月10日【申请日】2013年12月6日本文档来自技高网...
【技术保护点】
一种语音端点检测方法,其特征在于,包括:在确定出有语音输入时,确定当前的网络传输速率;根据确定出的网络传输速率,确定用于表征语音输入的时长的语音延时;根据确定出的语音延时,得到语音输入的终止点。
【技术特征摘要】
【专利技术属性】
技术研发人员:郭勐,杨蕾,张俭,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。