语音处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:22103346 阅读:25 留言:0更新日期:2019-09-14 03:49
本发明专利技术涉及语音处理领域,公开了一种语音处理方法、装置、计算机设备及存储介质。其方法包括:通过音频缓冲器缓存实时环境声音信号;检测所述实时环境声音信号是否包含指定关键词;若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;将所述用户口语指令转化为机器逻辑指令;将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。本发明专利技术提供的语音处理方法,可以克服现有技术中唤醒和语音识别不同步,实时对用户的语音指令进行识别,提高了用户体验。

Speech Processing Method, Device, Computer Equipment and Storage Media

【技术实现步骤摘要】
语音处理方法、装置、计算机设备及存储介质
本专利技术涉及语音处理领域,尤其涉及一种语音处理方法、装置、计算机设备及存储介质。
技术介绍
现有的一部分语音识别系统,是依赖于语音进行激活的。这种语音交互系统,往往依赖于对用户语音中的关键词进行识别。例如,一具有语音交互功能的智能音箱,其设置的唤醒关键词为“Hello”,当用户在智能音箱附近说出“Hello”,智能音箱的语音识别模块在关键词监测模式下监测到该“Hello”语音,然后将语音识别模块切换工作模式(从关键词监测模式切换为语音识别模式),监听用户发出的语音指令(语音指令可以用于命令智能音箱打开音乐或播报新闻等)。然而,在现有的语音识别过程中,关键词识别与语音指令识别之间存在一定的时间间隔(切换工作模式需要一定时间),导致用户在连续说出唤醒关键词与语音指令时,语音指令无法被正确识别(因为此时语音识别模式尚未启用)。虽然,在时间间隔内,可以通过播放一个简短的铃声或者产生一些视觉反馈来通知用户设备已经完成加载,可以使用语音指令进行下一步操作。然而,这种时间间隔产生的停顿在语音的自然流中产生中断,对用户体验的质量产生负面影响。
技术实现思路
基于此,有必要针对上述技术问题,提供一种语音处理方法、装置、计算机设备及存储介质,以克服现有技术中,唤醒和语音识别不同步,导致用户体验不佳的问题。一种语音处理方法,包括:通过音频缓冲器缓存实时环境声音信号;检测所述实时环境声音信号是否包含指定关键词;若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;将所述用户口语指令转化为机器逻辑指令;将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。一种语音处理装置,包括:缓存模块,用于通过音频缓冲器缓存实时环境声音信号;检测模块,用于检测所述实时环境声音信号是否包含指定关键词;识别模块,用于若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;指令转化模块,用于将所述用户口语指令转化为机器逻辑指令;执行模块,用于将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音处理方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音处理方法。上述语音处理方法、装置、计算机设备及存储介质,通过音频缓冲器缓存实时环境声音信号,以实时获取环境中的声音信息(即为上述实时环境声音信号)。检测所述实时环境声音信号是否包含指定关键词,通过关键词检测以确定是否唤醒语音处理装置。若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令,以快速唤醒设备,同时对音频缓冲器中的实时环境声音信号进行处理,获得用户口语指令。将所述用户口语指令转化为机器逻辑指令,以将用户口语指令转化为机器可识别的指令。将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令,以完成用户口语指令所要求完成的操作。本专利技术提供的语音处理方法,可以克服现有技术中唤醒和语音识别不同步,实时对用户的语音指令进行识别,提高了用户体验。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中语音处理方法的一应用环境示意图;图2是本专利技术一实施例中语音处理方法的一流程示意图;图3是本专利技术一实施例中语音处理方法的一流程示意图;图4是本专利技术一实施例中语音处理方法的一流程示意图;图5是本专利技术一实施例中语音处理方法的一流程示意图;图6是本专利技术一实施例中语音处理方法的一流程示意图;图7是本专利技术一实施例中语音处理方法的一流程示意图;图8是本专利技术一实施例中语音处理装置的一结构示意图;图9是本专利技术一实施例中语音处理装置的一结构示意图;图10是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供的语音处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种语音处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:S10、通过音频缓冲器缓存实时环境声音信号。本实施例中,音频缓冲器可以指用于临时记录实时环境声音信号的存储器。音频存储器的存储大小可以调整为超过最长的指定关键字或关键短语的持续时间的存储空间。例如,指定关键字的长度为10秒钟,则音频存储器的存储空间可以设置为可存储大于10秒的实时环境声音信号。实时环境声音信号指的是当前环境下所录制的声音信号。由于音频存储器的存储空间有限,因而,音频存储器中仅保存距离当前最近一段时间(长度为音频存储器的存储空间的上限)的实时环境声音信号。S20、检测所述实时环境声音信号是否包含指定关键词。可以使用语音唤醒处理模块检测实时环境声音信号是否包含指定关键词。语音唤醒处理模块中可以包含相应的语音识别模型。语音唤醒处理模块可以基于现有的关键字定位技术,如微软小娜的WoV唤醒处理单元。指定关键词可以根据用户自主设置,也可以基于系统内的预先设置。语音唤醒处理模块可以检测音频缓冲器中的实时环境声音信号是否包含指定关键词,并确定检测结果。例如,指定关键词设置为“你好,电脑”,若实时环境声音信号中包含“你好,电脑”,语音唤醒处理模块可以检测到实时环境声音信号中包含的“你好,电脑”,并确定实时环境声音信号包含指定关键词。在判断实时环境声音信号是否包含指定关键词时,预先设置匹配度阈值,计算实时环境声音信号与指定关键词的匹配度(可以先生成指定关键词的标准语音,从标准语音提取声学特征,如声音能量、波形等,然后从实时环境声音信号提取声学特征,然后,计算指定关键字对应的声学特征与实时环境声音信号与的匹配度),判断计算出的匹配度是否不小于匹配度阈值,若计算出的匹配度不小于匹配度阈值,则判定实时环境声音信号包含指定关键词,若计算出的匹配度小于匹配度阈值,则判定实时环境声音信号不包含指定关键词。在此处,匹配度用于表征由指定关键词生成的标准语音与实时环境声音信号的相似程度。S30、若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令。可以使用语音识别模块中预设的语音识别模型对实时环境声音信号进行识别,获取用户的口语本文档来自技高网...

【技术保护点】
1.一种语音处理方法,其特征在于,包括:通过音频缓冲器缓存实时环境声音信号;检测所述实时环境声音信号是否包含指定关键词;若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;将所述用户口语指令转化为机器逻辑指令;将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:通过音频缓冲器缓存实时环境声音信号;检测所述实时环境声音信号是否包含指定关键词;若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;将所述用户口语指令转化为机器逻辑指令;将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。2.如权利要求1所述的语音处理方法,其特征在于,所述通过音频缓冲器缓存实时环境声音信号,包括:采集环境声音,生成所述实时环境声音信号;在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。3.如权利要求1所述的语音处理方法,其特征在于,所述检测所述实时环境声音信号是否包含指定关键词之前,还包括:获取用户输入的关键词设置信息;判断所述关键词设置信息是否符合预设规范;若所述关键词设置信息符合所述预设规范,则确定所述关键词设置信息为所述指定关键词。4.如权利要求1所述的语音处理方法,其特征在于,所述若检测到所述实时环境声音信号包含关键词的语音,则对所述实时环境声音信号进行识别,获得用户口语指令,包括:当检测到所述实时环境声音信号包含关键词的语音时,生成唤醒指令;根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点;若监测到所述实时环境声音信号中的用户语句终点,则对所述用户语句终点前的所述实时环境声音信号进行识别,并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。5.如权利要求1所述的语音处理方法,其特征在于,所述通过音频缓冲器缓存实时环境声音信号之前,包括:检测当前环境中的所有声音信号,并判断在所有声音信号中是否存在符合预设声源要求的...

【专利技术属性】
技术研发人员:王健宗贾雪丽
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1