语音唤醒方法、系统、电子设备和存储介质技术方案

技术编号:36426789 阅读:21 留言:0更新日期:2023-01-20 22:37
本发明专利技术实施例提供一种语音唤醒方法、系统、电子设备和存储介质。该方法包括:对用户语音进行信号处理,确定第一波束形成音频;利用第一唤醒引擎对第一波束形成音频进行实时唤醒识别,若识别到第一波束形成音频属于部分唤醒词时,将第一波束形成音频以及在半字唤醒模式之后确定的第二波束形成音频上传至第二唤醒引擎;利用第一唤醒引擎确定第一波束形成音频以及第二波束形成音频的唤醒置信度,若没有达到预设唤醒阈值时,根据接收到第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。本发明专利技术实施例根据不同的场景结合不同功能的识别引擎交叉验证,可以将唤醒的误识别率大大降低,一定程度提升唤醒效率,并且可以满足不同场景下的唤醒需求。下的唤醒需求。下的唤醒需求。

【技术实现步骤摘要】
语音唤醒方法、系统、电子设备和存储介质


[0001]本专利技术涉及智能语音领域,尤其涉及一种语音唤醒方法、系统、电子设备和存储介质。

技术介绍

[0002]随着智能语音技术的发展,智能语音设备逐步进入用户家庭之中。用户在使用时,通过唤醒词触发智能语音设备的唤醒,来下达语音功能指令。为了识别环境中不同的声源,通常会为智能语音设备搭载多麦克的麦克风阵列。麦克风阵列会采集到多路音频,在唤醒词检测时,考虑到成本、启动效率等因素,通常多麦唤醒更多使用的是利用神经网络进行匹配音波,不会检测声音的识别,当出现例如电流声等外界情况会触发误唤醒。
[0003]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0004]为了防止误唤醒,通常会针对唤醒场景的神经网络模型进行更大规模的训练,或者是针对于特定的唤醒词进行定制化的神经网络模型的优化。然而,当前的唤醒神经网络模型已经优化到极限,以此再进行优化也难以取得更大的技术上的突破。

技术实现思路

[0005]为了至少解决现有技术中多麦唤醒可能会触发误唤醒的问题。第一方面,本专利技术实施例提供一种语音唤醒方法,包括:
[0006]对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;
[0007]利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;
[0008]当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。
[0009]第二方面,本专利技术实施例提供一种语音唤醒系统,包括:
[0010]信号处理程序模块,用于对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;
[0011]半字唤醒程序模块,用于利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;
[0012]语音唤醒程序模块,用于当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤
醒。
[0013]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音唤醒方法的步骤。
[0014]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的语音唤醒方法的步骤。
[0015]本专利技术实施例的有益效果在于:根据不同的场景结合不同功能的识别引擎交叉验证,可以将唤醒的误识别率大大降低,一定程度提升唤醒效率,并且可以满足不同场景下的唤醒需求。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术一实施例提供的一种语音唤醒方法的流程图;
[0018]图2是本专利技术一实施例提供的一种语音唤醒方法的二次校验流程图;
[0019]图3是本专利技术一实施例提供的一种语音唤醒系统的结构示意图;
[0020]图4为本专利技术一实施例提供的一种语音唤醒的电子设备的实施例的结构示意图。
具体实施方式
[0021]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]如图1所示为本专利技术一实施例提供的一种语音唤醒方法的流程图,包括如下步骤:
[0023]S11:对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;
[0024]S12:利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;
[0025]S13:当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。
[0026]在本实施方式中,可以将本方法适配在语音交互场景的智能语音设备,例如家庭场景的智能音响、智能电视机、智能遥控器等;例如也可以应用于会议场景的智能屏幕中;或者也可以应用于车辆驾驶场景的智能车机中。
[0027]以家庭场景为例,通常家庭场景中会有多个智能设备,例如智能音响、智能电视
机、智能遥控器等。本方法可以适用于单个智能设备,也可以适用于多个智能设备组合使用。
[0028]对于步骤S11,以单个智能设备为例(例如,为智能音响),智能音响为了能区分不同的声源方位,通常搭载麦克风阵列,来实时采集用户的语音,利用VAD(Voice Activity Detection,活动语音检测)确保用户一开口就可以及时采集到用户的语音。通过信号处理从采集到的用户语音分离出多路beamforming(波束形成)音频。其中,多路(多通道)波束音频相比于单通道语音可以有效的抑制干扰方向的信号,提高期望方向信号的信噪比,被用于办公会议拾音、IOT智能设备远场交互、车载交互场景的远场语音通信和识别,进一步提高后续唤醒的准确率,进而边采集边确定出用户还未说完的第一波束形成音频。
[0029]对于步骤S12,根据智能设备的不同或智能设备的当前状态,第一唤醒引擎可以选择不同的引擎。还是继续以单个智能音响的使用为例,智能音响通常会内置本地唤醒引擎来实现一些基础的语音交互功能,此时第一唤醒引擎为本地唤醒引擎。
[0030]使用本地唤醒引擎对第一波束形成音频进行实时唤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,包括:对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。2.根据权利要求1所述的方法,其中,所述第一唤醒引擎包括本地唤醒引擎、局域唤醒引擎,所述第二唤醒引擎包括云端识别引擎、局域唤醒引擎。3.根据权利要求2所述的方法,其中,当所述第一唤醒引擎为本地唤醒引擎,所述第二唤醒引擎为云端识别引擎或局域唤醒引擎时,所述利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度包括:若根据本地唤醒引擎确定的唤醒置信度达到预设唤醒阈值时,及时触发语音唤醒,并取消对所述云端识别引擎或局域唤醒引擎的访问。若根据本地唤醒引擎确定的唤醒置信度没有达到预设唤醒阈值时,等待所述云端识别引擎或局域唤醒引擎反馈唤醒结果,根据接收到的所述唤醒结果判断是否触发语音唤醒。4.根据权利要求2所述的方法,其中,当所述第一唤醒引擎为局域唤醒引擎,所述第二唤醒引擎为云端识别引擎时,所述利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度包括:若根据局域唤醒引擎确定的唤醒置信度达到预设唤醒阈值时,触发语音唤醒,并取消对所述云端识别引擎的访问。5.一种语音唤醒系统,包括:信号处理程序模块,用于对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;半字唤醒程序模块,用于利用第一唤醒引擎对所述第一波束形成音频...

【专利技术属性】
技术研发人员:蔡春孟李路天
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1