语音唤醒方法及相关装置制造方法及图纸

技术编号：42837270 阅读：3 留言：0更新日期：2024-09-27 17:10

本申请公开了一种语音唤醒方法及相关装置，属于智能终端领域。所述方法包括：获取环境音频信号和唤醒参考特征，基于环境音频信号确定唤醒决策结果。基于唤醒决策结果和唤醒参考特征，确定唤醒澄清状态。在唤醒澄清状态指示唤醒决策结果需要澄清的情况下，通过与用户之间的语音澄清交互确定唤醒澄清状态对应的澄清结果，在澄清结果指示语音客户端需要被唤醒的情况下，唤醒语音客户端。通过唤醒参考特征对唤醒决策结果进行澄清，判断唤醒决策结果是否存在歧义。在唤醒澄清状态指示唤醒决策结果需要澄清的情况下，表明唤醒决策结果存在歧义。通过与用户之间的语音澄清交互，进一步确定语音客户端是否需要被唤醒，从而解决语音客户端被误唤醒的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及智能终端领域，特别涉及一种语音唤醒方法及相关装置。

技术介绍

1、随着智能终端的普及，越来越多的智能终端中安装有诸如语音助手等语音客户端，用户能够通过唤醒词来唤醒语音客户端，从而通过与用户之间的交互来为用户提供服务。例如，智能终端实时地检测环境音频信号，在环境音频信号包括唤醒词的情况下，触发语音客户端进入唤醒状态，然后通过与用户之间的交互，按照用户的语音指令执行相应的操作。然而，在用户当前所处的环境比较嘈杂的情况下，容易出现语音客户端被误唤醒的问题。即，在用户没有主动唤醒语音客户端的情况下，可能会因环境干扰导致语音客户端被错误唤醒。

技术实现思路

1、本申请提供了一种语音唤醒方法及相关装置，可以解决相关技术语音客户端被误唤醒的问题。所述技术方案如下：

2、第一方面，提供了一种语音唤醒方法，所述方法包括：获取环境音频信号和唤醒参考特征，唤醒参考特征是指唤醒语音客户端的辅助特征。基于环境音频信号确定唤醒决策结果，唤醒决策结果指示是否需要唤醒语音客户端。基于唤醒决策结果和唤醒参考特征，确定唤醒澄清状态，唤醒澄清状态指示是否需要对唤醒决策结果进行澄清。在唤醒澄清状态指示唤醒决策结果需要澄清的情况下，通过与用户之间的语音澄清交互确定唤醒澄清状态对应的澄清结果。在澄清结果指示语音客户端需要被唤醒的情况下，唤醒语音客户端。

3、通过唤醒参考特征对唤醒决策结果进行澄清，以此来判断唤醒决策结果是否存在歧义。在唤醒澄清状态指示唤醒决策结果需要澄清的情况下，表明唤醒决策

4、可选地，将环境音频信号输入至唤醒模型，以得到唤醒模型输出的唤醒决策结果。也即是，基于环境音频信号，通过唤醒模型确定唤醒决策结果。

5、示例地，唤醒决策结果包括唤醒状态和不唤醒状态。或者，唤醒决策结果包括唤醒决策状态和决策置信度，决策置信度指示环境音频信号被识别为唤醒决策状态的概率。即，唤醒决策状态包括唤醒状态和不唤醒状态，环境音频信号被识别为唤醒状态的概率与被识别为不唤醒状态的概率之和为1。

6、需要说明的是，上述所提及的基于环境音频信号，通过唤醒模型确定唤醒决策结果仅为一种示例。可选地，还能够按照其他的方式确定唤醒决策结果。示例地，对环境音频信号进行逐字检测，以得到检测结果。在检测结果包括唤醒词的情况下，确定唤醒决策结果为需要唤醒语音客户端。在检测结果不包括唤醒词的情况下，确定唤醒决策结果为不需要唤醒语音客户端。

7、可选地，将唤醒决策结果和唤醒参考特征输入至唤醒澄清决策模型，以得到唤醒澄清决策模型输出的唤醒澄清状态。也即是，通过唤醒澄清决策模型输出唤醒澄清状态。

8、唤醒澄清决策模型实质上是一个分类器，在唤醒澄清决策模型为二分类模型的情况下，通过唤醒澄清决策模型，将唤醒决策结果分为需要澄清和不需要澄清两种。在唤醒澄清决策模型为三分类模型的情况下，通过唤醒澄清决策模型，将唤醒决策结果分为唤醒状态、不唤醒状态和需要澄清三种。

9、可选地，从唤醒规则库中获取与唤醒决策结果和唤醒参考特征匹配的目标唤醒规则，将目标唤醒规则包括的澄清状态确定为唤醒澄清状态。也即是，直接通过唤醒规则库确定唤醒澄清状态，无需基于样本数据集训练唤醒澄清决策模型，节省了样本数据集构建和模型训练所需的成本。

10、需要说明的是，在实际应用中，为了保证唤醒澄清状态的准确率，可以融合唤醒澄清决策模型和唤醒规则库这两种方式，来综合判断是否需要对唤醒决策结果进行澄清。

11、唤醒参考特征包括人像特征、声源特征、唤醒词特征和视线特征中的至少一个。获取唤醒参考特征的实现过程包括：获取环境视频，环境视频是在采集环境音频信号的过程中采集的，对环境视频进行人像检测，以确定人像特征和视线特征。基于环境音频信号确定声源特征和唤醒词特征。

12、可选地，人像特征包括人像图像和人像数量，声源特征包括声源位置，唤醒词特征包括唤醒词在环境音频信号中的位置以及唤醒词对应的上下文特征，视线特征包括目光是否注视和目光注视方向。

13、当然，在实际应用中，还能够通过其他的方式获取唤醒参考特征，且人像特征、声源特征、唤醒词特征和视线特征中每一个特征还能够包括其他的特征，本申请实施例对此不做限定。

14、第二方面，提供了一种语音唤醒装置，所述语音唤醒装置具有实现上述第一方面中语音唤醒方法行为的功能。所述语音唤醒装置包括至少一个模块，该至少一个模块用于实现上述第一方面所提供的语音唤醒方法。

15、第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储执行上述第一方面所提供的语音唤醒方法的计算机程序。所述处理器被配置为用于执行所述存储器中存储的计算机程序，以实现上述第一方面所述的语音唤醒方法。

16、可选地，所述计算机设备还可以包括通信总线，该通信总线用于该处理器与存储器之间建立连接。

17、第四方面，提供了一种计算机可读存储介质，所述存储介质内存储有指令，当所述指令在计算机上运行时，使得计算机执行上述第一方面所述的语音唤醒方法的步骤。

18、第五方面，提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得计算机执行上述第一方面所述的语音唤醒方法的步骤。或者说，提供了一种计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行上述第一方面所述的语音唤醒方法的步骤。

19、上述第二方面至第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

本文档来自技高网...

【技术保护点】

1.一种语音唤醒方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述唤醒决策结果和所述唤醒参考特征，确定唤醒澄清状态，包括：

3.如权利要求1所述的方法，其特征在于，所述基于所述唤醒决策结果和所述唤醒参考特征，确定唤醒澄清状态，包括：

4.如权利要求1-3任一所述的方法，其特征在于，所述唤醒参考特征包括人像特征、声源特征、唤醒词特征和视线特征中的至少一个；

5.如权利要求4所述的方法，其特征在于，所述人像特征包括人像图像和人像数量，所述声源特征包括声源位置，所述唤醒词特征包括唤醒词在所述环境音频信号中的位置以及所述唤醒词对应的上下文特征，所述视线特征包括目光是否注视和目光注视方向。

6.如权利要求1-5任一所述的方法，其特征在于，所述唤醒决策结果包括唤醒决策状态和决策置信度，所述决策置信度指示所述环境音频信号被识别为所述唤醒决策状态的概率。

7.一种语音唤醒装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述唤醒澄清决策模块具体用于：p>

9.如权利要求7所述的装置，其特征在于，所述唤醒澄清决策模块具体用于：

10.如权利要求7-9任一所述的装置，其特征在于，所述唤醒参考特征包括人像特征、声源特征、唤醒词特征和视线特征中的至少一个；

11.如权利要求10所述的装置，其特征在于，所述人像特征包括人像图像和人像数量，所述声源特征包括声源位置，所述唤醒词特征包括唤醒词在所述环境音频信号中的位置以及所述唤醒词对应的上下文特征，所述视线特征包括目光是否注视和目光注视方向。

12.如权利要求7-11任一所述的装置，其特征在于，所述唤醒决策结果包括唤醒决策状态和决策置信度，所述决策置信度指示所述环境音频信号被识别为所述唤醒决策状态的概率。

13.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器被配置为用于执行所述存储器中存储的计算机程序，以实现权利要求1-6任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述存储介质内存储有指令，当所述指令在所述计算机上运行时，使得所述计算机执行权利要求1-6任一所述方法的步骤。

15.一种计算机程序，其特征在于，所述计算机程序包括指令，当所述指令在所述计算机上运行时，使得所述计算机执行权利要求1-6任一项所述方法的步骤。

...

【技术特征摘要】

1.一种语音唤醒方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述唤醒决策结果和所述唤醒参考特征，确定唤醒澄清状态，包括：

3.如权利要求1所述的方法，其特征在于，所述基于所述唤醒决策结果和所述唤醒参考特征，确定唤醒澄清状态，包括：

4.如权利要求1-3任一所述的方法，其特征在于，所述唤醒参考特征包括人像特征、声源特征、唤醒词特征和视线特征中的至少一个；

7.一种语音唤醒装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述唤醒澄清决策模块具体用于：

9.如权利要求7所述的装置，其特征在于，所述唤醒澄清决策模块具体用于：

【专利技术属性】
技术研发人员：翟周伟，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人