语音唤醒方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：44963888 阅读：4 留言：0更新日期：2025-04-12 01:34

本申请公开了一种语音唤醒方法、装置、电子设备和计算机可读存储介质，该方法包括：获取目标设备对应的目标注册唤醒音频以及用户输入的目标唤醒音频；分别获取目标唤醒音频对应的目标唤醒特征、以及目标注册唤醒音频对应的目标语音特征；对比目标唤醒特征和目标语音特征，得到目标唤醒结果；其中，目标唤醒结果用于指示是否对目标设备进行唤醒。通过上述方式，本申请能够语音唤醒的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音唤醒，特别是涉及一种语音唤醒方法、装置、电子设备和计算机可读存储介质。

技术介绍

1、随着人工智能和深度学习的迅猛发展，语音唤醒技术在智能家居、智能助手、车载系统等领域得到了广泛的应用。

2、目前，大多的语音唤醒技术过多依赖于手工特征提取和设定规则，尽管在特定场景下表现良好，但存在对环境噪声敏感、识别准确率低、适应性差等问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音唤醒方法、装置、电子设备和计算机可读存储介质，能够提高语音唤醒的准确性。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音唤醒方法，该方法包括：获取目标设备对应的目标注册唤醒音频以及用户输入的目标唤醒音频；分别获取目标唤醒音频对应的目标唤醒特征、以及目标注册唤醒音频对应的目标语音特征；对比目标唤醒特征和目标语音特征，得到目标唤醒结果；其中，目标唤醒结果用于指示是否对目标设备进行唤醒。

3、其中，获取目标唤醒音频对应的目标唤醒特征，包括：对目标唤醒音频进行编码，得到第一目标声学特征；对第一目标声学特征进行解码，得到目标唤醒特征。

4、其中，对目标唤醒音频进行编码，得到第一目标声学特征，是利用第一编码器的第一编码网络执行的，第一编码器为语音唤醒网络中的唤醒子网络中的编码器。

5、其中，获取目标注册唤醒音频对应的目标语音特征，包括：对目标唤醒音频进行编码，得到第二目标声学特征；融合第二目标声学特征和目标注册唤醒音频，以得到目标语音特征。

6、其中，融合第二目标声学特征和目标注册唤醒音频，以得到目标语音特征，包括：对第二目标声学特征和目标注册唤醒音频进行融合，得到目标融合数据；对目标融合数据进行编码，得到第三目标声学特征；对第三目标声学特征进行特征提取，得到目标语音特征。

7、其中，对目标融合数据进行编码，得到第三目标声学特征，是利用第二编码器执行的，第二编码器为语音唤醒网络中的语音注册子网络中的编码器，对目标唤醒音频进行编码，得到第二目标声学特征，是利用第一编码器执行的，对目标唤醒音频进行编码，得到第二目标声学特征，是利用第一编码器执行的，第一编码器为语音唤醒网络中的唤醒子网络中的编码器，第一编码器为语音唤醒网络中的唤醒子网络中的编码器，第二编码器的参数更新速度低于第一编码器；和/或，第二目标声学特征是利用第一编码器的第二编码网络对目标唤醒音频进行编码得到的。

8、其中，对第三目标声学特征进行特征提取，得到目标语音特征，是利用语音唤醒网络中的语音注册子网络中的第一门控循环单元网络执行的，语音唤醒网络还包括文本注册子网络，文本注册子网络包括训练完成的第二门控循环单元网络；第一门控循环单元网络的训练步骤，包括：利用第一门控循环单元网络对第一样本声学特征进行特征提取，得到样本语音特征；其中，第一样本声学特征是对第一样本融合数据进行编码得到的，第一样本融合数据是对第二样本声学特征和样本注册唤醒音频进行融合得到的，第二样本声学特征是利用第一编码器对样本唤醒音频进行编码得到的；以及，利用第二门控循环单元网络，基于样本注册唤醒音频对应的样本注册唤醒文本，生成样本文本特征；利用样本文本特征和样本语音特征之间的差异，调整第一门控循环单元网络的网络参数。

9、其中，在利用第二门控循环单元网络，基于样本注册唤醒音频对应的样本注册唤醒文本，生成样本文本特征之前，语音唤醒方法还包括：获取第三样本声学特征；其中，第三样本声学特征是利用第一编码器的第三编码网络对样本唤醒音频进行编码得到的；利用第二门控循环单元网络，基于样本注册唤醒音频对应的样本注册唤醒文本，生成样本文本特征，包括：对第三样本声学特征和样本注册唤醒文本进行融合，得到第二样本融合数据；利用第二门控循环单元网络，对第二样本融合数据进行特征提取，得到样本文本特征。

10、其中，语音唤醒方法是利用语音唤醒网络执行的，在训练阶段，语音唤醒网络包括唤醒子网络、语音注册子网络和文本注册子网络，唤醒子网络包括第一编码器，对第一编码器的训练顺序先于对唤醒子网络和文本注册子网络，对唤醒子网络和文本注册子网络的训练顺序先于语音注册子网络。

11、其中，目标唤醒结果包括目标唤醒标签；语音唤醒方法还包括：响应于目标唤醒标签为第一标签，确定目标唤醒结果用于指示对目标设备进行唤醒；响应于目标唤醒标签为第二标签，确定目标唤醒结果用于指示不对目标设备进行唤醒。

12、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音唤醒装置，该装置包括第一获取模块、第二获取模块和对比模块；第一获取模块用于获取目标设备对应的目标注册唤醒音频以及用户输入的目标唤醒音频；第二获取模块用于分别获取目标唤醒音频对应的目标唤醒特征、以及目标注册唤醒音频对应的目标语音特征；对比模块用于对比目标唤醒特征和目标语音特征，得到目标唤醒结果；其中，目标唤醒结果用于指示是否对目标设备进行唤醒。

13、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括存储器和处理器，存储器存储有程序指令，处理器用于执行程序指令以实现上述的语音唤醒方法。

14、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序指令，程序指令能够被执行以实现上述的语音唤醒方法。

15、上述技术方案，目标唤醒特征是从用户输入的目标唤醒音频中提取出的有效特征，目标语音特征是从目标设备对应的目标注册唤醒音频中提取出的有效特征，通过比对用户输入的目标唤醒音频的目标唤醒特征和目标设备对应的目标注册唤醒音频的目标语音特征，确定用户输入的目标唤醒音频与目标设备对应的目标注册唤醒音频是否匹配，从而确定是否指示对目标设备进行唤醒。故，通过比对用户输入的目标唤醒音频以及目标设备对应的目标注册唤醒音频，确定是否指示对目标设备进行唤醒，实现唤醒语音输入到唤醒结果的直接映射，避免传统语音唤醒方法中繁琐的特征提取和模型构建等步骤，大大提高了语音唤醒的准确性和效率。

本文档来自技高网...

【技术保护点】

1.一种语音唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标唤醒音频对应的目标唤醒特征，包括：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，获取所述目标注册唤醒音频对应的目标语音特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述融合所述第二目标声学特征和所述目标注册唤醒音频，以得到所述目标语音特征，包括：

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求5所述的方法，其特征在于，所述对所述第三目标声学特征进行特征提取，得到所述目标语音特征，是利用语音唤醒网络中的语音注册子网络中的第一门控循环单元网络执行的，所述语音唤醒网络还包括文本注册子网络，所述文本注册子网络包括训练完成的第二门控循环单元网络；所述第一门控循环单元网络的训练步骤，包括：

8.根据权利要求7所述的方法，其特征在于，在所述利用所述第二门控循环单元网络，基于所述样本注册唤醒音频对应的样本注册唤醒文本，生成样本文本特征之前，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述语音唤醒方法是利用语音唤醒网络执行的，在训练阶段，所述语音唤醒网络包括唤醒子网络、语音注册子网络和文本注册子网络，所述唤醒子网络包括第一编码器，对所述第一编码器的训练顺序先于对所述唤醒子网络和所述文本注册子网络，对所述唤醒子网络和所述文本注册子网络的训练顺序先于所述语音注册子网络。

10.根据权利要求1所述的方法，其特征在于，所述目标唤醒结果包括目标唤醒标签；所述方法还包括：

11.一种语音唤醒装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-10任一项所述的语音唤醒方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现如权利要求1-10任一项所述的语音唤醒方法。

...

【技术特征摘要】

1.一种语音唤醒方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标唤醒音频对应的目标唤醒特征，包括：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，获取所述目标注册唤醒音频对应的目标语音特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述融合所述第二目标声学特征和所述目标注册唤醒音频，以得到所述目标语音特征，包括：

6.根据权利要求5所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，在所述利用所述第二门控循环单元网络，基于所述样本注册...

【专利技术属性】
技术研发人员：于心迪，申凯，刘迪源，潘嘉，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人