一种显示设备及语音唤醒方法技术

技术编号：42101713 阅读：26 留言：0更新日期：2024-07-25 00:27

本申请提供一种显示设备及语音唤醒方法，所述方法通过响应于用户输入的唤醒指令，获取语音唤醒音频，并获取用户预先设定的自定义唤醒词。提取语音唤醒音频的唤醒语音特征，并将唤醒语音特征输入由第二语音模型知识蒸馏训练得到的第一语音模型中，以通过第一语音模型输出唤醒语音特征相对于模板语音特征的唤醒识别概率，在唤醒识别概率大于唤醒识别阈值时，控制显示器显示唤醒后的用户界面。本申请通过第一语音模型将唤醒语音特征与自定义唤醒词的韵律特征进行比对，从而输出唤醒结果。并且，本申请中的第一语音模型通过第二语音模型通过知识蒸馏训练得到，通过第二语音模型在训练过程中的指导，可以提高第一语音模型的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及显示设备，尤其涉及一种显示设备及语音唤醒方法。

技术介绍

1、语音唤醒是指通过识别特定的唤醒词来唤醒显示设备或应用，使其进入工作状态或执行特定操作的技术。这种技术可以应用于智能家居、智能手机、车载系统等领域，为用户提供更好的交互体验。

2、显示设备包括两种唤醒方式，第一种为固定唤醒方式，即说出固定的唤醒词，以唤醒显示设备，这种方式仅支持单一的唤醒词，无法更改。另一种是自定义唤醒方式，即用户自定义设置用于唤醒显示设备的唤醒词。但是，当用户使用自定义唤醒方式时，由于唤醒词种类的增加，也会误唤醒的概率增加。

技术实现思路

1、本申请提供一种显示设备及语音唤醒方法，以降低自定义唤醒词唤醒显示设备时的误唤醒概率。

2、第一方面，本申请一些实施例提供一种显示设备，所述显示设备包括显示器、存储器、用户输入接口和控制器，所述显示器被配置为显示用户界面，所述存储器存储有第一语音模型，所述第一语音模型通过第二语音模型知识蒸馏训练得到，所述第二语音模型为预训练的参数量大于所述第一语音模型的语音识别模型；所述用户输入接口被配置为获取音频数据，所述控制器被配置为：

3、响应于用户输入的唤醒指令，获取语音唤醒音频，以及，获取用户预先设定的自定义唤醒词；

4、提取所述语音唤醒音频的唤醒语音特征；

5、将所述唤醒语音特征输入所述第一语音模型，以通过所述第一语音模型输出所述唤醒语音特征相对于模板语音特征的唤醒识别概率，所述模板语音特征为所述自定义唤醒词的韵律特征；

6、若所述唤醒识别概率大于或等于唤醒识别阈值，则控制所述显示器显示唤醒后的用户界面。

7、在一些实施例中，所述控制器还被配置为：

8、获取训练音频，所述训练音频为根据所述自定义唤醒词生成的音频数据；

9、将所述训练音频输入所述第一语音模型，获取所述第一语音模型输出的预测结果，所述预测分类结果为所述训练音频对自定义唤醒词标签的分类结果；

10、将所述训练音频输入所述第二语音模型，获取所述第二语音模型输出的目标分类结果，所述目标分类结果为所述训练音频对自定义唤醒词标签的分类概率；

11、根据所述预测结果和所述目标分类结果计算训练损失；

12、若所述训练损失大于所述损失阈值，则根据所述训练损失迭代训练所述第一语音模型；

13、若所述训练损失小于或等于损失阈值，则输出所述第一语音模型的当前模型参数。

14、在一些实施例中，所述控制器执行获取所述第一语音模型输出的预测结果，被配置为：

15、设置所述第一语音模型在训练过程中的温度系数，所述温度系数用于表示所述第一语音模型的输出平滑程度，所述温度系数包括第一温度系数和第二温度系数，所述第一温度系数小于所述第二温度系数；

16、通过所述第一语音模型基于所述第一温度系数输出第一预测结果，以及，通过所述第一语音模型基于所述第二温度系数输出第二预测结果。

17、在一些实施例中，所述训练损失包括第一训练损失，所述控制器还被配置为：

18、根据所述第一预测结果与所述目标分类结果计算第一预测损失，以及，根据所述第二预测结果与所述目标分类结果计算第二预测损失；

19、根据所述第一预测损失和所述第二预测损失生成所述第一训练损失。

20、在一些实施例中，所述控制器执行根据所述预测结果和所述目标分类结果计算训练损失，被配置为：

21、根据所述预测结果与分类标签计算第二训练损失，所述分类标签用于指示所述训练音频的分类结果；

22、根据所述第一训练损失和所述第二训练损失生成所述训练损失。

23、在一些实施例中，所述控制器执行根据所述第一训练损失和所述第二训练损失生成所述训练损失，被配置为：

24、设置所述第一训练损失的第一权重值和所述第二训练损失的第二权重值；

25、根据所述第一权重值和所述第二权重值对所述第一训练损失和所述第二训练损失执行加权求和，得到所述训练损失。

26、在一些实施例中，所述第一语音模型包括编码器、联合网络层和softmax层，所述控制器执行将所述唤醒语音特征输入所述第一语音模型，被配置为：

27、通过所述编码器对所述唤醒语音特征执行特征编码，以获取特征编码；

28、将所述特征编码输入所述联合网络层，以通过所述联合网络层获取所述特征编码的深层次语音特征；

29、通过所述softmax层输出所述深层次语音特征相对于所述模板语音特征的唤醒识别概率。

30、在一些实施例中，所述编码器包括卷积层和注意力机制层，所述控制器执行通过所述编码器对所述唤醒语音特征执行特征编码，被配置为：

31、通过所述卷积层提取所述唤醒语音特征的局部特征信息，以及，通过所述注意力机制层提取所述唤醒语音特征的全局特征信息；

32、根据所述局部特征信息和所述全局特征信息生成所述特征编码。

33、在一些实施例中，若所述唤醒识别概率小于唤醒识别阈值，所述控制器还被配置为：

34、生成免唤醒词的免唤醒特征，所述免唤醒词是在所述显示设备处于非唤醒状态下执行控制指令的词语文本；

35、将所述唤醒语音特征和所述免唤醒特征输入所述第一语音模型，以通过所述第一语音模型输出所述唤醒语音特征相对于所述免唤醒特征的免唤醒概率；

36、若所述免唤醒概率大于或等于概率判定阈值，则基于所述免唤醒词生成免唤醒指令；

37、控制所述显示器显示响应于所述免唤醒指令后的用户界面。

38、第二方面，本申请实施例提供一种语音唤醒方法，应用于第一方面所述的显示设备，所述显示设备包括显示器、存储器、用户输入接口和控制器，所述显示器被配置为显示用户界面，所述存储器存储有第一语音模型，所述第一语音模型通过第二语音模型知识蒸馏训练得到，所述第二语音模型为预训练的参数量大于所述第一语音模型的语音识别模型；所述用户接口被配置为获取音频数据；所述方法包括：

39、响应于用户输入的唤醒指令，获取语音唤醒音频，以及，获取用户预先设定的自定义唤醒词；

40、提取所述语音唤醒音频的唤醒语音特征；

41、将所述唤醒语音特征输入所述第一语音模型，以通过所述第一语音模型输出所述唤醒语音特征相对于模板语音特征的唤醒识别概率，所述模板语音特征为所述自定义唤醒词的韵律特征；

42、若所述唤醒识别概率大于或等于唤醒识别阈值，则控制所述显示器显示唤醒后的用户界面。

43、由以上方案可知，本申请提供一种显示设备及语音唤醒方法，所述方法通过响应于用户输入的唤醒指令，获取语音唤醒音频，并获取用户预先设定的自定义唤醒词。提取语音唤醒音频的唤醒语音特征，并将唤醒语音特征输入由第二语音模型知识蒸馏训练得到的第一语音模型中，以通过第一语音模型输出唤醒语音特征相对本文档来自技高网...

【技术保护点】

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

3.根据权利要求2所述的显示设备，其特征在于，所述控制器执行获取所述第一语音模型输出的预测结果，被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述训练损失包括第一训练损失，所述控制器还被配置为：

5.根据权利要求4所述的显示设备，其特征在于，所述控制器执行根据所述预测结果和所述目标分类结果计算训练损失，被配置为：

6.根据权利要求5所述的显示设备，其特征在于，所述控制器执行根据所述第一训练损失和所述第二训练损失生成所述训练损失，被配置为：

7.根据权利要求1所述的显示设备，其特征在于，所述第一语音模型包括编码器、联合网络层和softmax层，所述控制器执行将所述唤醒语音特征输入所述第一语音模型，被配置为：

8.根据权利要求7所述的显示设备，其特征在于，所述编码器包括卷积层和注意力机制层，所述控制器执行通过所述编码器对所述唤醒语音特征执行特征编码，被配置为：

9.根据权

10.一种语音唤醒方法，其特征在于，应用于权利要求1-9任一项所述的显示设备，所述显示设备包括显示器、存储器、用户输入接口和控制器，所述显示器被配置为显示用户界面，所述存储器存储有第一语音模型，所述第一语音模型通过第二语音模型知识蒸馏训练得到，所述第二语音模型为预训练的参数量大于所述第一语音模型的语音识别模型；所述用户接口被配置为获取音频数据；所述方法包括：

...

【技术特征摘要】

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

3.根据权利要求2所述的显示设备，其特征在于，所述控制器执行获取所述第一语音模型输出的预测结果，被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述训练损失包括第一训练损失，所述控制器还被配置为：

5.根据权利要求4所述的显示设备，其特征在于，所述控制器执行根据所述预测结果和所述目标分类结果计算训练损失，被配置为：

6.根据权利要求5所述的显示设备，其特征在于，所述控制器执行根据所述第一训练损失和所述第二训练损失生成所述训练损失，被配置为：

7.根据权利要求1所述的显示设备，其特征在于，所述第一语音模型包括编码器、联合网络层和softm...

【专利技术属性】
技术研发人员：林子毅，季云云，周鉴星，葛绪泽，
申请(专利权)人：海信电子科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人