一种设备唤醒方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：36111107 阅读：27 留言：0更新日期：2022-12-28 14:13

本申请提供了一种设备唤醒方法、装置、计算机设备及存储介质，属于语音识别技术领域。所述方法包括：对获取到的语音信号中的多个语音帧进行分类，得到多个分类信息，所述分类信息用于指示所述语音帧中包括目标短语中各个音节、各个字或者各个词的概率；基于所述多个分类信息，确定所述目标短语的尾端点，所述尾端点用于指示所述语音信号中所述目标短语播放结束的时刻；基于所述目标短语的尾端点，唤醒目标设备。上述技术方案，能够确定目标短语在语音信号中播放结束的时刻，最后在该目标短语播放结束的时刻唤醒目标设备，能够保证在完整的检测到目标短语的情况下才唤醒目标设备，避免了误唤醒，提高了唤醒的准确率。提高了唤醒的准确率。提高了唤醒的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种设备唤醒方法、装置、计算机设备及存储介质

[0001]本申请涉及语音识别
，特别涉及一种设备唤醒方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着语音识别技术的发展，使用具有语音唤醒功能的设备已成为一种流行趋势。使用对象可以通过说出特定的词汇，也就是唤醒词，来唤醒设备，使设备从待机状态转入工作状态。如何提高唤醒的成功率是需要解决的问题。
[0003]目前，通常是通过直接判断采集到语音信号中是否包含唤醒词中的关键字，或者关键音节，若检测到关键词或者关键音节，则唤醒设备，以提高唤醒的成功率。
[0004]上述技术方案存在的问题是，由于设备检测到关键字或者关键的音节就会被唤醒，导致设备被误唤醒的可能性提高，降低了唤醒的准确率。

技术实现思路

[0005]本申请实施例提供了一种设备唤醒方法、装置、计算机设备及存储介质能够保证在完整的检测到目标短语的情况下才唤醒目标设备，避免了误唤醒，提高了唤醒的准确率。所述技术方案如下：
[0006]一方面，提供了一种设备唤醒方法，所述方法包括：
[0007]对获取到的语音信号中的多个语音帧进行分类，得到多个分类信息，所述分类信息用于指示所述语音帧中包括目标短语中各个音节、各个字或者各个词的概率；
[0008]基于所述多个分类信息，确定所述目标短语的尾端点，所述尾端点用于指示所述语音信号中所述目标短语播放结束的时刻；
[0009]基于所述目标短语的尾端点，唤醒目标设备。
[0010]在一些实施例中，...

【技术保护点】

【技术特征摘要】
1.一种设备唤醒方法，其特征在于，所述方法包括：对获取到的语音信号中的多个语音帧进行分类，得到多个分类信息，所述分类信息用于指示所述语音帧中包括目标短语中各个音节、各个字或者各个词的概率；基于所述多个分类信息，确定所述目标短语的尾端点，所述尾端点用于指示所述语音信号中所述目标短语播放结束的时刻；基于所述目标短语的尾端点，唤醒目标设备。2.根据权利要求1所述的方法，其特征在于，所述对获取到的语音信号中的多个语音帧进行分类，得到多个分类信息，包括：对于所述语音信号中任一语音帧，对所述语音帧进行特征提取，得到所述语音帧的语音特征；基于神经网络对所述语音特征进行分类，得到所述语音帧的分类信息，所述神经网络用于对音节、字或者词进行分类。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：对于目标语音帧，获取与所述目标语音帧相邻的相邻语音帧的分类信息，所述目标语音帧为所述多个语音帧中的任一语音帧；基于所述相邻语音帧的分类信息和平滑系数，对所述目标语音帧的分类信息进行平滑处理，所述平滑处理用于使相邻的语音帧中所述目标短语的各个音节、各个字或者各个词的概率的变化趋势趋于平滑。4.根据权利要求1所述的方法，其特征在于，所述基于所述多个分类信息，确定所述目标短语的尾端点，包括：基于所述多个分类信息，确定第一目标帧，所述第一目标帧为首次包括所述目标短语中的目标字或者目标词的语音帧；基于矩形滑动窗口，对位于所述第一目标帧之后的多个第一语音帧进行处理，得到多个第一信息，所述多个第一信息用于指示所述目标字或者目标词的概率的变化趋势，所述矩形滑动窗口为的长度为第一数量帧，滑动步长为一帧；基于所述多个第一信息，确定所述目标短语的尾端点。5.根据权利要求4所述的方法，其特征在于，所述基于所述多个第一信息，确定所述目标短语的尾端点，包括：响应于任一相邻的第一信息中，所述目标字或者所述目标词的概率由大于第一阈值变为小于第一阈值，确定第二目标帧，所述第二目标帧为确定所述相邻的第一信息时所述矩形滑动窗口所滑动经过的第一语音帧；将所述第二目标帧的起始时刻，确定为所述目标短语的尾端点。6.根据权利要求1所述的方法，其特征在于，所述基于所述多个分类信息，确定所述目标短语的尾端点，包括：基于所述多个分类信息，确定第三目标帧，所述第三目标帧为首次包括所述目标短语中的目标音节的语音帧；基于三角滑动窗口，对位于所述第三目标帧之后的多个第二语音帧进行处理，得到多个第二信息，所述多个第二信息用于指示所述目标...

【专利技术属性】
技术研发人员：李良斌，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人