一种设备唤醒方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:36111107 阅读:27 留言:0更新日期:2022-12-28 14:13
本申请提供了一种设备唤醒方法、装置、计算机设备及存储介质,属于语音识别技术领域。所述方法包括:对获取到的语音信号中的多个语音帧进行分类,得到多个分类信息,所述分类信息用于指示所述语音帧中包括目标短语中各个音节、各个字或者各个词的概率;基于所述多个分类信息,确定所述目标短语的尾端点,所述尾端点用于指示所述语音信号中所述目标短语播放结束的时刻;基于所述目标短语的尾端点,唤醒目标设备。上述技术方案,能够确定目标短语在语音信号中播放结束的时刻,最后在该目标短语播放结束的时刻唤醒目标设备,能够保证在完整的检测到目标短语的情况下才唤醒目标设备,避免了误唤醒,提高了唤醒的准确率。提高了唤醒的准确率。提高了唤醒的准确率。

【技术实现步骤摘要】
一种设备唤醒方法、装置、计算机设备及存储介质


[0001]本申请涉及语音识别
,特别涉及一种设备唤醒方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着语音识别技术的发展,使用具有语音唤醒功能的设备已成为一种流行趋势。使用对象可以通过说出特定的词汇,也就是唤醒词,来唤醒设备,使设备从待机状态转入工作状态。如何提高唤醒的成功率是需要解决的问题。
[0003]目前,通常是通过直接判断采集到语音信号中是否包含唤醒词中的关键字,或者关键音节,若检测到关键词或者关键音节,则唤醒设备,以提高唤醒的成功率。
[0004]上述技术方案存在的问题是,由于设备检测到关键字或者关键的音节就会被唤醒,导致设备被误唤醒的可能性提高,降低了唤醒的准确率。

技术实现思路

[0005]本申请实施例提供了一种设备唤醒方法、装置、计算机设备及存储介质能够保证在完整的检测到目标短语的情况下才唤醒目标设备,避免了误唤醒,提高了唤醒的准确率。所述技术方案如下:
[0006]一方面,提供了一种设备唤醒方法,所述方法包括:
[0007]对获取到的语音信号中的多个语音帧进行分类,得到多个分类信息,所述分类信息用于指示所述语音帧中包括目标短语中各个音节、各个字或者各个词的概率;
[0008]基于所述多个分类信息,确定所述目标短语的尾端点,所述尾端点用于指示所述语音信号中所述目标短语播放结束的时刻;
[0009]基于所述目标短语的尾端点,唤醒目标设备。
[0010]在一些实施例中,所述对获取到的语音信号中的多个语音帧进行分类,得到多个分类信息,包括:
[0011]对于所述语音信号中任一语音帧,对所述语音帧进行特征提取,得到所述语音帧的语音特征;
[0012]基于神经网络对所述语音特征进行分类,得到所述语音帧的分类信息,所述神经网络用于对音节、字或者词进行分类。
[0013]在一些实施例中,所述方法还包括:
[0014]对于目标语音帧,获取与所述目标语音帧相邻的相邻语音帧的分类信息,所述目标语音帧为所述多个语音帧中的任一语音帧;
[0015]基于所述相邻语音帧的分类信息和平滑系数,对所述目标语音帧的分类信息进行平滑处理,所述平滑处理用于使相邻的语音帧中所述目标短语的各个音节、各个字或者各个词的概率的变化趋势趋于平滑。
[0016]在一些实施例中,所述基于所述多个分类信息,确定所述目标短语的尾端点,包
括:
[0017]基于所述多个分类信息,确定第一目标帧,所述第一目标帧为首次包括所述目标短语中的目标字或者目标词的语音帧;
[0018]基于矩形滑动窗口,对位于所述第一目标帧之后的多个第一语音帧进行处理,得到多个第一信息,所述多个第一信息用于指示所述目标字或者目标词的概率的变化趋势,所述矩形滑动窗口为的长度为第一数量帧,滑动步长为一帧;
[0019]基于所述多个第一信息,确定所述目标短语的尾端点。
[0020]在一些实施例中,所述基于所述多个第一信息,确定所述目标短语的尾端点,包括:
[0021]响应于任一相邻的第一信息中,所述目标字或者所述目标词的概率由大于第一阈值变为小于第一阈值,确定第二目标帧,所述第二目标帧为确定所述相邻的第一信息时所述矩形滑动窗口所滑动经过的第一语音帧;
[0022]将所述第二目标帧的起始时刻,确定为所述目标短语的尾端点。
[0023]在一些实施例中,所述基于所述多个分类信息,确定所述目标短语的尾端点,包括:
[0024]基于所述多个分类信息,确定第三目标帧,所述第三目标帧为首次包括所述目标短语中的目标音节的语音帧;
[0025]基于三角滑动窗口,对位于所述第三目标帧之后的多个第二语音帧进行处理,得到多个第二信息,所述多个第二信息用于指示所述目标音节的概率的变化趋势,所述三角滑动窗口的长度为第二数量帧,滑动步长为一帧;
[0026]基于所述多个第二信息,确定所述目标短语的尾端点。
[0027]在一些实施例中,所述基于所述多个第二信息,确定所述目标短语的尾端点,包括:
[0028]基于所述多个第二信息,确定相邻的两个第二信息中所述目标音节的概率的变化量;
[0029]响应于所述变化量连续第三数量次均大于第二阈值,确定第四目标帧,所述第四目标帧为变化量首次大于第二阈值时所述三角滑动窗口所滑动经过的第二语音帧;
[0030]将所述第四目标帧的起始时刻,确定为所述目标短语的尾端点。
[0031]在一些实施例中,所述方法还包括:
[0032]获取当前输入的所述语音信号;
[0033]基于语音滑动窗口对所述语音信号进行处理,得到所述多个语音帧,所述语音滑动窗口的长度为第一时长,滑动步长为第二时长,所述第二时长小于所述第一时长。
[0034]在一些实施例中,所述方法还包括:
[0035]响应于任一分类信息中所述目标短语中唤醒音节、唤醒字或者唤醒词的概率大于唤醒阈值,唤醒所述目标设备;
[0036]所述基于所述目标短语的尾端点,唤醒目标设备,包括:
[0037]在所述目标设备已唤醒的情况下,从所述语音信号中获取第一语音信号,所述第一语音信号为所述尾端点之后的语音信号;
[0038]将所述第一语音信号和第二语音信号输入自动语音识别模型,所述第二语音信号
为新采集到的语音信号,所述自动语音识别模型用于将语音信号识别为交互指令。
[0039]另一方面,提供了一种设备唤醒的装置,所述装置包括:
[0040]分类模块,用于对获取到的语音信号中的多个语音帧进行分类,得到多个分类信息,所述分类信息用于指示所述语音帧中包括目标短语中各个音节、各个字或者各个词的概率;
[0041]确定模块,用于基于所述多个分类信息,确定所述目标短语的尾端点,所述尾端点用于指示所述语音信号中所述目标短语播放结束的时刻;
[0042]唤醒模块,用于基于所述目标短语的尾端点,唤醒目标设备。
[0043]在一些实施例中,所述分类模块,用于对于所述语音信号中任一语音帧,对所述语音帧进行特征提取,得到所述语音帧的语音特征;基于神经网络对所述语音特征进行分类,得到所述语音帧的分类信息,所述神经网络用于对音节、字或者词进行分类。
[0044]在一些实施例中,所述装置还包括:
[0045]第一获取模块,用于对于目标语音帧,获取与所述目标语音帧相邻的相邻语音帧的分类信息,所述目标语音帧为所述多个语音帧中的任一语音帧;
[0046]平滑模块,用于基于所述相邻语音帧的分类信息和平滑系数,对所述目标语音帧的分类信息进行平滑处理,所述平滑处理用于使相邻的语音帧中所述目标短语的各个音节、各个字或者各个词的概率的变化趋势趋于平滑。
[0047]在一些实施例中,所述确定模块包括:
[0048]第一确定单元,用于基于所述多个分类信息,确定第一目标帧,所述第一目标帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备唤醒方法,其特征在于,所述方法包括:对获取到的语音信号中的多个语音帧进行分类,得到多个分类信息,所述分类信息用于指示所述语音帧中包括目标短语中各个音节、各个字或者各个词的概率;基于所述多个分类信息,确定所述目标短语的尾端点,所述尾端点用于指示所述语音信号中所述目标短语播放结束的时刻;基于所述目标短语的尾端点,唤醒目标设备。2.根据权利要求1所述的方法,其特征在于,所述对获取到的语音信号中的多个语音帧进行分类,得到多个分类信息,包括:对于所述语音信号中任一语音帧,对所述语音帧进行特征提取,得到所述语音帧的语音特征;基于神经网络对所述语音特征进行分类,得到所述语音帧的分类信息,所述神经网络用于对音节、字或者词进行分类。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对于目标语音帧,获取与所述目标语音帧相邻的相邻语音帧的分类信息,所述目标语音帧为所述多个语音帧中的任一语音帧;基于所述相邻语音帧的分类信息和平滑系数,对所述目标语音帧的分类信息进行平滑处理,所述平滑处理用于使相邻的语音帧中所述目标短语的各个音节、各个字或者各个词的概率的变化趋势趋于平滑。4.根据权利要求1所述的方法,其特征在于,所述基于所述多个分类信息,确定所述目标短语的尾端点,包括:基于所述多个分类信息,确定第一目标帧,所述第一目标帧为首次包括所述目标短语中的目标字或者目标词的语音帧;基于矩形滑动窗口,对位于所述第一目标帧之后的多个第一语音帧进行处理,得到多个第一信息,所述多个第一信息用于指示所述目标字或者目标词的概率的变化趋势,所述矩形滑动窗口为的长度为第一数量帧,滑动步长为一帧;基于所述多个第一信息,确定所述目标短语的尾端点。5.根据权利要求4所述的方法,其特征在于,所述基于所述多个第一信息,确定所述目标短语的尾端点,包括:响应于任一相邻的第一信息中,所述目标字或者所述目标词的概率由大于第一阈值变为小于第一阈值,确定第二目标帧,所述第二目标帧为确定所述相邻的第一信息时所述矩形滑动窗口所滑动经过的第一语音帧;将所述第二目标帧的起始时刻,确定为所述目标短语的尾端点。6.根据权利要求1所述的方法,其特征在于,所述基于所述多个分类信息,确定所述目标短语的尾端点,包括:基于所述多个分类信息,确定第三目标帧,所述第三目标帧为首次包括所述目标短语中的目标音节的语音帧;基于三角滑动窗口,对位于所述第三目标帧之后的多个第二语音帧进行处理,得到多个第二信息,所述多个第二信息用于指示所述目标...

【专利技术属性】
技术研发人员:李良斌
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1