System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种显示设备及基于唤醒词声纹的指令识别方法技术_技高网

一种显示设备及基于唤醒词声纹的指令识别方法技术

技术编号:42689415 阅读:12 留言:0更新日期:2024-09-10 12:38
本申请提供一种显示设备及基于唤醒词声纹的指令识别方法,所述方法通过声音采集器获取待提取音频后,通过语音提取模型在待提取音频中识别唤醒词音频,并通过语音提取模型提取唤醒词音频的目标声纹向量,根据目标声纹向量在待提取音频中提取目标指令词音频,根据目标指令词音频生成控制指令,以及,响应于控制指令,控制显示器显示执行控制指令后的目标用户界面。本申请通过对唤醒词音频对应的声纹向量进行识别,并基于声纹向量获取有效的指令词音频以生成对应的控制指令,减少待提取音频中的其他指令词音频对有效指令词音频的干扰,提高显示设备识别指令的准确性。

【技术实现步骤摘要】

本申请涉及显示设备,尤其涉及一种显示设备及基于唤醒词声纹的指令识别方法


技术介绍

1、显示设备在长时间没有接收到控制指令时,可以从工作模式切换为待机模式以节省功耗。在待机模式下,显示设备会持续检测显示设备所在环境的语音信号,用户可以通过语音唤醒功能(kws,keyword spotting),说出显示设备预设的唤醒词,显示设备在识别出语音信号中包含唤醒词的音频波形时,会从待机模式切换为工作模式,以实现语音唤醒。

2、为了提高控制显示设备的效率,用户可以连续说出唤醒词和指令词,以在唤醒显示设备后,使显示设备相应指令词执行交互动作。当显示设备处于多人说话的环境时,目标说话人外的语音或噪音会影响显示设备对指令词的识别。此时,显示设备可以通过识别目标说话人的声纹,根据声纹从音频中提取目标说话人的语音音频,从而提高对目标说话人指令词的识别。但是,这种方式需要预先对目标说话人执行声纹注册,当显示设备获取存在多个已注册说话人的语音时,无法对目标说话人进行有效的指令词提取。


技术实现思路

1、本申请提供一种显示设备及基于唤醒词声纹的指令识别方法,以解决显示设备在处于嘈杂环境下识别指令词不准确的问题。

2、第一方面,本申请一些实施例提供一种显示设备,所述显示设备包括显示器、存储器、声音采集器和控制器,所述显示器用于显示用户界面,所述存储器用于存储语音提取模型,语音提取模型根据样本数据训练得到,所述样本数据包括来源于相同声源的唤醒词音频和指令词音频;所述声音采集器被配置为获取音频数据;所述控制器被配置为:

3、在通过所述声音采集器获取待提取音频后,通过所述语音提取模型在所述待提取音频中识别唤醒词音频;

4、通过所述语音提取模型提取所述唤醒词音频的目标声纹向量;

5、根据所述目标声纹向量在所述待提取音频中提取目标指令词音频,所述目标指令词音频为声纹向量与所述目标声纹向量的相似度大于或等于相似度阈值的指令词音频;

6、根据所述目标指令词音频生成控制指令,以及,响应于所述控制指令,控制所述显示器显示执行所述控制指令后的目标用户界面。

7、在一些实施例中,所述语音提取模型包括第一模块,所述第一模块被配置为提取所述唤醒词音频的目标声纹向量,所述控制器还被配置为:

8、获取样本数据集,所述样本数据集包括样本唤醒词音频、样本指令词音频和干扰指令词音频;

9、通过第一待训练模块分别提取所述样本唤醒词音频、所述样本指令词音频和所述干扰指令词音频的声纹向量,得到唤醒词声纹向量、指令词声纹向量和干扰词声纹向量;

10、根据第一损失函数计算所述唤醒词声纹向量和所述指令词声纹向量的第一相似值,以及,根据第一损失函数计算所述唤醒词声纹向量和所述干扰词声纹向量的第二相似值;

11、当所述第一相似值大于所述第二相似值时,根据第一待训练模块的当前训练参数输出所述第一模块的模型参数。

12、在一些实施例中,所述语音提取模型还包括第二模块,所述第二模块被配置为根据目标声纹向量在所述待提取音频中提取目标指令词音频,所述控制器还被配置为:

13、叠加所述样本唤醒词音频、所述样本指令词音频和所述干扰指令词音频,得到叠加样本音频;

14、提取所述叠加样本音频的叠加声纹向量;

15、将所述叠加声纹向量和唤醒词声纹向量输入第一学习器,以及,通过所述第一学习器输出所述第一学习器向量,所述第一学习器被配置为滤除叠加声纹向量中,除唤醒词声纹向量以外的其他声纹向量;

16、根据所述第一学习器向量从所述叠加样本音频中提取训练指令词音频;

17、根据第二损失函数计算所述训练指令词音频与所述指令词标签的损失值;

18、若所述损失值大于或等于判定阈值,则根据第一学习器的当前训练参数输出所述第二模块的模型参数。

19、在一些实施例中,所述控制器执行提取所述叠加样本音频的叠加声纹向量的步骤后,还被配置为:

20、将所述叠加声纹向量和指令词声纹向量输入第二学习器,以及,通过所述第二学习器输出第二学习器向量,所述第二学习器被配置为滤除叠加声纹向量中,除指令词声纹向量以外的其他声纹向量;

21、根据所述第二学习器向量从所述叠加样本音频中提取训练指令词音频;

22、根据第二损失函数计算所述训练指令词音频与所述指令词标签的损失值;

23、若所述损失值大于或等于判定阈值,则根据第二学习器的当前训练参数输出所述第二模块的模型参数。

24、在一些实施例中,所述控制器还被配置为:

25、设置所述第一损失函数的第一权重值和所述第二损失函数的第二权重值;

26、根据所述第一权重值和所述第二权重值对所述第一损失函数和所述第二损失函数执行加权求和,得到加权求和结果;

27、根据所述加权求和结果更新所述第一模块的训练参数和所述第二模块的训练参数。

28、在一些实施例中,所述控制器执行叠加所述样本唤醒词音频、所述样本指令词音频和所述干扰指令词音频,被配置为:

29、设置信噪比;

30、根据所述信噪比,基于所述样本唤醒词音频和所述样本指令词音频的样本量,确定干扰指令词音频的叠加量;

31、根据所述叠加量,叠加所述样本唤醒词音频、所述样本指令词音频和所述干扰指令词音频。

32、在一些实施例中,所述第一模块包括编码器和声纹提取器,所述控制器还被配置为:

33、通过所述编码器编码所述唤醒词音频,得到唤醒词音频编码;

34、通过所述声纹编码器提取所述唤醒词音频编码的因果依赖关系,以及,根据因果依赖关系得到所述目标声纹向量。

35、在一些实施例中,所述控制器执行通过所述编码器编码所述唤醒词音频,被配置为:

36、在所述编码器的卷积层设置第一卷积核、第二卷积核和第三卷积核,所述第一卷积核大于所述第二卷积核,所述第二卷积核大于所述第三卷积核;

37、通过所述第一卷积核提取所述唤醒词音频的长时音频特征,以及,通过所述第二卷积核提取所述唤醒词音频的中时音频特征,以及,通过所述第三卷积核提取所述唤醒词音频的短时音频特征;

38、编码所述长时音频特征、中时音频特征和短时音频特征,得到长时音频编码、中时音频编码和短时音频编码;

39、拼接所述长时音频编码、所述中时音频编码和所述短时音频编码,以得到唤醒词音频编码。

40、在一些实施例中,所述控制器执行根据所述第一学习器向量从所述叠加样本音频中提取训练指令词音频,被配置为:

41、获取所述叠加样本音频的多尺度特征;

42、计算所述多尺度特征和所述第一学习器向量的乘积,得到多尺度音频向量;

43、对所述多尺度音频向量执行转置卷积,得到时域音频信号;

44、根据所述时域音频信号生成所述训练本文档来自技高网...

【技术保护点】

1.一种显示设备,其特征在于,包括:

2.根据权利要求1所述的显示设备,其特征在于,所述语音提取模型包括第一模块,所述第一模块被配置为提取所述唤醒词音频的目标声纹向量,所述控制器还被配置为:

3.根据权利要求2所述的显示设备,其特征在于,所述语音提取模型还包括第二模块,所述第二模块被配置为根据目标声纹向量在所述待提取音频中提取目标指令词音频,所述控制器还被配置为:

4.根据权利要求3所述的显示设备,其特征在于,所述控制器执行提取所述叠加样本音频的叠加声纹向量的步骤后,还被配置为:

5.根据权利要求3所述的显示设备,其特征在于,所述控制器还被配置为:

6.根据权利要求3所述的显示设备,其特征在于,所述控制器执行叠加所述样本唤醒词音频、所述样本指令词音频和所述干扰指令词音频,被配置为:

7.根据权利要求2所述的显示设备,其特征在于,所述第一模块包括编码器和声纹提取器,所述控制器还被配置为:

8.根据权利要求7所述的显示设备,其特征在于,所述控制器执行通过所述编码器编码所述唤醒词音频,被配置为:

9.根据权利要求3所述的显示设备,其特征在于,所述控制器执行根据所述第一学习器向量从所述叠加样本音频中提取训练指令词音频,被配置为:

10.一种基于唤醒词声纹的指令识别方法,其特征在于,应用于显示设备,所述显示设备包括显示器、存储器、声音采集器和控制器,所述显示器用于显示用户界面,所述存储器用于存储语音提取模型,所述语音提取模型根据样本数据训练得到,所述样本数据包括来源于相同声源的唤醒词音频和指令词音频;所述声音采集器被配置为获取音频数据,所述方法包括:

...

【技术特征摘要】

1.一种显示设备,其特征在于,包括:

2.根据权利要求1所述的显示设备,其特征在于,所述语音提取模型包括第一模块,所述第一模块被配置为提取所述唤醒词音频的目标声纹向量,所述控制器还被配置为:

3.根据权利要求2所述的显示设备,其特征在于,所述语音提取模型还包括第二模块,所述第二模块被配置为根据目标声纹向量在所述待提取音频中提取目标指令词音频,所述控制器还被配置为:

4.根据权利要求3所述的显示设备,其特征在于,所述控制器执行提取所述叠加样本音频的叠加声纹向量的步骤后,还被配置为:

5.根据权利要求3所述的显示设备,其特征在于,所述控制器还被配置为:

6.根据权利要求3所述的显示设备,其特征在于,所述控制器执行叠加所述样本唤醒词音频、所述样本指令词音频和所述干扰指令词音...

【专利技术属性】
技术研发人员:潘程马明肖炳环张宝军
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1