控制语音的识别方法及目标角色的控制方法、相关装置制造方法及图纸

技术编号:31789888 阅读:16 留言:0更新日期:2022-01-08 10:47
本申请公开了一种控制语音的识别方法及目标角色的控制方法、相关装置,其中,控制语音的识别方法包括:获取语音数据流中的目标语音分段;获取所述目标语音分段对应的语音特征;获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度;响应于所述相似度大于预设阈值,确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。上述方案,能够快速识别出控制语音。能够快速识别出控制语音。能够快速识别出控制语音。

【技术实现步骤摘要】
控制语音的识别方法及目标角色的控制方法、相关装置


[0001]本申请涉及语音识别
,特别是涉及一种控制语音的识别方法及目标角色的控制方法、相关装置。

技术介绍

[0002]近年来,人工智能(Artificial Intelligence,AI)教育逐渐变得火热,大多数AI教育课程都以在线课程平台为基础进行延伸,辅以相应的硬件设备,如智能小车、智能机器人等。AI教育涉及到许多算法,从语音到图像,从传统算法到深度学习。在课堂中为了能够引起学生的兴趣,通常会将一些人工智能技术与游戏相结合,让学生能够更直观的看到AI技术的应用。语音识别技术与游戏的结合能够带来更多的互动效果,为课堂带来更多的知识与快乐。
[0003]目前的语音识别接口通常是以一段.wav或者.mp3格式的语音文件作为输入,语音识别接口通过一些复杂的算法识别出语音文件的内容。但是对于语音游戏来说,所用到的语音接口需要能够处理语音数据流、识别速度快、实时反馈结果,这是当前许多语音识别接口所做不到的。

技术实现思路

[0004]本申请提供一种控制语音的识别方法及目标角色的控制方法、相关装置。
[0005]本申请第一方面提供了一种控制语音的识别方法,所述方法包括:获取语音数据流中的目标语音分段;获取所述目标语音分段对应的语音特征;获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度;响应于所述相似度大于预设阈值,确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。
[0006]因此,在获取语音数据流中的目标语音分段后,可以获取目标语音分段对应的语音特征,于是可以计算目标语音分段对应的语音特征与参考语音特征之间的相似度,然后根据相似度是否大于预设阈值,来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音,从而可以根据实时获取的语音数据流,快速识别出其中的控制语音,并识别出控制语音对应的目标控制指令,无需语音输入输出(Input Output,IO)操作,能够做到实时识别,使音控游戏可以进行实时响应。
[0007]其中,所述获取语音数据流中的目标语音分段,包括:利用语音采集设备采集所述语音数据流;将所述语音数据流中的背景音进行过滤,得到所述语音数据流中的目标语音分段。
[0008]因此,利用语音采集设备实时采集语音数据流,可以将语音数据流中的背景音进行过滤,从而得到语音数据流中的目标语音分段,可提高语音识别准确度,便于快速判断语音数据流中的目标语音分段是否为控制语音,无需语音IO操作,能够做到实时识别,为使音控游戏进行实时响应提供技术支持。
[0009]其中,所述将所述语音数据流中的背景音进行过滤,得到所述语音数据流中的目
标语音分段,包括:以设定长度的时间窗口对所述语音数据流进行划分,得到多个语音分段;对所述多个语音分段中的至少部分语音分段进行语音活动检测,得到所述至少部分语音分段对应的振幅峰值;将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
[0010]因此,可以根据实际应用场景来设置时间窗口的长度,然后对语音数据流按照时间窗口进行划分,可以得到多个语音分段,于是可以对其中的至少部分语音分段进行语音活动检测,并认为对应的振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段,从而可以实现判断用户输入的目标语音分段是否为控制语音,提高用户语音识别准确度。
[0011]其中,所述将所述语音数据流中的背景音进行过滤,得到所述语音数据流中的目标语音分段,包括:提取所述语音数据流中的若干个关键点;获取每个关键点的振幅,将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段,或,获取每个关键点对应的包含该关键点的语音分段的振幅峰值,将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
[0012]因此,可以提取语音数据流中的若干个关键点,通过获取各关键点的振幅,判断各关键点的振幅与预设阈值的大小,并认为振幅大于预设阈值的关键点属于用户输入的语音分段内,将包含振幅大于预设阈值的关键点的语音分段作为目标语音分段,或者,通过获取每个关键点对应的包含该关键点的语音分段的振幅峰值,并认为振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段,从而可以实现从一段语音数据流中过滤背景音,提取用户输入的目标语音分段控制语音,有助于提高用户语音识别的速度和准确度。
[0013]其中,所述获取所述目标语音分段对应的语音特征,包括:对所述目标语音分段中的语音信号进行预加重处理,并获取经所述预加重处理后的所述目标语音分段对应的语音特征。
[0014]因此,通过对每个目标语音分段中的语音信号进行预加重处理,可以弥补语音信号中高频部分的损耗,提高信号的传输质量,然后可以获取经预加重处理后的目标语音分段对应的语音特征,实现根据目标语音分段对应的语音特征来识别出控制语音,并进一步可以确定目标控制语音的控制指令,能够做到实时识别语音数据流中的控制语音的控制指令,为使音控游戏进行实时响应提供技术支持。
[0015]其中,所述方法还包括:预先获取关于目标控制指令的若干个语音样本,并获得每个语音样本对应的语音特征;将所述若干个语音样本对应的语音特征的平均值作为所述目标控制指令对应的所述参考语音特征。
[0016]因此,通过预先获取关于目标控制指令的若干个语音样本,并获得每个语音样本对应的语音特征,可以获得若干个语音样本对应的语音特征的平均值,于是可以将该语音特征的平均值作为目标控制指令对应的参考语音特征,然后可以实现根据获取到的目标语音分段对应的语音特征与参考语音特征之间的相似度,来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音,并确定控制语音的控制指令。
[0017]其中,所述获得每个语音样本对应的语音特征,包括:对每个语音样本进行语音活动检测,得到每个语音样本对应的振幅峰值;对所述振幅峰值大于预设幅值的语音样本中的语音信号进行预加重处理,并获取经所述预加重处理后的每个语音样本对应的语音特征。
[0018]因此,可以对每个语音样本进行语音活动检测,并认为对应的振幅峰值大于预设幅值的语音分段是用户输入的有效语音样本,然后通过对每个有效语音样本中的语音信号进行预加重处理,可以弥补语音信号中高频部分的损耗,提高信号的传输质量,然后可以获取经预加重处理后的每个语音样本对应的语音特征,进而可以获得若干个语音样本对应的语音特征的平均值,于是可以将该语音特征的平均值作为目标控制指令对应的参考语音特征。
[0019]其中,所述响应于所述相似度大于预设阈值,确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音,包括:响应于所述相似度大于预设阈值,确定所述目标语音分段为预设用户录入的控制语音,识别出所述目标语音分段对应的目标控制指令。
[0020]因此,在确定目标语音分段对应的语音特征与参考语音特征之间的相似度大于预设阈值后,则可以确定该目标语音分段为预设用户录入的控制语音,并确定该目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种控制语音的识别方法,其特征在于,所述方法包括:获取语音数据流中的目标语音分段;获取所述目标语音分段对应的语音特征;获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度;响应于所述相似度大于预设阈值,确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。2.根据权利要求1所述的控制语音的识别方法,其特征在于,所述获取语音数据流中的目标语音分段,包括:利用语音采集设备采集所述语音数据流;将所述语音数据流中的背景音进行过滤,得到所述语音数据流中的目标语音分段。3.根据权利要求2所述的控制语音的识别方法,其特征在于,所述将所述语音数据流中的背景音进行过滤,得到所述语音数据流中的目标语音分段,包括:以设定长度的时间窗口对所述语音数据流进行划分,得到多个语音分段;对所述多个语音分段中的至少部分语音分段进行语音活动检测,得到所述至少部分语音分段对应的振幅峰值;将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。4.根据权利要求2所述的控制语音的识别方法,其特征在于,所述将所述语音数据流中的背景音进行过滤,得到所述语音数据流中的目标语音分段,包括:提取所述语音数据流中的若干个关键点;获取每个关键点的振幅,将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段,或,获取每个关键点对应的包含该关键点的语音分段的振幅峰值,将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。5.根据权利要求1

4任一项所述的控制语音的识别方法,其特征在于,所述获取所述目标语音分段对应的语音特征,包括:对所述目标语音分段中的语音信号进行预加重处理,并获取经所述预加重处理后的所述目标语音分段对应的语音特征。6.根据权利要求1

5任一项所述的控制语音的识别方法,其特征在于,所述方法还包括:预先获取关于目标控制指令的若干个语音样本,并获得每个语音样本对应的语音特征;将所述若干个语音样本对应的语音特征的平均值作为所述目标控制指令对应的所述参考语音特征。7.根据权利要求6所述的控制语音的识别方法,其特征在于,所述获得每个语音样本对应的语音特征,包括:对每个语音样本进行语音活动检测,得到每个语音样本对应的振幅峰值;对所述振幅峰值大于预设幅值的语音样本中的语音信号进行预加重处理,并获取经所述预加重处理后的每个语音样本对应的语音特征。8.根据权利要求1至7任一项所述的控制语音的识别方法,其特征在于,所述响应于所述相似度大于预设阈值,确定所述目标语音分段为与所述参考语音特征对应的目标控制指

【专利技术属性】
技术研发人员:张正明李诚
申请(专利权)人:上海商汤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1