语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：42559898 阅读：13 留言：0更新日期：2024-08-29 00:30

本公开是关于语音识别方法、装置、电子设备及存储介质，所述方法包括：提取待识别语音的第一特征向量，并根据所述第一特征向量确定所述待识别语音的第一音素序列；根据所述第一音素序列与标准序列确定第一预识别结果，并根据所述第一特征向量与标准向量确定第二预识别结果，其中，所述标准序列包括唤醒语音的因素序列，所述标准向量包括所述唤醒语音的特征向量；根据所述第一预识别结果和所述第二预识别结果，确定待识别语音的目标识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及终端设备，具体涉及一种语音识别方法、装置、电子设备及存储介质。

技术介绍

1、随着智能语音技术的发展，市场上出现了各类智能语音设备。语音唤醒是智能语音设备与用户交互的入口，指智能语音设备在休眠或锁屏状态下，检测到特定的语音指令，使得处于休眠状态下的设备直接进入到等待指令状态。语音唤醒可分为固定唤醒词唤醒和用户自定义唤醒词唤醒两种，相关技术中，执行固定唤醒词唤醒时精度较高，但是执行用户自定义唤醒词唤醒时精度较低，经常出现无法唤醒或者误唤醒的情况。

技术实现思路

1、为克服相关技术中存在的问题，本公开实施例提供一种语音识别方法及装置、电子设备及存储介质，用以解决相关技术中的缺陷。

2、根据本公开实施例的第一方面，提供一种语音识别方法，包括：

3、提取待识别语音的第一特征向量，并根据所述第一特征向量确定所述待识别语音的第一音素序列；

4、根据所述第一音素序列与标准序列确定第一预识别结果，并根据所述第一特征向量与标准向量确定第二预识别结果，其中，所述标准序列包括唤醒语音的因素序列，所述标准向量包括所述唤醒语音的特征向量；

5、根据所述第一预识别结果和所述第二预识别结果，确定待识别语音的目标识别结果。

6、在一个实施例中，所述提取待识别语音的第一特征向量，并根据所述第一特征向量确定所述待识别语音的第一音素序列，包括：

7、将所述待识别语音输入至音素检测模型，以得到所述音素检测模型的特征单元输出的第一特征向量，和

8、在一个实施例中，所述将所述待识别语音输入至音素检测模型，以得到所述音素检测模型的特征单元输出的第一特征向量，和所述音素检测模型的音素分类器输出的第一音素序列，包括：

9、将所述待识别语音进行分帧处理，得到多个音素帧；

10、将所述多个音素帧输入至音素检测模型，以得到所述音素检测模型的特征单元输出的第一特征向量，和所述音素检测模型的音素分类器输出的第一音素序列。

11、在一个实施例中，所述第一音素序列包括多个音素，以及所述多个音素中每个音素的概率值；

12、所述根据所述第一音素序列与标准序列确定第一预识别结果，包括：

13、根据所述标准序列，确定所述第一音素序列中是否存在孤立音素、额外音素和/或缺失音素；

14、在所述第一音素序列中的孤立音素、额外音素和/或缺失音素的数量小于对应的数量阈值的情况下，确定所述第一音素序列中每个音素的概率值的和；

15、在所述第一音素序列中每个音素的概率值的和大于概率阈值的情况下，确定所述第一预识别结果为待识别语音是唤醒语音；

16、在所述第一音素序列中每个音素的概率值的和不大于概率阈值的情况下，确定所述第一预识别结果为待识别语音非唤醒语音。

17、在一个实施例中，所述根据所述第一特征向量与标准向量确定第二预识别结果，包括：

18、确定所述第一特征向量与所述标准向量的相似度；

19、在所述相似度大于相似度阈值的情况下，确定所述第二预识别结果为待识别语音是唤醒语音；

20、在所述相似度不大于相似度阈值的情况下，确定所述第二预识别结果为待识别语音非唤醒语音。

21、在一个实施例中，所述确定所述第一特征向量与所述标准向量的相似度，包括：

22、分别确定所述第一特征向量与所述标准向量的欧氏距离、曼哈顿距离和余弦距离中的至少一种，并将所述欧氏距离、曼哈顿距离和余弦距离中的至少一种的平均值，确定为所述第一特征向量与所述标准向量的相似度。

23、在一个实施例中，所述根据所述第一音素序列与标准序列确定第一预识别结果，并根据所述第一特征向量与标准向量确定第二预识别结果，包括：

24、在所述第一预识别结果为待识别语音是唤醒语音的情况下，根据所述第一特征向量与标准向量确定第二预识别结果。

25、在一个实施例中，所述根据所述第一预识别结果和所述第二预识别结果，确定待识别语音的目标识别结果，包括：

26、在所述第一预识别结果为待识别语音是唤醒语音，且所述第二预识别结果为待识别语音是唤醒语音的情况下，确定所述目标识别结果为待识别语音是唤醒语音；

27、在所述第一预识别结果为待识别语音非唤醒语音，和/或所述第二预识别结果为待识别语音非唤醒语音的情况下，确定所述目标识别结果为待识别语音非唤醒语音。

28、在一个实施例中，还包括：

29、在唤醒语音录入模式下，接收用户输入的待录入语音；

30、提取所述待录入语音的第二特征向量，并根据所述第二特征向量确定所述待识别语音的第二音素序列；

31、根据所述第二音素序列确定所述待录入语音是否符合唤醒词，并在所述待录入语音符合唤醒词的情况下，将所述第二音素序列保存为标准序列，将第二特征向量保存为标准向量。

32、在一个实施例中，所述接收用户输入的待录入语音，包括：

33、接收用户输入的多个待录入语音；

34、所述提取所述待录入语音的第二特征向量，并根据所述第二特征向量确定所述待识别语音的第二音素序列，包括：

35、提取所述多个待录入语音中每个待录入语音的第二特征向量，并根据每个待录入语音的第二特征向量对应确定每个待录入语音的第二音素序列；

36、根据所述第二音素序列确定所述待录入语音是否符合唤醒词，并在所述待录入语音符合唤醒词的情况下，将所述第二音素序列保存为标准序列，将第二特征向量保存为标准向量，包括：

37、根据每个待录入语音的第二音素序列，对应确定每个待录入语音是否符合唤醒词，并在每个待录入语音符合唤醒词的情况下，将任一待录入语音的第二音素序列保存为标准序列，将每个待录入语音的第二特征向量的平均值保存为标准向量。

38、根据本公开实施例的第二方面，提供一种语音识别装置，包括：

39、提取模块，用于提取待识别语音的第一特征向量，并根据所述第一特征向量确定所述待识别语音的第一音素序列；

40、预识别模块，用于根据所述第一音素序列与标准序列确定第一预识别结果，并根据所述第一特征向量与标准向量确定第二预识别结果，其中，所述标准序列包括唤醒语音的因素序列，所述标准向量包括所述唤醒语音的特征向量；

41、目标识别模块，用于根据所述第一预识别结果和所述第二预识别结果，确定待识别语音的目标识别结果。

42、在一个实施例中，所述提取模块具体用于：

43、将所述待识别语音输入至音素检测模型，以得到所述音素检测模型的特征单元输出的第一特征向量，和所述音素检测模型的音素分类器输出的第一音素序列，其中，所述特征单元将所述第一特征向量输入本文档来自技高网...

【技术保护点】

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述提取待识别语音的第一特征向量，并根据所述第一特征向量确定所述待识别语音的第一音素序列，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述将所述待识别语音输入至音素检测模型，以得到所述音素检测模型的特征单元输出的第一特征向量，和所述音素检测模型的音素分类器输出的第一音素序列，包括：

4.根据权利要求1所述的语音识别方法，其特征在于，所述第一音素序列包括多个音素，以及所述多个音素中每个音素的概率值；

5.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述第一特征向量与标准向量确定第二预识别结果，包括：

6.根据权利要求5所述的语音识别方法，其特征在于，所述确定所述第一特征向量与所述标准向量的相似度，包括：

7.根据权利要求4至6中任一项所述的语音识别方法，其特征在于，所述根据所述第一音素序列与标准序列确定第一预识别结果，并根据所述第一特征向量与标准向量确定第二预识别结果，包括：

8.根据

9.根据权利要求1所述的语音识别方法，其特征在于，还包括：

10.根据权利要求9所述的语音识别方法，其特征在于，所述接收用户输入的待录入语音，包括：

11.一种语音识别装置，其特征在于，包括：

12.根据权利要求11所述的语音识别装置，其特征在于，所述提取模块具体用于：

13.根据权利要求12所述的语音识别装置，其特征在于，所述提取模块用于将所述待识别语音输入至音素检测模型，以得到所述音素检测模型的特征单元输出的第一特征向量，和所述音素检测模型的音素分类器输出的第一音素序列时，具体用于：

14.根据权利要求11所述的语音识别装置，其特征在于，所述第一音素序列包括多个音素，以及所述多个音素中每个音素的概率值；

15.根据权利要求11所述的语音识别装置，其特征在于，所述预识别模块用于根据所述第一特征向量与标准向量确定第二预识别结果时，具体用于：

16.根据权利要求15所述的语音识别装置，其特征在于，所述预识别模块用于确定所述第一特征向量与所述标准向量的相似度时，具体用于：

17.根据权利要求14至16中任一项所述的语音识别装置，其特征在于，所述预识别模块具体用于：

18.根据权利要求11所述的语音识别装置，其特征在于，所述目标识别模块具体用于：

19.根据权利要求11所述的语音识别装置，其特征在于，还包括录入模块，用于：

20.根据权利要求19所述的语音识别装置，其特征在于，所述录入模块用于接收用户输入的待录入语音时，具体用于：

21.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至10中任一项所述的语音识别方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种语音识别方法，其特征在于，包括：

4.根据权利要求1所述的语音识别方法，其特征在于，所述第一音素序列包括多个音素，以及所述多个音素中每个音素的概率值；

5.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述第一特征向量与标准向量确定第二预识别结果，包括：

6.根据权利要求5所述的语音识别方法，其特征在于，所述确定所述第一特征向量与所述标准向量的相似度，包括：

8.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述第一预识别结果和所述第二预识别结果，确定待识别语音的目标识别结果，包括：

9.根据权利要求1所述的语音识别方法，其特征在于，还包括：

10.根据权利要求9所述的语音识别方法，其特征在于，所述接收用户输入的待录入语音，包括：

11.一种语音识别装置，其特征在于，包括：

12.根据权利要求11所述的语音识别装置，其特征在于，所述提取模块...

【专利技术属性】
技术研发人员：赵惟肖，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人