混识别处理方法、装置、设备及介质制造方法及图纸

技术编号：44603566 阅读：5 留言：0更新日期：2025-03-14 12:57

本申请涉及语音识别技术领域，特别是涉及到一种混识别处理方法、装置、设备及介质，其中方法包括：基于命令词识别模型对命令词数据进行识别，并选择错误率低于预设范围的命令词数据，生成对应的音素嵌入表示，形成音素嵌入词典；确定与当前命令词对应的混识别命令词，生成混识别列表；识别当前命令词对应的音频嵌入序列；基于音素嵌入词典获取混识别列表中每个混识别命令词的音素嵌入序列；计算音频嵌入序列与各个所述音素嵌入序列的相似度，得到识别结果。本申请能够提高识别准确性，减少命令词的混识别。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音识别领域，特别是涉及到一种混识别处理方法、装置、设备及介质。

技术介绍

1、在智能家居领域，如智能语音音箱、耳机、灯、风扇等设备中，命令词识别是关键功能之一。现有的命令词识别主要依赖于ctc(connect ionist temporal class ification)算法，该算法无需序列对齐，具有快速、省内存等优点，因此被广泛应用于嵌入式设备。然而，ctc算法的一个显著问题是，在处理发音相似的命令词时，容易出现混识别现象，例如“播放上一首”与“播放下一首”，“十一度”与“十七度”，以及“打开血压”与“打开血氧”等，这种情况下，系统可能无法准确地执行用户的指令。

2、因此，现有的语音识别过程中容易对命令词产生混识别的技术问题亟待解决。

技术实现思路

1、本申请的主要目的为提供一种混识别处理方法、装置、设备及介质，旨在解决现有的语音识别过程中容易对命令词产生混识别的技术问题。

2、为了实现上述专利技术目的，本申请提出一种混识别处理方法，所述方法包括：

3、基于命令词识别模型对命令词数据进行识别，并选择错误率低于预设范围的命令词数据，生成对应的音素嵌入表示，形成音素嵌入词典；

4、确定与当前命令词对应的混识别命令词，生成混识别列表；

5、识别当前命令词对应的音频嵌入序列；

6、基于音素嵌入词典获取混识别列表中每个混识别命令词的音素嵌入序列；

7、计算音频嵌入序列与各个所述音素嵌入序列的相似度，得到识别结果。

8、进一步地，所述基于命令词识别模型对命令词数据进行识别的步骤之前，包括：

9、基于通用语料进行特征提取；

10、并基于提取的特征通过预设模型架构进行训练，得到初步模型；

11、基于预设的命令词数据集选取调整数据；

12、基于预设的微调参数，输入调整数据对所述初步模型进行训练，得到命令词识别模型。

13、进一步地，所述基于命令词识别模型对命令词数据进行识别，并选择错误率低于预设范围的命令词数据，生成对应的音素嵌入表示，形成音素嵌入词典的步骤，包括：

14、使用命令词识别模型对选择的命令词数据进行识别，生成识别结果；

15、计算识别结果的错误率，并与预设范围进行对比；

16、选择错误率低于预设范围的命令词数据，将其作为有效命令词数据；

17、基于有效命令词数据生成对应的音素嵌入表示；

18、将所有生成的音素嵌入表示组合成音素嵌入词典。

19、进一步地，所述确定与当前命令词对应的混识别命令词，生成混识别列表的步骤，包括：

20、识别所述当前命令词对应的音素序列；

21、计算当前命令词音素序列与命令词数据中包含的命令词对应的音素序列之间的编辑距离；

22、识别与所述当前命令词的音素序列编辑距离小于预设阈值的所述命令词；

23、将对应的所述命令词判定为混识别命令词，并整理成混识别列表；其中所述混识别命令词包括所述当前命令词。

24、进一步地，所述识别当前命令词对应的音频嵌入序列的步骤，还包括：

25、遍历命令词数据中包含的每一个命令词；

26、评估所述命令词与当前命令词的相似度；

27、根据相似度评估的结果，确定混识别命令词，并将所述混识别命令词

28、加入混识别候选列表。

29、进一步地，所述基于音素嵌入词典获取混识别列表中每个混识别命令词的音素嵌入序列的步骤，包括：

30、根据混识别候选列表，从音素嵌入词典中提取每个混识别命令词对应的音素序列；

31、对于每个混识别命令词对应的音素序列，从音素嵌入词典中识别出对应的音素嵌入，生成音素嵌入序列。

32、进一步地，所述计算音频嵌入序列与各个所述音素嵌入序列的相似度，得到识别结果的步骤，包括：

33、对音频嵌入序列与音素嵌入序列中的每个嵌入向量进行归一化处理；

34、基于归一化的音频嵌入序列和音素嵌入序列，使用动态规划算法计算音频嵌入序列与各个所述音素嵌入序列的相似度得分；

35、比较所述相似度得分，筛选出与音频嵌入序列相似度最高的音素嵌入序列，得到识别结果。

36、本申请的第二方面提出一种混识别处理装置，包括：

37、生成模块，用于基于命令词识别模型对命令词数据进行识别，并选择错误率低于预设范围的命令词数据，生成对应的音素嵌入表示，形成音素嵌入词典；

38、确定模块，用于确定与当前命令词对应的混识别命令词，生成混识别列表；

39、识别模块，用于识别当前命令词对应的音频嵌入序列；

40、获取模块，用于基于音素嵌入词典获取混识别列表中每个混识别命令词的音素嵌入序列；

41、计算模块，用于计算音频嵌入序列与各个所述音素嵌入序列的相似度，得到识别结果。

42、本申请的第三方面还包括一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

43、本申请的第四方面还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

44、有益效果

45、基于命令词识别模型对命令词数据进行识别，选择错误率低于预设范围的命令词数据，生成音素嵌入词典。本专利技术不需要重新训练模型，音素嵌入基于音频嵌入生成，确保了音频和文本在同一个特征空间，避免了不同特征空间的差异。基于音素嵌入词典，获取混识别列表中每个命令词的音素嵌入序列，确保了音频和文本嵌入的一致性。使用动态规划算法计算音频嵌入序列与各个音素嵌入序列的相似度，筛选出相似度最高的音素嵌入序列，得到最终的识别结果。通过设定相似度阈值，进一步确认识别结果，降低误识别概率。明显提高命令词识别的准确性和可靠性，计算高效，占用资源少，易于在嵌入式设备上部署。

本文档来自技高网...

【技术保护点】

1.一种混识别处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的混识别处理方法，其特征在于，所述基于命令词识别模型对命令词数据进行识别的步骤之前，包括：

3.根据权利要求1所述的混识别处理方法，其特征在于，所述基于命令词识别模型对命令词数据进行识别，并选择错误率低于预设范围的命令词数据，生成对应的音素嵌入表示，形成音素嵌入词典的步骤，包括：

4.根据权利要求1所述的混识别处理方法，其特征在于，所述确定与当前命令词对应的混识别命令词，生成混识别列表的步骤，包括：

5.根据权利要求1所述的混识别处理方法，其特征在于，所述识别当前命令词对应的音频嵌入序列的步骤，还包括：

6.根据权利要求1所述的混识别处理方法，其特征在于，所述基于音素嵌入词典获取混识别列表中每个混识别命令词的音素嵌入序列的步骤，包括：

7.根据权利要求1所述的混识别处理方法，其特征在于，所述计算音频嵌入序列与各个所述音素嵌入序列的相似度，得到识别结果的步骤，包括：

8.一种混识别处理装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种混识别处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的混识别处理方法，其特征在于，所述基于命令词识别模型对命令词数据进行识别的步骤之前，包括：

4.根据权利要求1所述的混识别处理方法，其特征在于，所述确定与当前命令词对应的混识别命令词，生成混识别列表的步骤，包括：

5.根据权利要求1所述的混识别处理方法，其特征在于，所述识别当前命令词对应的音频嵌入序列的步骤，还包括：

6...

【专利技术属性】
技术研发人员：李杰，
申请(专利权)人：深圳市友杰智新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人