基于音素纠错的语音识别方法、装置、介质及设备制造方法及图纸

技术编号：43794885 阅读：16 留言：0更新日期：2024-12-24 16:25

本发明专利技术公开了一种基于音素纠错的语音识别方法、装置、介质及设备，所述方法包括：对待识别语音信号进行声音特征提取处理，得到音频信号特征；基于所述音频信号特征进行音素识别，得到音素序列；对所述音素序列进行说话人音素纠错处理，得到音素识别序列；对所述音素识别序列进行文本映射处理，得到语音识别结果。本发明专利技术所述方法通过对音素纠错，解决了错误发音对语音识别的影响，让识别结果更接近真实的文本信息，有效提升了说话人的语音识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，尤其涉及一种基于音素纠错的语音识别方法、装置、介质及设备。

技术介绍

1、在asr(automatic speech recognition，语言识别技术)中对于语音识别问题，现有技术中都是将输入的音频信号通过各种手段，如tdnn网络，gmm-hmm模型等，转化成文本信息，但由于说话人的发音习惯，有些文本的发音与正常发音有差异，导致发音错误，进而无法准确识别说话人的语音对应的文本，导致语音识别的效果较差。

2、因此，如何提升说话人的语音识别准确率是当前亟待解决的技术问题。

技术实现思路

1、鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于音素纠错的语音识别方法、装置、介质及设备。

2、本专利技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本专利技术的实践而习得。

3、根据本专利技术实施例的第一方面，提供了一种基于音素纠错的语音识别方法，所述基于音素纠错的语音识别方法包括：

4、对待识别语音信号进行声音特征提取处理，得到音频信号特征；

5、基于所述音频信号特征进行音素识别，得到音素序列；

6、对所述音素序列进行说话人音素纠错处理，得到音素识别序列；

7、对所述音素识别序列进行文本映射处理，得到语音识别结果。

8、根据本专利技术实施例的第二方面，提供了一种基于音素纠错的语音识别装置，所述装置包括：

10、音素识别模块，用于基于所述音频信号特征进行音素识别，得到音素序列；

11、音素纠错模块，用于对所述音素序列进行说话人音素纠错处理，得到音素识别序列；

12、文本映射模块，用于对所述音素识别序列进行文本映射处理，得到语音识别结果。

13、根据本专利技术实施例的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令由处理器加载并执行以实现如上述任一项所述的方法所执行的操作。

14、根据本专利技术实施例的第四方面，提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现如上述任一所述的方法的指令。

15、本专利技术实施例中提供的技术方案，至少具有如下技术效果或优点：

16、本专利技术实施例提供的一种基于音素纠错的语音识别方法、装置、介质及设备，通过对所述音素序列进行说话人音素纠错处理，得到音素识别序列；对所述音素识别序列进行文本映射处理，得到语音识别结果，通过对音素纠错，解决了错误发音对语音识别的影响，让识别结果更接近真实的文本信息，有效提升了说话人的语音识别准确率。

17、上述说明仅是本专利技术技术方案的概述，为了能够更清楚了解本专利技术的技术手段，而可依照说明书的内容予以实施，并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种基于音素纠错的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音素序列进行说话人音素纠错处理，得到音素识别序列，包括：

3.根据权利要求2所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音频信号特征进行声纹特征提取，得到说话人识别声纹包括：

4.根据权利要求2所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音素序列进行音素纠错处理，得到所述音素识别序列包括：

5.根据权利要求1所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音素识别序列进行文本映射处理，得到语音识别结果包括：

6.根据权利要求1所述的基于音素纠错的语音识别方法，其特征在于，所述对待识别语音信号进行声音特征提取处理，得到音频信号特征包括：

7.根据权利要求1所述的基于音素纠错的语音识别方法，其特征在于，所述基于所述音频信号特征进行音素识别，得到音素序列，包括：

8.一种基于音素纠错的语音识别装置，应用于权利要求1-7任一项所述的方法，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令由处理器加载并执行以实现如权利要求1-7任一项所述的方法所执行的操作。

10.一种电子设备，包括处理器和存储器，其特征在于，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现如权利要求1-7中任一所述的方法的指令。

...

【技术特征摘要】

1.一种基于音素纠错的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音素序列进行说话人音素纠错处理，得到音素识别序列，包括：

3.根据权利要求2所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音频信号特征进行声纹特征提取，得到说话人识别声纹包括：

4.根据权利要求2所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音素序列进行音素纠错处理，得到所述音素识别序列包括：

5.根据权利要求1所述的基于音素纠错的语音识别方法，其特征在于，所述对所述音素识别序列进行文本映射处理，得到语音识别结果包括：

6.根据权利要求1所述的基于音素纠错的语音识别方法，其特征在于...

【专利技术属性】
技术研发人员：邓洋，苏禹博，王兆国，丁庆，
申请(专利权)人：深圳芯瑞华声科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人