基于网络收集和语音合成的语音识别方法、系统及介质技术方案

技术编号：41211626 阅读：4 留言：0更新日期：2024-05-09 23:34

本发明专利技术公开了一种基于网络收集和语音合成的语音识别方法、系统及介质，所述方法包括：选定专业领域；爬取所选定专业领域相关的语料，并进行分句及文本清洗，得到相应的语料库；从开源通用语音库中选取真人录音，生成人声数据库，作为真人声音模板；构建语音合成网络，在语料库基础上使用不同真人声音模板进行自动化批量语音合成，生成专业语音数据集；根据应用场景的需求，构建语音识别神经网络；将开源通用语音库和专业语音数据集进行合并，对语音识别神经网络进行训练和测试，得到增强语音识别模型；利用模型对待识别的语音进行识别。本发明专利技术可以提高各个专业领域的语音识别精度，降低语音识别应用成本，为实现智能化的人机交互方式提供新思路。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于网络收集和语音合成的语音识别方法、系统、计算机设备及存储介质，属于语音识别。

技术介绍

1、现有技术中的语音识别和语音合成技术已经得到了广泛应用和发展。语音识别技术已被应用于智能语音助手、自动语音识别系统、电话客服系统等场景；语音合成技术被应用于智能音箱、语音广告等领域。

2、语音识别技术的发展经历了gmm-hmm、dnn-hmm和端到端三个阶段。目前，端到端语音识别已成为主流的研究方向。它能够直接学习从输入声学信号到转录文字的映射，避免了传统语音识别框架的繁琐结构。其中，端到端流式语音识别技术能够在处理音频流的过程中实时返回识别结果，更好地应用于需要实时获取识别结果的场景。

3、语音合成技术(text-to-speech，tts)是一种将文本转换为声音的技术。早期的语音合成技术主要基于规则和模板，需要大量的人工参与和规则定义，难以满足复杂场景的需求。近年来随着深度学习技术的发展，基于深度学习的语音合成技术逐渐成为主流，它可以分为两类：基于联合建模(joint modeling)和基于端到端建模(end-to-end modeling)。端到端建模的语音合成技术直接将输入的文本信息映射到音频输出。这种方法不需要预先定义复杂的声学或语言学特征，只需要输入文本信息和相应的音频数据，通过深度学习网络将两者联系起来，直接输出所需的音频，具有简单、直接、高效等特点。

4、然而，目前仍然存在一些不足之处。例如，尚缺少针对某些专业领域的语音识别系统的实际应用案例；缺少利用语音合成技术构

技术实现思路

1、有鉴于此，本专利技术提供了一种基于网络收集和语音合成的语音识别方法、系统、计算机设备及存储介质，其可以提高专业语音识别的准确率和可靠性，节省语音识别模型构建的人力与时间成本，满足语音识别在各专业领域的应用需求。

2、本专利技术的第一个目的在于提供一种基于网络收集和语音合成的语音识别方法。

3、本专利技术的第二个目的在于提供一种基于网络收集和语音合成的语音识别系统。

4、本专利技术的第三个目的在于提供一种计算机设备。

5、本专利技术的第四个目的在于提供一种存储介质。

6、本专利技术的第一个目的可以通过采取如下技术方案达到：

7、一种基于网络收集和语音合成的语音识别方法，所述方法包括：

8、选定需构建专业语音识别模型的专业领域；

9、使用主题式网络爬虫爬取所选定专业领域相关的语料，并对爬取到的语料进行分句及文本清洗，得到所选定专业领域的语料库；

10、从开源通用语音库中选取真人录音，生成人声数据库，作为真人声音模板；

11、构建基于深度学习的端到端语音合成网络，在语料库基础上使用不同真人声音模板进行自动化批量语音合成，生成专业语音数据集；

12、根据应用场景的需求，构建语音识别神经网络；

13、将开源通用语音库和专业语音数据集进行合并，对语音识别神经网络进行训练和测试，得到增强语音识别模型；

14、利用增强语音识别模型对待识别的语音进行识别。

15、进一步的，所述对爬取到的语料进行分句及文本清洗，具体包括：

16、以句号或分号作为分隔符将文本切割、分行写入文本文档；

17、去除不便于进行语音合成的特殊符号，将专业相关符号转化为对应的中文口语表达形式，统计单句字数，并剔除单句字数过多的文本语句。

18、进一步的，所述从开源通用语音库中选取真人录音，生成开源通用语音库，具体包括：

19、从开源通用语音库中随机抽取多条真人录音，生成开源通用语音库，所述真人录音的男声和女声比例为1：1。

20、进一步的，所述构建基于深度学习的端到端语音合成网络，在语料库基础上进行自动化批量语音合成，生成专业语音数据集，具体包括：

21、构建基于深度学习的端到端语音合成网络，所述语音合成网络包括编码器、合成器和声码器；

22、利用端到端语音合成网络，对语料库逐行进行语音合成操作，得到专业语音数据集，并对语音数据进行质量检验和清洗。

23、进一步的，所述对语音数据进行质量检验和清洗，具体包括：

24、对语音数据进行识别，并计算输出每条语音的字错率和缺字率，根据具体情况剔除的缺字率和字错率不符合要求的语音文件，从而保证专业语音数据集的质量。

25、进一步的，所述将开源通用语音库和专业语音数据集进行合并，对语音识别神经网络进行训练和测试，得到增强语音识别模型，具体包括：

26、将开源通用语音库和专业语音数据集进行合并，划分出训练集和测试集；

27、将训练集输入语音识别神经网络进行训练，得到增强语音识别模型；

28、将测试集输入增强语音识别模型进行识别，得到识别准确率；

29、若识别准确率达到预设值，将增强语音识别模型作为最终的增强语音识别模型；

30、若识别准确率未达到预设值，对增强语音识别模型进行调试和优化，直到识别准确率达到预设值，将调试和优化后的增强语音识别模型作为最终的增强语音识别模型。

31、进一步的，所述语音识别神经网络为循环神经网络、自注意力机制神经网络或卷积-注意力机制神经网络。

32、本专利技术的第二个目的可以通过采取如下技术方案达到：

33、一种基于网络收集和语音合成的语音识别系统，所述系统包括：

34、选定模块，用于选定需构建专业语音识别模型的专业领域；

35、爬取模块，用于使用主题式网络爬虫爬取所选定专业领域相关的语料，并对爬取到的语料进行分句及文本清洗，得到所选定专业领域的语料库；

36、第一生成模块，用于从开源通用语音库中选取真人录音，生成人声数据库，作为真人声音模板；

37、第二生成模块，用于构建基于深度学习的端到端语音合成网络，在语料库基础上使用不同真人声音模板进行自动化批量语音合成，生成专业语音数据集；

38、构建模块，用于根据应用场景的需求，构建语音识别神经网络；

39、训练与测试模块，用于将开源通用语音库和专业语音数据集进行合并，对语音识别神经网络进行训练和测试，得到增强语音识别模型；

40、识别模块，用于利用增强语音识别模型对待识别的语音进行识别。

41、本专利技术的第三个目的可以通过采取如下技术方案达到：

42、一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的语音识别方法。

43、本专利技术的第四个目的可以通过采取如下技术方案达到：

44、一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的语音识别方法。

45、本专利技术本文档来自技高网...

【技术保护点】

1.一种基于网络收集和语音合成的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述对爬取到的语料进行分句及文本清洗，具体包括：

3.根据权利要求1所述的语音识别方法，其特征在于，所述从开源通用语音库中选取真人录音，生成人声数据库，作为后续语音合成的真人声音模板，具体包括：

4.根据权利要求1所述的语音识别方法，其特征在于，所述构建基于深度学习的端到端语音合成网络，在语料库基础上使用不同真人声音模板进行自动化批量语音合成，生成专业语音数据集，具体包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述对语音数据进行质量检验和清洗，具体包括：

6.根据权利要求1所述的语音识别方法，其特征在于，所述将开源通用语音库和专业语音数据集进行合并，对语音识别神经网络进行训练和测试，得到增强语音识别模型，具体包括：

7.根据权利要求1-6任一项所述的语音识别方法，其特征在于，所述语音识别神经网络为循环神经网络、自注意力机制神经网络或卷积-注意力机制神经网络。

9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的语音识别方法。

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的语音识别方法。

...

【技术特征摘要】

1.一种基于网络收集和语音合成的语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述对爬取到的语料进行分句及文本清洗，具体包括：

5.根据权利要求4所述的语音识别方法，其特征在于，所述对语音数据进行质量检验和清洗，具体包括：

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员：陈太聪，陈一木，董晴，温昊杰，尹美珊，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人