一种语音数据的识别方法及装置制造方法及图纸

技术编号：28424899 阅读：18 留言：0更新日期：2021-05-11 18:33

本发明专利技术公开一种语音数据的识别方法及装置，该方法包括：采集第一语音训练集，根据第一语音训练集得到一级语音识别模型；采集第一语音评估集，对应第一文本数据集；对第一语音评估集分别从预设的多个维度进行变换处理，得到多个语音评估集；使用一级语音识别模型分别对多个语音评估集进行识别，得到多个文本数据集；将多个文本数据集与第一文本数据集进行比对，得到多个语音文本识别错误率；根据多个语音文本识别错误率确定使用对应维度对第一语音训练集进行变换处理的占比；根据多个占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集；使用第二语音训练集对所述一级语音识别模型进行训练，得到二级语音识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据的识别方法及装置
本专利技术涉及语音识别领域，尤其涉及一种语音数据的识别方法及装置。
技术介绍
在语音识别领域，随着深度学习的发展，语音识别模型的建模能力更强，对语音样本数据进行更多维度的增广，经过这些语音样本数据训练后所获取的语音识别模型往往更具鲁棒性和泛化性。然而，和图像领域相比，语音识别领域用于语音样本数据的增广方法仍比较保守。目前的主流语音样本数据增广方法包括音频叠噪声，语速增减，混响效果和SpecAug对时频信息进行掩蔽。这些语音样本数据增广方法都太过保守，训练出的模型识别语音数据获得的文本数据的错误率过高。
技术实现思路
本专利技术提供一种语音数据的识别方法及装置，以至少解决现有技术中存在的以上技术问题。本专利技术一方面提供一种语音数据的识别方法，包括：采集第一语音训练集，所述第一语音训练集包含多个语音样本数据，根据第一语音训练集得到一级语音识别模型；采集第一语音评估集，对应第一文本数据集，所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据；对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，得到每个维度对应的语音评估集，所述多个维度包括：强度和频率；使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别，得到每个维度对应的文本数据集；将所述每个维度对应的文本数据集与所述第一文本数据集进行比对，得到每个维度对应的语音文本识别错误率；根据所述每个维度对应的语音文本识别错误率确定使...

【技术保护点】
1.一种语音数据的识别方法，其特征在于，该方法包括：/n采集第一语音训练集，所述第一语音训练集包含多个语音样本数据，根据第一语音训练集得到一级语音识别模型；/n采集第一语音评估集，对应第一文本数据集，所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据；/n对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，得到每个维度对应的语音评估集，所述多个维度包括：强度和频率；/n使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别，得到每个维度对应的文本数据集；/n将所述每个维度对应的文本数据集与所述第一文本数据集进行比对，得到每个维度对应的语音文本识别错误率；/n根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比；/n根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集；/n根据所述第二语音训练集得到二级语音识别模型；/n使用所述二级语音识别模型将待识别的语音数据识别为文本数据。/n

【技术特征摘要】
1.一种语音数据的识别方法，其特征在于，该方法包括：
采集第一语音训练集，所述第一语音训练集包含多个语音样本数据，根据第一语音训练集得到一级语音识别模型；
采集第一语音评估集，对应第一文本数据集，所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据；
对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，得到每个维度对应的语音评估集，所述多个维度包括：强度和频率；
使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别，得到每个维度对应的文本数据集；
将所述每个维度对应的文本数据集与所述第一文本数据集进行比对，得到每个维度对应的语音文本识别错误率；
根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比；
根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集；
根据所述第二语音训练集得到二级语音识别模型；
使用所述二级语音识别模型将待识别的语音数据识别为文本数据。

2.根据权利要求1所述的语音数据的识别方法，其特征在于，所述维度为强度时，所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，包括：
使用函数对所述第一语音评估集中的语音数据的强度进行变换，所述函数为线性函数、非线性函数和分段函数。

3.根据权利要求1所述的语音数据的识别方法，其特征在于，所述维度频率时，所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理，包括：
将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据，所述特定语音数据的频率在所述预设频率范围内；
所述预设频率范围为：大于2000HZ且小于第一语音评估集的语音数据采样率的二分之一。

4.根据权利要求1所述的语音数据的识别方法，其特征在于，所述根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比，包括：
根据所述每个...

【专利技术属性】
技术研发人员：杨超，陈晓宇，张彬彬，曾晨晨，
申请(专利权)人：出门问问苏州信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人