一种语音数据的识别方法及装置制造方法及图纸

技术编号:28424899 阅读:18 留言:0更新日期:2021-05-11 18:33
本发明专利技术公开一种语音数据的识别方法及装置,该方法包括:采集第一语音训练集,根据第一语音训练集得到一级语音识别模型;采集第一语音评估集,对应第一文本数据集;对第一语音评估集分别从预设的多个维度进行变换处理,得到多个语音评估集;使用一级语音识别模型分别对多个语音评估集进行识别,得到多个文本数据集;将多个文本数据集与第一文本数据集进行比对,得到多个语音文本识别错误率;根据多个语音文本识别错误率确定使用对应维度对第一语音训练集进行变换处理的占比;根据多个占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集;使用第二语音训练集对所述一级语音识别模型进行训练,得到二级语音识别模型。

【技术实现步骤摘要】
一种语音数据的识别方法及装置
本专利技术涉及语音识别领域,尤其涉及一种语音数据的识别方法及装置。
技术介绍
在语音识别领域,随着深度学习的发展,语音识别模型的建模能力更强,对语音样本数据进行更多维度的增广,经过这些语音样本数据训练后所获取的语音识别模型往往更具鲁棒性和泛化性。然而,和图像领域相比,语音识别领域用于语音样本数据的增广方法仍比较保守。目前的主流语音样本数据增广方法包括音频叠噪声,语速增减,混响效果和SpecAug对时频信息进行掩蔽。这些语音样本数据增广方法都太过保守,训练出的模型识别语音数据获得的文本数据的错误率过高。
技术实现思路
本专利技术提供一种语音数据的识别方法及装置,以至少解决现有技术中存在的以上技术问题。本专利技术一方面提供一种语音数据的识别方法,包括:采集第一语音训练集,所述第一语音训练集包含多个语音样本数据,根据第一语音训练集得到一级语音识别模型;采集第一语音评估集,对应第一文本数据集,所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据;对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理,得到每个维度对应的语音评估集,所述多个维度包括:强度和频率;使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别,得到每个维度对应的文本数据集;将所述每个维度对应的文本数据集与所述第一文本数据集进行比对,得到每个维度对应的语音文本识别错误率;根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比;根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理第二语音训练集;根据所述第二语音训练集得到二级语音识别模型;使用所述二级语音识别模型将待识别的语音数据识别为文本数据。其中,所述维度为强度时,所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理,包括:使用函数对所述第一语音评估集中的语音数据的强度进行变换,所述函数为线性函数、非线性函数和分段函数。其中,所述维度为频率时,所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理,包括:将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据,所述特定语音数据的频率在所述预设频率范围内;所述预设频率范围为:大于2000HZ且小于第一语音评估集的语音数据采样率的二分之一。其中,所述根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比,包括:根据所述每个维度对应的语音文本识别错误率的比例确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比。其中,所述根据第一语音训练集得到一级语音识别模型,包括:使用所述第一语音训练集训练原始语音识别模型,获得一级语音识别模型;其中,所述根据所述第二语音训练集得到二级语音识别模型,包括:使用所述第二语音训练集对所述原始语音识别模型或者所述一级语音识别模型进行训练,得到二级语音识别模型;使用所述二级语音识别模型将待识别的语音数据识别为文本数据。本专利技术另一方面提供一种语音数据的识别装置,包括:采集模块,用于采集第一语音训练集和第一语音评估集;训练模块,用于训练原始语音识别模型或者一级语音识别模型;处理模块,用于将所述第一语音训练集和所述第一语音评估集中的语音数据进行分别从预设的多个维度进行变换处理;计算模块,用于计算每个维度对应的语音文本识别错误率,计算使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比;识别模块,用于识别每个维度对应的语音评估集。其中,所述处理模块,还用于使用函数对所述第一语音评估集中的语音的强度进行变换,所述函数为线性函数、非线性函数和分段函数。其中,所述处理模块,还用于将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据,所述特定语音数据的频率在所述预设频率范围内;所述预设频率范围为:大于2000HZ且小于第一语音评估集的语音数据采样率的二分之一。其中,所述计算模块,还用于根据所述每个维度对应的语音文本识别错误率的比例确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比。上述方案中,将语音的强度进行变换,加强了语音数据在强度方面的变化,将语音满足预设条件的频率进行替换,加强了语音数据在频率方面的变化,根据一级语音识别模型对经过这两种处理方法增广后的语音数据进行识别后的到的文本,得到该文本比对后的错误率的比例,确定这两种处理方法在一级语音识别模型训练方法中语音样本数据的占比,用通过处理后的第二语音训练集对一级语音识别模型进行训练,得到的二级语音识别模型识别强度和频率维度变化丰富的语音数据时错误率更低。附图说明图1示出了本专利技术一实施例提供的语音数据的识别方法流程示意图图2示出了本专利技术一实施例提供的语音数据的识别装置结构示意图具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在语音识别领域,随着深度学习的发展,语音识别模型的建模能力更强,对语音样本数据进行更多维度的增广,经过这些语音样本数据训练后所获取的语音识别模型往往更具鲁棒性和泛化性。然而,和图像领域相比,语音识别领域用于语音样本数据的增广方法仍比较保守。目前的主流语音样本数据增广方法包括音频叠噪声,语速增减,混响效果和SpecAug对时频信息进行掩蔽。这些语音样本数据增广方法都太过保守,训练出的模型识别语音数据获得的文本数据的错误率过高。为了对语音样本数据进行更多维度的的变化,进一步增强语音识别模型的鲁棒性,本专利技术一实施例提供了一种语音数据的识别方法,如图1所示,该方法包括:步骤101,采集第一语音训练集,所述第一语音训练集包含多个语音样本数据,根据第一语音训练集得到一级语音识别模型。采集第一语音训练集,所述第一语音训练集是一个用于训练语音识别模型的包含多个语音的语音数据集,使用所述第一语音训练集对原始语音识别模型进行训练,所述原始语音识别模型是一个最基础的数学模型,不具有识别语音的功能,训练后得到具有识别语音功能的一级语音识别模型。步骤102,采集第一语音评估集,对应第一文本数据集,所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据。采集第一语音评估集,所述第一语音评估集是一个包含多个语音的样本语音数据集,总时长限制在2-10个小时,第一语音评估集中的语音与第一语音训练集中的语音不存在数据交叉本文档来自技高网...

【技术保护点】
1.一种语音数据的识别方法,其特征在于,该方法包括:/n采集第一语音训练集,所述第一语音训练集包含多个语音样本数据,根据第一语音训练集得到一级语音识别模型;/n采集第一语音评估集,对应第一文本数据集,所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据;/n对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理,得到每个维度对应的语音评估集,所述多个维度包括:强度和频率;/n使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别,得到每个维度对应的文本数据集;/n将所述每个维度对应的文本数据集与所述第一文本数据集进行比对,得到每个维度对应的语音文本识别错误率;/n根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比;/n根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集;/n根据所述第二语音训练集得到二级语音识别模型;/n使用所述二级语音识别模型将待识别的语音数据识别为文本数据。/n

【技术特征摘要】
1.一种语音数据的识别方法,其特征在于,该方法包括:
采集第一语音训练集,所述第一语音训练集包含多个语音样本数据,根据第一语音训练集得到一级语音识别模型;
采集第一语音评估集,对应第一文本数据集,所述第一文本数据集包含对应所述第一语音评估集中每个语音样本数据的文本数据;
对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理,得到每个维度对应的语音评估集,所述多个维度包括:强度和频率;
使用所述一级语音识别模型分别对每个维度对应的语音评估集进行识别,得到每个维度对应的文本数据集;
将所述每个维度对应的文本数据集与所述第一文本数据集进行比对,得到每个维度对应的语音文本识别错误率;
根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比;
根据每个维度对应的占比对第一语音训练集中相应数量的语音样本数据进行变换处理得到第二语音训练集;
根据所述第二语音训练集得到二级语音识别模型;
使用所述二级语音识别模型将待识别的语音数据识别为文本数据。


2.根据权利要求1所述的语音数据的识别方法,其特征在于,所述维度为强度时,所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理,包括:
使用函数对所述第一语音评估集中的语音数据的强度进行变换,所述函数为线性函数、非线性函数和分段函数。


3.根据权利要求1所述的语音数据的识别方法,其特征在于,所述维度频率时,所述对第一语音评估集的语音样本数据分别从预设的多个维度进行变换处理,包括:
将所述第一语音评估集中频率在预设频率范围内的语音数据替换为特定语音数据,所述特定语音数据的频率在所述预设频率范围内;
所述预设频率范围为:大于2000HZ且小于第一语音评估集的语音数据采样率的二分之一。


4.根据权利要求1所述的语音数据的识别方法,其特征在于,所述根据所述每个维度对应的语音文本识别错误率确定使用对应维度对第一语音训练集中的语音样本数据进行变换处理的占比,包括:
根据所述每个...

【专利技术属性】
技术研发人员:杨超陈晓宇张彬彬曾晨晨
申请(专利权)人:出门问问苏州信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1