声学模型自适应方法及系统技术方案

技术编号:13275799 阅读:62 留言:0更新日期:2016-05-19 01:19
本发明专利技术涉及一种声学模型自适应方法及系统,该方法包括:在声学模型训练集上,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;在所述声学模型训练集上,对每段语音数据提取声学特征参数;将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,并作为深度神经网络模型的输入进行训练以形成声学识别模型;以及在语音识别阶段,依据所述声学识别模型进行语音识别以形成识别结果。本发明专利技术利用深度神经网络模型提取对应说话人的身份认证矢量,并利用身份认证矢量对深度神经网络模型进行重训练,使得深度神经网络模型具有较好的说话人自适应的特点,提高了语音识别的准确率。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,特指一种声学模型自适应方法及系统
技术介绍
现有被证明效果最好的语音识别系统中,声学模型大多是在成百上千小时数据集合上训练的深度网络模型。目前训练声学模型所用的声学特征是与说话人无关的滤波器组(filter-bank,fBank)特征,因此训练出来的声学模型也是与说话人无关的。利用深度网络模型来进行语音识别,由于该模型训练时缺少说话人相关的个性特征,而使得语音识别的准确率较低,且语音识别的适应性较差。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提供一种声学模型自适应方法及系统,解决现有技术中的深度网络模型因缺少说话人相关的个性特征而使得语音识别的准确率较低和语音识别的适应性较差的问题。实现上述目的的技术方案是:本专利技术一种声学模型自适应方法,包括:在声学模型训练集上,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;在所述声学模型训练集上,对每段语音数据提取声学特征参数;以及将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,并作为深度神经网络模型的输入进行训练以形成声学识别模型。本专利技术利用深度神经网络模型提取对应说话人的身份认证矢量,并利用身份认证矢量对深度神经网络模型进行重训练,使得深度神经网络模型具有较好的说话人自适应的特点,提高了语音识别的准确率。本专利技术声学模型自适应方法的进一步改进在于,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量,包括:对所述语音数据提取出39维麦尔倒谱系数,并根据计算公式提取所述身份认证矢量,所述计算公式为:M =n+Ti (一)式一中:M为说话人语音的高斯混合模型均值超矢量,η为深度神经网络模型超矢量,T为总变异空间,i为服从Ν(0,I)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦尔倒谱系数的维数,F = 39维,D为总变异空间的维度;D的范围在100维至300维之间。本专利技术声学模型自适应方法的进一步改进在于,对每段语音数据提取声学特征参数,包括:对每段语音数据中的每一语音帧提取90维声学特征参数,所述90维声学特征参数组成包括:29维滤波器组特征及其一阶二阶差分,I维基频参数及其一阶二阶差分组成。本专利技术声学模型自适应方法的进一步改进在于,将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,包括:将所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成990维声学特征参数;将与所述当前语音帧的语音数据对应的身份认证矢量与990维声学特征参数拼接在一起。本专利技术声学模型自适应方法的进一步改进在于,还包括在语音识别阶段,依据所述声学识别模型进行语音识别以形成识别结果,包括:提取待识别语音的身份认证矢量以形成待识别的身份认证矢量;提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数拼接在一起以形成待识别的声学特征参数;将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型,并经所述声学识别模型进行解码以得到识别结果。本专利技术还提供了一种声学模型自适应系统,包括:声学模型训练集单元,用于存储不同说话人的语音数据;身份认证矢量提取单元,与所述声学模型训练集单元连接,用于对所述声学模型训练集单元中的每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;声学特征提取单元,与所述声学模型训练集单元连接,用于对所述声学模型训练集单元中的每段语音数据提取声学特征参数;以及训练模型单元,与所述身份认证矢量提取单元和所述声学特征提取单元连接,用于将所述身份认证矢量和所述声学特征参数拼接在一起并作为深度神经网络模型的输入对所述深度神经网络模型进行训练,以形成声学识别模型。本专利技术声学模型自适应系统的进一步改进在于,所述身份认证矢量提取单元利用计算公式进行计算,所述计算公式为:M =n+Ti (一)式一中:M为说话人语音的高斯混合模型均值超矢量,η为深度神经网络模型超矢量,T为总变异空间,i为服从Ν(0,I)分布的身份认证矢量,Z为混合高斯模型的混合度或深度神经网络的senones个数,F为麦尔倒谱系数的维数,F = 39维,D为总变异空间的维度,D的范围在100维至300维之间;所述身份认证矢量提取单元用于对所述语音数据提取出39维麦尔倒谱系数并根据所述计算公式提取身份认证矢量。本专利技术声学模型自适应系统的进一步改进在于,所述声学特征提取单元用于对每段语音数据中的每一语音帧提取90维声学特征参数,所述90维声学特征参数组成包括:29维滤波器组特征及其一阶二阶差分,I维基频参数及其一阶二阶差分。本专利技术声学模型自适应系统的进一步改进在于,所述训练模型单元用于从所述声学特征提取单元中获取所述语音数据中的当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成990维声学特征参数,所述训练模型单元还用于从所述身份认证矢量提取单元中获取与所述当前语音帧的语音数据对应的身份认证矢量,并将所获取的身份认证矢量与990维声学特征参数拼接在一起以作为深度神经网络模型的输入。本专利技术声学模型自适应系统的进一步改进在于,还包括语音识别单元,所述语音识别单元与所述身份认证矢量提取单元、所述声学特征提取单元和所述训练模型单元连接;所述语音识别单元通过所述身份认证矢量提取单元从待识别语音中提取身份认证矢量以形成待识别的身份认证矢量;所述语音识别单元通过所述声学特征提取单元提取待识别语音中当前语音帧和其前后5个语音帧的声学特征参数并拼接在一起以形成待识别的声学特征参数;所述语音识别单元用于将所述待识别的身份认证矢量和所述待识别的声学特征参数拼接在一起并输入所述声学识别模型并经所述声学识别模型进行解码以得到识别结果O【附图说明】图1为本专利技术声学模型自适应系统的系统图。图2为本专利技术声学模型自适应系统中经重训练的深度网络模型的结构示意图。图3为本专利技术声学模型自适应方法的流程图。【具体实施方式】下面结合附图和具体实施例对本专利技术作进一步说明。本专利技术提供了一种声学模型自适应方法及系统,用于将说话人的身份认证矢量加入到声学模型训练中以实现说话人的自适应,提高语音识别准确率。在实际应用中,每个说话人的声音都具有其特有的个性,哪怕是发同一个音,任意两位不同说话人的语音信号中所含的声学特性都不同,即每一说话人对应有匹配的身份认证矢量。本专利技术将提取出的身份认证矢量和声学特征参数拼接后进行深度神经网络模型的训练,形成声学识别模型,在进行识别时,也获取待识别语音的身份认证矢量,将待识别的身份认证矢量和待识别的声学特征参数拼接在一起并输入深度神经网络模型进行识别,识别时深度网络神经模型可找到与待识别的身份认证矢量相适配的身份认证矢量,进而提高了识别的准确率,且具有自适应的特点。下面结合附图对本专利技术声学模型自适应方法及系统进行说明。参阅图1,显示了本专利技术声学模型自适应系统的系统图。下面结合图1,对本专利技术声学模型自适应系统进行说明。如图1所示,本专利技术声学模型自适应系统包括声学模型训练集单元11、身份认证矢量提取单元12、声学特征提取单元13、训练模型单元14、语音当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种声学模型自适应方法,其特征在于,包括:在声学模型训练集上,对每段语音数据基于深度神经网络模型提取与说话人相关的身份认证矢量;在所述声学模型训练集上,对每段语音数据提取声学特征参数;以及将从所述语音数据中提取的所述身份认证矢量和所述声学特征参数拼接在一起,并作为深度神经网络模型的输入进行训练以形成声学识别模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:李轶杰刘青松许东星
申请(专利权)人:上海语知义信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1