一种用于语种识别的语种模型的训练方法及系统技术方案

技术编号:8626840 阅读:244 留言:0更新日期:2013-04-26 00:13
本发明专利技术涉及一种用于语种识别的语种模型的训练方法及系统,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明专利技术实施例量化对应语种训练数据的混淆度,利用权重较高的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。

【技术实现步骤摘要】

本专利技术属于语音识别
,具体地说,本专利技术涉及一种用于语种识别的语种模型的训练方法及系统
技术介绍
语种识别是语音识别技术的重点难点之一。对于跨语言的语音识别系统,相对于确定语言的语音识别系统语音识别性能会有大幅度的下降,准确识别出语音的语种信息的语种识别技术,使跨语言的语音识别转换为确定语言的语音识别,成为语音识别系统满足实际应用需求的必要手段。对于如何利用有限的语种训练数据,训练具有语种鉴别性的模型,从而快速准确的识别出语音的语种信息,目前尚未出现有效的方案,这对于语种识别技术进一步研究及应用造成困难。
技术实现思路
针对上述问题,本专利技术实施例提出一种用于语种识别的语种模型的训练方法及系统。在第一方面,本专利技术实施例提出一种用于语种识别的语种模型的训练方法,所述方法包括采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。在第二方面,本专利技术实施例提出一种用于语种识别的语种模型的训练系统,所述系统包括声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征;初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度;高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本专利技术实施例提取各语种的语音声学谱特征生成每个目标语种的初始高斯混合模型,量化对应语种训练数据的混淆度,利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间,对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。附图说明以下,结合附图来详细说明本专利技术实施例,其中图1是本专利技术实施例的基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图;图2是本专利技术实施例的用于语种识别的语种模型的训练方法流程图;图3是本专利技术实施例的用于语种识别的语种模型的训练系统示意图。具体实施例方式图1是基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图。下面结合图1对本专利技术实施例的具体实施方式做进一步详细描述本专利技术实施例旨在提供基于最大混淆度鉴别性训练的语种识别方案,该方案利用混淆度大的、语种鉴别性高的语种训练数据训练语种模型,以提高语种识别性能。具体地,本专利技术实施例涉及的基于最大混淆度鉴别性训练的语种识别方法的核心技术在于语种训练数据混淆度的获取以及利用好语种训练数据的混淆度进行鉴别性训练。最大混淆度鉴别性训练通过利用更具语种鉴别性的数据训练得到更具鉴别性的语种高斯混合模型。本专利技术利用语种初始模型定义语种训练数据混淆度并在高斯超向量空间利用该混淆度进行语种鉴别性训练。本专利技术实施例的具体计算流程如下第一步,采集一定数量的目标语种语音数据,提取语音声学谱特征;所采集的目标语种语音数据,通过传统的语音数据前端处理,对语种训练数据切除静音,音乐等无效语音,保留有效语音,然后提取通用的美尔倒谱特征(MFCC),并对该特征进行动态扩展得到移动差分倒谱特征(MFCC-SDC),对于语种训练数据的每一帧得到56维特征向量,作为该语音数据的声学谱特征。第二步,利用每个目标语种训练数据的声学谱特征训练该目标语种的高斯混合模型,作为每个目标语种各自的初始模型。这里利用了语音数据声学谱特征服从高斯混合分布,训练每个目标语种各自的初始高斯混合模型采用了最大似然估计,目标函数为每个语种训练数据对数似然之和,公式(6)为英语高斯混合模型估计的目标函数本文档来自技高网...

【技术保护点】
一种用于语种识别的语种模型的训练方法,其特征在于,所述方法包括:采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。

【技术特征摘要】
1.一种用于语种识别的语种模型的训练方法,其特征在于,所述方法包括 采集多个目标语种语音数据,提取各语种的语音声学谱特征; 利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型; 利用每个目标语种的初始模型量化对应语种训练数据的混淆度; 利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间; 对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。2.如权利要求1所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,根据每个语种高斯超向量空间分布的中心点,更新每个语种的高斯混合模型的均值,得到每个语种的新的高斯混合模型。3.如权利要求1或2所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为若语种Ii的某条语音数据的声学谱特征为X,该条语音数据混淆度4.按权利要求3所述的用于语种识别的语种模型的训练方法,其特征在于,所述根据所述混淆度赋予的语种Ii的训练数据的高斯超向量的权重5.按权利要求4所述的用于语种识别的语种模型的训练方法,其特征在于,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式6.一种用于语种识别的语种模型的训练系统,其特征在于,所述...

【专利技术属性】
技术研发人员:周若华颜永红杨金超索宏彬
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1