【技术实现步骤摘要】
本专利技术涉及语音识别,尤其涉及用于训练语音识别器中所用紧凑声学模型的最优化技术。
技术介绍
越大词汇表连续语音识别系统的应用包括多媒体索引和呼叫中心自动化。训练这样的语音识别系统所采用的单个声学模型需要一个超大型语音数据库。该声学模型通常是与说话人无关,与性别无关的。也就是说,训练该模型使用的数据来自于大量的不同说话人,包含男性和女性。与说话人无关的连续语音建模的主要困难在于语音信号的重要变化是由说话人之间的易变性引起的,使得谱分布具有高于相应的与说话人有关的谱分布的方差。因此,不同语音单元之间的重叠导致弱的鉴别能力。说话人适应训练是一种估计用于与说话人无关的连续语音识别的连续密度隐式马尔可夫模型(HMM)的参数的方法。其目的是减少说话人之间的易变性以获得增强的与说话人无关的模型。通过减少说话人之间的易变性,说话人适应得到的与说话人无关的声学模型可以看作是数据库中的压缩中心点。这种模型将是紧凑的,具有减少的方差,并且很适合于适应。虽然这种构造声学模型的方法功能强大,但是通过极大规模的数据库进行说话人适应训练的性能会很快达到极限。直观地说,要得到准确地为整个数据库建模的一个独特的紧凑声学模型是不可能的。因此,希望提供一种改进的技术,构建用于超大词汇表连续语音识别系统的紧凑声学模型。
技术实现思路
本专利技术提出了一种构造用于语音识别器的紧凑声学模型的方法。该方法包括根据至少一种语音相关标准划分来自多个说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;使用每个组合中的语音数据为该组合训练一个声学泡模型。每个声学泡模型可以用各 ...
【技术保护点】
一种构建用于语音识别器的紧凑声学模型的方法,包括:根据至少一种语音相关标准划分来自多个训练说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;以及使用每个组合中的语音数据为该组合训练一 个声学泡模型。
【技术特征摘要】
US 2003-8-13 10/639,9741.一种构建用于语音识别器的紧凑声学模型的方法,包括根据至少一种语音相关标准划分来自多个训练说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;以及使用每个组合中的语音数据为该组合训练一个声学泡模型。2.权利要求1的方法,其中语音相关标准从包含环境相关标准,说话人相关标准,语音输入信道标准的组或其组合中选取。3.权利要求1的方法,其中划分语音数据的步骤进一步包含基于训练说话人的声道长度划分语音数据。4.权利要求1的方法,其中划分语音数据的步骤进一步包含根据第一个语音标准划分语音数据,然后再根据与第一个语音标准不同的第二个语音标准划分语音数据。5.权利要求1的方法,其中划分语音数据的步骤进一步包含根据训练说话人的性别划分语音数据,然后再根据训练说话人的声道长度划分语音数据。6.权利要求1的方法,其中组合划分好的语音数据的步骤进一步包含采用语音相关标准组合划分好的数据。7.权利要求1的方法,其中组合划分好的语音数据的步骤进一步包含基于声道长度组合划分好的数据。8.权利要求7的方法,进一步包含将声道长度规格化因子约为1的训练说话人的语音数据组合在一起,将声道长度规格化因子小于1的训练说话人的语音数据组合在一起,将声道长度规格化因子大于1的训练说话人的语音数据组合在一起。9.权利要求1的方法,其中组合划分好的语音数据的步骤进一步包含组合语音数据,使得给定说话人的语音数据位于两个或更多个语音数据组合中。10.权利要求1的方法,其中训练声学泡模型的步骤进一步包含对每一个语音数据组合应用最大似然估计。11.权利要求1的方法,其中训练声学泡模型的步骤进一步包含对每一个语音数据组合应用最大后验MAP估计。12.权利要求1的方法,其中训练声学泡模型的步骤进一步包含对每一个语音数据组合应用最大似然线性回归MLLR。13.权利要求1的方法,进一步包含声学泡模型规格化,从而产生一组紧凑声学模型。14.权利要求13的方法,其中声学泡模型规格化步骤进一步包含对每个声学泡模型进行说话人适应训练。15.权利要求13的方法,其中声学泡模型规格化步骤进一步包含对每个声学泡模型进...
【专利技术属性】
技术研发人员:安布鲁瓦兹米泰尔,帕特里克耐格伊恩,卢卡里加齐奥,
申请(专利权)人:松下电器产业株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。