本发明专利技术公开一种基于先验概率的声学解码方法,包括如下步骤:统计训练语音文本音节序列中每个音节向其他音节转移的概率;用每个音节的全部训练语音进行模型训练,得到该音节的HMM;读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。本发明专利技术在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。可以提高声学解码的精度。可以提高声学解码的精度。
【技术实现步骤摘要】
一种基于先验概率的声学解码方法
[0001]本专利技术属于语音识别
,具体涉及到一种基于先验概率的声学解码方法。
技术介绍
[0002]在基于统计的语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden Markov Model)描述每个语音单元(音节)特征向量的分布。在识别阶段,用每个音节的HMM计算当前语音特征向量的概率,并将输出概率最大的HMM对应的音节作为识别结果。
[0003]在实验室安静环境中,基于统计的语音识别系统可以取得很高的识别率。但是,语音的高频能量较小,容易受到环境噪声的干扰。因此,用实验室环境中得到的纯净语音声学模型对实际环境中提取的含噪语音特征向量进行声学解码时,有可能出现前几个似然值比较接近的情况,这时将最大似然值对应的音节作为识别结果,很有可能导致误判。实际上,语音识别系统的各音节之间不是独立的,它们存在着某种转移关系,从而导致声学解码的精度不高。
技术实现思路
[0004]专利技术目的:针对现有技术中存在的问题,本专利技术提供一种基于先验概率的声学解码方法,解决了声学解码精度不高的问题。
[0005]技术方案:本专利技术提出一种基于先验概率的声学解码方法,包括如下步骤:
[0006](1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
[0007](2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
[0008](3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
[0009](4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
[0010](5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
[0011]若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
[0012]进一步的,包括:
[0013]所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为所有音节
转移的先验概率构成所述音节上下文模型。
[0014]进一步的,包括:
[0015]所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语音的特征向量。
[0016]进一步的,包括:
[0017]所述隐马尔可夫模型第i个状态的概率密度函数表示为:
[0018][0019]其中,o
t
表示第t帧MFCC特征向量,c
im
、μ
im
和Σ
im
分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
[0020]进一步的,包括:
[0021]所述步骤(5)具体包括:
[0022](51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值L
j
,j=0,1,2
…
N
‑
1,其中,N是音节的数量;
[0023](52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
[0024](53)如果其最大值远大于其他Q
‑
1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
[0025][0026]其中,P
ij
是上一个语音的识别结果;是加权后的输出概率似然值;
[0027]否则,若上一个语音的HMM的输出概率最大值与其他Q
‑
1个值中的前几个较大值比较接近,则令即不进行先验概率加权,直接用HMM的输出似然值进行声学解码;
[0028](54)比较得到的所有的大小,用最大值对应的音节作为声学解码的识别结果。
[0029]有益效果:本专利技术与现有技术相比,其显著优点是:本专利技术在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。
附图说明
[0030]图1为本专利技术所述的方法流程图。
具体实施方式
[0031]下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0032]本专利技术设计了一种基于先验概率的声学解码方法,在该算法中,统计训练语音文本中每个音节向其他音节转移的概率,得到音节上下文模型;在声学解码时,用上一个语音的音节转移到每个音节的概率对每个HMM的输出概率进行加权,并将加权概率最大的HMM对应的音节作为当前语音声学解码的结果。
[0033]如图1所示为基于先验概率的声学解码方法的总体框架,主要包括音节合并、音节训练、特征提取、模型训练和声学解码模块,
[0034]该方法包括训练阶段和测试阶段,训练阶段首先采集训练语音文本,测试阶段采集测试语音文本,
[0035]具体的,(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
[0036]首先将汉语的所有音节编号,例如,音节wa编号为W1,然后将训练语音文本中的所有字都用其音节编号代替,得到若干个音节序列,每个音节序列对应训练语音文本的一句话。
[0037](2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
[0038]设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为
[0039][0040]所有音节转移的先验概率构成音节上下文模型,如下表所示:
[0041] 音节1音节2音节3 音节j 音节N音节1P
11
P
12
P
13
…
P
1j
…
P
1N
音节2P
21
P
22
P
23
…
P
2j
...
【技术保护点】
【技术特征摘要】
1.一种基于先验概率的声学解码方法,其特征在于,包括如下步骤:(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。2.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为所有音节转移的先验概率构成所述音节上下文模型。3.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语...
【专利技术属性】
技术研发人员:吕勇,
申请(专利权)人:河海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。