本发明专利技术属于语音技术领域,计算机辅助语言学习系统中的发音质量评价方法包括:匹配分数的计算、基于美尔(Mel)频标的感知分数的计算、段长分数的计算和基音分数的计算,并将上述分数映射后进行融合;本发明专利技术的发音质量评价方法具有稳健性好,与专家评分相关性高的优点,可以用于交互式语言学习和自动口语测试。
【技术实现步骤摘要】
本专利技术属于语音
,具体地说,涉及利用语音信号处理技术实现计算机辅助语言 学习系统中语音发音质量评价的方法。
技术介绍
在学习者进行语言学习时,对其发音质量进行可靠的评价是计算机辅助语言学习系统的 核心功能。然而由于现有技术的局限,目前的发音质量评价方法的性能还不够理想,距离实 用化还有一定的差距。当前,利用计算机对发音质量进行评价的方法主要是基于隐含马尔可夫模型(HMM)。 中国专利技术专利申请第200510114848.8号公开了一种用于学习机的发音质量评价方法。该方法 采用隐含马尔可夫模型训练标准发音模型,并搜索最优路径,以此计算用来评价发音质量的 置信分数。这种方法过多依赖于隐含马尔可夫模型的训练,并且在影响发音质量的多个因素 中,仅基于与声学模型有关的因素来评价发音质量,因此与专家评分的相关性还不够高,对 单词和短句发音机器评分和专家评分的相关性仅为0.74。在通信系统中也涉及语音质量的评价。ITU-T P.862中公开了一种用于电话信道的语音质 量评价方法。首先将参考语音通过电话信道得到测试语音。然后将参考语音和测试语音映射 到感知域,精确估计出测试语音相对于参考语音的延时,最后在感知域计算测试语音相对于 参考语音的感知差异,并以此来评价测试语音的语音质量。然而,通信系统中的语音质量评价方法和计算机辅助语言学习系统中的发音质量评价有 所不同。首先,在语音通信系统中,影响语音质量的因素一般是电话信道、编解码器引起的 各种噪音对语音的损伤以及网络对语音的延时。参考语音和测试语音都是同一个说话人的同 一-句语音,因此如果不考虑延时,测试语音中的各个音素一般不会有段长的变化。 一个人语 音发音是否正确对通信系统的语音质量评价过程不会产生影响。而在计算机辅助语言学习系 统中,影响发音质量的因素比较复杂。学习者的测试语音的失真是由于发音不准确造成的, 和噪声没有多大关系。并且如果将教师的发音作为参考语音,学习者的语音作为测试语音,来考察测试语音相对于参考语音的发音质量。那么参考语音和测试语音来自不同的说话人, 导致测试语音和参考语音的长度不同,并且这一语音长度的差异不是延时造成的,因此无法 直接对准。其次,不同说话人的声道长度不同,导致测试语音和参考语音中同一音素的共振 峰不完全一样。另外,两个说话人语音中的韵律变化也有所不同,其直接表现就是测试语音 和参考语音的重音变化。两个人的基音也不相同,对应基音变化过程也有比较大的差异。计算机辅助语言学习系统应尽可能模仿专家对发音质量评价的过程。通常,专家对发音 质量进行评价的过程可以划分为三个步骤。首先,通过耳机或者音箱聆听测试语音。然后, 大脑对感知到的语音进行处理,并根据自己的语音学和语言学知识,将参考语音和测试语音 进行对比,发现测试语音在各个层次(例如声学层和韵律层)上的发音错误和失真。最后, 综合上述各种失真,给出测试语音的总体评价。可见,对发音质量的感知与发音质量评价的 结果密切相关。而现有技术未能在韵律层次上对发音质量进行评价,并且缺乏对发音质量的 感知失真方面的研究。本专利技术针对现有技术中存在的问题,提出一种计算机辅助语言学习系统中的发音质量评 价方法。该方法以教师的发音作为参考语音,分别在声学、感知和韵律方面计算学习者的测 试语音相对于参考语音的发音质量差别,得到匹配分数、感知分数、段长分数和基音分数, 并对所述四种分数进行融合,得到测试语音的最终分数。根据本专利技术针对单词和短句的发音 质量评价分数与专家评分的相关系数达到0.800,性能优于基于现有技术的方法。
技术实现思路
目前基于隐含马尔可夫模型的发音质量评价方法获得机器评价分数与专家评分的相关性 还不够高,不能够满足目前计算机辅助语言学习系统中对发音质量评价要求。本专利技术的目的 是克服现有技术的不足,提出一种用于。本 专利技术中提出利用教师的参考语音和学生的测试语音分别从声学、感知和韵律方面计算匹配分 数、感知分数、段长分数、基音分数,并将所述这些分数映射后进行融合来对发音质量进行 评分的方法,针对单词和短句子的机器发音质量评分与专家主观质量评分的相关性能够达到 0.800。本专利技术提出的主要包括计算匹配分数, 计算基于Mel频标的感知分数,计算基音分数,计算段长分数;对所述匹配分数、所述感知 分数、所述基音分数和所述段长分数进行映射,并将映射后的各分数进行融合。该方法充分 利用语音发音中多种发音信息来获得可靠融合分数,从而对学生的语音发音质量进行评价(打分)。其特征在于,各部分具体包括以下几个步骤1、 所述匹配分数、所述基于Md频标的感知分数、所述基音分数、所述段长分数的计算 方法,具体步骤如下(A) 所述匹配分数的计算包括(1)利用Viterbi解码算法分别对测试语音和参考语音 进行强制对准,得到参考语音和测试语音的音素的时间分隔信息和似然度;(2)根据测试语 音和标准语音的似然度之差的绝对值得到匹配分数。(B) 所述感知分数的计算包括(1)对测试语音和参考语音施加Mel滤波器;(2)基于 幂定律,将参考语音和测试语音的Mel滤波器的能量输出映射为响度;(3)基于所述音素时 间分隔信息,通过动态时间规整(Dynamic Time Warping, DTW)方法将参考语音和测试语 音在音素层面上进行进一步的逐帧细化对准;(4)基于参考语音和测试语音各帧的响度差计 算感知分数。(C) 所述段长分数的计算包括(1)基于所述时间分隔信息,利用段长模型计算测试语 音和标准语音中的对数段长概率;(2)根据测试语音的段长概率与标准语音的段长概率绝对值之差得到段长分数。(D) 所述基音分数的计算包括(1)分别提取参考语音和测试语音的基音;(2)基于所 述时间分隔信息,分别得到参考语音和测试语音中每个元音内基音的极大值和极小值,并计 算每个元音内的极大值和极小值之差;(3)基于参考语音和测试语音中每个元音内极大值和 极小值之差。2、 所述的分数映射计算包括基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射,使映射后分数和专家 评分处于相同取值区间内。3、 所述的分数融合计算包括线性融合、支持矢量机(SVM)、 Logistic回归(Logistic Regression)、神经网络、高斯混合模型中的一个对映射后的所述匹配分数、所述感知分数、 所述基音分数和所述段长分数进行融合,通过多种信息的互补,使融合后分数更接近专家评 价的分数。所述的Viterbi解码算法利用了从大规模语音数据库训练的基于隐含马尔可夫模型 (HMM)对测试语音和标准语音进行强制对准,得到的参考语音和测试语音的时间分隔信息 可以是音素的时间分隔信息、状态的时间分隔、单词的时间分隔信息。音素的时间分隔信息 只是其中的一个。HMM模型的训练方法是根据最大似然准则,对HMM模型参数(包均值 与方差)进行估值。所述的段长模型是通过大规模语音数据库训练得到段长的直方图模型或Gamma模型。所述的逐帧细化对准是在基于匹配分数计算过程中得到的每个音素的时间分隔信息基础 上,进一步利用动态时间规整(Dynamic Time Warping, DTW)方法将参考语音和测试语音 的在本文档来自技高网...
【技术保护点】
本专利技术提出的一种计算机辅助语言学习系统中语音发音质量评价方法,包括:匹配分数计算、基于美尔(Mel)频标的听感知分数计算、基音分数计算、分数映射、分数融合各部分,具体计算包括以下步骤: 步骤(1)首先分别对参考语音和测试语音分别进行分帧处理,得到短时平稳的分帧语音; 步骤(2)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的匹配似然分数; 步骤(2.1)分别对所述分帧的参考语音和测试语音每帧提取美尔频标倒谱系数(MFCC)特征,共39维特征,其中包括:12维MFCC系数及其一阶差分和二阶差分,归一化能量及其一阶差分和二阶差分; 步骤(2.2)利用预先训练好的隐含马尔可夫模型(HMM),采用维特比(Viterbi)解码算法分别对步骤(2.1)输入的参考语音和测试语音进行强制对准,分别得到参考语音和测试语音的似然度,以及语音中每个音素的时间分隔信息; 步骤(2.3)按照以下公式计算第i个音素的匹配分数L(i): L(i)=|log(p↓[text](O↓[test]|q↓[i]))-log(p↓[ref](O↓[ref]|q↓[i]))| 其中,p↓[test](O↓[test]|q↓[i])是测试语音的似然度,p↓[ref](O↓[ref]|q↓[i])是参考语音的似然度。其中,中,q↓[i]表示第i个音素HMM模型,O↓[test]和O↓[ref]分别是测试语音和参考语音的MFCC特征矢量。 步骤(2.4)按照以下公式计算音素平均匹配分数,并依次作为语音发音的匹配分数S↓[mat_sen]: S↓[mat_sen]=1/N↓[p]*L(i) 其中,N↓[p]为语音发音中音素总个数; 步骤(3)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的感知分数; 步骤(3.1)分别对所述的参考语音和测试语音分帧并加Hanning窗; 步骤(3.2)把步骤(3.1)中分帧的语音送人Mel频标上均匀分布的Q个三角窗滤波器进行Mel滤波处理,按照下式得到每个滤波器输出的能量和的对数值M(q): *** 其中,F↓[q]是第q个三角窗滤波器的中心频率,F↓[q+1]和F↓[q-1]分别为第q个三角窗滤波器的上、下截止频率,G(n)为三角窗函数,Q为三角窗滤波器的个数,q=1,2,3…,Q; 步骤(3.3...
【技术特征摘要】
1、本发明提出的一种计算机辅助语言学习系统中语音发音质量评价方法,包括匹配分数计算、基于美尔(Mel)频标的听感知分数计算、基音分数计算、分数映射、分数融合各部分,具体计算包括以下步骤步骤(1)首先分别对参考语音和测试语音分别进行分帧处理,得到短时平稳的分帧语音;步骤(2)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的匹配似然分数;步骤(2.1)分别对所述分帧的参考语音和测试语音每帧提取美尔频标倒谱系数(MFCC)特征,共39维特征,其中包括12维MFCC系数及其一阶差分和二阶差分,归一化能量及其一阶差分和二阶差分;步骤(2.2)利用预先训练好的隐含马尔可夫模型(HMM),采用维特比(Viterbi)解码算法分别对步骤(2.1)输入的参考语音和测试语音进行强制对准,分别得到参考语音和测试语音的似然度,以及语音中每个音素的时间分隔信息;步骤(2.3)按照以下公式计算第i个音素的匹配分数L(i) L(i)=|log(ptext(Otest|qi))-log(pref(Oref|qi))|其中,ptest(Otest|qi)是测试语音的似然度,pref(Oref|qi)是参考语音的似然度。其中,中,qi表示第i个音素HMM模型,Otest和Oref分别是测试语音和参考语音的MFCC特征矢量。步骤(2.4)按照以下公式计算音素平均匹配分数,并依次作为语音发音的匹配分数Smat_sen2、 如权利要求1所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 利用传统HMM方法进行时间对准和匹配分数计算;利用Viterbi解码算法分别对参考语音和 测试语音进行强制对准,分别得到的参考语音和测试语音的时间分隔信息,包括状态的时间 分隔、音素的时间分隔信息、单词的时间分隔信息。3、 如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法,其特征在于 提出了基于Mel频标的听感知域分数计算方法,该方法不同于传统的基于临界带感知分数计 算方法,新方法在计算上复杂度低,性能上都优于基于临界带的听感知分数计算方法。4、 如权利要求l...
【专利技术属性】
技术研发人员:刘加,
申请(专利权)人:清华大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。