计算机辅助语言学习系统中的发音质量评价方法技术方案

技术编号：3044508 阅读：261 留言：0更新日期：2012-04-11 18:40

本发明专利技术属于语音技术领域，计算机辅助语言学习系统中的发音质量评价方法包括：匹配分数的计算、基于美尔（Ｍｅｌ）频标的感知分数的计算、段长分数的计算和基音分数的计算，并将上述分数映射后进行融合；本发明专利技术的发音质量评价方法具有稳健性好，与专家评分相关性高的优点，可以用于交互式语言学习和自动口语测试。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音
，具体地说，涉及利用语音信号处理技术实现计算机辅助语言学习系统中语音发音质量评价的方法。
技术介绍
在学习者进行语言学习时，对其发音质量进行可靠的评价是计算机辅助语言学习系统的核心功能。然而由于现有技术的局限，目前的发音质量评价方法的性能还不够理想，距离实用化还有一定的差距。当前，利用计算机对发音质量进行评价的方法主要是基于隐含马尔可夫模型(HMM)。中国专利技术专利申请第200510114848.8号公开了一种用于学习机的发音质量评价方法。该方法采用隐含马尔可夫模型训练标准发音模型，并搜索最优路径，以此计算用来评价发音质量的置信分数。这种方法过多依赖于隐含马尔可夫模型的训练，并且在影响发音质量的多个因素中，仅基于与声学模型有关的因素来评价发音质量，因此与专家评分的相关性还不够高，对单词和短句发音机器评分和专家评分的相关性仅为0.74。在通信系统中也涉及语音质量的评价。ITU-T P.862中公开了一种用于电话信道的语音质量评价方法。首先将参考语音通过电话信道得到测试语音。然后将参考语音和测试语音映射到感知域，精确估计出测试语音相对于参考语音的延时，最后在感知域计算测试语音相对于参考语音的感知差异，并以此来评价测试语音的语音质量。然而，通信系统中的语音质量评价方法和计算机辅助语言学习系统中的发音质量评价有所不同。首先，在语音通信系统中，影响语音质量的因素一般是电话信道、编解码器引起的各种噪音对语音的损伤以及网络对语音的延时。参考语音和测试语音都是同一个说话人的同一-句语音，因此如果不考虑延时，测试语音...

【技术保护点】
本专利技术提出的一种计算机辅助语言学习系统中语音发音质量评价方法，包括：匹配分数计算、基于美尔（Ｍｅｌ）频标的听感知分数计算、基音分数计算、分数映射、分数融合各部分，具体计算包括以下步骤：　　　　步骤（１）首先分别对参考语音和测试语音分别进行分帧处理，得到短时平稳的分帧语音；　　　　步骤（２）按照以下步骤分别计算步骤（１）中所述的分帧的参考语音和测试语音的匹配似然分数；　　　　步骤（２．１）分别对所述分帧的参考语音和测试语音每帧提取美尔频标倒谱系数（ＭＦＣＣ）特征，共３９维特征，其中包括：１２维ＭＦＣＣ系数及其一阶差分和二阶差分，归一化能量及其一阶差分和二阶差分；　　　　步骤（２．２）利用预先训练好的隐含马尔可夫模型（ＨＭＭ），采用维特比（Ｖｉｔｅｒｂｉ）解码算法分别对步骤（２．１）输入的参考语音和测试语音进行强制对准，分别得到参考语音和测试语音的似然度，以及语音中每个音素的时间分隔信息；　　　　步骤（２．３）按照以下公式计算第ｉ个音素的匹配分数Ｌ（ｉ）：　　　　Ｌ（ｉ）＝｜ｌｏｇ（ｐ↓［ｔｅｘｔ］（Ｏ↓［ｔｅｓｔ］｜ｑ↓［ｉ］））－ｌｏｇ（ｐ↓［ｒｅｆ］（Ｏ↓［ｒｅｆ］｜ｑ↓［ｉ］）...

【技术特征摘要】
1、本发明提出的一种计算机辅助语言学习系统中语音发音质量评价方法，包括匹配分数计算、基于美尔(Mel)频标的听感知分数计算、基音分数计算、分数映射、分数融合各部分，具体计算包括以下步骤步骤(1)首先分别对参考语音和测试语音分别进行分帧处理，得到短时平稳的分帧语音；步骤(2)按照以下步骤分别计算步骤(1)中所述的分帧的参考语音和测试语音的匹配似然分数；步骤(2.1)分别对所述分帧的参考语音和测试语音每帧提取美尔频标倒谱系数(MFCC)特征，共39维特征，其中包括12维MFCC系数及其一阶差分和二阶差分，归一化能量及其一阶差分和二阶差分；步骤(2.2)利用预先训练好的隐含马尔可夫模型(HMM)，采用维特比(Viterbi)解码算法分别对步骤(2.1)输入的参考语音和测试语音进行强制对准，分别得到参考语音和测试语音的似然度，以及语音中每个音素的时间分隔信息；步骤(2.3)按照以下公式计算第i个音素的匹配分数L(i) L(i)＝|log(ptext(Otest|qi))-log(pref(Oref|qi))|其中，ptest(Otest|qi)是测试语音的似然度，pref(Oref|qi)是参考语音的似然度。其中，中，qi表示第i个音素HMM模型，Otest和Oref分别是测试语音和参考语音的MFCC特征矢量。步骤(2.4)按照以下公式计算音素平均匹配分数，并依次作为语音发音的匹配分数Smat_sen2、如权利要求1所述的计算机辅助语言学习系统中语音发音质量评价方法，其特征在于利用传统HMM方法进行时间对准和匹配分数计算；利用Viterbi解码算法分别对参考语音和测试语音进行强制对准，分别得到的参考语音和测试语音的时间分隔信息，包括状态的时间分隔、音素的时间分隔信息、单词的时间分隔信息。3、如权利要求l所述的计算机辅助语言学习系统中语音发音质量评价方法，其特征在于提出了基于Mel频标的听感知域分数计算方法，该方法不同于传统的基于临界带感知分数计算方法，新方法在计算上复杂度低，性能上都优于基于临界带的听感知分数计算方法。4、如权利要求l...

【专利技术属性】
技术研发人员：刘加，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人