一种儿童中文口语评测和检错纠错方法及装置制造方法及图纸

技术编号:32742481 阅读:34 留言:0更新日期:2022-03-20 08:49
本发明专利技术公开了一种儿童中文口语评测和检错纠错方法及装置,上述儿童中文口语评测和检错纠错方法包括如下步骤:获取训练声学模型的音频和参考文本,训练儿童声学模型;将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;获取参考文本音素的id特征向量;拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误;将SVM分类器预测结果为读错的音素进行纠正,本发明专利技术通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界,缩短了解码时间;同时使用SVM分类器进行检错和纠错,而非音素级的解码,便于增加新的音素,扩展性好,训练速度快,提高了检错纠错的准确率。确率。确率。

【技术实现步骤摘要】
一种儿童中文口语评测和检错纠错方法及装置


[0001]本专利技术涉及口语评测和纠错领域,尤其涉及一种儿童中文口语评测和检错纠错方法及装置。

技术介绍

[0002]为了满足儿童对中文口语学习的需求,计算机辅助语言学习(CALL)在可用性和交互性方面帮助很大,随着智能手机、平板电脑和笔记本电脑的普及,越来越多的语言学习者喜欢使用CALL进行语言学习。然而,作为CALL不可或缺的一部分,计算机辅助发音训练(CAPT)旨在评估学习者的发音质量,并高精度地检测或识别发音错误,缺陷,进而纠正发音。
[0003]但是目前的计算机辅助发音训练的检错速度较慢,同时纠错率较低,并且无法提供纠错语音,从而无法满足实际的使用需求。

技术实现思路

[0004]本专利技术目的是为了克服现有技术的不足而提供一种能缩短解码时间,利用SVM分类器进行检错和纠错,扩展性好,训练速度快,提高了检错纠错的准确率,并能提供纠错语音的儿童中文口语评测和检错纠错方法及装置。
[0005]为达到上述目的,本专利技术采用的技术方案是:一种儿童中文口语评测和检错纠错方法及装置,包括如下步骤:
[0006]获取训练声学模型的音频和参考文本,训练儿童声学模型;
[0007]将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;
[0008]获取参考文本音素的id特征向量;
[0009]拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误;
>[0010]将SVM分类器预测结果为读错的音素进行纠正。
[0011]进一步的,将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下:
[0012]使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围;
[0013]提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。
[0014]进一步的,初始化一个n维n列的单位正交矩阵,其中n为评测音素的总个数,每个音素由一个n维向量表示,称为id特征向量。
[0015]进一步的,将发音检测结果为错误的音素进行纠错的步骤如下:将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈
值的音素id作为真实的发音进行纠错。
[0016]进一步的,还包括一打分步骤,用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分。
[0017]一种儿童中文口语评测和检错纠错装置,包括:
[0018]训练模块,用于获取训练声学模型的音频和参考文本,训练儿童声学模型;
[0019]提取模块,用于将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;
[0020]获取模块,用于获取参考文本音素的id特征向量;
[0021]评估模块,用于拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误;
[0022]纠错模块,用于将SVM分类器预测结果为读错的音素进行纠正。
[0023]由于上述技术方案的运用,本专利技术与现有技术相比具有下列优点:
[0024]本专利技术方案的儿童中文口语评测和检错纠错方法及装置,儿童中文口语评测和检错纠错方法及装置,通过儿童发音音频和参考文本与声学模型做强制对齐,获取发音边界,缩短了解码时间;同时使用SVM分类器进行检错和纠错,而非音素级的解码,便于增加新的音素,扩展性好,而且训练速度快,不需要人工标注大量的数据,并且提高了检错纠错的准确率。
附图说明
[0025]下面结合附图对本专利技术技术方案作进一步说明:
[0026]附图1为本专利技术中儿童中文口语评测和检错纠错方法的流程示意图。
具体实施方式
[0027]下面结合附图及具体实施例对本专利技术作进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,而不构成对本专利技术的限制。
[0028]请参阅附图1,本专利技术实施例提供的一种儿童中文口语评测和检错纠错方法,包括如下步骤:S1获取训练声学模型的音频和参考文本,训练儿童声学模型;S2将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;S3获取参考文本音素的id特征向量;S4拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器评估发音正确/错误;S5将SVM分类器预测结果为读错的音素进行纠正。
[0029]其中,本专利技术的儿童中文口语评测和检错纠错方法只的适用于单字音频。
[0030]具体的,在步骤S1中,儿童声学模型是在评测之前训练好的,在评测任务中是作为一个模型使用的,训练声学模型需要用到大量的音频和对应的发音标注,这里使用了1150h的儿童音频,本文中儿童的发音音频是用于评测的音频。
[0031]在步骤S2中,将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下:S20使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围;S21提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。
[0032]在步骤S3中,初始化一个n维n列的单位正交矩阵,其中n为评测音素的总个数,每
个音素由一个n维向量表示,称为id特征。
[0033]具体的,在步骤S4中,将声学特征与参考文本对应音素的id特征向量拼接作为自变量,儿童读对(lab=1)和读错(lab=0)为因变量,训练SVM分类器,其中,SVM分类器的模型训练时的因变量由人工标注获取,通过对该SVM分类器进行训练得到一个预测发音准确度的SVM分类器模型,从而可以对儿童发音进行检测,将预测结果的概率值映射为百分制得分,用于评估发音质量。
[0034]在步骤S5中,将所有的id特征分别与儿童发音音频的声学特征拼接,使用SVM分类器预测,取后验概率最高且超过预设阈值的音素id作为真实的发音进行纠错。
[0035]具体的,当SVM分类器认定发音检测结果为错误时,将其对应的声学特征和所有的id特征拼接,放入到分SVM分类器进行判别,并选取后验概率超过预设阈值且概率最高的音素作为纠错音素发出。
[0036]另外,本专利技术还包括一打分步骤,用于将SVM预测的后验概率映射为百分制得分,作为评测的音素得分
[0037]专利技术还提供了一种儿童中文口语评测和检错纠错装置,训练模块、提取模块、获取模块、评估模块和纠错模块,训练模块用于获取训练声学模型的音频和参考文本,训练儿童声学模型;提取模块用于将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;获取模块用于获取参考文本音素的id特征向量;评估模块用于拼接声学特征和id特征作为自变量,读对或读错作为因本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种儿童中文口语评测和检错纠错方法及装置,其特征在于,包括如下步骤:获取训练声学模型的音频和参考文本,训练儿童声学模型;将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后提取得到声学特征;获取参考文本音素的id特征向量;拼接声学特征和id特征作为自变量,读对或读错作为因变量,使用SVM分类器模型评估发音正确/错误;将SVM分类器预测结果为读错的音素进行纠正。2.如权利要求1所述的儿童中文口语评测和检错纠错方法,其特征在于,将待评测的儿童发音音频通过参考文本与儿童声学模型进行处理后得到声学特征的步骤如下:使用待评测的儿童发音音频和参考文本与声学模型做强制对齐,获取发音的边界,作为评测的范围;提取评测发音音频在声学模型中间层的输出结果,将评测时间范围内的特征使用主成分分析降维至一定维数,作为声学特征。3.如权利要求1所述的儿童中文口语评测和检错纠错方法,其特征在于:初始化一个n维n列的单位正交矩阵,其中n为评测音素的总个数,每个音素由一个n...

【专利技术属性】
技术研发人员:郭小娟裴善华弓吉利惠寅华孙暐
申请(专利权)人:苏州驰声信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1