一种口语评测方法及装置、设备以及存储介质,口语评测方法包括:获取待评测的语音数据及参考文本;基于参考文本构建第一解码网络;基于声学模型和第一解码网络,对语音数据进行第一解码处理,获得参考文本中的各个参考音素对应的时间边界信息;基于时间边界信息,获得每个参考音素对应的音素特征;基于音素特征和评分模型,对语音数据进行第一评分处理,获得第一评分结果;遍历所述参考文本中的每个参考音素,获得与当前参考音素对应的竞争音素;基于所述时间边界信息,获取对应时间范围内的声学模型的输出;基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素。本发明专利技术实施例将发音评分和音素检错相整合,有利于提高口语评测的效果。口语评测的效果。口语评测的效果。
【技术实现步骤摘要】
口语评测方法及装置、设备以及存储介质
[0001]本专利技术实施例涉及语音评测领域,尤其涉及一种口语评测方法及装置、设备以及存储介质。
技术介绍
[0002]随着社会的发展,目前越来越多人在学习多门语言。在学习语言时,人们通常借助语言学习软件辅助学习,例如通过语言学习软件进行口语评测,为自己的发音打分,并根据打分结果纠正发音。
[0003]口语评测是指给定文本和音频,利用语音识别技术对人的口语水平进行整体评价。例如:在口语评测领域中,在进行发音评分时,通常根据文本
‑
语音后的音素信息,计算文本中每个字、每个音素的发音良好度值(Goodness of Pronunciation)等特征,根据这些特征去判断说话人的口语水平。
[0004]但是,目前口语评测的效果仍有待提高。
技术实现思路
[0005]本专利技术实施例解决的问题是提供一种口语评测方法及装置、设备以及存储介质,将发音评分和音素检错相整合,有利于提高口语评测的效果。
[0006]为解决上述问题,本专利技术实施例提供一种口语评测方法,包括:获取待评测的语音数据以及所述语音数据的参考文本;基于所述参考文本,构建第一解码网络;基于声学模型和所述第一解码网络,对所述语音数据进行第一解码处理,获得所述参考文本中的各个参考音素对应的时间边界信息;基于所述时间边界信息,获得每个参考音素对应的音素特征;基于所述音素特征和评分模型,对所述语音数据进行第一评分处理,获得第一评分结果;遍历所述参考文本中的每个参考音素,获得与当前参考音素对应的竞争音素;基于所述时间边界信息,获取对应时间范围内的声学模型的输出;基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素。
[0007]可选的,所述音素特征包括时长信息、发音良好度值和广义后验概率中的任意一种或多种。
[0008]可选的,所述广义后验概率通过如下公式计算:
[0009][0010]其中,m
i
为当前参考音素,b
i
为当前参考音素的起始帧,e
i
为当前参考音素的结束帧,为当前参考音素对应的语音片段的模型概率得分。
[0011]可选的,所述口语评测方法还包括:利用所述音素特征,对所述评分模型进行训
练。
[0012]可选的,基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素的步骤包括:遍历所述参考文本中的每个参考音素,构建与当前参考音素对应的竞争音素的第二解码网络;基于所述第二解码网络和所述声学模型的输出,获得用户的实际发音音素。
[0013]可选的,构建与当前参考音素对应的竞争音素的第二解码网络包括:获取与当前参考音素对应的一个或多个竞争音素;将当前参考音素、以及所述一个或多个竞争音素并行构成的网络结构,作为所述第二解码网络。
[0014]可选的,基于所述第二解码网络、和所述声学模型的输出,获得用户的实际发音音素的步骤包括:基于所述第二解码网络,对所述声学模型的输出进行第二解码处理,获得置信度最高的N条解码路径,每条解码路径包括所述竞争音素和当前参考音素中的任意一种,将Top1的解码路径对应的音素作为用户的实际发音音素。
[0015]可选的,在对所述声学模型的输出进行第二解码处理后,所述口语评测方法还包括:基于所述时间边界信息,获得当前参考音素对应的音素特征、以及竞争音素对应的音素特征;基于所述当前参考音素对应的音素特征、所述竞争音素对应的音素特征、以及所述评分模型,对所述声学模型的输出进行第二评分处理,获得第二解码网络中当前参考音素、以及各个竞争音素对应的第二评分结果。
[0016]可选的,基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素的步骤包括:基于当前参考音素和对应的竞争音素,利用深度学习网络,对所述声学模型的输出进行音素分类处理,输出当前参考音素对应的概率和各个竞争音素对应的概率,将概率最高的竞争音素或当前参考音素作为所述用户的实际发音音素。
[0017]可选的,在利用深度学习网络,对所述声学模型的输出进行音素识别分类处理后,所述口语评测方法还包括:基于所述当前参考音素对应的概率、以及各个竞争音素对应的概率,获得当前参考音素、以及各个竞争音素对应的第二评分结果。
[0018]相应的,本专利技术实施例还提供一种口语评测装置,包括:音频文本获取模块,用于获取待评测的语音数据以及所述语音数据的参考文本;第一网络构建模块,用于基于所述参考文本,构建第一解码网络;解码模块,用于基于声学模型和所述第一解码网络,对所述语音数据进行第一解码处理,获得所述参考文本中的各个参考音素对应的时间边界信息;特征提取模块,用于基于所述时间边界信息,获得每个参考音素对应的音素特征;评分模块,用于基于所述音素特征和评分模型,对所述语音数据进行第一评分处理,获得第一评分结果;竞争音素获取模块,用于遍历所述参考文本中的每个参考音素,获得与当前参考音素对应的竞争音素;声学模型输出获取模块,用于基于所述时间边界信息,获取对应时间范围内的声学模型的输出;实际音素获取模块,用于基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素。
[0019]相应的,本专利技术实施例还提供一种设备,包括至少一个存储器和至少一个处理器,所述存储器存储有一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现本专利技术实施例提供的口语评测方法。
[0020]相应的,本专利技术实施例还提供一种存储介质,所述存储介质存储有一条或多条计算机指令,所述一条或多条计算机指令用于实现本专利技术实施例提供的口语评测方法。
[0021]与现有技术相比,本专利技术实施例的技术方案具有以下优点:
[0022]本专利技术实施例提供的口语评测方法,基于音素特征和评分模型,对所述语音数据进行第一评分处理,获得第一评分结果;而且,还基于所述时间边界信息,获取对应时间范围内的声学模型的输出;基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素,从而在对用户的口语进行发音评分的同时,还实现对用户口语发音的音素检错,相应提高了口语评测的效果和全面性;而且,进行音素检错和发音评分使用同一个声学模型,有利于降低口语评测的复杂度和运算量,相应提高了响应速度,降低了实时率(real time factor,RTF);此外,基于所述时间边界信息,获取对应时间范围内的声学模型的输出,进而基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素,从而限定了音素的识别类型和识别的时间范围,不仅有利于提高音素检错准确率,而且还无需额外获得音素级识别的训练数据,有利于降低成本。
[0023]本专利技术实施例提供的口语评测装置中,评分模块基于音素特征和评分模型,对所述语音数据进行第一评分处理,获得第一评分结果;而且,竞争音素获取模块遍历所述参考文本中的每个参考音素,获得与当前参考音素对应的竞争音素,实际音素获取模块用于基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素,从而在对用户的口语进行发本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种口语评测方法,其特征在于,包括:获取待评测的语音数据以及所述语音数据的参考文本;基于所述参考文本,构建第一解码网络;基于声学模型和所述第一解码网络,对所述语音数据进行第一解码处理,获得所述参考文本中的各个参考音素对应的时间边界信息;基于所述时间边界信息,获得每个参考音素对应的音素特征;基于所述音素特征和评分模型,对所述语音数据进行第一评分处理,获得第一评分结果;遍历所述参考文本中的每个参考音素,获得与当前参考音素对应的竞争音素;基于所述时间边界信息,获取对应时间范围内的声学模型的输出;基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素。2.如权利要求1所述的口语评测方法,其特征在于,所述音素特征包括时长信息、发音良好度值和广义后验概率中的任意一种或多种。3.如权利要求2所述的口语评测方法,其特征在于,所述广义后验概率通过如下公式计算:其中,m
i
为当前参考音素,b
i
为当前参考音素的起始帧,e
i
为当前参考音素的结束帧,为当前参考音素对应的语音片段的模型概率得分。4.如权利要求2所述的口语评测方法,其特征在于,所述口语评测方法还包括:利用所述音素特征,对所述评分模型进行训练。5.如权利要求1所述的口语评测方法,其特征在于,基于所述竞争音素和所述声学模型的输出,获得用户的实际发音音素的步骤包括:遍历所述参考文本中的每个参考音素,构建与当前参考音素对应的竞争音素的第二解码网络;基于所述第二解码网络和所述声学模型的输出,获得用户的实际发音音素。6.如权利要求5所述的口语评测方法,其特征在于,构建与当前参考音素对应的竞争音素的第二解码网络包括:获取与当前参考音素对应的一个或多个竞争音素;将当前参考音素、以及所述一个或多个竞争音素并行构成的网络结构,作为所述第二解码网络。7.如权利要求5所述的口语评测方法,其特征在于,基于所述第二解码网络、和所述声学模型的输出,获得用户的实际发音音素的步骤包括:基于所述第二解码网络,对所述声学模型的输出进行第二解码处理,获得置信度最高的N条解码路径,每条解码路径包括所述竞争音素和当前参考音素中的任意一种,将Top1的解码路径对应的音素作为用户的实际发音音素。8.如权利要求7所述的口语评测方法,其特征在于,在对所述声学模型的输出进行第二解码处理后,所述口语评测...
【专利技术属性】
技术研发人员:刘根军,
申请(专利权)人:上海流利说信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。