本发明专利技术的实施方式提供了一种语音评测的方法、装置、计算设备及存储介质,其中方法包括:采集待评测的语音流;利用语音识别技术对语音流进行实时语音识别;以及根据语音识别结果对语音流进行实时发音评估,其中发音评估以字或词级别为单位提供评测结果。根据本发明专利技术实施方式的方法通过实时的发音评测,可以给出以字或词级别为单位的反馈,方便用户读了字或者单词后进行实时地发音调整。单词后进行实时地发音调整。单词后进行实时地发音调整。
【技术实现步骤摘要】
语音评测的方法、装置、计算设备及存储介质
[0001]本专利技术的实施方式涉及计算机
,一般地涉及语音识别等
,更具体地,本专利技术的实施方式涉及语音评测的方法、装置、计算设备及存储介质。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]计算机辅助语言学习(Computer
‑
Aided Language Learning,CALL)技术是互联网时代产生的一种能够利用计算机技术辅助学习者进行语言学习的技术。发音评测技术是CALL技术的一个分支,其能够帮助学习者知道自己的发音错误并给与一定的反馈,从而提高发音的学习。
[0004]现有的发音评测技术由于受计算机的计算资源和语料资源的限制,多采用一些对比的方法。例如,通过比较待测发音和标准发音的编辑距离来计算待测发音的得分。编辑距离越小,表明待测发音和标准发音越接近,发音水平越高;编辑距离越大,表明待测发音和标准发音偏离越大,发音水平越低。再例如,在采集到待测发音后,通过分类算法对待测发音进行分类,如果分到目标音素的类别里,表明发音准确;如果分到其他类别的音素里,表明发音错误。
[0005]现有的发音评测技术通常是在采集到用户整句话的发音后,将语音发送至服务端进行发音评测,并且最后一次性给出整句话的发音评测内容。用户拿到发音评测结果的时间是录音时间和服务端评测算法运行时间的总和,往往用户需要等待较长的时间才能拿到发音评测结果。用户在读句子的过程中,难以得到一些有效的发音评测反馈,不利于用户继续读下去的积极性。
技术实现思路
[0006]为此,非常需要一种改进的语音评测的方法、装置、计算设备及存储介质,可以实时输出字或词的发音评测结果,以有效降低用户等待发音评测结果的时间。
[0007]在本上下文中,本专利技术的实施方式期望提供一种语音评测的方法、装置、计算设备及存储介质。
[0008]在本专利技术实施方式的第一方面中,提供了一种语音评测的方法,包括:采集待评测的语音流;利用语音识别技术对语音流进行实时语音识别;以及根据语音识别结果对语音流进行实时发音评估,其中发音评估以字或词级别为单位提供评测结果。
[0009]在本专利技术的一个实施例中,利用语音识别技术对语音流进行实时语音识别包括:基于与待评测的语音流对应的参考文本实时构建语音识别模型;以及基于所构建的语音识别模型对语音流进行语音识别。
[0010]在本专利技术的另一个实施例中,语音识别模型基于加权有限状态转换器WFST技术,并且基于与待评测的语音流对应的参考文本实时构建语音识别模型包括:基于参考文本构建语音识别模型中的语法WFST和/或发音词典WFST。
[0011]在本专利技术的又一个实施例中,基于参考文本构建语法WFST包括:采用N
‑
Gram算法对参考文本进行频率统计而确定语法WFST的转移函数,其中优选地,N为3。
[0012]在本专利技术的一个实施例中,语法WFST的状态集合中每个节点的状态为终止状态。
[0013]在本专利技术的又一个实施例中,基于参考文本构建发音词典WFST包括:响应于参考文本中存在未在预设词典中的对象,采用字素到音素技术将未在预设词典中的对象转换成音素序列;以及将转换后的音素序列添加至发音词典WFST中。
[0014]在本专利技术的再一个实施例中,根据语音识别结果对语音流进行实时发音评估包括:响应于检测到预定条件,对语音流中对应于当前识别结果的当前字或词语音进行发音评估。
[0015]在本专利技术的一个实施例中,预定条件包括以下的至少一项:当前字或词语音后出现静音帧;或语音识别结果中还包括对当前字或词语音之后的识别结果。
[0016]在本专利技术实施方式的第二方面中,提供了一种语音评测的装置,包括:人机交互接口,用于从用户采集待评测的语音流以及向用户提供评测结果;以及处理器,用于:利用语音识别技术对语音流进行实时语音识别;以及根据语音识别结果对语音流进行实时发音评估,其中发音评估以字或词级别为单位提供评测结果。
[0017]在本专利技术实施方式的第三方面中,提供了一种用于执行语音评测的计算设备,包括:处理器,其配置用于执行程序指令;以及存储器,其配置用于存储程序指令,当程序指令由处理器加载并执行时,使得计算设备执行根据本专利技术实施方式的第一方面中的任一项的方法。
[0018]在本专利技术实施方式的第四方面中,提供了一种计算机可读存储介质,其存储有计算机程序,当程序指令由处理器加载并执行时,使得处理器执行根据本专利技术实施方式的第一方面中的任一项的方法。
[0019]根据本专利技术实施方式的一种语音评测的方法、装置、计算设备及存储介质,通过实时的发音评测,可以给出以字或词级别为单位的反馈,方便用户读了字或者单词后进行实时地发音调整。在一些实施例中,可以利用参考文本构建语音识别模型,能够保证语音识别结果只有参考文本的字或者词,并且由于语音识别结果的范围只局限于参考文本,这大大缩小了语音识别模型的解码范围,进而能够缩减解码时间。在另一些实施例中,当参考文本中存在不在预设词典中的字或者词时,可以通过字素到音素(Grapheme
‑
to
‑
Phoneme,G2P)技术得到这些字或者词的音素,并将其添加至发音词典中,从而能够实现不在预设词典中词的识别和评测,解决了传统语音评测技术依赖于词典、无法识别不在词典中的字或者词的技术问题。
附图说明
[0020]通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:
[0021]图1示意性地示出了根据本专利技术实施方式的应用场景示意图;
[0022]图2示意性地示出了根据本专利技术实施方式的语音评测的方法的流程图;
[0023]图3示出了根据本公开实施例的加权有限状态转换器的一个实施例的结构示意图;
[0024]图4示出了使用本公开实施例中的加权有限状态转换器表示的语法模型的一个实施例的结构示意图;
[0025]图5示出了使用本公开实施例中的加权有限状态转换器表示的发音词典的一个实施例的结构示意图;
[0026]图6示出了根据本公开实施例的定制语法WFST的一个实施例的结构示意图;
[0027]图7示意性地示出了根据本专利技术实施方式的语音评测的装置的功能性框图;以及
[0028]图8示意性地示出了适于实现本专利技术实施方式的示例性计算系统的框图。
[0029]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0030]下面将参考若干示例性实施方式来描述本专利技术本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音评测的方法,包括:采集待评测的语音流;利用语音识别技术对所述语音流进行实时语音识别;以及根据语音识别结果对所述语音流进行实时发音评估,其中所述发音评估以字或词级别为单位提供评测结果。2.根据权利要求1所述的方法,其中利用语音识别技术对所述语音流进行实时语音识别包括:基于与所述待评测的语音流对应的参考文本实时构建语音识别模型;以及基于所构建的语音识别模型对所述语音流进行语音识别。3.根据权利要求2所述的方法,其中所述语音识别模型基于加权有限状态转换器WFST技术,并且基于与所述待评测的语音流对应的参考文本实时构建语音识别模型包括:基于所述参考文本构建所述语音识别模型中的语法WFST和/或发音词典WFST。4.根据权利要求3所述的方法,其中基于所述参考文本构建所述语法WFST包括:采用N
‑
Gram算法对所述参考文本进行频率统计而确定所述语法WFST的转移函数,其中优选地,N为3。5.根据权利要求3
‑
4任一所述的方法,其中所述语法WFST的状态集合中每个节点的状态为终止状态。6.根据权利要求3
‑
5任一所述的方法,其中基于所述参考文本构建所述发音词典WFST包括:响应于所述参考文本中存在未在预设词典中的对象,采用字素到音素技术将所述未在...
【专利技术属性】
技术研发人员:董文伟,孙艳庆,段亦涛,
申请(专利权)人:网易有道信息技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。