发音评测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35689212 阅读:13 留言:0更新日期:2022-11-23 14:36
本申请涉及一种发音评测方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取发音评测数据中的音频数据以及文本数据;提取音频数据的音频特征,并提取文本数据的音素特征;基于文本数据所包含的各类音素,确定音频数据包含的音素类别;对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别;基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果。采用本方法能够提高发音评测准确率。能够提高发音评测准确率。能够提高发音评测准确率。

【技术实现步骤摘要】
发音评测方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种发音评测方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术和人工智能技术的发展,出现了通过机器学习(Machine Learning,ML)来进行口语发音评测的方法。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在发音评测时,可以通过输入跟读文本和对应的音频至机器学习模型,由机器学习模型来对这段音频的发音者进行自动化的发音评估。
[0003]传统的口语评测主要采用基于语音识别技术的声学模型计算得到的GOP(Goodness of Pronunciation,发音优美评分)作为发音特征。然而GOP依赖于语音训练数据的标注,当需要对不同的发音进行评测时,例如对二语者发音进行评测时,通过GOP来进行发音评测的准确率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高发音评测准确率的发音评测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种发音评测方法。所述方法包括:
[0006]获取发音评测数据中的音频数据以及文本数据;
[0007]提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
[0008]基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
[0009]对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
[0010]基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
[0011]第二方面,本申请还提供了一种发音评测装置。所述装置包括:
[0012]数据获取模块,用于获取发音评测数据中的音频数据以及文本数据;
[0013]特征提取模块,用于提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
[0014]音素类别识别模块,用于基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
[0015]音素分类模块,用于对所述音频特征进行所述音素类别相关的前后向预测处理,
得到所述音频数据中每帧音频特征的音素类别;
[0016]发音评测模块,用于基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
[0017]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0018]获取发音评测数据中的音频数据以及文本数据;
[0019]提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
[0020]基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
[0021]对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
[0022]基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
[0023]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0024]获取发音评测数据中的音频数据以及文本数据;
[0025]提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
[0026]基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
[0027]对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
[0028]基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
[0029]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0030]获取发音评测数据中的音频数据以及文本数据;
[0031]提取所述音频数据的音频特征,并提取所述文本数据的音素特征;
[0032]基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;
[0033]对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;
[0034]基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。
[0035]上述发音评测方法、装置、计算机设备、存储介质和计算机程序产品,在得到发音评测数据后,先提取音频数据的音频特征,同时提取文本数据的音素特征,从而有效地从获取发音评测所需的音频特征以及文本特征,而后基于文本数据所包含的各类音素,确定音频数据包含的音素类别;再对音频特征进行音素类别相关的前后向预测处理,得到音频数据中每帧音频特征的音素类别,在特征融合前先将音频特征进行音素分类,可以查找到音频特征的音素类别,最后再基于音频特征与音频特征所属音素类别下的音素特征的特征融合结果,确定发音评测数据的发音评测结果,通过在特征融合时,融合音频特征与音频特征所属音素类别下的音素特征,可以有效保证特征融合效果,从而提高发音评测的准确率。
附图说明
[0036]图1为一个实施例中发音评测方法的应用环境图;
[0037]图2为一个实施例中发音评测方法的流程示意图;
[0038]图3为另一个实施例中发音评测方法的流程示意图;
[0039]图4为一个实施例中实现发音评测的界面示意图;
[0040]图5为一个实施例中发音评测模型的结构示意图;
[0041]图6为一个实施例中基于发音评测模型实现发音评测流程的示意图;
[0042]图7为一个实施例中发音评测结果的界面示意图;
[0043]图8为一个实施例中不同模型对不同数据集进行发音评测的结果示意图;
[0044]图9为一个实施例中发音评测装置的结构框图;
[0045]图10为一个实施例中计算机设备的内部结构图。
具体实施方式
[0046]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。...

【技术保护点】

【技术特征摘要】
1.一种发音评测方法,其特征在于,所述方法包括:获取发音评测数据中的音频数据以及文本数据;提取所述音频数据的音频特征,并提取所述文本数据的音素特征;基于所述文本数据所包含的各类音素,确定所述音频数据包含的音素类别;对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别;基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果。2.根据权利要求1所述的方法,其特征在于,所述提取所述音频数据的音频特征包括:将所述音频数据拆分为音频帧;通过音频编码器的特征编码层提取所述音频帧的音频编码特征;通过音频编码器的转换器层对所述音频编码特征进行特征转换处理,得到音频特征。3.根据权利要求1所述的方法,其特征在于,所述音素类别包括空类别和至少一个目标类别,所述基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果之前,还包括:从所述音频特征中去除音素类别为空类别的音频特征;所述对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征的音素类别包括:对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征对应的目标类别。4.根据权利要求1所述的方法,其特征在于,所述对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述音频数据中每帧音频特征的音素类别之前,还包括:获取第一训练集和第二训练集,所述第一训练集包括使用语音类别为母语的语言使用者发音数据,所述第二训练集包括使用语音类别为非母语的语言使用者发音数据;基于所述第一训练集对初始连接时序分类模型进行参数训练,得到第一音频特征分类模型;基于所述第二训练集对所述第一音频特征分类模型进行参数调整,得到第二音频特征分类模型;所述对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征的音素类别;基于所述第二音频特征分类模型对所述音频特征进行所述音素类别相关的前后向预测处理,得到所述每帧音频特征的音素类别。5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述基于所述音频特征与所述音频特征所属音素类别下的音素特征的特征融合结果,确定所述发音评测数据的发音评测结果包括:根据所述音素特征构建注意力机制的查询向量,根据所述音...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1