一种单词发音打分方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38370446 阅读:13 留言:0更新日期:2023-08-05 17:34
本申请提供了一种单词发音打分方法、装置、电子设备及存储介质,方法包括:将发音音频中每一音频帧的音频特征输入到音素检测模型中,得到每一音频帧对于单词的每一标准发音音素的发音概率;构建二维表格;以二维表格中第一行第一列的格子为起点,从最新的起点直接移动至最新的起点右边的格子,并将当前所处的格子作为起点,并重复上述步骤,直至无法继续移动,以将最终所处的格子作为终点,并确定最初的起点和终点之间的移动路径;基于目标移动路径所经过的每一格子各自写有的发音概率以及标准发音音素的个数,确定初步发音得分。本申请能够在音素级别上实现用户对于单词发音的打分,从而能够更准确地对用户的误发音进行纠正。正。正。

【技术实现步骤摘要】
一种单词发音打分方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理领域,具体而言,涉及一种单词发音打分方法、装置、电子设备及存储介质。

技术介绍

[0002]随着技术的不断发展与进步,现今已经能够对用户对于词句的发音进行打分来反映用户对于词句发音的准确程度,从而能够使得用户更好地学习语言。
[0003]然而,现有的打分方式,评分普遍比较粗糙,细粒度不足,只能较为准确地反映用户对于句子发音的准确程度,而并不能十分精准地反映用户对于单词发音的准确程度,换言之,现有方式无法在音素级别上对用户对于单词发音的好坏做出准确评判。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种单词发音打分方法、装置、电子设备及存储介质,能够在音素级别上实现用户对于单词发音的打分,从而能够更准确地对用户的误发音进行纠正。
[0005]第一方面,本申请实施例提供了一种单词发音打分方法,所述方法包括:
[0006]接收用户对于目标单词的发音音频;
[0007]将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标单词的每一标准发音音素的发音概率;
[0008]构建目标二维表格,其中,所述目标二维表格包括n
×
m个格子,n为当前存在的音频帧的数量,m为所述标准发音音素的数量,位于所述目标二维表格中第i行第j列的格子写有第i个按照时间先后顺序排列的当前存在的音频帧对于所述目标单词的第j个标准发音音素的发音概率,1≤i≤n,1≤j≤m;
[0009]以所述目标二维表格中第一行第一列的格子为起点,从最新的起点直接移动至紧邻最新的起点右边的格子或者紧邻最新的起点下边的格子或者紧邻最新的起点右下的格子,并将当前所处的格子作为起点,并重复步骤从最新的起点直接移动至紧邻最新的起点右边的格子或者紧邻最新的起点下边的格子或者紧邻最新的起点右下的格子,并将当前所处的格子作为起点,直至无法继续移动,以将最终所处的格子作为终点,并确定最初的起点和所述终点之间的移动路径;
[0010]基于目标移动路径所经过的每一格子各自写有的发音概率以及所述标准发音音素的个数,确定用于表征所述用户对于所述目标单词的发音准确程度的初步发音得分,其中,所述目标移动路径为全部所述移动路径中对应的概率和最大的移动路径,对于每一所述移动路径,该移动路径对应的概率和为该移动路径所经过的每一格子各自写有的发音概率之和,所述初步发音得分越高则表征所述用户对于所述目标单词的发音准确程度越高。
[0011]在一种可能的实施方式中,所述音素检测模型为CTC模型,所述音素检测模型依次包括:批量归一化层,零填充层,卷积神经网络层,最大池化层,批归一化层,门控循环单元
层,时间分布密集层,CTC输出层。
[0012]在一种可能的实施方式中,将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标单词的每一标准发音音素的发音概率,包括:
[0013]将所述发音音频中每一所述音频帧的音频特征输入到所述音素检测模型中进行音素识别,得到每一所述音频帧各自对于全部音素中每一音素的发音概率;
[0014]在基于目标移动路径所经过的每一格子各自写有的发音概率以及所述标准发音音素的个数,确定用于表征所述用户对于所述目标单词的发音准确程度的初步发音得分之后,所述方法还包括:
[0015]对于当前存在的每一音频帧,将该音频帧中对于全部音素中发音概率最大的音素确定为该音频帧的实际发音音素;
[0016]根据按照时间先后顺序排列的当前存在的每一音频帧各自的实际发音音素以及所述目标单词的标准发音音素,确定所述用户对于所述目标单词的发音状况,其中,所述发音状况包括:漏读,错读,多读,一致;
[0017]将所述目标单词的标准发音音素、所述初步发音得分、所述目标移动路径所经过的每一格子各自写有的发音概率以及所述发音状况输入到训练好的单词发音打分模型中,得到所述用户对于所述目标单词的最终发音得分,其中,所述单词发音打分模型为XGBoost回归模型。
[0018]在一种可能的实施方式中,在将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标单词的每一标准发音音素的发音概率之后,所述方法还包括:
[0019]若出现连续的至少两个实际发音音素相同的参考音频帧,则去除第一个参考音频帧之后的每一参考音频帧;
[0020]对于每一所述音频帧,若该音频帧的实际发音音素为空音素,则去除该音频帧。
[0021]第二方面,本申请实施例还提供了一种单词发音打分装置,所述装置包括:
[0022]接收模块,用于接收用户对于目标单词的发音音频;
[0023]输入模块,用于将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标单词的每一标准发音音素的发音概率;
[0024]表格构建模块,用于构建目标二维表格,其中,所述目标二维表格包括n
×
m个格子,n为当前存在的音频帧的数量,m为所述标准发音音素的数量,位于所述目标二维表格中第i行第j列的格子写有第i个按照时间先后顺序排列的当前存在的音频帧对于所述目标单词的第j个标准发音音素的发音概率,1≤i≤n,1≤j≤m;
[0025]路径确定模块,用于以所述目标二维表格中第一行第一列的格子为起点,从最新的起点直接移动至紧邻最新的起点右边的格子或者紧邻最新的起点下边的格子或者紧邻最新的起点右下的格子,并将当前所处的格子作为起点,并重复步骤从最新的起点直接移动至紧邻最新的起点右边的格子或者紧邻最新的起点下边的格子或者紧邻最新的起点右下的格子,并将当前所处的格子作为起点,直至无法继续移动,以将最终所处的格子作为终点,并确定最初的起点和所述终点之间的移动路径;
[0026]初步打分模块,用于基于目标移动路径所经过的每一格子各自写有的发音概率以及所述标准发音音素的个数,确定用于表征所述用户对于所述目标单词的发音准确程度的初步发音得分,其中,所述目标移动路径为全部所述移动路径中对应的概率和最大的移动路径,对于每一所述移动路径,该移动路径对应的概率和为该移动路径所经过的每一格子各自写有的发音概率之和,所述初步发音得分越高则表征所述用户对于所述目标单词的发音准确程度越高。
[0027]在一种可能的实施方式中,所述音素检测模型为CTC模型,所述音素检测模型依次包括:批量归一化层,零填充层,卷积神经网络层,最大池化层,批归一化层,门控循环单元层,时间分布密集层,CTC输出层。
[0028]在一种可能的实施方式中,所述输入模块,具体用于:
[0029]将所述发音音频中每一所述音频帧的音频特征输入到所述音素检测模型中进行音素识别,得到每一所述音频帧各自对于全部音素中每一音素的发音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单词发音打分方法,其特征在于,所述方法包括:接收用户对于目标单词的发音音频;将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标单词的每一标准发音音素的发音概率;构建目标二维表格,其中,所述目标二维表格包括n
×
m个格子,n为当前存在的音频帧的数量,m为所述标准发音音素的数量,位于所述目标二维表格中第i行第j列的格子写有第i个按照时间先后顺序排列的当前存在的音频帧对于所述目标单词的第j个标准发音音素的发音概率,1≤i≤n,1≤j≤m;以所述目标二维表格中第一行第一列的格子为起点,从最新的起点直接移动至紧邻最新的起点右边的格子或者紧邻最新的起点下边的格子或者紧邻最新的起点右下的格子,并将当前所处的格子作为起点,并重复步骤从最新的起点直接移动至紧邻最新的起点右边的格子或者紧邻最新的起点下边的格子或者紧邻最新的起点右下的格子,并将当前所处的格子作为起点,直至无法继续移动,以将最终所处的格子作为终点,并确定最初的起点和所述终点之间的移动路径;基于目标移动路径所经过的每一格子各自写有的发音概率以及所述标准发音音素的个数,确定用于表征所述用户对于所述目标单词的发音准确程度的初步发音得分,其中,所述目标移动路径为全部所述移动路径中对应的概率和最大的移动路径,对于每一所述移动路径,该移动路径对应的概率和为该移动路径所经过的每一格子各自写有的发音概率之和,所述初步发音得分越高则表征所述用户对于所述目标单词的发音准确程度越高。2.根据权利要求1所述的单词发音打分方法,其特征在于,所述音素检测模型为CTC模型,所述音素检测模型依次包括:批量归一化层,零填充层,卷积神经网络层,最大池化层,批归一化层,门控循环单元层,时间分布密集层,CTC输出层。3.根据权利要求1所述的单词发音打分方法,其特征在于,将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标单词的每一标准发音音素的发音概率,包括:将所述发音音频中每一所述音频帧的音频特征输入到所述音素检测模型中进行音素识别,得到每一所述音频帧各自对于全部音素中每一音素的发音概率;在基于目标移动路径所经过的每一格子各自写有的发音概率以及所述标准发音音素的个数,确定用于表征所述用户对于所述目标单词的发音准确程度的初步发音得分之后,所述方法还包括:对于当前存在的每一音频帧,将该音频帧中对于全部音素中发音概率最大的音素确定为该音频帧的实际发音音素。根据按照时间先后顺序排列的当前存在的每一音频帧各自的实际发音音素以及所述目标单词的标准发音音素,确定所述用户对于所述目标单词的发音状况,其中,所述发音状况包括:漏读,错读,多读,一致;将所述目标单词的标准发音音素、所述初步发音得分、所述目标移动路径所经过的每一格子各自写有的发音概率以及所述发音状况输入到训练好的单词发音打分模型中,得到所述用户对于所述目标单词的最终发音得分,其中,所述单词发音打分模型为XGBoost回归模型。
4.根据权利要求3所述的单词发音打分方法,其特征在于,在将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标单词的每一标准发音音素的发音概率之后,所述方法还包括:对于每一所述音频帧,若该音频帧的实际发音音素为空音素,则去除该音频帧;若出现连续的至少两个实际发音音素相同的参考音频帧,则去除第一个参考音频帧之后的每一参考音频帧;对于每一所述音频帧,若该音频帧的实际发音音素为空音素,则去除该音频帧。5.一种单词发音打分装置,其特征在于,所述装置包括:接收模块,用于接收用户对于目标单词的发音音频;输入模块,用于将所述发音音频中每一音频帧的音频特征输入到训练好的音素检测模型中进行音素识别,得到每一所述音频帧各自对于所述目标...

【专利技术属性】
技术研发人员:骆俊松梁登郝雪媛郑晨唐佳强董晋鹏李明明
申请(专利权)人:北京外研在线数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1