音频数据的评测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30633127 阅读:21 留言:0更新日期:2021-11-04 00:08
本申请实施例提供了一种音频数据的评测方法、装置、电子设备及存储介质,涉及人工智能技术领域,可以用于口语评测等场景。该方法包括:获取音频数据和与该音频数据对应的文本数据;基于音频数据与文本数据进行不确定性分析,确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果;基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。本申请方案的实施可以有效提高音频数据评测的准确性。确性。确性。

【技术实现步骤摘要】
音频数据的评测方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,具体而言,本申请涉及一种音频数据的评测方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,人工智能技术在各个领域中均占据了较为重要的作用。在计算机辅助教学领域中,口语自动评估技术起了重要作用,口语自动评估技术的实施,可以有效提高口语评测的效率。
[0003]然而,由于口语自动评估技术针对的人群较多,且包含不同年龄、不同口语水平的人,同时由于口语评测的训练打分数据往往需要人工进行标注,不仅耗时且对进行标注操作人员的专业度要求较高,以上各项问题使得口语评测模型的训练数据往往不能完全覆盖被评测者的所有特征,导致最终口语评测模型输出的分数具有不确定性或错误,即准确度较低。

技术实现思路

[0004]本申请提供的技术方案旨在至少能解决上述的技术缺陷之一,特别是音频数据评测结果准确性较低的技术缺陷。其中,技术方案如下:
[0005]在本申请的第一方面,提供了一种音频数据的评测方法,包括:
[0006]获取音频数据和与该音频数据对应的文本数据;
[0007]基于音频数据与文本数据进行不确定性分析,确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果;
[0008]基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。
[0009]在一实施例中,基于音频数据与文本数据进行不确定性分析,确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果,包括:
[0010]基于音频数据与文本数据进行语音识别,确定语音与文本对齐的时间信息;
[0011]基于音频数据与时间信息进行不确定性分析,确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。
[0012]在另一实施例中,基于音频数据与时间信息进行不确定性分析,确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果,包括:
[0013]提取音频数据中的声学特征信息;
[0014]基于声学特征信息与时间信息,确定音频数据的特征表示;
[0015]基于音频数据的特征表示与训练评测模型的训练数据,确定音频数据的不确定性参数;
[0016]基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果。
[0017]在又一实施例中,基于声学特征信息与时间信息,确定音频数据的特征表示,包括:
[0018]采用预构建的声学特征提取器基于声学特征信息,确定音频数据的标签信息;
[0019]基于标签信息与时间信息,确定每一词汇对应的时长,并基于该时长将对应的帧数的特征进行平均,得到每一词汇的特征表示;
[0020]将所有词汇的特征表示进行平均,得到相应音频数据的特征表示。
[0021]在一实施例中,训练声学特征提取器的步骤包括:
[0022]获取训练数据,训练数据包括帧级别的声学特征信息以及对应的真实标签信息;
[0023]采用训练数据训练声学特征提取器,使得基于交叉损失函数调整声学特征提取器的网络参数;交叉损失函数基于训练时预测每一帧声学特征信息所对应标签信息的概率与真实标签信息确定。
[0024]在一实施例中,基于音频数据的特征表示与训练评测模型的训练数据,确定音频数据的不确定性参数,包括:
[0025]确定用于训练评测模型的训练数据中每一训练标签下包括的训练特征表示;
[0026]计算每一训练标签下包括的训练特征表示之间的相似度,确定每一训练标签的聚合程度度量;
[0027]计算音频数据的特征表示与训练数据的训练特征表示之间的相似度,确定音频数据与每一训练标签下训练数据的相似度值;
[0028]基于聚合程度度量对相似度值进行归一化处理,将归一化处理的结果确定为音频数据的不确定性参数。
[0029]在一实施例中,基于不确定性参数确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果,包括以下任意一项:
[0030]将所有音频数据的不确定性参数进行降序排序,将排序最低的预设百分比对应的音频数据的不确定性分析结果确定为不确定,将其他音频数据的不确定性分析结果确定为确定;
[0031]计算所有音频数据的不确定性参数的均值与标准差,基于均值与标准差确定阈值,将不确定性参数低于或等于阈值对应的音频数据的不确定性分析结果确定为不确定,将其他音频数据的不确定性分析结果确定为确定。
[0032]在一实施例中,基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果,包括:
[0033]当不确定性分析结果为确定时,确定采用评测模型对音频数据进行评测的评测结果作为最终评测结果;
[0034]当不确定性分析结果为不确定时,确定采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。
[0035]在一实施例中,采用评测模型对音频数据进行评测,包括:
[0036]基于音频数据与文本数据进行语音识别,确定语音特征信息;
[0037]采用评测模型基于语音特征信息,确定音频数据的评测结果。
[0038]在一实施例中,还包括:
[0039]将最终评测结果反馈至相应的用户端,以在用户端展示最终评测结果。
[0040]在本申请的第二方面,提供了一种音频数据的评测装置,包括:
[0041]获取模块,用于获取音频数据和与该音频数据对应的文本数据;
[0042]分析模块,用于基于音频数据与文本数据进行不确定性分析,确定采用评测模型对音频数据进行评测所得结果的不确定性分析结果;
[0043]确定模块,用于基于不确定性分析结果确定采用评测模型或其他评测方式对音频数据进行评测的评测结果作为最终评测结果。
[0044]在本申请的第三方面,提供了一种电子设备,电子设备包括:
[0045]一个或多个处理器;
[0046]存储器;
[0047]一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面提供的方法。
[0048]在本申请的第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当计算机指令在计算机上运行时,使得计算机可以执行第一方面提供的方法。
[0049]本申请提供的技术方案带来的有益效果是:
[0050]在本申请中基于获取到的音频数据和与该音频数据对应的文本数据进行不确定性分析,确定出采用评测模型对音频数据进行评测所得结果的不确定性分析结果,进而可以基于不确定性分析结果确定是采用评测模型还是采用其他评测方式对音频数据进行评测的评测结果作为最终评测结果。本申请的实施通过对获取到的音频数据进行不确定性分析,确定出评测模型对该音频数据进行评测所得结果的不确定性,即可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据的评测方法,其特征在于,包括:获取音频数据和与该音频数据对应的文本数据;基于所述音频数据与文本数据进行不确定性分析,确定采用评测模型对所述音频数据进行评测所得结果的不确定性分析结果;基于所述不确定性分析结果确定采用评测模型或其他评测方式对所述音频数据进行评测的评测结果作为最终评测结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述音频数据与文本数据进行不确定性分析,确定采用评测模型对所述音频数据进行评测所得结果的不确定性分析结果,包括:基于所述音频数据与文本数据进行语音识别,确定语音与文本对齐的时间信息;基于所述音频数据与时间信息进行不确定性分析,确定采用评测模型对所述音频数据进行评测所得结果的不确定性分析结果。3.根据权利要求2所述的方法,其特征在于,所述基于所述音频数据与时间信息进行不确定性分析,确定采用评测模型对所述音频数据进行评测所得结果的不确定性分析结果,包括:提取所述音频数据中的声学特征信息;基于所述声学特征信息与时间信息,确定所述音频数据的特征表示;基于所述音频数据的特征表示与训练所述评测模型的训练数据,确定所述音频数据的不确定性参数;基于所述不确定性参数确定采用评测模型对所述音频数据进行评测所得结果的不确定性分析结果。4.根据权利要求3所述的方法,其特征在于,所述基于所述声学特征信息与时间信息,确定所述音频数据的特征表示,包括:采用预构建的声学特征提取器基于所述声学特征信息,确定所述音频数据的标签信息;基于所述标签信息与时间信息,确定每一词汇对应的时长,并基于该时长将对应的帧数的特征进行平均,得到每一词汇的特征表示;将所有词汇的特征表示进行平均,得到相应音频数据的特征表示。5.根据权利要求4所述的方法,其特征在于,训练所述声学特征提取器的步骤包括:获取训练数据,所述训练数据包括帧级别的声学特征信息以及对应的真实标签信息;采用所述训练数据训练所述声学特征提取器,使得基于交叉损失函数调整所述声学特征提取器的网络参数;所述交叉损失函数基于训练时预测每一帧声学特征信息所对应标签信息的概率与真实标签信息确定。6.根据权利要求3所述的方法,其特征在于,所述基于所述音频数据的特征表示与训练所述评测模型的训练数据,确定所述音频数据的不确定性参数,包括:确定用于训练所述评测模型的训练数据中每一训练标签下包括的训练特征表示;计算每一训练标签下包括的训练特征表示之间的相似度,确定每一训练标签的聚合程度度量;计算所述音频数据的特征表示与所述训练数据的训练特征表示之间的相似度,确定所

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1