一种语音识别系统的测试方法、装置、设备及存储介质制造方法及图纸

技术编号:35847237 阅读:8 留言:0更新日期:2022-12-07 10:28
本申请提供了一种语音识别系统的测试方法、装置、设备及存储介质,其中,测试方法包括:将被测系统的测试项对应的测试数据集中的测试语音输入被测系统,获取被测系统在测试项上的运行数据,根据被测系统在测试项上的运行数据确定被测系统在测试项上的测试结果。由于被测系统的测试数据总集是在考虑被测系统的真实应用场景的基础上,以获得能够较为准确地反映被测系统能力的测试结果为目标构建,因此,基于构建的测试数据总集中的测试数据,采用本申请提供的测试流程对被测系统进行测试,能够获得较好的测试效果。本申请适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语音识别系统或语音识别子系统测试的设计和实施。的设计和实施。的设计和实施。

【技术实现步骤摘要】
一种语音识别系统的测试方法、装置、设备及存储介质


[0001]本申请涉及智能语音交互系统测试
,尤其涉及一种语音识别系统的测试方法、装置、设备及存储介质。

技术介绍

[0002]智能语音交互在智能家居、智能客服、移动终端、车载终端以及智慧教育、智慧医疗、智能办公、服务机器人等诸多领域应用广泛,已成为当前人机交互的重要方式之一。
[0003]随着智能语音交互越来越深入到生产生活的方方面面,需要对智能语音交互的系统参考框架、基础技术要求、互联网接口要求等进行统一规范,在这方面,国家已制定了支撑智能语音交互系统的基础性国家标准,比如,GB/T5271.29—2006信息技术词汇第29部分:人工智能语音识别与合成,给出了人工智能中的语音识别与合成的相关概念的术语和定义。
[0004]然而,随着人工智能尤其是智能语音交互的飞速发展,越来越多的场景中利用了智能语音交互系统,甚至未来将会有更多的场景中利用智能语音交互系统,智能语音交互系统的普遍使用使得现有的标准已经无法对智能语音交互系统进行较好支撑。
[0005]语音识别为智能语音交互中的一个基本环节,对于语音识别系统的应用而言,使其满足应用场景的要求至关重要,为此,需要对语音识别系统的能力进行评测。目前业界出现的语音识别系统测评方案大多为,采用临时搜集的数据作为测试数据对语音识别系统进行测试,然而,该测评方案由于没有形成完备的测试数据集,导致测试数据与语音识别系统的实际应用场景相脱离,进而导致利用这些数据无法准确测试出语音识别系统在实际应用中的能力,测试效果不理想。

技术实现思路

[0006]有鉴于此,本申请提供了一种语音识别系统的测试方法、装置、设备及存储介质,用以对语音识别系统的能力进行评测,其技术方案如下:
[0007]一种语音识别系统的测试方法,包括:
[0008]将被测系统的测试项对应的测试数据集中的测试语音输入所述被测系统,其中,所述测试数据集根据对应的测试项从所述被测系统的测试数据总集中获取,所述测试数据总集中测试语音的总量至少2000条,所述测试数据总集中包括多类质量不同的测试语音,分别为A类测试语音、B类测试语音、C类测试语音和D类测试语音,所述测试语音所属的类别由所述测试语音的语音种类和/或音频类型决定,所述测试数据总集中的每类测试语音中至少包含音频类型为弱噪声正常和/或截断音频的语音,音频类型为弱噪声正常的语音指的是,语音信噪比大于或等于20dB的语音,所述测试数据总集中A类测试语音的占比不宜小于70%,B类测试语音的占比不宜小于15%且不宜大于20%, C类测试语音的占比不宜小于5%且不宜大于10%,D类测试语音的占比不宜大于5%,所述测试数据总集中时长位于3至5秒的测试语音的占比在80%以上,每个语音种类的测试语音的发音人数量不宜少于30名;
[0009]获取所述被测系统在所述测试项上的运行数据;
[0010]根据所述被测系统在所述测试项上的运行数据,确定所述被测系统在所述测试项上的测试结果。
[0011]可选的,所述将被测系统的测试项对应的测试数据集中的测试语音输入所述被测系统,包括:
[0012]利用语音回放设备播放所述被测系统的测试项对应的测试数据集中的测试语音,将所述语音回放设备播放的测试语音输入所述被测系统;
[0013]其中,所述语音回放设备为第一回放设备或第二回放设备,所述第一回放设备为播放器,所述第二回放设备包括功率放大器和人工嘴;
[0014]所述第一回放设备满足如下的参数要求:
[0015]频率响应:74Hz~18kHz;最大声压级:102dB(A);
[0016]所述第二回放设备满足如下的参数要求:
[0017]信噪比:90dB;增益控制:0dB~25dB;所述功率放大器的频率响应: 20Hz~20kHz;所述人工嘴的频率响应:100Hz~10kHz;最大声压级:110 dB(A);
[0018]利用所述语音回放设备播放所述被测系统的测试项对应的测试数据集中测试语音的环境满足:
[0019]外界噪声不超过55dB(A)的情况下,室内本底噪声≤20dB(A);
[0020]所述测试方法还包括:
[0021]在利用所述语音回放设备播放所述被测系统的测试项对应的测试数据集中的测试语音的同时,利用噪声回放设备播放所述测试语音的背景噪声,其中,所述背景噪声在所述被测系统的使用场景中录制,所述噪声回放设备满足如下参数要求:
[0022]功率:70W(峰值125W);频响:50Hz~21kHz;
[0023]声压:≤113dB SPL@1m;输入阻抗:10KΩ;最大输入电平:22dBu;
[0024]所述噪声回放设备经过频响均衡处理,所述被测系统的语音采集模块处的回放噪声与所述被测系统的应用场景中噪声的频响差异满足+3dB。
[0025]可选的,所述测试项包括功能测试项和/或性能测试项;
[0026]所述功能测试项包括:语音信号采集功能、语音转文字功能、语音唤醒功能、前端信号处理功能、说话人分离功能、语言信息识别功能和语音识别后处理功能中的一个或多个,其中:
[0027]所述语音唤醒功能包括以下功能中一种或多种:基于预定义唤醒词的唤醒功能、基于自定义唤醒词的唤醒功能、基于多唤醒词的唤醒功能、在执行语音唤醒的同时监听多个音频流的功能、基于语音打断方式进行唤醒的功能、协同唤醒功能,所述协同唤醒功能指的是,在使用相同唤醒词的多个设备在同一场景中出现时,一次唤醒操作有且仅有一个设备应答;所述前端信号处理功能包括以下功能中一种或多种:语音编解码功能、语音端点检测功能、语音增强功能、声源定位功能、音频格式转换功能、语音重采样功能、音频质量判断功能、声学回声消除功能;所述说话人分离功能包括以下功能中一种或多种:说话人分割功能、说话人聚类功能;所述语言信息识别功能包括以下功能中一种或多种:一个语种或多个语种识别功能、多语种混读识别功能、一个汉语方言或多个汉语方言识别功能、多汉语方言混读识别功能、语言信息端点识别功能;所述语音识别后处理功能包括以下功能中一种或
多种:字符规整功能、标点预测功能、文本顺滑功能、文本替换功能;
[0028]若所述被测系统的测试项包括所述功能测试项,则所述被测系统在所述功能测试项上的运行数据包括:所述被测系统针对输入的测试语音在所述功能测试项上产生的运行结果;
[0029]所述根据所述被测系统在所述测试项上的运行数据,确定所述被测系统在所述测试项上的测试结果,包括:
[0030]根据所述被测系统在所述功能测试项上的运行数据,分析所述被测系统是否提供了所述功能测试项所指示的功能;根据分析结果生成所述被测系统在所述测试项上的测试结果;
[0031]所述性能测试项包括:语音识别效果、语音识别效率、语音唤醒效果、前端信号处理效果、说话人分离效果、语言信息识别效果和系统稳定性中的一个或多个;
[0032]若所述性能测试本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别系统的测试方法,其特征在于,包括:将被测系统的测试项对应的测试数据集中的测试语音输入所述被测系统,其中,所述测试数据集根据对应的测试项从所述被测系统的测试数据总集中获取,所述测试数据总集中测试语音的总量至少2000条,所述测试数据总集中包括多类质量不同的测试语音,分别为A类测试语音、B类测试语音、C类测试语音和D类测试语音,所述测试语音所属的类别由所述测试语音的语音种类和/或音频类型决定,所述测试数据总集中的每类测试语音中至少包含音频类型为弱噪声正常和/或截断音频的语音,音频类型为弱噪声正常的语音指的是,语音信噪比大于或等于20dB的语音,所述测试数据总集中A类测试语音的占比不宜小于70%,B类测试语音的占比不宜小于15%且不宜大于20%,C类测试语音的占比不宜小于5%且不宜大于10%,D类测试语音的占比不宜大于5%,所述测试数据总集中时长位于3至5秒的测试语音的占比在80%以上,每个语音种类的测试语音的发音人数量不宜少于30名;获取所述被测系统在所述测试项上的运行数据;根据所述被测系统在所述测试项上的运行数据,确定所述被测系统在所述测试项上的测试结果。2.根据权利要求1所述的测试方法,其特征在于,所述将被测系统的测试项对应的测试数据集中的测试语音输入所述被测系统,包括:利用语音回放设备播放所述被测系统的测试项对应的测试数据集中的测试语音,将所述语音回放设备播放的测试语音输入所述被测系统;其中,所述语音回放设备为第一回放设备或第二回放设备,所述第一回放设备为播放器,所述第二回放设备包括功率放大器和人工嘴;所述第一回放设备满足如下的参数要求:频率响应:74Hz~18kHz;最大声压级:102dB(A);所述第二回放设备满足如下的参数要求:信噪比:90dB;增益控制:0dB~25dB;所述功率放大器的频率响应:20Hz~20kHz;所述人工嘴的频率响应:100Hz~10kHz;最大声压级:110dB(A);利用所述语音回放设备播放所述被测系统的测试项对应的测试数据集中测试语音的环境满足:外界噪声不超过55dB(A)的情况下,室内本底噪声≤20dB(A);所述测试方法还包括:在利用所述语音回放设备播放所述被测系统的测试项对应的测试数据集中的测试语音的同时,利用噪声回放设备播放所述测试语音的背景噪声,其中,所述背景噪声在所述被测系统的使用场景中录制,所述噪声回放设备满足如下参数要求:功率:70W(峰值125W);频响:50Hz~21kHz;声压:≤113dB SPL@1m;输入阻抗:10KΩ;最大输入电平:22dBu;所述噪声回放设备经过频响均衡处理,所述被测系统的语音采集模块处的回放噪声与所述被测系统的使用场景中噪声的频响差异满足+3dB。3.根据权利要求1或2所述的测试方法,其特征在于,所述测试项包括功能测试项和/或性能测试项;所述功能测试项包括:语音信号采集功能、语音转文字功能、语音唤醒功能、前端信号
处理功能、说话人分离功能、语言信息识别功能和语音识别后处理功能中的一个或多个;其中,所述语音唤醒功能包括以下功能中一种或多种:基于预定义唤醒词的唤醒功能、基于自定义唤醒词的唤醒功能、基于多唤醒词的唤醒功能、在执行语音唤醒的同时监听多个音频流的功能、基于语音打断方式进行唤醒的功能、协同唤醒功能,所述协同唤醒功能指的是,在使用相同唤醒词的多个设备在同一场景中出现时,一次唤醒操作有且仅有一个设备应答;所述前端信号处理功能包括以下功能中一种或多种:语音编解码功能、语音端点检测功能、语音增强功能、声源定位功能、音频格式转换功能、语音重采样功能、音频质量判断功能、声学回声消除功能;所述说话人分离功能包括以下功能中一种或多种:说话人分割功能、说话人聚类功能;所述语言信息识别功能包括以下功能中一种或多种:一个语种或多个语种识别功能、多语种混读识别功能、一个汉语方言或多个汉语方言识别功能、多汉语方言混读识别功能、语言信息端点识别功能;所述语音识别后处理功能包括以下功能中一种或多种:字符规整功能、标点预测功能、文本顺滑功能、文本替换功能;若所述被测系统的测试项包括所述功能测试项,则所述被测系统在所述功能测试项上的运行数据包括:所述被测系统针对输入的测试语音在所述功能测试项上产生的运行结果;所述根据所述被测系统在所述测试项上的运行数据,确定所述被测系统在所述测试项上的测试结果,包括:根据所述被测系统在所述功能测试项上的运行数据,分析所述被测系统是否提供了所述功能测试项所指示的功能;根据分析结果生成所述被测系统在所述测试项上的测试结果;所述性能测试项包括:语音识别效果、语音识别效率、语音唤醒效果、前端信号处理效果、说话人分离效果、语言信息识别效果和系统稳定性中的一个或多个;若所述性能测试项包括第一性能测试项,则所述被测系统在所述第一性能测试项上的运行数据包括:所述被测系统针对输入的测试语音在所述第一功能测试项上产生的运行结果,其中,所述第一性能测试项包括语音识别效果、语音识别效率、语音唤醒效果、前端信号处理效果、说话人分离效果、语言信息识别效果中的一个或多个测试项;若所述被测系统包括第二性能测试项,则所述被测系统在所述第二性能测试项上的运行数据包括:基于所述第二性能测试项对应的测试数据集中的测试语音对所述被测系统进行测试期间获取的表征所述被测系统的运行情况和/或资源利用情况的数据,其中,所述第二性能测试项包括系统稳定性;所述根据所述被测系统在所述测试项上的运行数据,确定所述被测系统的测试项对应的测试结果,包括:若所述性能测试项包括所述第一性能测试项,则根据所述被测系统在所述第一性能测试项上的运行数据,确定所述被测系统在所述第一性能测试项上的性能表征参数,根据确定出的性能表征参数生成所述被测系统在所述第一性能测试项上的测试结果;若所述性能测试项包括所述第二性能测试项,则根据所述被测系统在所述第二性能测试项上的运行数据,生成所述被测系统在所述第二性能测试项上的测试结果。4.根据权利要求3所述的测试方法,其特征在于,所述根据所述被测系统在所述功能测试项上的运行数据,分析所述被测系统是否提供了所述功能测试项所指示的功能,包括:
若所述功能测试项包含所述语音信号采集功能,则根据所述被测系统针对输入的测试语音在所述语音信号采集功能上产生的运行结果,分析所述被测系统是否提供了设定拾音距离下的语音信号采集功能,其中,所述被测系统和语音回放设备按所述设定拾音距离布置,所述拾音距离根据所述被测系统的应用场景设定,所述语音回放设备用于播放所述语音信号采集功能对应的测试数据集中的测试语音,以便所述被测系统采集;若所述功能测试项包含所述语音转文字功能,则根据所述被测系统针对输入的测试语音在所述语音转文字功能上产生的运行结果,分析所述被测系统是否提供了将接收的语音转换为与接收的语音的内容相符的文本并输出的功能;若所述功能测试项包含所述语音唤醒功能,则根据所述被测系统针对输入的测试语音在所述语音唤醒功能上产生的运行结果,分析所述被测系统是否提供了语音唤醒功能;若所述功能测试项包含所述前端信号处理功能,则根据所述被测系统针对输入的测试语音在所述前端信号处理功能上产生的运行结果,分析所述被测系统是否提供了前端信号处理功能;若所述功能测试项包含所述说话人分离功能,则根据所述被测系统针对输入的测试语音在所述说话人分离功能上产生的运行结果,分析所述被测系统是否提供了说话人分离...

【专利技术属性】
技术研发人员:刘国涛花云飞
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1