构建端到端语音评测模型的深度学习方法技术

技术编号:34431694 阅读:23 留言:0更新日期:2022-08-06 16:09
本发明专利技术涉及采用神经网络模型的深度学习方法,具体为一种构建端到端语音评测模型的深度学习方法。主要步骤包括构建LSTM+CTC的声学模型,对输入的声音讯号提取特征后进行训练,得到对应单词,然后结合语言模型得到对齐结果,用于后续多维度评测反馈和得分的计算。提取fbank特征用来作语音识别系统的输入和训练声学模型,将提取的特征放入声学模型中进行训练,声学模型使用LSTM+CTC的结构,其中LSTM以特征提取模块提取的特征为输入进行训练学习,得到学习后的特征。使用深度学习技术来实现一种端到端的语音评测方法,使评测过程更加方便,评测结果更加准确。评测结果更加准确。评测结果更加准确。

【技术实现步骤摘要】
构建端到端语音评测模型的深度学习方法


[0001]本专利技术涉及采用神经网络模型的深度学习方法,具体为一种构建端到端语音评测模型的深度学习方法,使用深度学习技术来实现一种端到端的语音评测方法,使评测过程更加方便,评测结果更加准确。

技术介绍

[0002]近年来,由于深度学习技术、大数据、移动互联网、云计算等技术的发展,人工智能技术获得了快速、跨越式的发展。作为人工智能技术中的重要领域,智能语音交互技术逐渐成熟,成为热门落地的方向之一,引起业界各方的持续广泛关注,行业发展已迅速进入场景应用布局阶段。搭载语音助手的智能产品层出不穷,进一步推动了语音交互技术的发展和应用。与此同时,智能语音产品的测试需求日益凸显。
[0003]智能语音测评就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提高系统的稳定性、评测打分的准确性是智能语音评测的关键。传统的语音评测方法是使用GMM

HMM作为声学模型得到音频对应音素,然后通过发音词典来将音素变为单词,经过语言模型来修正得到识别句子,根据该句与目标句进行语音准确率和流畅度的评估,其具体过程如图1所示。
[0004]为此我们构建了一个基于深度学习的端到端的语音评测方法,可以直接完成从用户的语音输入到测评结果的输出。使用深度学习技术来替换传统测评方法,由原始数据输入到结果输出,从输入端到输出端,中间的神经网络自成一体,而传统的混合模型每个结构之间相互孤立,需要对每个独立结构单独进行优化,不能保证组合后的模型全局最优。所以本专利技术方法能完成更高效,更准确的语音评测模型。

技术实现思路

[0005]本专利技术提出了一种构建端到端语音评测模型的深度学习方法,构建LSTM+CTC的声学模型,对输入的声音讯号提取特征后进行训练,得到对应单词,然后结合语言模型得到对齐结果,用于后续多维度评测反馈和得分的计算。
[0006]本专利技术技术方案为构建端到端语音评测模型的深度学习方法,具体步骤:步骤一,数据准备:准备训练声学模型所需的音频/文本语料。
[0007]步骤二,预处理:对训练的语料进行处理,包括音频的静音切除/删除音频长度和文本长度不匹配的语料等。
[0008]步骤三,特征提取:特征提取的过程是针对声学信号的频域进行研究,从中提取与频率相关的特征。本方法提取fbank特征用来作语音识别系统的输入和训练声学模型。
[0009]步骤四,训练声学模型:将上一步提取的特征放入声学模型中进行训练,声学模型使用LSTM+CTC的结构,其中LSTM以特征提取模块提取的特征为输入进行训练学习,得到学习后的特征。对于本任务来说,网络提取到音频特征的长度远大于对应文本的字符序列长度,无法直接对齐。所以需要CTC算法来完成音频和文本之间的对齐,得到识别后的单词结
果。
[0010]步骤五,解码:声学模型得到的识别结果为CTC解码所得到的概率最大的单词,为了考虑整句话所包含的语义信息,我们将声学模型的输出结果结合语言模型进行修正后得到识别的完整句子。
[0011]本专利技术声学模型基于LSTM+CTC结构,其配置如下:LSTM使用了两层,每个LSTM中有1个隐藏层,每个层有 u个隐藏单元。LSTM的编码结果首先被输入到CTC_Decoder,通过束解码的方式进行解码,得到概率最大的N个候选字符序列Y
cand
以及其对应的CTC评分score
etc
,最后取评分最高的结果作为声学模型的输出。
[0012]进一步,进行语音测评,评测结果是多维度的,包括音素、语调、流利度、断句、完整度等内容;但不同语种下评测维度是不同的,这与语言的特性有关,因此需要针对不同语种单独定制评测的维度。
[0013]有益效果本专利技术主要使用深度学习技术,针对语音评测任务构建了一个端到端模型。与传统语音评测模型相比,该端到端模型有效避免了级联错误,并简化了模型大小,在评测效果上有显著提升。
[0014]1、整个测评模型使用深度学习技术进行端到端的统一建模,端到端模型采用单一目标函数对整个网络进行优化,避免了由于多个模块所造成的级联错误。
[0015]2、声学模型由DNN替换GMM,CTC替换HMM,其精度和性能显著提高,测评效果也随之提升。
[0016]3、相比于传统方法所构建的模型,基于深度学习的端到端模型使用神经网络构建主体架构,灵活性和拓展性更强,减少了模型所占用的计算资源,可以部署到精度高、时延低的设备上。
附图说明
[0017]图1是传统语音评测方法模型框架图;图2本文方法模型框架图。
具体实施方式
[0018]为了验证本专利技术,我们在自建数据库上进行验证。该数据集中训练集包含音频约6000小时对应文本约450万条。测试集/验证集分别为5000句。训练集用于对声学模型进行训练以及确定参数,输入音频识别为对应文本。验证集用于在训练模型过程中对每个时间段的模型进行评估,测试集用于对最终模型的泛化能力进行评测并进行后续的语音评测得分。整个系统的具体算法流程如图2所示,下面结合附图对本专利技术做进一步详细地描述。
[0019]图2是本专利技术基于深度学习的端到端语音测评方法模型框架图,主要包含以下几个步骤。
[0020]步骤一,数据准备:收集训练声学模型所需的音频和对应文本,为了保证模型的鲁棒性和泛化性,我们囊括了多个场景的音频语料。包含新闻、家居环境、命令词、日常对话等。同样我们还对音频进行了数据增广,使用约一万条环境噪声与源音频进行混合,增加了音频的多样性。
[0021]步骤二,预处理:1)在开始提取特征前,需把音频首尾端静音切除,降低对后续步骤造成干扰,这一般称作静音抑制(Voice Activity Detection,VAD);这可以减少音频数据长度,提高识别精准度;2)去除音频和文本长度不匹配的语料。
[0022]步骤三,特征提取:任何自动语音识别系统中的第一步都是提取特征,这意味着需要把音频信号中具有辨识性的成分提取出来,丢弃掉诸如情感其它相关度较低的内容。在时域方面,语音信号的波形描述能力较差,分析的难度很大,而在频域方面,由于人说话时各元音的频率成分相对固定,根据语音信号的频谱图,更容易区分不同的元音,进行语音信号的分析。因此特征提取的过程是针对声学信号的频域进行研究,从中提取与频率相关的特征。
[0023]将处理好的音频进行,预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值后得到fbank特征;步骤四,语音评测模型:本专利技术声学模型基于LSTM+CTC结构,其配置如下:LSTM使用了两层,每个LSTM中有1个隐藏层,每个层有u个隐藏单元。LSTM的编码结果首先被输入到CTC_Decoder,通过束解码的方式进行解码,得到概率最大的N个候选字符序列Y
cand
以及其对应的CTC评分score
etc
,最后取评分最高的结果作为声学模型的输出。
[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.构建端到端语音评测模型的深度学习方法,其特征在于,具体步骤如下:步骤一,数据准备:准备训练声学模型所需的音频/文本语料;步骤二,预处理:对训练的语料进行处理;步骤三,特征提取:提取fbank特征用来作语音识别系统的输入和训练声学模型;步骤四,训练声学模型:将步骤三提取的特征放入声学模型中进行训练,声学模型使用LSTM+CTC的结构,其中LSTM以特征提取模块提取的特征为输入进行训练学习,得到学习后的特征;采用 CTC算法来完成音频和文本之间的对齐,得到识别后的单词结果;步骤五,解码:声学模型得到的识别结果为CTC解码所得到的概率最大的单词,为了考虑整句话所包含的语义信息,我们将声学模型的输出结果结合语言模型进行修正后得到识别的完整句子;声学模型基于LSTM+CTC结构,配置如下:LSTM使用两层,每个LSTM中有1个隐藏层,每个层有u个隐藏单元;LSTM编码结果首先被输入到CTC_Decoder,通过束解码的方式进行解码,得到概率最大的N个候选字符序列Y

【专利技术属性】
技术研发人员:黎天宇张句王宇光关昊天
申请(专利权)人:慧言科技天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1