构建端到端语音评测模型的深度学习方法技术

技术编号：34431694 阅读：38 留言：0更新日期：2022-08-06 16:09

本发明专利技术涉及采用神经网络模型的深度学习方法，具体为一种构建端到端语音评测模型的深度学习方法。主要步骤包括构建LSTM+CTC的声学模型，对输入的声音讯号提取特征后进行训练，得到对应单词，然后结合语言模型得到对齐结果，用于后续多维度评测反馈和得分的计算。提取fbank特征用来作语音识别系统的输入和训练声学模型，将提取的特征放入声学模型中进行训练，声学模型使用LSTM+CTC的结构，其中LSTM以特征提取模块提取的特征为输入进行训练学习，得到学习后的特征。使用深度学习技术来实现一种端到端的语音评测方法，使评测过程更加方便，评测结果更加准确。评测结果更加准确。评测结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
构建端到端语音评测模型的深度学习方法

[0001]本专利技术涉及采用神经网络模型的深度学习方法，具体为一种构建端到端语音评测模型的深度学习方法，使用深度学习技术来实现一种端到端的语音评测方法，使评测过程更加方便，评测结果更加准确。

技术介绍

[0002]近年来，由于深度学习技术、大数据、移动互联网、云计算等技术的发展，人工智能技术获得了快速、跨越式的发展。作为人工智能技术中的重要领域，智能语音交互技术逐渐成熟，成为热门落地的方向之一，引起业界各方的持续广泛关注，行业发展已迅速进入场景应用布局阶段。搭载语音助手的智能产品层出不穷，进一步推动了语音交互技术的发展和应用。与此同时，智能语音产品的测试需求日益凸显。
[0003]智能语音测评就是利用计算机自动或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提高系统的稳定性、评测打分的准确性是智能语音评测的关键。传统的语音评测方法是使用GMM
‑
HMM作为声学模型得到音频对应音素，然后通过发音词典来将音素变为单词，经过语言模型来修正得到识别句子，根据该句与目标句进行语音准确率和流畅度的评估，其具体过程如图1所示。
[0004]为此我们构建了一个基于深度学习的端到端的语音评测方法，可以直接完成从用户的语音输入到测评结果的输出。使用深度学习技术来替换传统测评方法，由原始数据输入到结果输出，从输入端到输出端，中间的神经网络自成一体，而传统的混合模型每个结构之间相互孤立，需要对每个独立结构单独进行优化，不能保证组合后的模型全局最优。所以本专...

【技术保护点】

【技术特征摘要】
1.构建端到端语音评测模型的深度学习方法，其特征在于，具体步骤如下：步骤一，数据准备：准备训练声学模型所需的音频/文本语料；步骤二，预处理：对训练的语料进行处理；步骤三，特征提取：提取fbank特征用来作语音识别系统的输入和训练声学模型；步骤四，训练声学模型：将步骤三提取的特征放入声学模型中进行训练，声学模型使用LSTM+CTC的结构，其中LSTM以特征提取模块提取的特征为输入进行训练学习，得到学习后的特征；采用 CTC算法来完成音频和文本之间的对齐，得到识别后的单词结果；步骤五，解码：声学模型得到的识别结果为CTC解码所得到的概率最大的单词，为了考虑整句话所包含的语义信息，我们将声学模型的输出结果结合语言模型进行修正后得到识别的完整句子；声学模型基于LSTM+CTC结构，配置如下：LSTM使用两层，每个LSTM中有1个隐藏层，每个层有u个隐藏单元；LSTM编码结果首先被输入到CTC_Decoder，通过束解码的方式进行解码，得到概率最大的N个候选字符序列Y

【专利技术属性】
技术研发人员：黎天宇，张句，王宇光，关昊天，
申请(专利权)人：慧言科技天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人