一种基于深度学习的语音识别数字的方法技术

技术编号：23447819 阅读：140 留言：0更新日期：2020-02-28 21:30

本发明专利技术公开了一种基于深度学习的语音识别数字的方法，以去声调的汉语拼音作为声学模型的建模单元，构建从语音到拼音端到端的深度神经网络模型；而且深度神经网络模型使用CNN+CTC的结构进行建模，在CTC解码阶段又在CTC最大化解码算法的基础上创新的加入了数字拼音的限定条件，大幅缩小了CTC解码搜索空间，可以高效精准的识别语音数字。

A method of speech recognition based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的语音识别数字的方法
本专利技术属于语音数字识别
，具体涉及一种基于深度学习的语音识别数字的方法。
技术介绍
语音数字识别是自动语音识别(AutomaticSpeechRecognition，ASR)技术的一个重要分支，在用户身份识别、活体认证、网络数据抓取等计算机应用领域扮演重要角色。然而，在实际应用场景下，待识别的语音数据中可能存在口音、方言、背景噪声干扰等多种复杂因素，给高准确率的语音数字验证码识别带来巨大挑战。申请号为CN201910560346.X；专利技术创造名称为一种语音数字识别方法和装置的中国专利技术专利，公开了一种数字语音数据识别方法，所述方法包括：获取待识别的数字语音数据；使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量；基于预设的DS2网络模型对所述频谱特征矢量进行识别，获得识别出的数字；其中，所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。随着深度学习(DeepLearning，DL)技术的高速发展，基于深度神经网络(DeepNeuralNetwork，DNN)的声学模型相比于传统的GMM-HMM模型的性能获得了显著的提升。
技术实现思路
本专利技术提供一种不同于现有技术的基于深度学习的语音识别数字的方法，基于CNN+CTC网络模型，高效精准识别语音数字。本专利技术主要通过以下技术方案实现：一种基于深度学习的语音识别数字的方法，以无声调的汉语拼音作为声学模型的建模单...

【技术保护点】
1.一种基于深度学习的语音识别数字的方法，其特征在于，以无声调的汉语拼音作为声学模型的建模单元，并采用CNN+CTC的结构构建从语音到拼音端到端的深度神经网络模型，模型训练后再采用带有数字拼音限定条件的CTC解码算法进行解码，识别语音数字。/n

【技术特征摘要】
1.一种基于深度学习的语音识别数字的方法，其特征在于，以无声调的汉语拼音作为声学模型的建模单元，并采用CNN+CTC的结构构建从语音到拼音端到端的深度神经网络模型，模型训练后再采用带有数字拼音限定条件的CTC解码算法进行解码，识别语音数字。

2.根据权利要求1所述的一种基于深度学习的语音识别数字的方法，其特征在于，具体包括以下步骤：
步骤S100:搜集音频标注数据，并对音频标注数据进行清洗和预处理，得到无声调的汉语拼音和声谱图；
步骤S200:以步骤S100中无声调的汉语拼音作为声学模型的建模单元，向声学模型中输入步骤S100中得到的声谱图的二维矩阵并使用CNN+CTC模型训练声学模型；
步骤S300:基于步骤S200中的声学模型，使用带有数字拼音限定条件的CTC解码算法最大化解码，进行待识别语音到数字拼音的识别；
步骤S400:再根据数字拼音和阿拉伯数字的对应关系得到最终的阿拉伯数字序列。

3.根据权利要求2所述的一种基于深度学习的语音识别数字的方法，其特征在于，所述步骤S100中搜集音频标注数据时需要搜集至少200小时的中文语音标准数据，其中文语音标准数据由男女比例均衡的多个语音发音人提供，每个语音发音人的语音由多个音频片段组成；每个音频片段作为中文语音标准数据的一个样本且均有对应的标注汉字。

4.根据权利要求3所述的一种基于深度学习的语音识别数字的方法，其特征在于，每个语音发音人发音总时长不超过30分钟，中文语音标准数据的一个样本不超过30秒；每个样本的音频格式为单通道、16k采样率、...

【专利技术属性】
技术研发人员：蒋欣辰，
申请(专利权)人：中科智云科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人