端到端语音识别方法、系统、装置及其存储介质制造方法及图纸

技术编号：23290098 阅读：30 留言：0更新日期：2020-02-08 19:40

本申请公开了一种端到端语音识别方法、系统、装置及其存储介质，基于卷积神经网络和注意力机制的端到端语音识别系统，通过将注意力机制融合卷积神经网络中，并通过使用CTC损失函数构建完整的语音识别网络模型，实现深度学习，从原始语音数据中提取语音的语谱图作为CNN的输入，以提高语音的性能，大大减少了人工提取特征带来的信息损失，具有良好的应用前景。

End to end speech recognition method, system, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
端到端语音识别方法、系统、装置及其存储介质
本申请涉及语音识别
，尤其涉及一种基于卷积神经网络和注意力机制的端到端语音识别方法、系统、装置及其存储介质。
技术介绍
语音识别是近年来十分活跃的一个研究领域，是一种重要的人机交互手段。语音识别系统的典型实现方案为：输入的模拟语音信号首先要进行预处理，包括预滤波、采样和量化、加窗、端点检测、预加重等。语音信号经预处理后，接下来很重要的一环就是特征参数提取。然后通过机器学习以及深度学习的算法对特征加以学习，比如HMM或者LSTM等等。上述工作推动了语音识别的研究，但是，也存在一些值得深入研究的问题，具体如下：(1)带口音(Dialect)语音的识别；(2)从原始语音到语音特征的提取过程必然导致信息的损失，而损失的信息对最终的语音识别效果是否有影响也是未知的；(3)背景噪音对于识别效果的影响。如何克服上述的问题，是当前需要解决的。
技术实现思路
为了解决上述技术问题，本申请实施例提供一种基于卷积神经网络和注意力机制的端到端语音识别方法、系统、装置及其存储介质。本申请实施例第一方面提供了一种基于卷积神经网络和注意力机制的端到端语音识别方法，可包括：采集语音数据，将整段语音数据进行统一归一化处理后依据数据库标签进行切分；对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱；引入注意力机制，将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型；训练语音识别网络模型，将...

【技术保护点】
1.一种端到端语音识别方法，其特征在于：包括：/n采集语音数据，将整段语音数据进行统一归一化处理后依据数据库标签进行切分；/n对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱；/n引入注意力机制，将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型；/n训练语音识别网络模型，将预测后的语音数据作为语音识别网络模型的输入，训练学习该语音识别网络模型的参数，并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。/n

【技术特征摘要】
1.一种端到端语音识别方法，其特征在于：包括：
采集语音数据，将整段语音数据进行统一归一化处理后依据数据库标签进行切分；
对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱；
引入注意力机制，将注意力机制与卷积神经网络结合，构建完整的语音识别网络模型；
训练语音识别网络模型，将预测后的语音数据作为语音识别网络模型的输入，训练学习该语音识别网络模型的参数，并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。

2.根据权利要求1所述的端到端语音识别方法，其特征在于，
所述将整段语音数据进行统一归一化处理后依据数据库标签进行切分包括：
将整段语音的范围归一化至以0点为对称中心的阈值范围，其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。

3.根据权利要求1所述的端到端语音识别方法，其特征在于，
所述引入注意力机制，将注意力机制与卷积神经网络结合包括：
将注意力机制引入卷积神经网络中，注意力机制通过两个全连接层A和B相乘实现，其中全连接层B作为注意力权重，其权重是A的权重经过Softmax后得到的符合概率分布取值区间的注意力分配概率分布数值。

4.根据权利要求1所述的端到端语音识别方法，其特征在于，
所述语音识别网络模型采用CNN+CTC模型，采用VGG16基本模型架构，10层卷积层，5层池化层，5层全连接层，其中三层全连接层用于实现注意力机制，损失函数采用CTC损失函数，网络优化器采用Adam优化器。

5.一种端到端语音识别系统，其特征在于，包括：
语音接收单元，用于接收整段语音，并将该段语音归一化后进行切分；
频谱获取单元，用于将切分的语音数据利用傅里叶变换获取...

【专利技术属性】
技术研发人员：李浩然，颜丙聪，赵力，张玲，
申请(专利权)人：南京励智心理大数据产业研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人