一种基于深度学习的语音识别数字的方法技术

技术编号:23447819 阅读:140 留言:0更新日期:2020-02-28 21:30
本发明专利技术公开了一种基于深度学习的语音识别数字的方法,以去声调的汉语拼音作为声学模型的建模单元,构建从语音到拼音端到端的深度神经网络模型;而且深度神经网络模型使用CNN+CTC的结构进行建模,在CTC解码阶段又在CTC最大化解码算法的基础上创新的加入了数字拼音的限定条件,大幅缩小了CTC解码搜索空间,可以高效精准的识别语音数字。

A method of speech recognition based on deep learning

【技术实现步骤摘要】
一种基于深度学习的语音识别数字的方法
本专利技术属于语音数字识别
,具体涉及一种基于深度学习的语音识别数字的方法。
技术介绍
语音数字识别是自动语音识别(AutomaticSpeechRecognition,ASR)技术的一个重要分支,在用户身份识别、活体认证、网络数据抓取等计算机应用领域扮演重要角色。然而,在实际应用场景下,待识别的语音数据中可能存在口音、方言、背景噪声干扰等多种复杂因素,给高准确率的语音数字验证码识别带来巨大挑战。申请号为CN201910560346.X;专利技术创造名称为一种语音数字识别方法和装置的中国专利技术专利,公开了一种数字语音数据识别方法,所述方法包括:获取待识别的数字语音数据;使用短时傅里叶变换提取所述数字语音数据的频谱特征矢量;基于预设的DS2网络模型对所述频谱特征矢量进行识别,获得识别出的数字;其中,所述预设的DS2网络模型通过重设最后一层全连接层的输出点为从0到9的10个数字的初始DS2网络模型训练获得。随着深度学习(DeepLearning,DL)技术的高速发展,基于深度神经网络(DeepNeuralNetwork,DNN)的声学模型相比于传统的GMM-HMM模型的性能获得了显著的提升。
技术实现思路
本专利技术提供一种不同于现有技术的基于深度学习的语音识别数字的方法,基于CNN+CTC网络模型,高效精准识别语音数字。本专利技术主要通过以下技术方案实现:一种基于深度学习的语音识别数字的方法,以无声调的汉语拼音作为声学模型的建模单元,并采用CNN+CTC的结构构建从语音到拼音端到端的深度神经网络模型,模型训练后再采用带有数字拼音限定条件的CTC解码算法进行解码,识别语音数字。进一步,为了更好的实现本专利技术,具体包括以下步骤:步骤S100:搜集音频标注数据,并对音频标注数据进行清洗和预处理,得到无声调的汉语拼音和声谱图;步骤S200:以步骤S100中无声调的汉语拼音作为声学模型的建模单元,向声学模型中输入步骤S100中得到的声谱图的二维矩阵并使用CNN+CTC模型训练声学模型;步骤S300:基于步骤S200中的声学模型,使用带有数字拼音限定条件的CTC解码算法最大化解码,进行待识别语音到数字拼音的识别;步骤S400:再根据数字拼音和阿拉伯数字的对应关系得到最终的阿拉伯数字序列。本专利技术提供的一种基于深度学习的语音识别数字的方法,以去声调的汉语拼音作为声学模型的建模单元,构建从语音到拼音端到端的深度神经网络模型;而且深度神经网络模型使用CNN+CTC的结构进行建模,在CTC解码阶段又在CTC最大化解码算法的基础上创新的加入了数字拼音的限定条件,大幅缩小了CTC解码搜索空间,可以高效精准的识别语音数字。进一步,为了更好的实现本专利技术,所述步骤S100中搜集音频标注数据时需要搜集至少200小时的中文语音标准数据,其中文语音标准数据由男女比例均衡的多个语音发音人提供,每个语音发音人的语音由多个音频片段组成;每个音频片段作为中文语音标准数据的一个样本且均有对应的标注汉字。进一步,为了更好的实现本专利技术,每个语音发音人发音总时长不超过30分钟,中文语音标准数据的一个样本不超过30秒;每个样本的音频格式为单通道、16k采样率、16位深度的WAV格式。进一步,为了更好的实现本专利技术,所述步骤S100中对音频标注数据进行清洗和预处理具体是指:删除包含非汉语体系符号的样本;去除标注汉字的标点符号,如有阿拉伯数字需要转换为对应的汉字;然后将汉字统一转换为去除声调的汉语拼音;将每个样本的音频信号进行分帧并对每帧都进行短时傅里叶变换,最后形成声谱图。进一步,为了更好的实现本专利技术,所述步骤S200中声学模型的架构是在10层的CNN卷积神经网络后面加1个全连接层。进一步,为了更好的实现本专利技术,所述步骤S300中由带有数字拼音限定条件的CTC解码算法对待识别语音进行最大化解码,解码后所有时刻组成路径并生成最优路径,由最优路径的最优路径序列转化为最终的由数字拼音组成的数字拼音序列;即带有数字拼音限定条件的CTC解码算法将CTC解码的搜索范围从所有汉语拼音缩减到数字拼音的范围。进一步,为了更好的实现本专利技术,所述由最优路径的最优路径序列转化为最终的由数字拼音组成的数字拼音序列的过程按以下步骤进行:步骤S310:若出现连续重复的数字拼音或BLANK则进行合并后跳转步骤S320;若无连续重复的数字拼音或BLANK则直接跳转步骤S320;步骤S320:去除所有BLANK;若BLANK前后的数字拼音相同,去除BLANK后保持数字拼音的连续重复。本专利技术的有益效果:(1)本专利技术只需要少量的语音标注数据就可以实现高精度的识别,并且不需要专门针对数字的语音发音数据,可以是任何中文文字的语音,这样的数据可以很容易的在开源数据集上免费获取。(2)本专利技术中声学模型使用了深度学习技术,并结合本专利技术提出的基于CTC的解码方法,实现了音频特征的自动提取,节省了大量人工特征提取的工作。(3)本专利技术中声学模型的建模单元是去声调的拼音,使得声学模型对方言具有很强的鲁棒性,多种声调的数字都能准确无误的识别。附图说明图1是本专利技术声学模型的架构示意图。图2是本专利技术的流程示意图。具体实施方式为使本专利技术的目的、技术方案、优点更加清楚,下面将结合附图对实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:一种基于深度学习的语音识别数字的方法,以无声调的汉语拼音作为声学模型的建模单元,并采用CNN+CTC的结构构建从语音到拼音端到端的深度神经网络模型,深度学习后,再采用带有数字拼音限定条件的CTC解码算法进行解码,识别语音数字。具体包括步骤S100-步骤S400。步骤S100:搜集音频标注数据,并对音频标注数据进行清洗和预处理,得到无声调的汉语拼音和声谱图。具体包含以下步骤:1、搜集200小时以上的中文语音标注数据,语音发音人由多人参与,男女比例均衡,每人的发音总时长不超过30分钟。每人的语音是由多个片段组成,每个片段作为数据的一个样本,不超过30秒。音频格式统一为单通道,16k采样率,16位深度的wav格式。每个音频片段都有相应的文字标注。2、删除包含英文等非汉语体系符号的样本,去除标注文字的标点符号,如有阿拉伯数字,需要转换为对应的汉字数字。最后,将汉字统一转换为去除声调的拼音。例如:有如下的标注文字:今天是15号,天气晴朗。转本文档来自技高网...

【技术保护点】
1.一种基于深度学习的语音识别数字的方法,其特征在于,以无声调的汉语拼音作为声学模型的建模单元,并采用CNN+CTC的结构构建从语音到拼音端到端的深度神经网络模型,模型训练后再采用带有数字拼音限定条件的CTC解码算法进行解码,识别语音数字。/n

【技术特征摘要】
1.一种基于深度学习的语音识别数字的方法,其特征在于,以无声调的汉语拼音作为声学模型的建模单元,并采用CNN+CTC的结构构建从语音到拼音端到端的深度神经网络模型,模型训练后再采用带有数字拼音限定条件的CTC解码算法进行解码,识别语音数字。


2.根据权利要求1所述的一种基于深度学习的语音识别数字的方法,其特征在于,具体包括以下步骤:
步骤S100:搜集音频标注数据,并对音频标注数据进行清洗和预处理,得到无声调的汉语拼音和声谱图;
步骤S200:以步骤S100中无声调的汉语拼音作为声学模型的建模单元,向声学模型中输入步骤S100中得到的声谱图的二维矩阵并使用CNN+CTC模型训练声学模型;
步骤S300:基于步骤S200中的声学模型,使用带有数字拼音限定条件的CTC解码算法最大化解码,进行待识别语音到数字拼音的识别;
步骤S400:再根据数字拼音和阿拉伯数字的对应关系得到最终的阿拉伯数字序列。


3.根据权利要求2所述的一种基于深度学习的语音识别数字的方法,其特征在于,所述步骤S100中搜集音频标注数据时需要搜集至少200小时的中文语音标准数据,其中文语音标准数据由男女比例均衡的多个语音发音人提供,每个语音发音人的语音由多个音频片段组成;每个音频片段作为中文语音标准数据的一个样本且均有对应的标注汉字。


4.根据权利要求3所述的一种基于深度学习的语音识别数字的方法,其特征在于,每个语音发音人发音总时长不超过30分钟,中文语音标准数据的一个样本不超过30秒;每个样本的音频格式为单通道、16k采样率、...

【专利技术属性】
技术研发人员:蒋欣辰
申请(专利权)人:中科智云科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1