端到端语音识别方法、系统、装置及其存储介质制造方法及图纸

技术编号:23290098 阅读:30 留言:0更新日期:2020-02-08 19:40
本申请公开了一种端到端语音识别方法、系统、装置及其存储介质,基于卷积神经网络和注意力机制的端到端语音识别系统,通过将注意力机制融合卷积神经网络中,并通过使用CTC损失函数构建完整的语音识别网络模型,实现深度学习,从原始语音数据中提取语音的语谱图作为CNN的输入,以提高语音的性能,大大减少了人工提取特征带来的信息损失,具有良好的应用前景。

End to end speech recognition method, system, device and storage medium

【技术实现步骤摘要】
端到端语音识别方法、系统、装置及其存储介质
本申请涉及语音识别
,尤其涉及一种基于卷积神经网络和注意力机制的端到端语音识别方法、系统、装置及其存储介质。
技术介绍
语音识别是近年来十分活跃的一个研究领域,是一种重要的人机交互手段。语音识别系统的典型实现方案为:输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音信号经预处理后,接下来很重要的一环就是特征参数提取。然后通过机器学习以及深度学习的算法对特征加以学习,比如HMM或者LSTM等等。上述工作推动了语音识别的研究,但是,也存在一些值得深入研究的问题,具体如下:(1)带口音(Dialect)语音的识别;(2)从原始语音到语音特征的提取过程必然导致信息的损失,而损失的信息对最终的语音识别效果是否有影响也是未知的;(3)背景噪音对于识别效果的影响。如何克服上述的问题,是当前需要解决的。
技术实现思路
为了解决上述技术问题,本申请实施例提供一种基于卷积神经网络和注意力机制的端到端语音识别方法、系统、装置及其存储介质。本申请实施例第一方面提供了一种基于卷积神经网络和注意力机制的端到端语音识别方法,可包括:采集语音数据,将整段语音数据进行统一归一化处理后依据数据库标签进行切分;对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱;引入注意力机制,将注意力机制与卷积神经网络结合,构建完整的语音识别网络模型;训练语音识别网络模型,将预测后的语音数据作为语音识别网络模型的输入,训练学习该语音识别网络模型的参数,并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。进一步地,所述将整段语音数据进行统一归一化处理后依据数据库标签进行切分包括:将整段语音的范围归一化至以0点为对称中心的阈值范围,其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。进一步地,所述引入注意力机制,将注意力机制与卷积神经网络结合包括:将注意力机制引入卷积神经网络中,注意力机制通过两个全连接层A和B相乘实现,其中全连接层B作为注意力权重,其权重是A的权重经过Softmax回归后得到的符合概率分布取值区间的注意力分配概率分布数值。进一步地,所述语音识别网络模型采用CNN+CTC模型,采用VGG16基本模型架构,10层卷积层,5层池化层,5层全连接层,其中三层全连接层用于实现注意力机制,损失函数采用CTC损失函数,网络优化器采用Adam优化器。本申请实施例第二方面提供了一种基于卷积神经网络和注意力机制的端到端语音识别系统,包括:语音接收单元,用于接收整段语音,并将该段语音归一化后进行切分;频谱获取单元,用于将切分的语音数据利用傅里叶变换获取频谱数据;构建模型单元,用于将注意力机制与卷积神经网络结合,构建完整的语音识别网络模型;训练模型单元,用于利用语音数据作为训练内容,优化模型参数,将词错误率作为优化目标训练模型。进一步地,所述语音接收单元包括:将整段语音的范围归一化至以0点为对称中心的阈值范围,其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。进一步地,所述频谱获取单元包括:窗函数处理单元,用于对所切分得到的语音数据利用预设的窗函数进行分帧加窗处理;频谱获取单元,用于对窗函数处理后的数据进行快速傅里叶变换,且只取一半长度。进一步地,所述构建模型单元包括:将注意力机制引入卷积神经网络中,注意力机制通过两个全连接层A和B相乘实现,其中全连接层B作为注意力权重,其权重是A的权重经过Softmax后得到的符合概率分布取值区间的注意力分配概率分布数值;语音识别网络模型采用CNN+CTC模型,采用VGG16基本模型架构,10层卷积层,5层池化层,5层全连接层,其中三层全连接层用于实现注意力机制,损失函数采用CTC损失函数,网络优化器采用Adam优化器。第三方面,本申请实施例提供了一种识别装置,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现第一方面的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述第一方面的方法。在本申请实施例中,本专利技术的基于卷积神经网络和注意力机制的端到端语音识别系统,通过将注意力机制融合卷积神经网络中,并通过使用CTC损失函数构建完整的语音识别网络模型,实现深度学习,从原始语音数据中提取语音的语谱图作为CNN的输入,以提高语音的性能,大大减少了人工提取特征带来的信息损失,具有良好的应用前景。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的基于卷积神经网络和注意力机制的端到端语音识别系统的步骤示意图。图2是图1的流程示意图;图3是本专利技术的模型在验证集上测试得到的WER结果折线图。图4是本申请实施例提供的一种识别系统的示意框图;图5是本申请实施例提供的一种识别装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。参见图1,是本申请实施例提供的一种识别方法的示意流程图,如图所示该方法可包括:101:采本文档来自技高网...

【技术保护点】
1.一种端到端语音识别方法,其特征在于:包括:/n采集语音数据,将整段语音数据进行统一归一化处理后依据数据库标签进行切分;/n对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱;/n引入注意力机制,将注意力机制与卷积神经网络结合,构建完整的语音识别网络模型;/n训练语音识别网络模型,将预测后的语音数据作为语音识别网络模型的输入,训练学习该语音识别网络模型的参数,并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。/n

【技术特征摘要】
1.一种端到端语音识别方法,其特征在于:包括:
采集语音数据,将整段语音数据进行统一归一化处理后依据数据库标签进行切分;
对所切分的语音进行分帧加窗处理后利用快速傅里叶变换获取频谱;
引入注意力机制,将注意力机制与卷积神经网络结合,构建完整的语音识别网络模型;
训练语音识别网络模型,将预测后的语音数据作为语音识别网络模型的输入,训练学习该语音识别网络模型的参数,并通过词错误率进行测评后得到所需要的语音识别网络模型进行识别。


2.根据权利要求1所述的端到端语音识别方法,其特征在于,
所述将整段语音数据进行统一归一化处理后依据数据库标签进行切分包括:
将整段语音的范围归一化至以0点为对称中心的阈值范围,其中归一化前后的整段语音在数值为零处所表达的物理意义均是无声段。


3.根据权利要求1所述的端到端语音识别方法,其特征在于,
所述引入注意力机制,将注意力机制与卷积神经网络结合包括:
将注意力机制引入卷积神经网络中,注意力机制通过两个全连接层A和B相乘实现,其中全连接层B作为注意力权重,其权重是A的权重经过Softmax后得到的符合概率分布取值区间的注意力分配概率分布数值。


4.根据权利要求1所述的端到端语音识别方法,其特征在于,
所述语音识别网络模型采用CNN+CTC模型,采用VGG16基本模型架构,10层卷积层,5层池化层,5层全连接层,其中三层全连接层用于实现注意力机制,损失函数采用CTC损失函数,网络优化器采用Adam优化器。


5.一种端到端语音识别系统,其特征在于,包括:
语音接收单元,用于接收整段语音,并将该段语音归一化后进行切分;
频谱获取单元,用于将切分的语音数据利用傅里叶变换获取...

【专利技术属性】
技术研发人员:李浩然颜丙聪赵力张玲
申请(专利权)人:南京励智心理大数据产业研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1