一种语音识别方法、装置及系统制造方法及图纸

技术编号:31452021 阅读:24 留言:0更新日期:2021-12-18 11:15
本申请公开了一种语音识别方法,包括:获得待识别的音频数据;获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。采用上述方法,解决了语音识别的速度及精度问题。解决了语音识别的速度及精度问题。解决了语音识别的速度及精度问题。

【技术实现步骤摘要】
一种语音识别方法、装置及系统


[0001]本申请涉及计算机
,具体涉及一种语音识别方法、装置、电子设备及存储设备。本申请同时还涉及一种语音识别系统。

技术介绍

[0002]随着智能设备技术的发展,用户通过语音与智能设备进行交互是重要的场景。交互过程中,需要将用户的语音识别为对应的文本信息,后续再针对文本信息进行理解与处理。例如:“打开灯”、“播放音乐”等语音由音频采集设备采集为音频数据,再将音频数据识别为对应的文本信息,如果正确的识别出了文本信息,则后续能正确执行对应的指令,从而实现与智能设备的交互。因此,语音识别的精度尤其重要。
[0003]现有的语音识别方案中,主要采用基于RNN(Recurrent Neural Network,循环神经网络)的神经网络,未引入语言模型,在同音多字情况下识别精度低,另外,RNN神经网络存在训练速度慢,识别精度低的问题。
[0004]因此,如何提高语音识别的速度以及精度,实现更准确更快速人机交互是需要解决的问题。

技术实现思路

[0005]本申请实施例提供一种语音识别方法,用以解决语音识别的速度及精度问题。
[0006]本申请实施例提供一种语音识别方法,包括:获得待识别的音频数据;获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。
[0007]可选的,所述获得所述音频数据的高层音频特征,包括:获得所述音频数据的滤波特征;将所述滤波特征作为编码器网络的输入信息,提取出所述高层音频特征;其中,所述编码器网络为用于获得音频数据的高层音频特征的网络。
[0008]可选的,所述将所述滤波特征作为编码器网络的输入,提取出所述高层音频特征,包括:通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征;根据所述针对目标翻译器的编码特征,获得所述高层音频特征。
[0009]可选的,所述通过编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征,包括:针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将所述声学级别下采样特征作为所述翻译器特征提取模块的输入信息,获得所述针对
目标翻译器的编码特征。
[0010]可选的,通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征,包括:通过所述编码器网络的翻译器特征提取模块,针对作为输入信息的所述滤波特征或所述声学级别下采样特征,获得针对目标翻译器的第一输出特征;叠加所述第一输出特征与所述输入信息,得到第二输出特征,作为所述编码特征。
[0011]可选的,所述根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息,包括:将所述已解码文本信息、所述高层句法特征以及所述高层音频特征,作为解码器网络的输入信息,得到所述音频数据的解码特征;其中,所述解码器网络为用于识别所述音频数据对应的待解码文本信息的网络;将所述解码特征输入前向网络处理,获得所述音频数据对应的文本单位的预测值;根所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。
[0012]可选的,还包括:获得开始解码指示信息;通过所述深度语言模型,根据所述开始解码指示信息,提取所述音频数据包含的初始待解码文本信息的高层句法特征;通过解码器网络,根据所述开始解码指示信息、所述高层句法特征、以及所述高层音频特征,解码得到初始待解码文本信息对应的初始文本信息。
[0013]可选的,还包括:将所述初始文本信息,作为所述解码器网络以及所述深度语言模型的输入信息,得到与所述初始待解码文本信息相邻的下一个待解码文本信息的文本信息;依次将与当前待解码文本信息相邻的上一个已解码文本信息,作为用于针对当前待解码文本信息进行解码的输入信息,通过所述解码器网络以及所述深度语言模型,得到当前待解码文本信息对应的文本信息,直到解码出结束解码指示信息为止。
[0014]可选的,所述编码器网络的翻译器特征提取模块为包含残差链接的模块;所述残差链接,用于:将编码器网络的第一层泛化层接收的输入特征与编码器网络的注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为编码器网络的第二泛化层的输入特征、将所述第二泛化层的输入特征与编码器网络的前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征;其中,所述编码器网络的前向网络,为用于提供编码器网络输出信息的前向网络。
[0015]本申请实施例还提供一种语音识别系统,包括:编码器网络、深度语言分析模块、解码器网络;其中,所述编码器网络,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;所述解码器网络,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。
[0016]可选的,所述编码器网络,为包含多个翻译器特征提取模块的网络;其中,所述编码器网络的翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激励函数和第二前向网络。
[0017]可选的,所述翻译器特征提取模块,包含残差链接;所述残差链接,用于:将所述第一层泛化层接收的输入特征与所述注意力模块的输出信息进行叠加,得到包含注意力信息
的输出特征;将所述包含注意力信息的输出特征作为第二泛化层的输入特征、将第二泛化层的输入特征与第二前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征。
[0018]可选的,所述编码器网络还用于:获得待识别的音频数据;获得所述音频数据的滤波特征;针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将声学级别下采样特征作为翻译器特征提取模块的输入信息,获得针对目标翻译器的编码特征;叠加多个目标翻译器的编码特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获得待识别的音频数据;获得所述音频数据的高层音频特征;其中,所述高层音频特征为通过对所述音频数据进行编码得到的包含语义信息的音频特征;根据已解码文本信息,通过深度语言模型获得所述音频数据对应的当前待解码文本信息的高层句法特征;其中,所述深度语言模型为用于获得当前待解码文本信息的高层句法特征的网络模型;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息。2.根据权利要求1所述的方法,其特征在于,所述获得所述音频数据的高层音频特征,包括:获得所述音频数据的滤波特征;将所述滤波特征作为编码器网络的输入信息,提取出所述高层音频特征;其中,所述编码器网络为用于获得音频数据的高层音频特征的网络。3.根据权利要求2所述的方法,其特征在于,所述将所述滤波特征作为编码器网络的输入,提取出所述高层音频特征,包括:通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征;根据所述针对目标翻译器的编码特征,获得所述高层音频特征。4.根据权利要求3所述的方法,其特征在于,所述通过编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征,包括:针对所述滤波特征,使用卷积层提取所述音频数据的声学级别特征;其中,所述声学级别特征包括声学特征和感知特征中的至少一种特征;使用时间下采样层合并所述声学级别特征中的相邻行,得到所述音频数据的声学级别下采样特征;将所述声学级别下采样特征作为所述翻译器特征提取模块的输入信息,获得所述针对目标翻译器的编码特征。5.根据权利要求3或4所述的方法,其特征在于,通过所述编码器网络的翻译器特征提取模块,针对输入的滤波特征,获得针对目标翻译器的编码特征,包括:通过所述编码器网络的翻译器特征提取模块,针对作为输入信息的所述滤波特征或所述声学级别下采样特征,获得针对目标翻译器的第一输出特征;叠加所述第一输出特征与所述输入信息,得到第二输出特征,作为所述编码特征。6.根据权利要求1所述的方法,其特征在于,所述根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据对应的文本信息,包括:将所述已解码文本信息、所述高层句法特征以及所述高层音频特征,作为解码器网络的输入信息,得到所述音频数据的解码特征;其中,所述解码器网络为用于识别所述音频数据对应的待解码文本信息的网络;将所述解码特征输入前向网络处理,获得所述音频数据对应的文本单位的预测值;
根所述预测值,获得解码出的文本单位的概率分布;获得概率值最大的文本单位,作为解码出的文本信息。7.根据权利要求1所述的方法,其特征在于,还包括:获得开始解码指示信息;通过所述深度语言模型,根据所述开始解码指示信息,提取所述音频数据包含的初始待解码文本信息的高层句法特征;通过解码器网络,根据所述开始解码指示信息、所述高层句法特征、以及所述高层音频特征,解码得到初始待解码文本信息对应的初始文本信息。8.根据权利要求7所述的方法,其特征在于,还包括:将所述初始文本信息,作为所述解码器网络以及所述深度语言模型的输入信息,得到与所述初始待解码文本信息相邻的下一个待解码文本信息的文本信息;依次将与当前待解码文本信息相邻的上一个已解码文本信息,作为用于针对当前待解码文本信息进行解码的输入信息,通过所述解码器网络以及所述深度语言模型,得到当前待解码文本信息对应的文本信息,直到解码出结束解码指示信息为止。9.根据权利要求2所述的方法,其特征在于,所述编码器网络的翻译器特征提取模块为包含残差链接的模块;所述残差链接,用于:将编码器网络的第一层泛化层接收的输入特征与编码器网络的注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为编码器网络的第二泛化层的输入特征、将所述第二泛化层的输入特征与编码器网络的前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征;其中,所述编码器网络的前向网络,为用于提供编码器网络输出信息的前向网络。10.一种语音识别系统,其特征在于,包括:编码器网络、深度语言分析模块、解码器网络;其中,所述编码器网络,用于获得待识别的音频数据的高层音频特征;其中,所述高层音频特征,为通过对所述音频数据进行编码得到的包含语义信息的音频特征;所述深度语言分析模块,用于根据已解码文本信息,获得所述音频数据对应的当前待解码文本信息的高层句法特征;所述高层句法特征为在特定语境下,音频数据对应的语句所包含的组成部分以及所述组成部分的序列特征;所述解码器网络,用于根据已解码文本信息、所述高层句法特征以及所述高层音频特征,获得所述音频数据的解码特征,根据所述解码特征,获得所述音频数据对应的文本信息。11.根据权利要求10所述的系统,其特征在于,所述编码器网络,为包含多个翻译器特征提取模块的网络;其中,所述编码器网络的翻译器特征提取模块,按照由输入到输出的层级方向,依次包括:第一层泛化层、注意力模块、第二层泛化层、第一前向网络、非线性激励函数和第二前向网络。12.根据权利要求11所述的系统,其特征在于,所述翻译器特征提取模块,包含残差链接;所述残差链接,用于:
将所述第一层泛化层接收的输入特征与所述注意力模块的输出信息进行叠加,得到包含注意力信息的输出特征;将所述包含注意力信息的输出特征作为第二泛化层的输入特征、将第二泛化层的输入特征与第二前向网络的输出信息进行叠加,得到所述翻译器特征提取模块的输出特征。13.根据权利要求10所述的系统,其特征在于,所述编码器网络还用于:获得待识别的音频数据...

【专利技术属性】
技术研发人员:张帆郑梓豪胡于响袁园姜飞俊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1