语音识别的方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:31230149 阅读:17 留言:0更新日期:2021-12-08 10:00
本申请公开了语音识别的方法、装置、计算机设备及可读存储介质,属于人工智能技术领域。方法包括:获取语音信号,将语音信号输入波形编码器。通过波形编码器获得语音信号对应的第一特征矩阵,将第一特征矩阵划分为至少两个第一特征段,对至少两个第一特征段进行局部特征提取,得到用于指示局部特征的至少两个第二特征段,对至少两个第二特征段进行全局特征提取,得到用于指示局部特征和全局特征的至少两个第三特征段,将至少两个第三特征段合并为波形编码器对应的第二特征矩阵。基于波形编码器对应的第二特征矩阵进行语音识别。本申请进行语音识别的准确率较高。语音识别的准确率较高。语音识别的准确率较高。

【技术实现步骤摘要】
语音识别的方法、装置、计算机设备及可读存储介质


[0001]本申请涉及人工智能
,特别涉及一种语音识别的方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]随着人工智能技术的发展,ASR(Automatic Speech Recognition,自动语音识别)被广泛应用于人们的生活中。在ASR过程中,首先对语音信号进行特征提取得到特征向量,再基于特征向量确定音素,之后基于音素确定文字。
[0003]相关技术中,首先对语音信号进行处理得到频谱图,再基于频谱图进行特征提取得到用于确定音素的特征向量。其中,处理语音信号得到频谱图的过程会导致语音信号中的部分信息丢失,从而导致语音识别过程的准确率较低。

技术实现思路

[0004]本申请实施例提供了一种语音识别的方法、装置、计算机设备及可读存储介质,以改善相关技术进行语音识别的准确率较低的问题。所述技术方案如下:
[0005]一方面,提供了一种语音识别的方法,所述方法包括:
[0006]获取语音信号,将所述语音信号输入波形编码器;
[0007]通过所述波形编码器获得所述语音信号对应的第一特征矩阵,将所述第一特征矩阵划分为至少两个第一特征段,对所述至少两个第一特征段进行局部特征提取,得到用于指示局部特征的至少两个第二特征段,对所述至少两个第二特征段进行全局特征提取,得到用于指示局部特征和全局特征的至少两个第三特征段,将所述至少两个第三特征段合并为所述波形编码器对应的第二特征矩阵;
[0008]基于所述波形编码器对应的第二特征矩阵进行语音识别。
[0009]一方面,提供了一种语音识别的装置,所述装置包括:
[0010]获取模块,用于获取语音信号;
[0011]输入模块,用于将所述语音信号输入波形编码器;
[0012]获得模块,用于通过所述波形编码器获得所述语音信号对应的第一特征矩阵,将所述第一特征矩阵划分为至少两个第一特征段,对所述至少两个第一特征段进行局部特征提取,得到用于指示局部特征的至少两个第二特征段,对所述至少两个第二特征段进行全局特征提取,得到用于指示局部特征和全局特征的至少两个第三特征段,将所述至少两个第三特征段合并为所述波形编码器对应的第二特征矩阵;
[0013]语音识别模块,用于基于所述波形编码器对应的第二特征矩阵进行语音识别。
[0014]在示例性实施例中,所述波形编码器的数量为至少两个,至少两个波形编码器对应至少两个第二特征矩阵,所述至少两个第二特征矩阵的列数不同,所述语音识别模块,用于通过所述至少两个波形编码器获得所述至少两个第二特征矩阵对应的至少两个第三特征矩阵,所述至少两个第三特征矩阵的列数相同,所述至少两个第三特征矩阵与所述至少
两个波形编码器一一对应;从行方向级联所述至少两个第三特征矩阵,得到级联后的特征矩阵;基于所述级联后的特征矩阵进行语音识别。
[0015]在示例性实施例中,所述语音识别模块,还用于在所述至少两个第二特征矩阵的列数中确定最小列数,所述最小列数对应第一数值;确定任一波形编码器对应的第二特征矩阵的列数对应的第二数值,基于所述第一数值与所述第二数值的比值确定所述任一波形编码器对应的卷积核信息;
[0016]所述语音识别模块,用于基于所述任一波形编码器对应的卷积核信息,对所述任一波形编码器对应的第二特征矩阵进行卷积处理,得到所述任一波形编码器对应的第三特征矩阵。
[0017]在示例性实施例中,所述获得模块,用于响应于任一波形编码器为所述至少两个波形编码器中的首个波形编码器,执行所述将所述第一特征矩阵划分为至少两个第一特征段。
[0018]在示例性实施例中,所述获得模块,用于响应于任一波形编码器为所述至少两个波形编码器中的非首个波形编码器,获取所述任一波形编码器的前一个波形编码器对应的第二特征矩阵;对所述前一个波形编码器对应的第二特征矩阵进行池化,得到池化后的特征矩阵,所述池化后的特征矩阵的列数与所述任一波形编码器对应的第一特征矩阵的列数相同;对所述任一波形编码器对应的第一特征矩阵与所述池化后的特征矩阵进行求和,得到求和后的特征矩阵;将所述求和后的特征矩阵划分为所述至少两个第一特征段。
[0019]在示例性实施例中,所述获得模块,用于对所述至少两个第二特征段进行下采样,得到至少两个下采样结果;通过自关注网络对所述至少两个第二特征段进行全局特征提取,得到至少两个全局特征提取结果;对所述至少两个全局特征提取结果进行上采样,得到至少两个上采样结果,将所述至少两个上采样结果作为所述用于指示局部特征和全局特征的至少两个第三特征段。
[0020]在示例性实施例中,所述获得模块,用于对所述至少两个第三特征段进行非线性映射,得到至少两个非线性映射结果;将所述至少两个非线性映射结果合并为所述波形编码器对应的第二特征矩阵。
[0021]一方面,提供了一种计算机设备,所述计算机设备包括存储器及处理器;所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以使计算机设备实现本申请的任一种示例性实施例所提供的语音识别的方法。
[0022]一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以使计算机实现本申请的任一种示例性实施例所提供的语音识别的方法。
[0023]另一方面,提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品包括:计算机指令,所述计算机指令被计算机执行时,使得所述计算机实现本申请的任一种示例性实施例所提供的语音识别的方法。
[0024]本申请实施例所提供的技术方案带来的有益效果至少包括:
[0025]通过局部特征提取过程保留了语音信号中的局部细节,通过全局特征提取过程保留了语音信号的全局关系,从而使得基于语音信号的特征提取成为可能。基于语音信号的特征提取能够得到特征矩阵,将此种特征矩阵应用于语音识别过程,能够提高语音识别的
准确率。
附图说明
[0026]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是本申请实施例提供的实施环境的示意图;
[0028]图2是本申请实施例提供的波形编码器的结构示意图;
[0029]图3是本申请实施例提供的波形编码器的结构示意图;
[0030]图4是本申请实施例提供的语音识别的方法的流程图;
[0031]图5是本申请实施例提供的语音识别的装置的结构示意图;
[0032]图6是本申请实施例提供的电子设备的结构示意图;
[0033]图7是本申请实施例提供的服务器的结构示意图。
具体实施方式
[0034]为使本申请的目的、技术方案和优点更加清楚,下面将结合附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别的方法,其特征在于,所述方法包括:获取语音信号,将所述语音信号输入波形编码器;通过所述波形编码器获得所述语音信号对应的第一特征矩阵,将所述第一特征矩阵划分为至少两个第一特征段,对所述至少两个第一特征段进行局部特征提取,得到用于指示局部特征的至少两个第二特征段,对所述至少两个第二特征段进行全局特征提取,得到用于指示局部特征和全局特征的至少两个第三特征段,将所述至少两个第三特征段合并为所述波形编码器对应的第二特征矩阵;基于所述波形编码器对应的第二特征矩阵进行语音识别。2.根据权利要求1所述的方法,其特征在于,所述波形编码器的数量为至少两个,至少两个波形编码器对应至少两个第二特征矩阵,所述至少两个第二特征矩阵的列数不同,所述基于所述波形编码器对应的第二特征矩阵进行语音识别,包括:通过所述至少两个波形编码器获得所述至少两个第二特征矩阵对应的至少两个第三特征矩阵,所述至少两个第三特征矩阵的列数相同,所述至少两个第三特征矩阵与所述至少两个波形编码器一一对应;从行方向级联所述至少两个第三特征矩阵,得到级联后的特征矩阵;基于所述级联后的特征矩阵进行语音识别。3.根据权利要求2所述的方法,其特征在于,所述通过所述至少两个波形编码器获得所述至少两个第二特征矩阵对应的至少两个第三特征矩阵之前,所述方法还包括:在所述至少两个第二特征矩阵的列数中确定最小列数,所述最小列数对应第一数值;确定任一波形编码器对应的第二特征矩阵的列数对应的第二数值,基于所述第一数值与所述第二数值的比值确定所述任一波形编码器对应的卷积核信息;所述通过所述至少两个波形编码器获得所述至少两个第二特征矩阵对应的至少两个第三特征矩阵,包括:基于所述任一波形编码器对应的卷积核信息,对所述任一波形编码器对应的第二特征矩阵进行卷积处理,得到所述任一波形编码器对应的第三特征矩阵。4.根据权利要求2或3所述的方法,其特征在于,所述将所述第一特征矩阵划分为至少两个第一特征段,包括:响应于任一波形编码器为所述至少两个波形编码器中的首个波形编码器,执行所述将所述第一特征矩阵划分为至少两个第一特征段。5.根据权利要求2或3所述的方法,其特征在于,所述将所述第一特征矩阵划分为至少两个第一特征段,包括:响应于任一波形编码器为所述至少两个波形编码器中的非首个波形编码器,获取所述任一波形编码器的前一个波形编码器对应的第二特征矩阵;对所述前一个波形编码器对应的...

【专利技术属性】
技术研发人员:林永业王珺
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1