语音识别方法及装置、存储介质、电子设备制造方法及图纸

技术编号:32125073 阅读:16 留言:0更新日期:2022-01-29 19:12
本公开提供一种语音识别方法、语音识别装置、存储介质与电子设备,涉及计算机技术领域。其中,所述语音识别方法包括:获取待识别语音,并对所述待识别语音进行特征提取获取语音特征;通过结合建模单元构建的声学模型对所述语音特征进行预测处理,确定所述待识别语音的建模单元的概率分布;所述建模单元包括主要语言字符和辅助语言子词;基于所述主要语言字符和所述辅助语言子词构建的语言模型对所述待识别语音进行识别处理,确定所述待识别语音的语法得分;结合所述概率分布以及所述语法得分,确定所述待识别语音的识别结果。本公开的技术方案能够提高语音识别的准确性。方案能够提高语音识别的准确性。方案能够提高语音识别的准确性。

【技术实现步骤摘要】
语音识别方法及装置、存储介质、电子设备


[0001]本公开涉及计算机
,具体而言,涉及一种语音识别方法、语音识别装置、计算机可读存储介质以及电子设备。

技术介绍

[0002]随着语音识别技术的发展,用户使用多种语言交流已逐渐成为普遍现象。因此,单语言的语音识别已无法满足许多场景下的识别需求。
[0003]相关技术中,主要通过两种方式来进行语言识别:一是传统语音识别系统,由声学模型、发音词典和语言模型三部分组成,不同模型需要分来训练,然后将各个部分融合到一起构成解码图,通过解码得到识别结果。二是端到端的语音识别系统,只需给出输入端的语音以及输出端的文本信息,训练一个模型,即可直接实现输入语音到输出文本的转换。
[0004]上述方式中,发音的音素需要大量的语言学专业知识来构建这种混合语种的发音词典,操作步骤复杂且可能存在偏差,准确性较低。并且,以中文字符和英文字母作为建模单元集合时,中文字符与英文字母之间是有明显差异的,可能会出现无法完全建模以及模型无法处理的问题,因此建模方式不合理,从而导致语音识别的应用范围较小,且语音识别的准确性较低。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开提供一种语音识别方法及装置、计算机可读存储介质和电子设备,进而至少在一定程度上克服相关技术中语音识别的准确性较低的问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本公开的一个方面,提供一种语音识别方法,包括:获取待识别语音,并对所述待识别语音进行特征提取获取语音特征;通过结合建模单元构建的声学模型对所述语音特征进行预测处理,确定所述待识别语音的建模单元的概率分布;所述建模单元包括主要语言字符和辅助语言子词;基于所述主要语言字符和所述辅助语言子词构建的语言模型对所述待识别语音进行识别处理,确定所述待识别语音的语法得分;结合所述概率分布以及所述语法得分,确定所述待识别语音的识别结果。
[0009]在本公开的一种示例性实施例中,所述方法还包括:获取训练语料,并对所述训练语料进行特征提取,确定所述训练语料的参考语音特征;结合所述参考语音特征以及所述建模单元中的所述主要语言字符和所述辅助语言子词对声学神经网络模型进行模型训练,得到声学模型。
[0010]在本公开的一种示例性实施例中,所述对所述训练语料进行特征提取,确定所述训练语料的参考语音特征,包括;对所述训练语料进行分帧加窗操作,以获取多个语音帧;
将所述多个语音帧进行变换处理,获取所述参考语音特征。
[0011]在本公开的一种示例性实施例中,所述结合所述参考语音特征以及所述建模单元对声学神经网络模型进行模型训练,得到声学模型,包括:将所述参考语音特征输入至所述声学神经网络模型,确定所述参考语音特征对应的预测标签的概率分布;将所述预测标签与所述建模单元表示的真实标签进行对比,根据所述预测标签和所述真实标签之间的距离确定损失函数;根据所述损失函数调整所述神经网络模型的模型参数,直至所述损失函数最小,以得到所述声学模型。
[0012]在本公开的一种示例性实施例中,所述方法还包括:将训练语料按照最小粒度进行拆分,得到字符序列;统计所述字符序列中每个连续字符对出现的次数,将出现次数最高的字符对进行合并生成新字符序列,直至满足结束条件为止,以确定所述辅助语言子词。
[0013]在本公开的一种示例性实施例中,所述方法还包括:将训练语料按照所述建模单元中的所述主要语言字符和所述辅助语言子词进行拆分得到拆分结果,并根据所述拆分结果生成所述语言模型。
[0014]在本公开的一种示例性实施例中,所述结合所述概率分布以及所述语法得分,确定所述待识别语音的识别结果,包括:对所述建模单元的概率分布进行解码,确定所述待识别语音的候选解码路径;结合所述语法得分对所述候选解码路径进行评估,确定所述待识别语音的识别结果。
[0015]在本公开的一种示例性实施例中,所述结合所述语法得分对所述候选解码路径进行评估,确定所述待识别语音的识别结果,包括:将目标字符的声学模型得分与所述目标字符的语法得分进行综合,以得到所述候选解码路径的路径得分;将所述路径得分最高的候选解码路径作为所述识别结果。
[0016]根据本公开的一个方面,提供一种语音识别装置,包括:特征提取模块,用于获取待识别语音,并对所述待识别语音进行特征提取获取语音特征;概率确定模块,用于通过结合建模单元构建的声学模型对所述语音特征进行预测处理,确定所述待识别语音的建模单元的概率分布;所述建模单元包括主要语言字符和辅助语言子词;语法得分确定模块,用于基于所述主要语言字符和所述辅助语言子词构建的语言模型对所述待识别语音进行识别处理,确定所述待识别语音的语法得分;识别结果确定模块,用于结合所述概率分布以及所述语法得分,确定所述待识别语音的识别结果。
[0017]根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的语音识别方法。
[0018]根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音识别方法。
[0019]本公开实施例中提供的语音识别方法、语音识别装置、计算机可读存储介质以及电子设备,可以根据主要语言字符和辅助语言子词生成的建模单元构建的声学模型来对确定待识别语音的标签,进一步可以根据建模单元生成的语言模型来确定其语法得分,进而确定待识别语音的识别结果。一方面,由于使用辅助语言子词建模,缩小了主要语言和辅助语言的建模单元时长之间的差距,也避免了数据稀疏的问题,提高了建模方式的合理性。一方面,由于使用了主要语言字符和辅助语言子词生成建模单元进而进行建模,避免了无法
全部建模的局限性,提高了模型的完整性和准确性,提高了操作效率,也增加了语言识别的应用范围,提高了语音识别的准确性。
[0020]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1示意性示出本公开实施例用于实现语音识别方法的系统架构图。
[0023]图2示意性示出本公开实施例中一种语音识别方法的示意图。
[0024]图3示意性示出本公开实施例中确定辅助语言子词的具体流程示意图。
[0025]图4示意性示出本公开实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音,并对所述待识别语音进行特征提取获取语音特征;通过结合建模单元构建的声学模型对所述语音特征进行预测处理,确定所述待识别语音的建模单元的概率分布;所述建模单元包括主要语言字符和辅助语言子词;基于所述主要语言字符和所述辅助语言子词构建的语言模型对所述待识别语音进行识别处理,确定所述待识别语音的语法得分;结合所述概率分布以及所述语法得分,确定所述待识别语音的识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述方法还包括:获取训练语料,并对所述训练语料进行特征提取,确定所述训练语料的参考语音特征;结合所述参考语音特征以及所述建模单元中的所述主要语言字符和所述辅助语言子词对声学神经网络模型进行模型训练,得到声学模型。3.根据权利要求2所述的语音识别方法,其特征在于,所述对所述训练语料进行特征提取,确定所述训练语料的参考语音特征,包括;对所述训练语料进行分帧加窗操作,以获取多个语音帧;将所述多个语音帧进行变换处理,获取所述参考语音特征。4.根据权利要求2所述的语音识别方法,其特征在于,所述结合所述参考语音特征以及所述建模单元对声学神经网络模型进行模型训练,得到声学模型,包括:将所述参考语音特征输入至所述声学神经网络模型,确定所述参考语音特征对应的预测标签的概率分布;将所述预测标签与所述建模单元表示的真实标签进行对比,根据所述预测标签和所述真实标签之间的距离确定损失函数;根据所述损失函数调整所述神经网络模型的模型参数,直至所述损失函数最小,以得到所述声学模型。5.根据权利要求1所述的语音识别方法,其特征在于,所述方法还包括:将训练语料按照最小粒度进行拆分,得到字符序列;统计所述字符序列中每个连续字符对出现的次数,将出现次数最高的字符对进行合并生成新字符序列,直至满足结束条件为止,以确定所述辅助语言子词。6.根据权利要求1所述的语...

【专利技术属性】
技术研发人员:李思琪
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1