语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37586816 阅读:11 留言:0更新日期:2023-05-18 10:58
本申请提供一种语音识别方法、装置、计算机设备及存储介质,应用于语音识别领域,该方法包括:获取待识别的语音数据,语音数据包括按序的多个音频时间片段;将语音数据输入语音识别模型进行语音识别处理,得到语音识别结果,语音识别结果用于表征语音数据中的每个音频时间片段对应的拼音音节的分类结果;根据拼音音节掩码表和语音识别结果中每个音频时间片段对应的拼音音节的分类结果,生成语音数据对应的拼音序列;对拼音序列进行转译,生成语音数据对应的文字识别结果。通过该方式,可以提高语音数据的识别和解码的速度更快,进而提高了语音识别速度。高了语音识别速度。高了语音识别速度。

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及语音识别
,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]自动语音识别(Automatic Speech Recognition,ASR),是一种语音数据的处理技术,在语音识别领域得到越来越广泛的应用。ASR由声学模型和语言模型组成,声学模型用于对语音数据进行识别,从而确定语音数据对应的音素序列或字符序列,语言模型用于将音素序列或字符序列转换为正确的句子。
[0003]相关技术中,在声学模型进行语音识别后,通常需要对识别的结果进行解码。相比于英文等直接的字母语言,汉字并非由单词拼接而成,需要在解码时对应字符码表进行调整。
[0004]然而,由于汉语的句子的组成单位是汉字,现有的前缀束搜索的过程中,通常使用汉字或汉字对应的拼音进行编解码,由于汉字或汉字对应的拼音的字符码表过大,从而使得解码速度较慢。

技术实现思路

[0005]本申请实施例提供一种语音识别方法、装置、计算机设备及存储介质,以克服现有技术中语音识别时的解码速度较慢的技术问题。
[0006]第一方面,本申请实施例提供一种语音识别方法,所述方法包括:
[0007]获取待识别的语音数据,所述语音数据包括按序的多个音频时间片段;
[0008]将所述语音数据输入语音识别模型进行语音识别处理,得到语音识别结果,所述语音识别结果用于表征所述语音数据中的每个音频时间片段对应的拼音音节的分类结果;
[0009]根据拼音音节掩码表和所述语音识别结果中每个音频时间片段对应的拼音音节的分类结果,生成所述语音数据对应的拼音序列;
[0010]对所述拼音序列进行转译,生成所述语音数据对应的文字识别结果。
[0011]第二方面,本申请实施例提供一种语音识别装置,所述装置包括:
[0012]获取单元,用于获取待识别的语音数据,所述语音数据包括按序的多个音频时间片段;
[0013]识别单元,用于将所述语音数据输入语音识别模型进行语音识别处理,得到语音识别结果,所述语音识别结果用于表征所述语音数据中的每个音频时间片段对应的拼音音节的分类结果;
[0014]解码单元,用于根据拼音音节掩码表和所述语音识别结果中每个音频时间片段对应的拼音音节的分类结果,生成所述语音数据对应的拼音序列;
[0015]转译单元,用于对所述拼音序列进行转译,生成所述语音数据对应的文字识别结果。
[0016]第三方面,本申请实施例提供一种计算机设备,包括:至少一个处理器和存储器;
[0017]所述存储器存储计算机执行指令;
[0018]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面所设计的语音识别方法。
[0019]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面所设计的语音识别方法。
[0020]第五方面,本申请实施例提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如上第一方面所设计的语音识别方法。
[0021]通过上述语音识别方法,对语音数据中的拼音音节进行识别,从而基于识别出的拼音音节的分类结果和拼音音节掩码表进行语音解码,得到对应的拼音序列,再转译出拼音序列对应的文字识别结果。由于汉语拼音的拼音音节的数量相比于汉字或完整的拼音较少,基于拼音序列进行的识别和解码的速度更快,进而提高了语音识别速度。
附图说明
[0022]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本申请实施例提供的一种语音识别方法的实施环境的示意图;
[0024]图2为本申请实施例提供的一种语音识别方法的流程示意图;
[0025]图3为本申请实施例提供的一种语音识别模型的结构示意图;
[0026]图4为本申请实施例提供的一种语音识别模型的训练方法的流程示意图;
[0027]图5为本申请实施例提供的另一种语音识别方法的流程示意图;
[0028]图6为本申请实施例提供的一种语音识别装置的结构框图;
[0029]图7为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0030]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0031]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0032]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0033]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0034]自动语音识别(Automatic Speech Recognition,ASR),是一种语音数据的处理技术,在语音识别领域得到越来越广泛的应用。ASR由声学模型和语言模型组成,声学模型用于对语音数据进行识别,从而确定语音数据对应的音素序列或字符序列,语言模型用于将音素序列或字符序列转换为正确的句子。
[0035]在介绍本申请的语音识别方法之前,首先对于ASR的声学模型的分类器进行说明。
[0036]ASR的声学模型的分类器包括基于神经网络的时序(connectionist temporal classification,CTC)分类器。CTC分类器用于将语音片段特征分类为某个特定的文本信号。在对于英文进行识别的ASR中,共有29个符号,分别对应英文中的26个字母、一个词边界空格、一个序列结束符号和一个空标记。每个时间片上的语音特征表示,都可以分类到这29个符号之一。通过上述CTC分类器,可以将上述时间片通过768维度表示,映射到上述29个符号对应的位置,得到每个符号的概率值并进行归一化,从而使得这29个符号的概率值之和等于100%。
[0037]示例性的,表1为不同时间片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音数据,所述语音数据包括按序的多个音频时间片段;将所述语音数据输入语音识别模型进行语音识别处理,得到语音识别结果,所述语音识别结果用于表征所述语音数据中的每个音频时间片段对应的拼音音节的分类结果;根据拼音音节掩码表和所述语音识别结果中每个音频时间片段对应的拼音音节的分类结果,生成所述语音数据对应的拼音序列;对所述拼音序列进行转译,生成所述语音数据对应的文字识别结果。2.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括预训练层、循环层和分类层;所述预训练层与所述循环层相连接,所述循环层与所述分类层相连接;所述将所述语音数据输入语音识别模型进行语音识别处理,得到语音识别结果,包括:通过所述语音识别模型的所述预训练层提取所述语音数据中每个音频时间片段的语音特征,并对所述每个音频时间片段的语音特征进行编码处理,生成第一特征集;通过所述循环层对所述第一特征集中的各个语音特征进行上下文学习,生成第二特征集;利用所述分类层根据所述第二特征集,预测所述语音数据中的每个音频时间片段对应的拼音音节的分类结果。3.根据权利要求1所述的方法,其特征在于,所述根据拼音音节掩码表和所述语音识别结果中每个音频时间片段对应的拼音音节的分类结果,生成所述语音数据对应的拼音序列,包括:根据所述每个音频时间片段对应的拼音音节的分类结果和所述拼音音节掩码表,依次确定所述每个音频时间片段对应的前缀字符串集合;根据所述语音数据中最后一个音频时间片段对应的前缀字符串集合,确定所述语音数据对应的拼音序列。4.根据权利要求3所述的方法,其特征在于,所述根据所述拼音音节的分类结果和所述拼音音节掩码表,依次确定所述每个音频时间片段对应的前缀字符串集合,包括:依次遍历多个音频时间片段;若当前遍历的音频时间片段为所述多个音频时间片段中的第一个音频时间片段,则根据所述当前遍历的音频时间片段对应的拼音音节的分类结果,对使用所述拼音音节掩码表生成的全掩码字符串进行扩展,确定所述当前遍历的音频时间片段对应的前缀字符串集合;若当前遍历的音频时间片段不为所述多个音频时间片段中的第一个音频时间片段,则根据当前遍历的音频时间片段的前一个音频时间片段对应的前缀字符串集合中每一个前缀字符串的目标概率,从所述前一个音频时间片段对应的前缀字符串集合中,选择出预设数量的目标字符串;根据当前遍历的音频时间片段对应的拼音音节的分类结果和所述拼音音节掩码表,对所述目标字符串进行扩展,确定所述当前遍历的音频时间片段对应的前缀字符串集合。5.根据权利要求4所述的方法,其特征在于,所述预设数量与预设的前缀搜索宽度对应;任意一个前缀字符串的目标概率是指所述任意一个前缀字符串的结尾字符为空字符的概率,或者,任意一个前缀字符串的目标概率为所述任意一个前缀字符串的结尾字符为非
空字符的概率。6.根据权利要求4所述的方法,其特征在于,所述根据所述语音数据中最后一个音频时间片段对应的前缀字符串集合,确定所述语音数据对应的拼音序列,包括:从所述最后...

【专利技术属性】
技术研发人员:乔宏利蒋宁吴海英刘敏
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1