语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：37586816 阅读：11 留言：0更新日期：2023-05-18 10:58

本申请提供一种语音识别方法、装置、计算机设备及存储介质，应用于语音识别领域，该方法包括：获取待识别的语音数据，语音数据包括按序的多个音频时间片段；将语音数据输入语音识别模型进行语音识别处理，得到语音识别结果，语音识别结果用于表征语音数据中的每个音频时间片段对应的拼音音节的分类结果；根据拼音音节掩码表和语音识别结果中每个音频时间片段对应的拼音音节的分类结果，生成语音数据对应的拼音序列；对拼音序列进行转译，生成语音数据对应的文字识别结果。通过该方式，可以提高语音数据的识别和解码的速度更快，进而提高了语音识别速度。高了语音识别速度。高了语音识别速度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质

[0001]本申请实施例涉及语音识别
，尤其涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]自动语音识别(Automatic Speech Recognition，ASR)，是一种语音数据的处理技术，在语音识别领域得到越来越广泛的应用。ASR由声学模型和语言模型组成，声学模型用于对语音数据进行识别，从而确定语音数据对应的音素序列或字符序列，语言模型用于将音素序列或字符序列转换为正确的句子。
[0003]相关技术中，在声学模型进行语音识别后，通常需要对识别的结果进行解码。相比于英文等直接的字母语言，汉字并非由单词拼接而成，需要在解码时对应字符码表进行调整。
[0004]然而，由于汉语的句子的组成单位是汉字，现有的前缀束搜索的过程中，通常使用汉字或汉字对应的拼音进行编解码，由于汉字或汉字对应的拼音的字符码表过大，从而使得解码速度较慢。

技术实现思路

[0005]本申请实施例提供一种语音识别方法、装置、计算机设备及存储介质，以克服现有技术中语音识别时的解码速度较慢的技术问题。
[0006]第一方面，本申请实施例提供一种语音识别方法，所述方法包括：
[0007]获取待识别的语音数据，所述语音数据包括按序的多个音频时间片段；
[0008]将所述语音数据输入语音识别模型进行语音识别处理，得到语音识别结果，所述语音识别结果用于表征所述语音数据中的每个音频时间片段对应的拼音音节的分类结果；
[00...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取待识别的语音数据，所述语音数据包括按序的多个音频时间片段；将所述语音数据输入语音识别模型进行语音识别处理，得到语音识别结果，所述语音识别结果用于表征所述语音数据中的每个音频时间片段对应的拼音音节的分类结果；根据拼音音节掩码表和所述语音识别结果中每个音频时间片段对应的拼音音节的分类结果，生成所述语音数据对应的拼音序列；对所述拼音序列进行转译，生成所述语音数据对应的文字识别结果。2.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括预训练层、循环层和分类层；所述预训练层与所述循环层相连接，所述循环层与所述分类层相连接；所述将所述语音数据输入语音识别模型进行语音识别处理，得到语音识别结果，包括：通过所述语音识别模型的所述预训练层提取所述语音数据中每个音频时间片段的语音特征，并对所述每个音频时间片段的语音特征进行编码处理，生成第一特征集；通过所述循环层对所述第一特征集中的各个语音特征进行上下文学习，生成第二特征集；利用所述分类层根据所述第二特征集，预测所述语音数据中的每个音频时间片段对应的拼音音节的分类结果。3.根据权利要求1所述的方法，其特征在于，所述根据拼音音节掩码表和所述语音识别结果中每个音频时间片段对应的拼音音节的分类结果，生成所述语音数据对应的拼音序列，包括：根据所述每个音频时间片段对应的拼音音节的分类结果和所述拼音音节掩码表，依次确定所述每个音频时间片段对应的前缀字符串集合；根据所述语音数据中最后一个音频时间片段对应的前缀字符串集合，确定所述语音数据对应的拼音序列。4.根据权利要求3所述的方法，其特征在于，所述根据所述拼音音节的分类结果和所述拼音音节掩码表，依次确定所述每个音频时间片段对应的前缀字符串集合，包括：依次遍历多个音频时间片段；若当前遍历的音频时间片段为所述多个音频时间片段中的第一个音频时间片段，则根据所述当前遍历的音频时间片段对应的拼音音节的分类结果，对使用所述拼音音节掩码表生成的全掩码字符串进行扩展，确定所述当前遍历的音频时间片段对应的前缀字符串集合；若当前遍历的音频时间片段不为所述多个音频时间片段中的第一个音频时间片段，则根据当前遍历的音频时间片段的前一个音频时间片段对应的前缀字符串集合中每一个前缀字符串的目标概率，从所述前一个音频时间片段对应的前缀字符串集合中，选择出预设数量的目标字符串；根据当前遍历的音频时间片段对应的拼音音节的分类结果和所述拼音音节掩码表，对所述目标字符串进行扩展，确定所述当前遍历的音频时间片段对应的前缀字符串集合。5.根据权利要求4所述的方法，其特征在于，所述预设数量与预设的前缀搜索宽度对应；任意一个前缀字符串的目标概率是指所述任意一个前缀字符串的结尾字符为空字符的概率，或者，任意一个前缀字符串的目标概率为所述任意一个前缀字符串的结尾字符为非
空字符的概率。6.根据权利要求4所述的方法，其特征在于，所述根据所述语音数据中最后一个音频时间片段对应的前缀字符串集合，确定所述语音数据对应的拼音序列，包括：从所述最后...

【专利技术属性】
技术研发人员：乔宏利，蒋宁，吴海英，刘敏，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人