语音识别方法、介质、装置和计算设备制造方法及图纸

技术编号:29875787 阅读:26 留言:0更新日期:2021-08-31 23:51
本公开的实施方式提供了一种语音识别方法、介质、装置和计算设备。该方法包括:对待识别的音频数据进行特征提取以获得对应于音频数据的声学特征;将声学特征输入预先训练的多个语音识别模型,以分别获得对应于各个语音识别模型的多个目标概率分布,对多个目标概率分布进行融合解码,以得到音频数据的识别结果。本公开实施例可以提高中文语音识别的准确度,能够适用于各种场景,提高了模型的鲁棒性。

【技术实现步骤摘要】
语音识别方法、介质、装置和计算设备
本公开的实施方式涉及语音识别
,更具体地,本公开的实施方式涉及基于多模型的语音识别方法、介质、装置和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是相关技术。目前,中文语音识别模型在一些特定场景下经常出现识别不准确的问题,包括待识别语音片段中包含多同音字、生僻汉字以及训练数据分布不均衡等场景。例如,语音数据“我这一身汗澡白洗了”,容易被误识别为“我这一身汗早白洗了”。其中,“澡”与“早”属于同音字,而且在训练数据中“早”出现的频率远远高于“澡”出现的频率,存在分布不均衡的情况,从而导致识别结果不够准确。相关技术有两种方式来解决上述问题,第一种方式是数据增广,第二种方式是多模型二次打分。数据增广是指对容易识别出错的语音数据执行一些操作,如音量扰动、语速调节和频谱掩蔽等,从而增加数据的多样性。多模型二次打分是指使用两个模型以多任务学习的方式同时训练,在识别阶段,利用一个模型生成若干个最有可能的候选文本序列,再用另一个模型对该若干个候选文本序列进行二次打分,从而筛选出最有可能的文本序列作为识别结果。但是,第一种方式只是对原音频数据做了轻微的调节,其对应的文本标注并未改变,也没有引入新的数据标注信息,所以能够带来的上述场景的识别率提升有限,此外,对于语音数据集里原本就不存在的生僻字情况,也无法解决。第二种方式对生成候选文本序列的模型准确度要求较高,若该模型生成的候选文本序列中无正确结果,则二次打分也不能提高识别的准确率;而且,当两个模型采用不同的建模单元时,如汉字建模单元和拼音建模单元,则二次打分中不同建模单元之间的映射空间会爆炸式增长,计算量巨大,在实际生产环境中不易实现。
技术实现思路
本公开期望提供一种语音识别方法和装置。在本公开实施方式的第一方面中,提供了一种语音识别方法,包括:对待识别的音频数据进行特征提取以获得对应于所述音频数据的声学特征;将所述声学特征输入预先训练的多个语音识别模型,以分别获得对应于各个语音识别模型的多个目标概率分布,所述多个目标概率分布对应于多个级别的声学标签体系,相应的目标概率分布表征在该级别的声学标签体系下,各声学标签与所述声学特征之间的匹配程度;对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果。在本公开的一个实施例中,所述多个级别的声学标签体系包括以下至少两种:文字级别的声学标签体系,音节级别的声学标签体系,音素级别的声学标签体系,以及带有上下文背景信息的音素级别的标签体系。在本公开的一个实施例中,所述对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果,包括:根据所述多个目标概率分布构造各个语音识别模型的解码路径,所述解码路径表征对应语音识别模型对声学特征的识别过程,识别结束时得到的解码路径表征针对该声学特征识别到的声学标签;基于所述各个语音识别模型的解码路径计算解码目标函数,找到使所述解码目标函数最大的解码路径,将该解码路径作为所述音频数据的识别结果。在本公开的一个实施例中,所述根据所述多个目标概率分布构造各个语音识别模型的解码路径,包括:确定每个语音识别模型对应声学标签体系内的元素,以元素为前缀并基于该语音识别模型对应的目标概率分布,构造该语音识别模型的解码路径。在本公开的一个实施例中,所述以元素为前缀并基于该语音识别模型对应的目标概率分布,构造该语音识别模型的解码路径,包括:以所述语音识别模型对应声学标签体系内的首个元素为前缀,根据下一个元素的目标概率分布选出该下一个元素的候选结果,由所述前缀与候选结果构造出当前的解码路径进行解码;以此类推,每一次解码将上一次的解码路径作为当前的前缀,结合下一个元素构造出当前的解码路径,直至得到完整的解码路径。在本公开的一个实施例中,所述根据下一个元素的目标概率分布选出该下一个元素的候选结果,包括:对所述下一个元素的识别结果按照目标概率分布从高到低进行排序,选出排序在前的指定个数的目标概率分布;将选出的目标概率分布对应的识别结果作为该下一个元素的候选结果。在本公开的一个实施例中,所述基于所述各个语音识别模型的解码路径计算解码目标函数,包括:基于所述各个语音识别模型的解码路径计算对应于所述各个语音识别模型的前缀得分;将所述各个语音识别模型的前缀得分与设置的对应权重相乘,然后对得到的所有乘积求和,得到解码目标函数。在本公开的一个实施例中,所述基于所述各个语音识别模型的解码路径计算对应于所述各个语音识别模型的前缀得分,包括:对每个语音识别模型,计算该语音识别模型的解码路径的选中率,对得到的所有解码路径的选中率求和然后取对数,得到该语音识别模型的前缀得分。在本公开的一个实施例中,所述找到使所述解码目标函数最大的解码路径,将该解码路径作为所述音频数据的识别结果,包括:采用预设的稀疏矩阵,将所述解码目标函数内各个语音识别模型的解码路径统一转换为指定级别的解码路径,所述稀疏矩阵为不同级别的声学标签体系元素之间的映射关系,用于将一个级别的声学标签体系元素转换至另一个级别的声学标签体系元素;找到使所述解码目标函数最大的解码路径,将该解码路径作为所述指定级别下的所述音频数据的识别结果。在本公开的一个实施例中,所述指定级别为文字级别、音节级别、音素级别或带有上下文背景信息的音素级别。在本公开的一个实施例中,所述方法还包括以下至少之一:解码时若检测到语句结束标志,则结束解码;解码时若检测到静音标志后超过指定时长,则结束解码;解码时若当前状态符合指定的结束状态,则结束解码。在本公开的一个实施例中,所述对待识别的音频数据进行特征提取以获得对应于所述音频数据的声学特征,包括:按照指定时长的窗口和间隔对待识别的音频数据进行采样;对每个窗口内的采样点进行离散傅里叶变换;根据所述离散傅里叶变换的结果计算得到梅尔空间的能量;对所述梅尔空间的能量滤波后进行离散余弦变换,得到梅尔频率倒谱系数,将所述梅尔频率倒谱系数作为对应于所述音频数据的声学特征。在本公开的一个实施例中,所述方法还包括:使用语音训练数据和初始标签,对所述多个语音识别模型进行训练,所述初始标签为所述语音训练数据对应的最粗级别的文本。在本公开的一个实施例中,所述使用语音训练数据和初始标签,对所述多个语音识别模型进行训练,包括:输入语音训练数据至所述多个语音识别模型中分别得到对应的声学标签;为得到的每个声学标签计算代价函数并设置对应的权重,将各个声学标签的代价函数与对应的权重乘积后求和得到总代价函数;根据初始标签以所述总代价函数最小为目标对所述多个语音识别模型进行训练。在本公开实施方式的第二方面中,提供了一种语音识别装置,包括:提取模块,用于本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n对待识别的音频数据进行特征提取以获得对应于所述音频数据的声学特征;/n将所述声学特征输入预先训练的多个语音识别模型,以分别获得对应于各个语音识别模型的多个目标概率分布,所述多个目标概率分布对应于多个级别的声学标签体系,相应的目标概率分布表征在该级别的声学标签体系下,各声学标签与所述声学特征之间的匹配程度;/n对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
对待识别的音频数据进行特征提取以获得对应于所述音频数据的声学特征;
将所述声学特征输入预先训练的多个语音识别模型,以分别获得对应于各个语音识别模型的多个目标概率分布,所述多个目标概率分布对应于多个级别的声学标签体系,相应的目标概率分布表征在该级别的声学标签体系下,各声学标签与所述声学特征之间的匹配程度;
对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果。


2.根据权利要求1所述的方法,其特征在于,所述多个级别的声学标签体系包括以下至少两种:文字级别的声学标签体系,音节级别的声学标签体系,音素级别的声学标签体系,以及带有上下文背景信息的音素级别的标签体系。


3.根据权利要求1所述的方法,其特征在于,所述对所述多个目标概率分布进行融合解码,以得到所述音频数据的识别结果,包括:
根据所述多个目标概率分布构造各个语音识别模型的解码路径,所述解码路径表征对应语音识别模型对声学特征的识别过程,识别结束时得到的解码路径表征针对该声学特征识别到的声学标签;
基于所述各个语音识别模型的解码路径计算解码目标函数,找到使所述解码目标函数最大的解码路径,将该解码路径作为所述音频数据的识别结果。


4.根据权利要求3所述的方法,其特征在于,所述根据所述多个目标概率分布构造各个语音识别模型的解码路径,包括:
确定每个语音识别模型对应声学标签体系内的元素,以元素为前缀并基于该语音识别模型对应的目标概率分布,构造该语音识别模型的解码路径。


5.根据权利要求4所述的方法,其特征在于,所述以元素为前缀并基于该语音识别模型对应的目标概率分布,构造该语音识别模型的解码路径,包括:
以所述语音识别模型对应声学标签体系内的首个元素为前缀,根据下一个元素的目标概率分布选出该下一个元素的候选结果,由所述前缀与候选结果构造出当前的解码路径进行解码;
以此类推,每一次解码将上一次的...

【专利技术属性】
技术研发人员:杨震
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1