【技术实现步骤摘要】
语音识别方法
[0001]本专利技术涉及语音信息处理
,具体而言,涉及一种语音识别方法。
技术介绍
[0002]目前,语音识别模型通常是基于干净无噪声的语料库训练得到的,对于无噪声的语音信息的识别表现较好,当待识别的语音信息中包含有噪声时,这种语音识别模型的表现往往不佳,也即,模型的抗噪性能较差,由于真实世界中的语音中通常包含有背景噪声、混响和其他非线性失真的,因此,利用这种语音识别模型对真实世界中的语音进行识别时通常存在识别不准确的技术问题。
[0003]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0004]本专利技术实施例提供了一种语音识别方法,以至少解决语音信息识别准确性低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种语音识别方法。该方法可以包括:采集监测到的待识别语音信息,其中,待识别语音信息中至少包含了待识别的原始音频信息;调用语音识别模型,其中,语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到,原始损失为基于噪声识别结果得到,噪声识别结果为对训练样本集中第一噪声信息样本进行噪声识别得到,辅助损失为基于信息映射结果得到,信息映射结果为至少对训练样本集中第二噪声信息样本进行信息映射得到;使用语音识别模型中至少由辅助损失确定的网络层,对待识别语音信息进行信息映射,得到目标信息映射结果;使用语音识别模型中至少由原始损失确定的网络层,对目标信息映射结果进行噪声识别,识别出干扰信息,其中,干扰信息为对原始音频信息存在干扰 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:采集监测到的待识别语音信息,其中,所述待识别语音信息中至少包含了待识别的原始音频信息;调用语音识别模型,其中,所述语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到,所述原始损失为基于噪声识别结果得到,所述噪声识别结果为对训练样本集中第一噪声信息样本进行噪声识别得到,所述辅助损失为基于信息映射结果得到,所述信息映射结果为至少对所述训练样本集中第二噪声信息样本进行信息映射得到;使用所述语音识别模型中至少由所述辅助损失确定的网络层,对所述待识别语音信息进行信息映射,得到目标信息映射结果;使用所述语音识别模型中至少由所述原始损失确定的网络层,对所述目标信息映射结果进行噪声识别,识别出干扰信息,其中,所述干扰信息为对所述原始音频信息存在干扰的信息;从所述待识别语音信息中去除所述干扰信息,识别出所述原始音频信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述初始语音识别模型中信息映射模型分别对所述第一噪声信息样本和所述第二噪声信息样本进行信息映射;基于映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本,确定所述初始语音识别模型的互相关损失,其中,所述辅助损失包括所述互相关损失,所述互相关损失用于表示所述初始语音识别模型的多个输入语音信息之间的相关程度与对应的目标相关程度之间的差异。3.根据权利要求2所述的方法,其特征在于,基于映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本,确定所述初始语音识别模型的互相关损失,包括:对映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本进行互相关处理,得到初始互相关结果,其中,所述初始互相关结果用于表示映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本之间的所述相关程度;基于所述初始互相关结果和目标互相关结果,确定所述互相关损失,其中,所述目标互相关结果用于表示映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本之间的所述目标相关程度。4.根据权利要求2所述的方法,其特征在于,基于所述初始语音识别模型中信息映射模型分别对所述第一噪声信息样本和所述第二噪声信息样本进行信息映射,包括:基于所述信息映射模型将所述第一噪声信息样本线性映射为第一矩阵,且将所述第二噪声信息样本线性映射为第二矩阵;基于映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本,确定所述初始语音识别模型的互相关损失,包括:获取所述第一矩阵和所述第二矩阵之间的互相关矩阵,其中,所述互相关矩阵与单位矩阵相关联;基于所述互相关矩阵确定所述互相关损失。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述第一噪声信息样本进行信息增强,且对所述第二噪声信息样本进行信息增强;基于所述信息映射模型分别对所述第一噪声信息样本和所述第二噪声信息样本进行
信息映射,包括:基于所述信息映射模型分别对增强后的所述第一噪声信息样本和增强后的所述第二噪声信息样本进行信息映射。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述初始语音识别模型对所述第一噪声信息样本进行噪声识别而得到的所述噪声识别结果;基于所述初始语音识别模型中信息映射模型对所述噪声识别结果进行信息映射;基于映射后的所述噪声识别结果确定所述初始语音识别模型的自相关损失,其中,所述辅助损失包括所述自相关损失,所述自相关损失用于表示所述初始语音识别模型的输出噪声识别结果中不同语音信息之间的相关程度与对应的目标相关程度之间的差异。7.根据权利要求6所述的方法,其特征在于,基于映射后的所述噪声识别结果确定所述初始语音识别模型的自相关损失,包括:对映射后的所述噪声识别结果进行自相关处理,得到初始自相关结果,其中,所述初始自相关结果用于表示映射后的所述噪声识别结果中不同噪声信息之间的相关程度;基于所述初始自相关结果和目标自相关结果,确定所述初始语音识别模型的自相关损失,其中,所述辅助损失包括所述自相关损失,所述目标自相关结果用于表示映射后的所述噪声识别结果中不同噪声信息之间的目标相关程度。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:对所述第一噪声信息样本进行信息增强;获取所述初始语音识别模型对所述第一噪声信息样本进行噪声识别得到的噪声识别结果,包括:获取所述初始语音识别模型对增强后的所述第一噪声信息样本进行噪声识别而得到的所述噪声识别结果。9.根据权利要求1至8中任意一项所述的方法,其特...
【专利技术属性】
技术研发人员:黄殿文,张冲,马煜坤,倪崇嘉,叶家祺,马斌,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。