语音识别方法技术

技术编号:37350539 阅读:21 留言:0更新日期:2023-04-22 21:49
本发明专利技术公开了一种语音识别方法。其中,该方法包括:采集检测到的待识别语音信息,其中,待识别语音信息中至少包含了待识别的原始音频信息;调用语音识别模型,其中,语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到;使用语音识别模型中至少由辅助损失确定的网络层,对待识别语音信息进行信息映射,得到目标信息映射结果;使用语音识别模型中至少由原始损失确定的网络层,对目标信息映射结果进行噪声识别,识别出干扰信息,其中,干扰信息为对原始音频信息存在干扰的信息;从待识别语音信息中去除干扰信息,识别出原始音频信息。本发明专利技术解决了语音信息识别准确性低的技术问题。性低的技术问题。性低的技术问题。

【技术实现步骤摘要】
语音识别方法


[0001]本专利技术涉及语音信息处理
,具体而言,涉及一种语音识别方法。

技术介绍

[0002]目前,语音识别模型通常是基于干净无噪声的语料库训练得到的,对于无噪声的语音信息的识别表现较好,当待识别的语音信息中包含有噪声时,这种语音识别模型的表现往往不佳,也即,模型的抗噪性能较差,由于真实世界中的语音中通常包含有背景噪声、混响和其他非线性失真的,因此,利用这种语音识别模型对真实世界中的语音进行识别时通常存在识别不准确的技术问题。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种语音识别方法,以至少解决语音信息识别准确性低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种语音识别方法。该方法可以包括:采集监测到的待识别语音信息,其中,待识别语音信息中至少包含了待识别的原始音频信息;调用语音识别模型,其中,语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到,原始损失为基于噪声识别结果得到,噪声识别结果为对训练样本集中第一噪声信息样本进行噪声识别得到,辅助损失为基于信息映射结果得到,信息映射结果为至少对训练样本集中第二噪声信息样本进行信息映射得到;使用语音识别模型中至少由辅助损失确定的网络层,对待识别语音信息进行信息映射,得到目标信息映射结果;使用语音识别模型中至少由原始损失确定的网络层,对目标信息映射结果进行噪声识别,识别出干扰信息,其中,干扰信息为对原始音频信息存在干扰的信息;从待识别语音信息中去除干扰信息,识别出原始音频信息。
[0006]根据本专利技术实施例的另一方面,还提供了另一种语音识别模型的确定方法。该方法可以包括:从训练样本集中获取第一噪声信息样本和第二噪声信息样本;基于初始语音识别模型对第一噪声信息样本进行语音识别而得到的噪声识别结果,确定初始语音识别模型的原始损失,且至少基于初始语音识别模型对第二噪声信息样本进行信息映射而得到的信息映射结果,确定初始语音识别模型的辅助损失;基于原始损失和辅助损失对初始语音识别模型进行训练,得到语音识别模型,其中,语音识别模型中至少由辅助损失确定的网络层,用于对待识别语音信息进行信息映射,得到目标信息映射结果,待识别语音信息中至少包含了待识别的原始音频信息,语音识别模型中至少由原始损失确定的网络层,用于对目标信息映射结果进行噪声识别,识别出干扰信息,干扰信息为对原始音频信息存在干扰的信息,且用于从待识别语音信息中识别出原始音频信息。
[0007]根据本专利技术实施例的另一方面,还提供了另一种语音识别方法,包括:采集向客户端发送的待识别语音信息,其中,待识别语音信息中至少包含了待识别的原始音频信息;使
用语音识别模型中至少由辅助损失确定的网络层,对待识别语音信息进行信息映射,得到目标信息映射结果,其中,语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到,原始损失为基于噪声识别结果得到,噪声识别结果为对训练样本集中第一噪声信息样本进行噪声识别得到,辅助损失为基于信息映射结果得到,信息映射结果为至少对训练样本集中第二噪声信息样本进行信息映射得到;使用语音识别模型中至少由原始损失确定的网络层,对目标信息映射结果进行噪声识别,识别出干扰信息,其中,干扰信息为对原始音频信息存在干扰的信息;从待识别语音信息中去除干扰信息,识别出原始音频信息;基于原始音频信息激活客户端。
[0008]根据本专利技术实施例的另一方面,还提供了一种语音识别方法,包括:在虚拟现实VR设备或增强现实AR设备上输入监测到的待识别语音信息,其中,待识别语音信息中至少包含了待识别的原始音频信息;调用语音识别模型,其中,语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到,原始损失为基于噪声识别结果得到,噪声识别结果为对训练样本集中第一噪声信息样本进行噪声识别得到,辅助损失为基于信息映射结果得到,信息映射结果为至少对训练样本集中第二噪声信息样本进行信息映射得到;使用语音识别模型中至少由辅助损失确定的网络层,对待识别语音信息进行信息映射,得到目标信息映射结果;使用语音识别模型中至少由原始损失确定的网络层,对目标信息映射结果进行噪声识别,识别出干扰信息,其中,干扰信息为对原始音频信息存在干扰的信息;从待识别语音信息中去除干扰信息,识别出原始音频信息;使用原始音频信息激活VR设备或AR设备。
[0009]根据本专利技术实施例的另一方面,还提供了一种语音识别方法,包括:通过调用第一接口获取监测到的待识别语音信息,其中,第一接口包括第一参数,第一参数的参数值为待识别语音信息,待识别语音信息中至少包含了待识别的原始音频信息;调用语音识别模型,其中,语音识别模型为基于原始损失和辅助损失对初始语音识信息映射得到;使用语音识别模型中至少由辅助损失确定的网络层,对待识别语音信息进行信息映射,得到目标信息映射结果;使用语音识别模型中至少由原始损失确定的网络层,对目标信息映射结果进行噪声识别,识别出干扰信息,其中,干扰信息为对原始音频信息存在干扰的信息;从待识别语音信息中去除干扰信息,识别出原始音频信息;通过调用第二接口输出原始音频信息,其中,第二接口包括第二参数,第二参数的参数值为原始音频信息。
[0010]根据本专利技术实施例的一个方面,提供了一种语音识别装置,包括:采集单元,用于采集监测到的待识别语音信息,其中,待识别语音信息中至少包含了待识别的原始音频信息;调用单元,用于调用语音识别模型,其中,语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到,原始损失为基于噪声识别结果得到,噪声识别结果为对训练样本集中第一噪声信息样本进行噪声识别得到,辅助损失为基于信息映射结果得到,信息映射结果为至少对训练样本集中第二噪声信息样本进行信息映射得到;映射单元,用于使用语音识别模型中至少由辅助损失确定的网络层,对待识别语音信息进行信息映射,得到目标信息映射结果;第一识别单元,用于使用语音识别模型中至少由原始损失确定的网络层,对目标信息映射结果进行噪声识别,识别出干扰信息,其中,干扰信息为对原始音频信息存在干扰的信息;第二识别单元,用于从待识别语音信息中去除干扰信息,识别出原始音频信息。
[0011]根据本专利技术实施例的一个方面,提供了一种语音识别模型的确定装置,包括:获取单元,用于从训练样本集中获取第一噪声信息样本和第二噪声信息样本;识别单元,用于基于初始语音识别模型对第一噪声信息样本进行语音识别而得到的噪声识别结果,确定初始语音识别模型的原始损失,且至少基于初始语音识别模型对第二噪声信息样本进行信息映射而得到的信息映射结果,确定初始语音识别模型的辅助损失;训练单元,用于基于原始损失和辅助损失对初始语音识别模型进行训练,得到语音识别模型,其中,语音识别模型中至少由辅助损失确定的网络层,用于对待识别语音信息进行信息映射,得到目标信息映射结果,待识别语音信息中至少包含了待识别的原始音频信息,语音识别模型中至少由原始损失确定的网络层,用于对目标信息映射结果进行噪声识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:采集监测到的待识别语音信息,其中,所述待识别语音信息中至少包含了待识别的原始音频信息;调用语音识别模型,其中,所述语音识别模型为基于原始损失和辅助损失对初始语音识别模型进行训练而得到,所述原始损失为基于噪声识别结果得到,所述噪声识别结果为对训练样本集中第一噪声信息样本进行噪声识别得到,所述辅助损失为基于信息映射结果得到,所述信息映射结果为至少对所述训练样本集中第二噪声信息样本进行信息映射得到;使用所述语音识别模型中至少由所述辅助损失确定的网络层,对所述待识别语音信息进行信息映射,得到目标信息映射结果;使用所述语音识别模型中至少由所述原始损失确定的网络层,对所述目标信息映射结果进行噪声识别,识别出干扰信息,其中,所述干扰信息为对所述原始音频信息存在干扰的信息;从所述待识别语音信息中去除所述干扰信息,识别出所述原始音频信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述初始语音识别模型中信息映射模型分别对所述第一噪声信息样本和所述第二噪声信息样本进行信息映射;基于映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本,确定所述初始语音识别模型的互相关损失,其中,所述辅助损失包括所述互相关损失,所述互相关损失用于表示所述初始语音识别模型的多个输入语音信息之间的相关程度与对应的目标相关程度之间的差异。3.根据权利要求2所述的方法,其特征在于,基于映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本,确定所述初始语音识别模型的互相关损失,包括:对映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本进行互相关处理,得到初始互相关结果,其中,所述初始互相关结果用于表示映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本之间的所述相关程度;基于所述初始互相关结果和目标互相关结果,确定所述互相关损失,其中,所述目标互相关结果用于表示映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本之间的所述目标相关程度。4.根据权利要求2所述的方法,其特征在于,基于所述初始语音识别模型中信息映射模型分别对所述第一噪声信息样本和所述第二噪声信息样本进行信息映射,包括:基于所述信息映射模型将所述第一噪声信息样本线性映射为第一矩阵,且将所述第二噪声信息样本线性映射为第二矩阵;基于映射后的所述第一噪声信息样本和映射后的所述第二噪声信息样本,确定所述初始语音识别模型的互相关损失,包括:获取所述第一矩阵和所述第二矩阵之间的互相关矩阵,其中,所述互相关矩阵与单位矩阵相关联;基于所述互相关矩阵确定所述互相关损失。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述第一噪声信息样本进行信息增强,且对所述第二噪声信息样本进行信息增强;基于所述信息映射模型分别对所述第一噪声信息样本和所述第二噪声信息样本进行
信息映射,包括:基于所述信息映射模型分别对增强后的所述第一噪声信息样本和增强后的所述第二噪声信息样本进行信息映射。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述初始语音识别模型对所述第一噪声信息样本进行噪声识别而得到的所述噪声识别结果;基于所述初始语音识别模型中信息映射模型对所述噪声识别结果进行信息映射;基于映射后的所述噪声识别结果确定所述初始语音识别模型的自相关损失,其中,所述辅助损失包括所述自相关损失,所述自相关损失用于表示所述初始语音识别模型的输出噪声识别结果中不同语音信息之间的相关程度与对应的目标相关程度之间的差异。7.根据权利要求6所述的方法,其特征在于,基于映射后的所述噪声识别结果确定所述初始语音识别模型的自相关损失,包括:对映射后的所述噪声识别结果进行自相关处理,得到初始自相关结果,其中,所述初始自相关结果用于表示映射后的所述噪声识别结果中不同噪声信息之间的相关程度;基于所述初始自相关结果和目标自相关结果,确定所述初始语音识别模型的自相关损失,其中,所述辅助损失包括所述自相关损失,所述目标自相关结果用于表示映射后的所述噪声识别结果中不同噪声信息之间的目标相关程度。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:对所述第一噪声信息样本进行信息增强;获取所述初始语音识别模型对所述第一噪声信息样本进行噪声识别得到的噪声识别结果,包括:获取所述初始语音识别模型对增强后的所述第一噪声信息样本进行噪声识别而得到的所述噪声识别结果。9.根据权利要求1至8中任意一项所述的方法,其特...

【专利技术属性】
技术研发人员:黄殿文张冲马煜坤倪崇嘉叶家祺马斌
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1