语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39142096 阅读:12 留言:0更新日期:2023-10-23 14:55
本发明专利技术提供一种语音识别方法、装置、电子设备及存储介质,该方法包括:接收待识别的目标语音数据,从目标语音数据中提取声学特征数据;利用预设的目标类预测器,对声学特征数据进行处理,得到目标类特征,基于得到的目标类特征,生成目标向量;将声学特征数据和目标向量输入到自适应编码模型,得到目标特征向量,根据对目标特征向量的解码处理,得到语言识别结果,自适应编码模型包括多层编码器,编码器是将多个适配器引入预训练语音识别模型后进行自适应任务训练所生成的,目标向量用于对每层对应的多个适配器的输出特征进行融合。通过本申请,通过引入语种嵌入特征和场景嵌入特征,实现不同适配器的软融合,提高识别准确率的有益效果。的有益效果。的有益效果。

【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]自动语音识别(Automatic Speech Recognition,简称ASR),是把语音转成对应的文字。相关技术中,语音识别系统一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。其中,从语音数据提取声学特征并输入到解码器,然后,利用声学模型和语言模型,基于最大后验概率准则解码,并对解码输出进行错误处理,得到最终的识别结果。
[0003]相关技术中,支持多种语言的识别系统得到极大的发展,支持多种语言的识别系统是基于海量的通用训练数据,参数量巨大、模型深度深、网络结构复杂,但相关技术中的基于大规模数据训练的通用模型,由于训练数据不够全面,未能覆盖某特定场景的训练数据而导致在该特定场景下识别效果不佳,此时需要进行模型的定制化工作,以提高该场景下模型的识别准确率,常用的方法是使用目标域的数据对整个模型进行微调。然而,基于大规模数据训练的通用模型往往参数量巨大,在对不同下游任务做微调时,训练十分耗时且内存开销巨大,并且微调的方式在学习新任务时会对旧任务产生灾难性遗忘,这使得模型在源数据下的表现下降严重。
[0004]针对相关技术语音识别模型对目标域数据的识别鲁棒性差、准确率低的问题,尚缺少较佳技术方案。

技术实现思路

[0005]本专利技术实施例提供语音识别方法、装置、电子设备及存储介质,以至少解决相关技术语音识别模型对目标域数据的识别鲁棒性差、准确率低的问题。
[0006]为解决上述技术问题,本专利技术是这样实现的:
[0007]第一方面,本专利技术实施例提供一种语音识别方法,包括:接收待识别的目标语音数据,并从所述目标语音数据中提取对应的声学特征数据;利用预设的目标类预测器,对所述声学特征数据进行处理,得到对应的目标类特征,并基于得到的多种所述目标类特征,生成目标向量,其中,所述目标向量为所述目标语音数据的分类概率向量;将所述声学特征数据和所述目标向量输入到自适应编码模型,得到目标特征向量,并根据对所述目标特征向量的解码处理,得到语言识别结果,其中,所述自适应编码模型包括多层编码器,所述编码器是将多个目标域适配器引入预训练语音识别模型,并进行目标域自适应任务训练所生成的,所述目标向量用于对每层对应的多个所述目标域适配器的输出特征进行融合。
[0008]第二方面,本专利技术实施例提供一种语音识别装置,包括:
[0009]接收模块,用于接收待识别的目标语音数据,并从所述目标语音数据中提取对应的声学特征数据;
[0010]处理模块,用于利用预设的目标类预测器,对所述声学特征数据进行处理,得到对应的目标类特征,并基于得到的多种所述目标类特征,生成目标向量,其中,所述目标向量为所述目标语音数据的分类概率向量;
[0011]识别模块,用于将所述声学特征数据和所述目标向量输入到自适应编码模型,得到目标特征向量,并根据对所述目标特征向量的解码处理,得到语言识别结果,其中,所述自适应编码模型包括多层编码器,所述编码器是将多个目标域适配器引入预训练语音识别模型,并进行目标域自适应任务训练所生成的,所述目标向量用于对每层对应的多个所述目标域适配器的输出特征进行融合。
[0012]第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上述第一方面所述的语音识别方法的步骤。
[0013]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的语音识别方法的步骤。
[0014]与相关技术相比,本专利技术实施例中提供了语音识别方法、装置、电子设备及存储介质,通过接收待识别的目标语音数据,并从所述目标语音数据中提取对应的声学特征数据;利用预设的目标类预测器,对所述声学特征数据进行处理,得到对应的目标类特征,并基于得到的多种所述目标类特征,生成目标向量,其中,所述目标向量为所述目标语音数据的分类概率向量;将所述声学特征数据和所述目标向量输入到自适应编码模型,得到目标特征向量,并根据对所述目标特征向量的解码处理,得到语言识别结果,其中,所述自适应编码模型包括多层编码器,所述编码器是将多个目标域适配器引入预训练语音识别模型,并进行目标域自适应任务训练所生成的,所述目标向量用于对每层对应的多个所述目标域适配器的输出特征进行融合,解决了相关技术语音识别模型对目标域数据的识别鲁棒性差、准确率低的问题,通过引入语种嵌入特征和场景嵌入特征,利用其拼接特征来决定各目标域适配器的输出权重,实现不同适配器的软融合,提高识别准确率。
附图说明
[0015]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术实施例提供的一种语音识别方法的流程图;
[0017]图2是本专利技术实施例提供的一种语音识别系统的架构图;
[0018]图3是本专利技术实施例提供的一种语音识别装置的示意图;
[0019]图4是本专利技术实施例提供的一种电子设备的示意图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本发
明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]图1是本专利技术实施例提供的一种语音识别方法的流程图,如图1所示,本专利技术实施例提供的一种语音识别方法,包括以下步骤:
[0022]步骤S101,接收待识别的目标语音数据,并从目标语音数据中提取对应的声学特征数据。
[0023]在本实施例中,执行本申请实施例的语音识别方法的执行主体包括但不限于部署语音识别系统的终端、服务器或云服务器。
[0024]在本实施例中,待识别的目标语音数据的获取并不作限定,例如:可以通过拾音器获取,同时,待识别的目标语音数据也可以是已经捕获并存储的音频数据。
[0025]在本实施例中,当获取到待识别的目标语音数据之后,采用预设的声学特征计算模块对目标语音数据进行声学特征提取,例如:通过频谱分帧、时频转换、滤波等处理,得到声学特征数据,例如:梅尔倒谱系数、标度滤波器组特征Fbank,之后,将提取的声学特征数据作为原始数据进行后续的编码、解码处理。
[0026]步骤S102,利用预设的目标类预测器,对声学特征数据进行处理,得到对应的目标类特征,并基于得到的多种目标类特征,生成目标向量,其中,目标向量为目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:接收待识别的目标语音数据,并从所述目标语音数据中提取对应的声学特征数据;利用预设的目标类预测器,对所述声学特征数据进行处理,得到对应的目标类特征,并基于得到的多种所述目标类特征,生成目标向量,其中,所述目标向量为所述目标语音数据的分类概率向量;将所述声学特征数据和所述目标向量输入到自适应编码模型,得到目标特征向量,并根据对所述目标特征向量的解码处理,得到语言识别结果,其中,所述自适应编码模型包括多层编码器,所述编码器是将多个目标域适配器引入预训练语音识别模型,并进行目标域自适应任务训练所生成的,所述目标向量用于对每层对应的多个所述目标域适配器的输出特征进行融合。2.根据权利要求1所述的方法,所述目标类预测器包括语种分类预测器,利用预设的目标类预测器,对所述声学特征数据进行处理,得到对应的目标类特征,包括:将所述声学特征数据输入已训备的语种分类预测器,得到所述声学特征数据所属语种的语种嵌入特征,其中,所述语种分类预测器被训练为用于根据输入的第一输入音频得到与该第一输入音频所属语种对应的高维嵌入特征,所述语种嵌入特征用于表征所述目标语音数据的语种信息。3.根据权利要求2所述的方法,所述目标类预测器还包括场景分类预测器,利用预设的目标类预测器,对所述声学特征数据进行处理,得到对应的目标类特征,包括:将所述声学特征数据输入已训备的场景分类预测器,得到所述声学特征数据所对应的场景嵌入特征,其中,所述场景分类预测器被训练为用于根据输入的第二输入音频得到与该第二输入音频对应场景的高维嵌入特征,所述场景嵌入特征用于表征所述目标语音数据的场景信息。4.根据权利要求3所述的方法,其特征在于,基于得到的多种所述目标类特征,生成目标向量,包括:获取所述语种嵌入特征和所述场景嵌入特征,并将所述语种嵌入特征和所述场景嵌入特征进行拼接处理,生成特征向量;基于预设的前馈神经网络,对所述特征向量进行处理,得到所述目标向量。5.根据权利要求1所述的方法,其特征在于,将所述声学特征数据和所述目标向量输入到自适应编码模型,得到目标特征向量,包括:利用每层所述编码器对应的所述预训练语音识别模型,对所述声学特征数据进行...

【专利技术属性】
技术研发人员:李慧慧张世磊刘敏
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1