语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39142096 阅读：12 留言：0更新日期：2023-10-23 14:55

本发明专利技术提供一种语音识别方法、装置、电子设备及存储介质，该方法包括：接收待识别的目标语音数据，从目标语音数据中提取声学特征数据；利用预设的目标类预测器，对声学特征数据进行处理，得到目标类特征，基于得到的目标类特征，生成目标向量；将声学特征数据和目标向量输入到自适应编码模型，得到目标特征向量，根据对目标特征向量的解码处理，得到语言识别结果，自适应编码模型包括多层编码器，编码器是将多个适配器引入预训练语音识别模型后进行自适应任务训练所生成的，目标向量用于对每层对应的多个适配器的输出特征进行融合。通过本申请，通过引入语种嵌入特征和场景嵌入特征，实现不同适配器的软融合，提高识别准确率的有益效果。的有益效果。的有益效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]自动语音识别(Automatic Speech Recognition，简称ASR)，是把语音转成对应的文字。相关技术中，语音识别系统一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。其中，从语音数据提取声学特征并输入到解码器，然后，利用声学模型和语言模型，基于最大后验概率准则解码，并对解码输出进行错误处理,得到最终的识别结果。
[0003]相关技术中，支持多种语言的识别系统得到极大的发展，支持多种语言的识别系统是基于海量的通用训练数据，参数量巨大、模型深度深、网络结构复杂，但相关技术中的基于大规模数据训练的通用模型，由于训练数据不够全面，未能覆盖某特定场景的训练数据而导致在该特定场景下识别效果不佳，此时需要进行模型的定制化工作，以提高该场景下模型的识别准确率，常用的方法是使用目标域的数据对整个模型进行微调。然而，基于大规模数据训练的通用模型往往参数量巨大，在对不同下游任务做微调时，训练十分耗时且内存开销巨大，并且微调的方式在学习新任务时会对旧任务产生灾难性遗忘，这使得模型在源数据下的表现下降严重。
[0004]针对相关技术语音识别模型对目标域数据的识别鲁棒性差、准确率低的问题，尚缺少较佳技术方案。

技术实现思路

[0005]本专利技术实施例提供语音识别方法、装置、电子设备及存储介质，以至少解决相关技...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：接收待识别的目标语音数据，并从所述目标语音数据中提取对应的声学特征数据；利用预设的目标类预测器，对所述声学特征数据进行处理，得到对应的目标类特征，并基于得到的多种所述目标类特征，生成目标向量，其中，所述目标向量为所述目标语音数据的分类概率向量；将所述声学特征数据和所述目标向量输入到自适应编码模型，得到目标特征向量，并根据对所述目标特征向量的解码处理，得到语言识别结果，其中，所述自适应编码模型包括多层编码器，所述编码器是将多个目标域适配器引入预训练语音识别模型，并进行目标域自适应任务训练所生成的，所述目标向量用于对每层对应的多个所述目标域适配器的输出特征进行融合。2.根据权利要求1所述的方法，所述目标类预测器包括语种分类预测器，利用预设的目标类预测器，对所述声学特征数据进行处理，得到对应的目标类特征，包括：将所述声学特征数据输入已训备的语种分类预测器，得到所述声学特征数据所属语种的语种嵌入特征，其中，所述语种分类预测器被训练为用于根据输入的第一输入音频得到与该第一输入音频所属语种对应的高维嵌入特征，所述语种嵌入特征用于表征所述目标语音数据的语种信息。3.根据权利要求2所述的方法，所述目标类预测器还包括场景分类预测器，利用预设的目标类预测器，对所述声学特征数据进行处理，得到对应的目标类特征，包括：将所述声学特征数据输入已训备的场景分类预测器，得到所述声学特征数据所对应的场景嵌入特征，其中，所述场景分类预测器被训练为用于根据输入的第二输入音频得到与该第二输入音频对应场景的高维嵌入特征，所述场景嵌入特征用于表征所述目标语音数据的场景信息。4.根据权利要求3所述的方法，其特征在于，基于得到的多种所述目标类特征，生成目标向量，包括：获取所述语种嵌入特征和所述场景嵌入特征，并将所述语种嵌入特征和所述场景嵌入特征进行拼接处理，生成特征向量；基于预设的前馈神经网络，对所述特征向量进行处理，得到所述目标向量。5.根据权利要求1所述的方法，其特征在于，将所述声学特征数据和所述目标向量输入到自适应编码模型，得到目标特征向量，包括：利用每层所述编码器对应的所述预训练语音识别模型，对所述声学特征数据进行...

【专利技术属性】
技术研发人员：李慧慧，张世磊，刘敏，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人