抗噪语音识别模型的自监督训练方法、系统和存储介质技术方案

技术编号：37365517 阅读：21 留言：0更新日期：2023-04-27 07:12

本发明专利技术实施例提供一种抗噪语音识别模型的自监督训练方法、系统和存储介质。该方法包括：将原始语音输入至预训练HuBERT模型，通过预训练HuBERT模型的编码器确定原始语音在编码器第1层至第L层的L个语音嵌入，将L个语音嵌入输入至预训练HuBERT模型的聚集器，将由聚集器生成的聚合表征确定为抗噪语音识别模型的编码器第L层的训练目标；逐层确定预训练HuBERT模型在编码器第1层至第L层的语音嵌入对应抗噪语音识别模型在编码器第1层至第L层的掩蔽噪声语音嵌入的损失；基于损失对抗噪语音识别模型进行自监督训练。本发明专利技术实施例在HuBERT架构上实现了针对语音识别的抗噪预训练方法，提升自监督训练的模型的抗噪能力，进一步提升自动语音识别的准确性。一步提升自动语音识别的准确性。一步提升自动语音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
抗噪语音识别模型的自监督训练方法、系统和存储介质

[0001]本专利技术涉及智能语音领域，尤其涉及一种抗噪语音识别模型的自监督训练方法、系统和存储介质。

技术介绍

[0002]为了进一步提高用户的语音交互体验，会使用自监督学习来提升ASR(Automatic Speech Recognition，自动语音识别)的性能。例如，通过利用大量的未标记语音来学习有利于ASR(或者其他下游任务)的上下文化语音表示来进行自监督学习。在自监督训练的框架下，加入一个从加噪语音到原始语音的重构模块，在自监督训练中加入语音重构的目标函数，从而提高自监督语音嵌入的抗噪能力，进而提升语音识别性能。
[0003]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0004]现有技术通常集成的重构模块(例如，SE(speech enhancement，语音增强模块))作为自动语音识别的预处理前端，以抑制来自噪声语音中的噪声。然而，由于重构模块和自监督训练框架的交互较少，没有对模型的结构进行优化，对背景噪声的抗噪能力有限，影响了语音识别的效果。

技术实现思路

[0005]为了至少解决现有技术中自监督训练的模型抗噪能力有限的问题。
[0006]第一方面，本专利技术实施例提供一种抗噪语音识别模型的自监督训练方法，包括：
[0007]将原始语音输入至预训练HuBERT模型，通过所述预训练HuBERT模型的编码器确定所述原始语音在编码器第1层至第L层的L个语音嵌入，将所述L个语音嵌入输入至...

【技术保护点】

【技术特征摘要】
1.一种抗噪语音识别模型的自监督训练方法，包括：将原始语音输入至预训练HuBERT模型，通过所述预训练HuBERT模型的编码器确定所述原始语音在编码器第1层至第L层的L个语音嵌入，将所述L个语音嵌入输入至所述预训练HuBERT模型的聚集器，将由所述聚集器生成的聚合表征确定为抗噪语音识别模型的编码器第L层的训练目标；将对所述原始语音添加噪声生成的加噪语音输入至所述抗噪语音识别模型，通过所述抗噪语音识别模型的编码器确定所述加噪语音在编码器第1层至第L层的L个掩蔽噪声语音嵌入；逐层确定所述预训练HuBERT模型在编码器第1层至第L
‑
1层的语音嵌入对应所述抗噪语音识别模型在编码器第1层至第L
‑
1层的掩蔽噪声语音嵌入的第一损失，确定所述抗噪语音识别模型编码器第L层的掩蔽噪声语音嵌入对应所述训练目标的第二损失；基于所述第一损失以及所述第二损失确定的综合损失对所述抗噪语音识别模型进行自监督训练，直至所述抗噪语音识别模型确定的掩蔽噪声语音嵌入趋近所述预训练HuBERT模型确定的语音嵌入。2.根据权利要求1所述的方法，其中，在所述确定所述抗噪语音识别模型编码器第L层的掩蔽噪声语音嵌入与所述训练目标的第二损失之后，所述方法还包括：利用HuBERT模型的掩码预测器确定加噪语音的特征预测序列；通过所述HuBERT模型的卷积波形编码器确定原始语音的特征目标序列；基于所述特征预测序列以及所述特征目标序列确定第三损失；基于所述第一损失、所述第二损失以及所述第三损失确定的综合损失对所述抗噪语音识别模型进行自监督训练。3.根据权利要求1所述的方法，其中，所述逐层确定所述预训练HuBERT模型在编码器第1层至第L
‑
1层的语音嵌入对应所述抗噪语音识别模型在编码器第1层至第L
‑
1层的掩蔽噪声语音嵌入的第一损失包括：将所述第1层至第L
‑
1层的语音嵌入与所述第1层至第L
‑
1层的掩蔽噪声语音嵌入逐层确定的正则项和余弦正则项作为第一损失。4.根据权利要求1所述的方法，其中，所述预训练HuBERT模型的聚集器用于确定编码器第1层至第L层语音嵌入的加权和。5.一种抗噪语音识别模型的自监督训练系统，包括：训练目标确定程序模块，用于将原始语音输入至预训练HuBERT模型，通过所述预训练HuBERT模型的编码器...

【专利技术属性】
技术研发人员：钱彦旻，王巍，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人