抗噪语音识别模型的自监督训练方法、系统和存储介质技术方案

技术编号:37365517 阅读:21 留言:0更新日期:2023-04-27 07:12
本发明专利技术实施例提供一种抗噪语音识别模型的自监督训练方法、系统和存储介质。该方法包括:将原始语音输入至预训练HuBERT模型,通过预训练HuBERT模型的编码器确定原始语音在编码器第1层至第L层的L个语音嵌入,将L个语音嵌入输入至预训练HuBERT模型的聚集器,将由聚集器生成的聚合表征确定为抗噪语音识别模型的编码器第L层的训练目标;逐层确定预训练HuBERT模型在编码器第1层至第L层的语音嵌入对应抗噪语音识别模型在编码器第1层至第L层的掩蔽噪声语音嵌入的损失;基于损失对抗噪语音识别模型进行自监督训练。本发明专利技术实施例在HuBERT架构上实现了针对语音识别的抗噪预训练方法,提升自监督训练的模型的抗噪能力,进一步提升自动语音识别的准确性。一步提升自动语音识别的准确性。一步提升自动语音识别的准确性。

【技术实现步骤摘要】
抗噪语音识别模型的自监督训练方法、系统和存储介质


[0001]本专利技术涉及智能语音领域,尤其涉及一种抗噪语音识别模型的自监督训练方法、系统和存储介质。

技术介绍

[0002]为了进一步提高用户的语音交互体验,会使用自监督学习来提升ASR(Automatic Speech Recognition,自动语音识别)的性能。例如,通过利用大量的未标记语音来学习有利于ASR(或者其他下游任务)的上下文化语音表示来进行自监督学习。在自监督训练的框架下,加入一个从加噪语音到原始语音的重构模块,在自监督训练中加入语音重构的目标函数,从而提高自监督语音嵌入的抗噪能力,进而提升语音识别性能。
[0003]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0004]现有技术通常集成的重构模块(例如,SE(speech enhancement,语音增强模块))作为自动语音识别的预处理前端,以抑制来自噪声语音中的噪声。然而,由于重构模块和自监督训练框架的交互较少,没有对模型的结构进行优化,对背景噪声的抗噪能力有限,影响了语音识别的效果。

技术实现思路

[0005]为了至少解决现有技术中自监督训练的模型抗噪能力有限的问题。
[0006]第一方面,本专利技术实施例提供一种抗噪语音识别模型的自监督训练方法,包括:
[0007]将原始语音输入至预训练HuBERT模型,通过所述预训练HuBERT模型的编码器确定所述原始语音在编码器第1层至第L层的L个语音嵌入,将所述L个语音嵌入输入至所述预训练HuBERT模型的聚集器,将由所述聚集器生成的聚合表征确定为抗噪语音识别模型的编码器第L层的训练目标;
[0008]将对所述原始语音添加噪声生成的加噪语音输入至所述抗噪语音识别模型,通过所述抗噪语音识别模型的编码器确定所述加噪语音在编码器第1层至第L层的L个掩蔽噪声语音嵌入;
[0009]逐层确定所述预训练HuBERT模型在编码器第1层至第L

1层的语音嵌入对应所述抗噪语音识别模型在编码器第1层至第L

1层的掩蔽噪声语音嵌入的第一损失,确定所述抗噪语音识别模型编码器第L层的掩蔽噪声语音嵌入对应所述训练目标的第二损失;
[0010]基于所述第一损失以及所述第二损失确定的综合损失对所述抗噪语音识别模型进行自监督训练,直至所述抗噪语音识别模型确定的掩蔽噪声语音嵌入趋近所述预训练HuBERT模型确定的语音嵌入。
[0011]第二方面,本专利技术实施例提供一种抗噪语音识别模型的自监督训练系统,包括:
[0012]训练目标确定程序模块,用于将原始语音输入至预训练HuBERT模型,通过所述预训练HuBERT模型的编码器确定所述原始语音在编码器第1层至第L层的L个语音嵌入,将所述L个语音嵌入输入至所述预训练HuBERT模型的聚集器,将由所述聚集器生成的聚合表征
确定为抗噪语音识别模型的编码器第L层的训练目标;
[0013]语音嵌入确定程序模块,用于将对所述原始语音添加噪声生成的加噪语音输入至所述抗噪语音识别模型,通过所述抗噪语音识别模型的编码器确定所述加噪语音在编码器第1层至第L层的L个掩蔽噪声语音嵌入;
[0014]损失确定程序模块,用于逐层确定所述预训练HuBERT模型在编码器第1层至第L

1层的语音嵌入对应所述抗噪语音识别模型在编码器第1层至第L

1层的掩蔽噪声语音嵌入的第一损失,确定所述抗噪语音识别模型编码器第L层的掩蔽噪声语音嵌入对应所述训练目标的第二损失;
[0015]自监督训练程序模块,用于基于所述第一损失以及所述第二损失确定的综合损失对所述抗噪语音识别模型进行自监督训练,直至所述抗噪语音识别模型确定的掩蔽噪声语音嵌入趋近所述预训练HuBERT模型确定的语音嵌入。
[0016]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的抗噪语音识别模型的自监督训练方法的步骤。
[0017]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的抗噪语音识别模型的自监督训练方法的步骤。
[0018]本专利技术实施例的有益效果在于:在HuBERT架构上实现了针对语音识别的抗噪预训练方法,提升自监督训练的模型的抗噪能力,进一步提升自动语音识别的准确性。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练方法的流程图;
[0021]图2是本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练方法的HuBERT

NIT与HuBERT相结合的示意图;
[0022]图3是本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练方法的HuBERT

AGG与HuBERT相结合的示意图;
[0023]图4是本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练方法的LIBRISPEECH原始和人工测试集上不同预训练模型的字错率的比较示意图;
[0024]图5是本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练方法的HuBERT AGG在人工噪声测试集上的字错率的比较示意图;
[0025]图6是本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练方法的在CHiME

4真实测试集上不同系统的字错率的比较示意图;
[0026]图7是本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练系统的结构示
意图;
[0027]图8为本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练的电子设备的实施例的结构示意图。
具体实施方式
[0028]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]如图1所示为本专利技术一实施例提供的一种抗噪语音识别模型的自监督训练方法的流程图,包括如下步骤:
[0030]S11:将原始语音输入至预训练HuBERT模型,通过所述预训练HuBERT模型的编码器确定所述原始语音在编码器第1层至第L层的L个语音嵌入,将所述L个语音嵌入输入至所述预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种抗噪语音识别模型的自监督训练方法,包括:将原始语音输入至预训练HuBERT模型,通过所述预训练HuBERT模型的编码器确定所述原始语音在编码器第1层至第L层的L个语音嵌入,将所述L个语音嵌入输入至所述预训练HuBERT模型的聚集器,将由所述聚集器生成的聚合表征确定为抗噪语音识别模型的编码器第L层的训练目标;将对所述原始语音添加噪声生成的加噪语音输入至所述抗噪语音识别模型,通过所述抗噪语音识别模型的编码器确定所述加噪语音在编码器第1层至第L层的L个掩蔽噪声语音嵌入;逐层确定所述预训练HuBERT模型在编码器第1层至第L

1层的语音嵌入对应所述抗噪语音识别模型在编码器第1层至第L

1层的掩蔽噪声语音嵌入的第一损失,确定所述抗噪语音识别模型编码器第L层的掩蔽噪声语音嵌入对应所述训练目标的第二损失;基于所述第一损失以及所述第二损失确定的综合损失对所述抗噪语音识别模型进行自监督训练,直至所述抗噪语音识别模型确定的掩蔽噪声语音嵌入趋近所述预训练HuBERT模型确定的语音嵌入。2.根据权利要求1所述的方法,其中,在所述确定所述抗噪语音识别模型编码器第L层的掩蔽噪声语音嵌入与所述训练目标的第二损失之后,所述方法还包括:利用HuBERT模型的掩码预测器确定加噪语音的特征预测序列;通过所述HuBERT模型的卷积波形编码器确定原始语音的特征目标序列;基于所述特征预测序列以及所述特征目标序列确定第三损失;基于所述第一损失、所述第二损失以及所述第三损失确定的综合损失对所述抗噪语音识别模型进行自监督训练。3.根据权利要求1所述的方法,其中,所述逐层确定所述预训练HuBERT模型在编码器第1层至第L

1层的语音嵌入对应所述抗噪语音识别模型在编码器第1层至第L

1层的掩蔽噪声语音嵌入的第一损失包括:将所述第1层至第L

1层的语音嵌入与所述第1层至第L

1层的掩蔽噪声语音嵌入逐层确定的正则项和余弦正则项作为第一损失。4.根据权利要求1所述的方法,其中,所述预训练HuBERT模型的聚集器用于确定编码器第1层至第L层语音嵌入的加权和。5.一种抗噪语音识别模型的自监督训练系统,包括:训练目标确定程序模块,用于将原始语音输入至预训练HuBERT模型,通过所述预训练HuBERT模型的编码器...

【专利技术属性】
技术研发人员:钱彦旻王巍
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1