一种语音预训练模型的训练方法及装置、介质、设备制造方法及图纸

技术编号：44303241 阅读：2 留言：0更新日期：2025-02-18 20:20

本说明书实施例公开了一种语音预训练模型的训练方法及装置、介质、设备，首先，获取样本语音数据，并对所述样本语音数据进行特征提取，得到初始语音声学特征；对初始语音声学特征进行模糊聚类处理，得到语音特征聚类分布；基于语音特征聚类分布对预构建的语音预训练模型进行自监督训练，得到训练好的语音预训练模型。本技术方案通过模糊聚类这种软聚类方式，可以使语音预训练模型更加关注语音的连续性，克服了常用的硬聚类方式导致连续语音被硬性划分的缺点；以及将软聚类结果用于语音预训练模型的自监督学习，有效提升语音预训练模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及计算机，尤其涉及一种语音预训练模型的训练方法及装置、介质、设备。

技术介绍

1、语音预训练是指对大量无标签语音数据进行学习，提高模型的泛化能力，减少对标注数据的依赖的训练方式，通过语音预训练获得的音频特征，可以广泛地应用于多类下游语音任务。语音预训练模型是语音预训练领域的一种主流方法。

2、目前，语音预训练模型的相关训练方案中，可能会破坏模型捕捉声学特征相似度的能力，从而导致提取的语音特征的连续性差，语音预训练模型的泛化能力较弱。

技术实现思路

1、在说明书实施例的第一方面，提供一种语音预训练模型的训练方法，该方法能够使语音预训练模型更加关注语音的连续性，有效提升语音预训练模型的泛化能力，所述方法包括：

2、获取样本语音数据，并对所述样本语音数据进行特征提取，得到初始语音声学特征；

3、对所述初始语音声学特征进行模糊聚类处理，得到语音特征聚类分布；

4、基于所述语音特征聚类分布对预构建的语音预训练模型进行自监督训练，得到训练好的语音预训练模型。

5、进一步地，在一些实施方式中，所述对所述初始语音声学特征进行模糊聚类处理，得到语音特征聚类分布，包括：

6、确定预设聚类数量的初始聚类中心，并对所述初始聚类中心进行更新，得到目标聚类中心；

7、基于所述目标聚类中心对各所述初始语音声学特征进行聚类，得到各所述初始语音声学特征属于所述目标聚类中心对应的语音特征聚类分布。

8、进一步地，

9、确定各所述初始语音声学特征与所述初始聚类中心的隶属度矩阵；

10、基于所述隶属度矩阵和各所述初始语音声学特征确定中间聚类中心，并将所述中间聚类中心作为新的初始聚类中心；

11、循环执行以上步骤，直到满足更新迭代条件，将最新的所述中间聚类中心作为目标聚类中心。

12、进一步地，在一些实施方式中，所述确定各所述初始语音声学特征与所述初始聚类中心的隶属度矩阵，包括：

13、确定各所述初始语音声学特征与所述初始聚类中心中的当前聚类中心之间的第一相似度距离；

14、确定各所述初始语音声学特征与所述初始聚类中心中的所有聚类中心之间的第二相似度距离；

15、获取预设的模糊因子，并根据所述模糊因子、所述第一相似度距离和所述第二相似度距离确定各所述初始语音声学特征属于所述当前聚类中心的隶属度数据；

16、通过所述隶属度数据确定所述各所述初始语音声学特征与所述初始聚类中心的隶属度矩阵。

17、进一步地，在一些实施方式中，所述基于所述目标聚类中心对各所述初始语音声学特征进行聚类，得到各所述初始语音声学特征属于所述目标聚类中心对应的语音特征聚类分布，包括：

18、确定各所述初始语音声学特征归属于所述目标聚类中心的隶属度向量，所述隶属度向量包括各所述初始语音声学特征归属于所述目标聚类中心中各聚类类别的归属程度；

19、将所述隶属度向量作为各所述初始语音声学特征属于所述目标聚类中心对应的语音特征聚类分布。

20、进一步地，在一些实施方式中，所述基于所述语音特征聚类分布对预构建的语音预训练模型进行自监督训练，得到训练好的语音预训练模型，包括：

21、将所述初始语音声学特征输入到预构建的语音预训练模型中，得到语音特征预测分布；

22、根据所述语音特征预测分布和所述语音特征聚类分布，对所述预构建的语音预训练模型进行模型参数更新，得到训练好的语音预训练模型。

23、进一步地，在一些实施方式中，所述根据所述语音特征预测分布和所述语音特征聚类分布，对所述预构建的语音预训练模型进行模型参数更新，得到训练好的语音预训练模型，包括：

24、通过所述预构建的语音预训练模型对应的目标损失函数确定所述语音特征预测分布和所述语音特征聚类分布之间的损失；

25、根据所述损失对所述预构建的语音预训练模型的模型参数进行更新；

26、循环执行以上步骤，直到损失收敛或者达到模型更新迭代次数，完成对所述预构建的语音预训练模型的自监督训练，得到训练好的语音预训练模型。

27、进一步地，在一些实施方式中，所述对所述样本语音数据进行特征提取，得到初始语音声学特征，包括：

28、对所述样本语音数据进行加窗处理，得到预处理语音帧；

29、将所述预处理语音帧进行短时傅里叶变换，得到语音帧频谱，并对所述语音帧频谱进行平滑处理，得到语音频谱包络；

30、基于预设的梅尔滤波器将所述语音频谱包络进行滤波，并对滤波输出结果取对数并进行差分运算，得到所述样本语音数据对应的梅尔频率倒谱系数；

31、将所述梅尔频率倒谱系数作为所述样本语音数据对应的初始语音声学特征。

32、进一步地，在一些实施方式中，所述对所述样本语音数据进行特征提取，得到初始语音声学特征，包括：

33、将所述样本语音数据输入到训练好的声学特征提取网络中，输出得到初始语音声学特征。

34、进一步地，在一些实施方式中，所述方法还包括：

35、对收集的原始语音数据进行去噪处理，得到去噪后的原始语音数据；

36、对所述去噪后的原始语音数据进行静音消除处理，得到静音消除后的原始语音数据；

37、对所述静音消除后的原始语音数据进行音量标准化处理，得到标准化音量的原始语音数据；

38、对所述标准化音量的原始语音数据进行分帧处理，得到所述样本语音数据。

39、进一步地，在一些实施方式中，所述方法还包括：

40、获取用户语音数据，并将所述用户语音数据输入到所述训练好的语音预训练模型中，得到预测语音特征表示；

41、将所述预测语音特征表示输入到下游语音任务处理网络中，得到语音处理结果；

42、其中，所述下游语音任务处理网络包括语音识别转换处理网络、语种识别处理网络、语音意图识别处理网络、说话人身份识别处理网络以及语音增强处理网络中的任意一种或者多种组合。

43、在说明书实施例的第二方面，还提出了一种语音预训练模型的训练装置，包括：

44、声学特征提取模块，用于获取样本语音数据，并对所述样本语音数据进行特征提取，得到初始语音声学特征；

45、特征软聚类模块，用于对所述初始语音声学特征进行模糊聚类处理，得到语音特征聚类分布；

46、自监督训练模块，用于基于所述语音特征聚类分布对预构建的语音预训练模型进行自监督训练，得到训练好的语音预训练模型。

47、本说明书实施例的第三方面，还提供一种计算机程序产品，计算机程序产品存储有至少一条指令，至少一条指令适于由处理器加载并执行第一方面中的方法步骤。

48、本说明书实施例的第四方面，还提供一本文档来自技高网...

【技术保护点】

1.一种语音预训练模型的训练方法，所述方法包括：

2.根据权利要求1所述的语音预训练模型的训练方法，所述对所述初始语音声学特征进行模糊聚类处理，得到语音特征聚类分布，包括：

3.根据权利要求2所述的语音预训练模型的训练方法，所述对所述初始聚类中心进行更新，得到目标聚类中心，包括：

4.根据权利要求3所述的语音预训练模型的训练方法，所述确定各所述初始语音声学特征与所述初始聚类中心的隶属度矩阵，包括：

5.根据权利要求2所述的语音预训练模型的训练方法，所述基于所述目标聚类中心对各所述初始语音声学特征进行聚类，得到各所述初始语音声学特征属于所述目标聚类中心对应的语音特征聚类分布，包括：

6.根据权利要求1所述的语音预训练模型的训练方法，所述基于所述语音特征聚类分布对预构建的语音预训练模型进行自监督训练，得到训练好的语音预训练模型，包括：

7.根据权利要求2所述的语音预训练模型的训练方法，所述根据所述语音特征预测分布和所述语音特征聚类分布，对所述预构建的语音预训练模型进行模型参数更新，得到训练好的语音预训练模型，包括：

8.根据权利要求1所述的语音预训练模型的训练方法，所述对所述样本语音数据进行特征提取，得到初始语音声学特征，包括：

9.根据权利要求1所述的语音预训练模型的训练方法，所述对所述样本语音数据进行特征提取，得到初始语音声学特征，包括：

10.根据权利要求8或9所述的语音预训练模型的训练方法，所述方法还包括：

11.根据权利要求1所述的语音预训练模型的训练方法，所述方法还包括：

12.一种语音预训练模型的训练装置，所述装置包括：

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～11中任意一项所述方法的步骤。

14.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～11中任意一项所述方法的步骤。

15.一种计算机程序产品，其上存储有至少一条指令，其特征在于，所述至少一条指令被处理器执行时实现权利要求1～11中任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种语音预训练模型的训练方法，所述方法包括：

2.根据权利要求1所述的语音预训练模型的训练方法，所述对所述初始语音声学特征进行模糊聚类处理，得到语音特征聚类分布，包括：

3.根据权利要求2所述的语音预训练模型的训练方法，所述对所述初始聚类中心进行更新，得到目标聚类中心，包括：

4.根据权利要求3所述的语音预训练模型的训练方法，所述确定各所述初始语音声学特征与所述初始聚类中心的隶属度矩阵，包括：

7.根据权利要求2所述的语音预训练模型的训练方法，所述根据所述语音特征预测分布和所述语音特征聚类分布，对所述预构建的语音预训练模型进行模型参数更新，得到训练好的语音预训...

【专利技术属性】
技术研发人员：吕安旗，王志铭，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人