一种语音模型训练方法、装置、设备以及可读存储介质制造方法及图纸

技术编号：41462705 阅读：4 留言：0更新日期：2024-05-30 14:19

本申请提供了一种语音模型训练方法、装置、设备以及可读存储介质，该方法包括：接收来自第二网络设备的第一语音标签，为第二语音模型基于模拟语音数据输出的语音标签，第一语音标签中包括模拟语音数据中每个文字语音与其对应文字类别相似度信息；将模拟语音数据通过第一语音模型进行处理，得到第二语音标签，第二语音标签中包括模拟语音数据中每个文字语音与其对应文字类别相似度信息；根据第一语音标签和第二语音标签得到第一损失值；基于第一损失值调整第一语音模型的网络参数和/或网络结构；其中，第二语音模型是训练好的语音大模型，第一语音模型的网络规模比第二语音模型小。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音模型训练的，尤其涉及一种语音模型训练方法、装置、设备以及计算机可读存储介质。

技术介绍

1、语音识别技术是将语音转换为文字的技术，用户通过向带有语音转换功能的电子设备输出语音，在电子设备上就可以显示与该语音向对应的文字信息。目前语音识别技术在智能手机、智能音箱和智能电视等设备上得到了广泛的应用。随着chatgpt模型的火爆，基于大数据大模型的语音识别模型(例如，whisper模型和usm模型等)越来越受到用户的欢迎。这些基于大数据大模型的语音识别系统相比于传统的语音识别系统拥有着更多的训练数据(10万小时数据对比1千万小时数据)和更大的模型参数量(1亿参数量对比10亿参数量)。更大的模型参数量导致了更多了模型计算量，因此大模型很难应用到实际产品中。为了将性能较好的大模型应用到实际产品中，一般需要进行模型压缩或者裁剪以降低计算量加快模型推理。

2、因此，在保证这些语音大模型的性能的前提下，如何对应这些语音大模型进行压缩是技术人员日益关注的问题。

技术实现思路

1、本申请实施例提供一种语音模型训练方法、装置、设备以及可读存储介质，解决了训练语音模型时，语音训练样本不足的问题。

2、第一方面，本申请实施例提供了一种语音模型训练方法，该方法应用于第一网络设备，第一网络设备部署有第一语音模型，第一语音模型是待训练的语音模型，该方法包括：接收来自第二网络设备的第一语音标签，为第二语音模型基于模拟语音数据输出的语音标签，第一语音标签中包括模拟语音数据中每个文

3、在上述实施例中，通过训练好的第二语音模型输出随机生成的模拟语音数据的第一语音标签，从而得到语音数据的训练标签来训练第一语音模型，在一定程度上解决现有的训练语音数据没有足够语音训练样本的问题。

4、结合第一方面，在一种可能实现的方式中，基于第一损失值调整第一语音模型的网络参数和/或网络结构，具体包括：接收第二网络模型发送的第一相似度，第一相似度为第二语音模型输出的文字语音与其对应的所有文字类别的相似度中，最大的相似度；计算模拟语音数据中每个文字语音的第一相似度和第二相似度的第二损失值，第二相似度为第一语音模型输出的文字语音与其对应的所有文字类别的相似度中，最大的相似度；根据第一损失值和第二损失值调整第一语音模型的网络结构和/或网络参数。

5、结合第一方面，在一种可能实现的方式中，根据第一损失值调整第一语音模型的网络结构和/或网络参数，具体包括：根据公式*fn2计算第三损失值；根据第三损失值调整第一语音模型的网络结构和/或网络参数；其中，fn3是第三损失值，fn1是第一损失值，fn2是第二损失值，f1是第一损失值对应的置信度，f2是第二损失值对应的置信度。

6、结合第一方面，在一种可能实现的方式中，根据第一语音标签和第二语音标签得到第一损失值，具体包括：根据公式fn1＝(x1-x2)2计算所述第一损失值，所述fn1为所述第一损失值，所述x1为所述第一语音模型输出的第一语音标签，所述x2为所述第二语音模型输出的第二语音标签。

7、结合第一方面，在一种可能实现的方式中，根据第一语音标签和第二语音标签得到第一损失值，具体包括：根据公式计算所述第一损失值，所述fn1为所述第一损失值，所述x1为所述第一语音模型输出的第一语音标签，所述x2为所述第二语音模型输出的第二语音标签。

8、结合第一方面，在一种可能实现的方式中，接收来自第二网络设备的第一语音标签之前，还包括：向第二网络设备发送第一请求消息，第一请求消息中的第一信息用于请求部署在第二网络设备中的第二语音模型训练协同训练第一语音模型；在第二网络设备确定协同训练第一语音模型的情况下，向第二网络设备发送模拟语音数据；根据第二语音模型的网络参数和/或网络结构信息设计第一语音模型。

9、结合第一方面，在一种可能实现的方式中，在第一网络设备不存在第二语音模型的网络参数和/或网络结构信息时，根据第二语音模型的网络参数和/或网络结构信息设计第一语音模型之前，还包括：向第二网络设备发送第一网络结构请求，第一网络结构请求用于第一网络设备请求第二网络设备提供第二语音模型的结构信息和/或网络参数；接收来自第二网络设备发送的第二语音模型的网络参数和/或网络结构信息。

10、结合第一方面，在一种可能实现的方式中，模拟语音数据是随机生成的语音数据，包括时间长度信息和音频特征信息。

11、第二方面，本申请实施例提供一种语音模型训练装置，该语音模型训练装置包括第一接收单元、语音标签获取单元、损失值计算单元、网络调整单元；其中：

12、第一接收单元，用于接收来自第二网络设备的第一语音标签，为第二语音模型基于模拟语音数据输出的语音标签，第一语音标签中包括模拟语音数据中每个文字语音与其对应文字类别相似度信息或其它建模单元的相似度信息(例如，音节、音素等)；

13、语音标签获取单元，用于将模拟语音数据通过第一语音模型进行处理，得到第二语音标签，第二语音标签中包括模拟语音数据中每个文字语音与其对应文字类别相似度信息或其它建模单元的相似度信息(例如，音节、音素等)；

14、损失值计算单元，用于根据第一语音标签和第二语音标签得到第一损失值；

15、网络调整单元，用于基于第一损失值调整第一语音模型的网络参数和/或网络结构；其中，第二语音模型是训练好的语音大模型，第一语音模型的网络规模比第二语音模型小。

16、结合第二方面，在一种可能实现的方式中，基于第一损失值调整第一语音模型的网络参数和/或网络结构，具体包括：接收第二网络模型发送的第一相似度，第一相似度为第二语音模型输出的文字语音与其对应的所有文字类别的相似度中，最大的相似度；计算模拟语音数据中每个文字语音的第一相似度和第二相似度的第二损失值，第二相似度为第一语音模型输出的文字语音与其对应的所有文字类别的相似度中，最大的相似度；根据第一损失值和第二损失值调整第一语音模型的网络结构和/或网络参数。

17、结合第二方面，在一种可能实现的方式中，根据第一损失值和第二损失值调整第一语音模型的网络结构和/或网络参数，具体包括：根据公式计算第三损失值；根据第三损失值调整第一语音模型的网络结构和/或网络参数；其中，fn3是第三损失值，fn1是第一损失值，fn2是第二损失值，f1是第一损失值对应的置信度，f2是第二损失值对应的置信度。

18、结合第二方面，在一种可能实现的方式中本文档来自技高网...

【技术保护点】

1.一种语音模型训练方法，其特征在于，应用于第一网络设备，所述第一网络设备部署有第一语音模型，所述第一语音模型是待训练的语音模型，所述方法包括：

2.如权利要求1所述的方法，其特征在于，基于所述第一损失值调整所述第一语音模型的网络参数和/或网络结构，具体包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第一损失值和所述第二损失值调整所述第一语音模型的网络结构和/或网络参数，具体包括：

4.如权利要求1所述的方法，其特征在于，所述接收来自第二网络设备的第一语音标签之前，还包括：

5.如权利要求4所述的方法，其特征在于，在所述第一网络设备不存在所述第二语音模型的网络参数和/或网络结构信息时，所述根据所述第二语音模型的网络参数和/或网络结构信息设计所述第一语音模型之前，还包括：

6.如权利要求1-5任意一项所述的方法，其特征在于，所述模拟语音数据是随机生成的语音数据，包括时间长度信息和音频特征信息。

7.一种语音模型训练装置，其特征在于，包括执行如权利要求1-6任意一项所述的语音模型训练方法的单元。>

8.一种语音模型训练设备，其特征在于，包括：存储器和处理器，其中：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时，实现如权利要求1-6任意一项所述的方法。

...

【技术特征摘要】

2.如权利要求1所述的方法，其特征在于，基于所述第一损失值调整所述第一语音模型的网络参数和/或网络结构，具体包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第一损失值和所述第二损失值调整所述第一语音模型的网络结构和/或网络参数，具体包括：

4.如权利要求1所述的方法，其特征在于，所述接收来自第二网络设备的第一语音标签之前，还包括：

5.如权利要求4所述的方法，其特征在于，在所述第一网络设备不存在所述第二语音...

【专利技术属性】
技术研发人员：单长浩，孙思宁，杨青，
申请(专利权)人：度小满科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人