语音分类模型的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：31500726 阅读：30 留言：0更新日期：2021-12-22 23:11

本申请提出一种语音分类模型的训练方法、装置、计算机设备及存储介质，其中，方法包括：获取多个样本语音数据；对多个样本语音数据进行转换以生成多个样本频谱信息序列；将多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个样本语音数据对应的样本谐音结果；以及根据多个样本谐音结果对语音分类模型进行训练。由于是根据样本语音数据的样本谐音结果训练语音分类模型，实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本。练成本。练成本。

全部详细技术资料下载

【技术实现步骤摘要】
语音分类模型的训练方法、装置、计算机设备及存储介质

[0001]本申请涉及互联网
，尤其涉及一种语音分类模型的训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]近年来，随着人工智能技术的飞跃式发展，智能语音技术已经在智能电话机器人、手机助手、物联网等应用场景中快速普及。语音分类是智能语音
中的重要内容之一，旨在对给定的一段语音信号的属性进行分类，具体包括语种分类、情绪分类等等。例如在语音语种分类任务中，判断出某一段音频属于汉语、英语、还是日语等，在语音情绪分类任务中，判断出某一段音频属于开心、难过、还是紧张等。
[0003]为了实现语音分类任务，现有技术通常的做法是针对特定的分类任务，搜集并标记相应的语音数据，并设计相应的分类模型，最后利用标记的数据对语音分类模型进行训练。
[0004]这种方式下，由于不同的语音分类任务的问题特点不尽相同，因此，不同的语音分类模型的设计过程往往存在较大的差异，数据标注的成本较高，并且模型设计的工作量较大。

技术实现思路

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]本申请提出一种语音分类模型的训练方法、装置、计算机设备及存储介质，以实现仅在小规模训练集上，采用样本谐音结果进行分类训练，以获得语音分类模型，从而降低了语音分类模型训练的标注成本，并且针对不同的语音分类任务，采用相同的模型结构，从而降低了模型的训练成本，用于解决现有技术中不同的语音分类模型的设计过程往往存在较大的差异，数据标...

【技术保护点】

【技术特征摘要】
1.一种语音分类模型的训练方法，其特征在于，包括：获取多个样本语音数据；对所述多个样本语音数据进行转换以生成多个样本频谱信息序列；将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型，以分别生成与各个所述样本语音数据对应的样本谐音结果；以及根据多个所述样本谐音结果对语音分类模型进行训练。2.如权利要求1所述的方法，其特征在于，所述根据多个所述样本谐音结果对语音分类模型进行训练，包括：将多个所述样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别；根据所述预测语音类别和与所述样本语音数据对应的标注语音类别，对所述初始的神经网络模型进行训练；以及将训练得到的神经网络模型作为所述语音分类模型。3.如权利要求2所述的方法，其特征在于，所述根据所述预测语音类别和与所述样本语音数据对应的标注语音类别，对所述初始的神经网络模型进行训练，包括：根据所述预测语音类别和所述标注语音类别生成损失值；根据所述损失值对所述初始的神经网络模型进行训练。4.如权利要求2所述的方法，其特征在于，采用隐变量矩阵描述所述样本谐音结果，所述样本频谱信息序列包括：多帧样本频谱信息，所述隐变量矩阵中的元素，表示一帧所述样本频谱信息，映射为一个对应的候选谐音结果的概率值。5.如权利要求4所述的方法，其特征在于，所述将多个所述样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别，包括：将各帧所述样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至所述初始的神经网络模型以生成所述预测语音类别。6.如权利要求5所述的方法，其特征在于，所述将各帧所述样本频谱信息，和其映射为一个对应的候选谐音结果的概率值输入至所述初始的神经网络模型以生成所述预测语音类别，包括：构建与所述初始的神经网络模型对应的目标函数；对所述初...

【专利技术属性】
技术研发人员：付立，
申请(专利权)人：京东科技控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人