语音分类模型的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31500726 阅读:30 留言:0更新日期:2021-12-22 23:11
本申请提出一种语音分类模型的训练方法、装置、计算机设备及存储介质,其中,方法包括:获取多个样本语音数据;对多个样本语音数据进行转换以生成多个样本频谱信息序列;将多个样本频谱信息序列输入至自动语音识别ASR预训练模型,以分别生成与各个样本语音数据对应的样本谐音结果;以及根据多个样本谐音结果对语音分类模型进行训练。由于是根据样本语音数据的样本谐音结果训练语音分类模型,实现仅在小规模训练集上,采用样本谐音结果进行分类训练,以获得语音分类模型,从而降低了语音分类模型训练的标注成本,并且针对不同的语音分类任务,采用相同的模型结构,从而降低了模型的训练成本。练成本。练成本。

【技术实现步骤摘要】
语音分类模型的训练方法、装置、计算机设备及存储介质


[0001]本申请涉及互联网
,尤其涉及一种语音分类模型的训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]近年来,随着人工智能技术的飞跃式发展,智能语音技术已经在智能电话机器人、手机助手、物联网等应用场景中快速普及。语音分类是智能语音
中的重要内容之一,旨在对给定的一段语音信号的属性进行分类,具体包括语种分类、情绪分类等等。例如在语音语种分类任务中,判断出某一段音频属于汉语、英语、还是日语等,在语音情绪分类任务中,判断出某一段音频属于开心、难过、还是紧张等。
[0003]为了实现语音分类任务,现有技术通常的做法是针对特定的分类任务,搜集并标记相应的语音数据,并设计相应的分类模型,最后利用标记的数据对语音分类模型进行训练。
[0004]这种方式下,由于不同的语音分类任务的问题特点不尽相同,因此,不同的语音分类模型的设计过程往往存在较大的差异,数据标注的成本较高,并且模型设计的工作量较大。

技术实现思路

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]本申请提出一种语音分类模型的训练方法、装置、计算机设备及存储介质,以实现仅在小规模训练集上,采用样本谐音结果进行分类训练,以获得语音分类模型,从而降低了语音分类模型训练的标注成本,并且针对不同的语音分类任务,采用相同的模型结构,从而降低了模型的训练成本,用于解决现有技术中不同的语音分类模型的设计过程往往存在较大的差异,数据标注的成本较高,并且模型设计的工作量较大的技术问题。
[0007]本申请第一方面实施例提出了一种语音分类模型的训练方法,包括:获取多个样本语音数据;对所述多个样本语音数据进行转换以生成多个样本频谱信息序列;将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型,以分别生成与各个所述样本语音数据对应的样本谐音结果;以及根据多个所述样本谐音结果对语音分类模型进行训练。
[0008]本申请实施例的语音分类模型的训练方法,通过获取多个样本语音数据,并对多个样本语音数据进行转换以生成多个样本频谱信息序列,将多个样本频谱信息序列输入至自动语音识别ASR预训练模型,以分别生成与各个样本语音数据对应的样本谐音结果;以及根据多个样本谐音结果对语音分类模型进行训练,由于是根据样本语音数据的样本谐音结果训练语音分类模型,实现仅在小规模训练集上,采用样本谐音结果进行分类训练,以获得语音分类模型,从而降低了语音分类模型训练的标注成本,并且针对不同的语音分类任务,采用相同的模型结构,从而降低了模型的训练成本。
[0009]本申请第二方面实施例提出了一种语音分类模型的训练装置,包括:获取模块,用
于获取多个样本语音数据;转换模块,用于对所述多个样本语音数据进行转换以生成多个样本频谱信息序列;生成模块,用于将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型,以分别生成与各个所述样本语音数据对应的样本谐音结果;以及训练模块,用于根据多个所述样本谐音结果对语音分类模型进行训练。
[0010]本申请实施例的语音分类模型的训练装置,通过获取多个样本语音数据,并对多个样本语音数据进行转换以生成多个样本频谱信息序列,将多个样本频谱信息序列输入至自动语音识别ASR预训练模型,以分别生成与各个样本语音数据对应的样本谐音结果;以及根据多个样本谐音结果对语音分类模型进行训练,由于是根据样本语音数据的样本谐音结果训练语音分类模型,实现仅在小规模训练集上,采用样本谐音结果进行分类训练,以获得语音分类模型,从而降低了语音分类模型训练的标注成本,并且针对不同的语音分类任务,采用相同的模型结构,从而降低了模型的训练成本。
[0011]本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例提出的语音分类模型的训练方法。
[0012]本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面实施例提出的语音分类模型的训练方法。
[0013]本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如本申请第一方面实施例提出的语音分类模型的训练方法。
[0014]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0015]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
[0016]图1是根据一示例性实施例示出的一种语音分类模型的训练方法的流程图;
[0017]图2是根据另一示例性实施例示出的一种语音分类模型的训练方法的流程图;
[0018]图3为本申请实施例中神经网络模型的结构示意图;
[0019]图4是根据一示例性实施例示出的一种语音分类模型的训练装置的结构图;
[0020]图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
[0021]为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0022]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
[0023]图1是根据一示例性实施例示出的一种语音分类模型的训练方法的流程图。
[0024]其中,需要说明的是,本实施例的语音分类模型的训练方法的执行主体为语音分类模型的训练装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
[0025]如图1所示,包括以下步骤。
[0026]在步骤S101中,获取多个样本语音数据。
[0027]其中,用于训练语音分类模型的语音数据,可以被称为样本语音数据,样本语音数据可以包含海量的语音数据,一份语音数据可以比如一段语音。
[0028]本申请实施例中,可以根据具体语音分类场景的任务需求,准备相应的训练用的样本语音数据,对此不做限制。
[0029]也即是说,针对不同的语音分类任务,准备对应于该语音分类任务的训练用的样本语音数据,从而采用对应于该语音分类任务的训练用的样本语音数据来训练一个语音分类模型,实现针对不同的语音分类任务,采用相同的模型结构,从而降低了模型的训练成本。
[0030]在步骤S102中,对多个样本语音数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音分类模型的训练方法,其特征在于,包括:获取多个样本语音数据;对所述多个样本语音数据进行转换以生成多个样本频谱信息序列;将所述多个样本频谱信息序列输入至自动语音识别ASR预训练模型,以分别生成与各个所述样本语音数据对应的样本谐音结果;以及根据多个所述样本谐音结果对语音分类模型进行训练。2.如权利要求1所述的方法,其特征在于,所述根据多个所述样本谐音结果对语音分类模型进行训练,包括:将多个所述样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别;根据所述预测语音类别和与所述样本语音数据对应的标注语音类别,对所述初始的神经网络模型进行训练;以及将训练得到的神经网络模型作为所述语音分类模型。3.如权利要求2所述的方法,其特征在于,所述根据所述预测语音类别和与所述样本语音数据对应的标注语音类别,对所述初始的神经网络模型进行训练,包括:根据所述预测语音类别和所述标注语音类别生成损失值;根据所述损失值对所述初始的神经网络模型进行训练。4.如权利要求2所述的方法,其特征在于,采用隐变量矩阵描述所述样本谐音结果,所述样本频谱信息序列包括:多帧样本频谱信息,所述隐变量矩阵中的元素,表示一帧所述样本频谱信息,映射为一个对应的候选谐音结果的概率值。5.如权利要求4所述的方法,其特征在于,所述将多个所述样本谐音结果分别输入至初始的神经网络模型以生成预测语音类别,包括:将各帧所述样本频谱信息,和其映射为一个对应的候选谐音结果的概率值输入至所述初始的神经网络模型以生成所述预测语音类别。6.如权利要求5所述的方法,其特征在于,所述将各帧所述样本频谱信息,和其映射为一个对应的候选谐音结果的概率值输入至所述初始的神经网络模型以生成所述预测语音类别,包括:构建与所述初始的神经网络模型对应的目标函数;对所述初...

【专利技术属性】
技术研发人员:付立
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1