声纹模型训练方法、装置、设备以及存储介质制造方法及图纸

技术编号:28424916 阅读:34 留言:0更新日期:2021-05-11 18:33
本申请公开了一种声纹模型训练方法、装置、设备以及存储介质,涉及语音识别、深度学习等人工智能领域。该方法的一具体实施方式包括:获取训练样本集,其中,训练样本集包括多个样本说话人的音频;提取多个样本说话人的音频的语音特征;将语音特征输入到声纹模型,得到语音特征所属的说话人的分数和部分噪声的分数;基于语音特征所属的说话人的分数和部分噪声的分数,训练声纹模型。该实施方式提供了一种基于噪声比例的训练方式训练声纹模型,降低了模型训练的计算量,提高了模型训练的效率。

【技术实现步骤摘要】
声纹模型训练方法、装置、设备以及存储介质
本申请实施例涉及计算机领域,具体涉及语音识别、深度学习等人工智能领域,尤其涉及声纹模型训练方法、装置、设备以及存储介质。
技术介绍
对于存在大量不同说话人的音频的领域,通常希望对存量的音频进行声纹模型的训练与优化,然后通过建立庞大的声纹库来进行声纹的比对查找,有助于领域内的业务的推进。随着社会和互联网的飞速发展,领域内会积累海量说话人的音频。如何在这么庞大的数据量下,训练得到一个效果更优的声纹模型,成为声纹领域亟待解决的问题。
技术实现思路
本申请实施例提出了一种声纹模型训练方法、装置、设备以及存储介质。第一方面,本申请实施例提出了一种声纹模型训练方法,包括:获取训练样本集,其中,训练样本集包括多个样本说话人的音频;提取多个样本说话人的音频的语音特征;将语音特征输入到声纹模型,得到语音特征所属的说话人的分数和噪声的分数;基于语音特征所属的说话人的分数和部分噪声的分数,训练声纹模型。第二方面,本申请实施例提出了一种声纹模型训练装置,包括:获取模块,被配置成获取训练样本集,其中,训练样本集包括多个样本说话人的音频;提取模块,被配置成提取多个样本说话人的音频的语音特征;识别模型,被配置成将语音特征输入到声纹模型,得到语音特征所属的说话人的分数和部分噪声的分数;训练模块,被配置成基于语音特征所属的说话人的分数和部分噪声的分数,训练声纹模型。第三方面,本申请实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。第五方面,本申请实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的声纹模型训练方法、装置、设备以及存储介质,首先提取训练样本集中的多个样本说话人的音频的语音特征;然后将语音特征输入到声纹模型,得到语音特征所属的说话人的分数和噪声的分数;最后基于语音特征所属的说话人的分数和部分噪声的分数,训练声纹模型。提供了一种基于噪声比例的训练方式训练声纹模型,降低了模型训练的计算量,提高了模型训练的效率。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的声纹模型训练方法的一个实施例的流程图;图3是根据本申请的声纹模型训练方法的又一个实施例的流程图;图4是可以实现本申请实施例的声纹模型训练方法的应用场景图。图5是根据本申请的声纹模型训练装置的一个实施例的结构示意图;图6是用来实现本申请实施例的声纹模型训练方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的声纹模型训练方法或声纹模型训练装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送视频帧等。终端设备101、102、103上可以安装有各种客户端应用,例如录音应用、声纹模型训练应用等等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以提供各种服务。例如,服务器105可以对从终端设备101、102、103获取到的训练样本集进行分析和处理,并生成处理结果(例如声纹模型)。需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。需要说明的是,本申请实施例所提供的声纹模型训练方法一般由服务器105执行,相应地,声纹模型训练装置一般设置于服务器105中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。继续参考图2,其示出了根据本申请的声纹模型训练方法的一个实施例的流程200。该声纹模型训练方法包括以下步骤:步骤201,获取训练样本集。在本实施例中,声纹模型训练方法的执行主体可以获取训练样本集。其中,训练样本集可以包括多个样本说话人的音频。每个样本说话人可以包括至少一段音频。每段音频标注有对应的样本说话人。例如,训练样本集可以包括100万个样本说话人的音频,每个样本说话人包括5段音频。因此,训练样本集包括500万段音频。需要说明的是,本申请的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。步骤202,提取多个样本说话人的音频的语音特征。在本实施例中,对于每个样本说话人的每段音频,上述执行主体可以提取对应的语音特征。其中,语音特征可以包括但不限于语音信号的时域特征和频域特征。在时域,语音信号可以直接用它的时间波形表示出来。语音信号的时域特征可以通过短时能量、短时过零率等方法来分析。频域分析方法可以分析语音信号的频域特性。常用的频域分析方法为傅里叶分析法。语音信号是一个非平稳过程,因此需要用短时傅里叶变换对语音信号进行频谱分析。通过语音信本文档来自技高网...

【技术保护点】
1.一种声纹模型训练方法,包括:/n获取训练样本集,其中,所述训练样本集包括多个样本说话人的音频;/n提取所述多个样本说话人的音频的语音特征;/n将所述语音特征输入到声纹模型,得到所述语音特征所属的说话人的分数和噪声的分数;/n基于所述语音特征所属的说话人的分数和部分噪声的分数,训练所述声纹模型。/n

【技术特征摘要】
1.一种声纹模型训练方法,包括:
获取训练样本集,其中,所述训练样本集包括多个样本说话人的音频;
提取所述多个样本说话人的音频的语音特征;
将所述语音特征输入到声纹模型,得到所述语音特征所属的说话人的分数和噪声的分数;
基于所述语音特征所属的说话人的分数和部分噪声的分数,训练所述声纹模型。


2.根据权利要求1所述的方法,其中,所述提取所述多个样本说话人的音频的语音特征,包括:
将所述多个样本说话人的音频从时域变换到频域,以及在频域上提取所述语音特征,其中,所述语音特征包括以下至少一项:梅尔频率倒谱系数MFCC、感知线性预测PLP、滤波器组FBank。


3.根据权利要求1所述的方法,其中,所述声纹模型是Xvector;以及
所述将所述语音特征输入到声纹模型,得到所述语音特征所属的说话人的分数和噪声的分数,包括:
将所述语音特征输入到Xvector,得到所述语音特征所属的说话人对应的输出节点输出的分数和噪声对应的输出节点输出的分数,其中,所述Xvector的输出节点与所述训练样本集对应的样本说话人一一对应,除所述语音特征所属的说话人对应的输出节点之外的输出节点是噪声对应的输出节点。


4.根据权利要求1所述的方法,其中,在所述基于所述语音特征所属的说话人的分数和部分噪声的分数,训练所述声纹模型之前,还包括:
基于所述训练样本集,估计噪声先验分布;
基于所述噪声先验分布,选取所述部分噪声的分数。


5.根据权利要求1所述的方法,其中,所述基于所述语音特征所属的说话人的分数和部分噪声的分数,训练所述声纹模型,包括:
将所述语音特征所属的说话人的分数和所述部分噪声的分数输入至损失函数,计算得到损失值;
基于所述损失值更新所述声纹模型的网络参数,直至所述声纹模型收敛。


6.一种声纹模型训练装置,包括:
获取模块,被配置成获取训练样本集,其中,所述训练样本集包括多个样本说话人的音频;
提取模块,被配置成提取所述多个样本说话人的音频的语音特征;
识别模型,被配置成将所述语音特...

【专利技术属性】
技术研发人员:赵情恩曾新贵熊新雷陈蓉肖岩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1