声纹编码网络的训练方法及装置制造方法及图纸

技术编号:29794344 阅读:22 留言:0更新日期:2021-08-24 18:14
本说明书实施例提供了一种声纹编码网络的训练方法,包括:获取第一语音片段对应的声学特征和说话人标识;将该声学特征输入声纹编码网络,得到第一编码向量;确定第一训练损失,其负相关于该说话人标识对应的类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;确定第二训练损失,该第二训练损失正相关于第一语音片段与其同类语音片段各自所对应编码向量之间的同类间距离,且负相关于第一语音片段与其异类语音片段各自所对应编码向量之间的第一异类间距离;基于第一训练损失和第二训练损失,训练声纹编码网络和类别权重向量。

【技术实现步骤摘要】
声纹编码网络的训练方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及一种声纹编码网络的训练方法及装置。
技术介绍
声纹识别(VoiceprintRecognition,简称VPR)是生物识别技术的一种,声纹识别也称为说话人识别(SpeakerRecognition),有两类,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。前者用以判断某段语音是若干人中的哪一个所说的,是多选一问题;而后者用以确认某段语音是否是指定的某个人所说的,是一对一判别问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,包括训练声纹编码模型来提取表征说话人特点的声纹特征。显然,声纹编码模型的训练效果,决定提取出的声纹特征的有效性,进而影响声纹识别结果的准确度。然而,目前声纹编码模型的训练方式难以满足实际应用中对声纹识别结果的高要求。因此,需要一种方案,可以有效提高对声纹编码模型的训练效果,从而优化声纹识别结果的准确度和可用性。
技术实现思路
本说明书一个或多个实施例描述了声纹编码网络的训练方法及装置,可以使得训练出的声纹编码网络能够更加有效、精准地提取出说话人语音中的声纹特征,进而提高声纹识别结果的准确度和可用性。根据第一方面,提供了一种声纹编码网络的训练方法,包括:获取第一语音片段对应的声学特征和说话人标识;将所述声学特征输入声纹编码网络,得到第一编码向量;基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。在一个实施例中,获取第一语音片段对应的声学特征和说话人标识,包括:获取所述第一语音片段,并对该第一语音片段进行预处理,所述预处理包括语音增强处理,和/或,静音抑制处理;基于预处理后的第一语音片段,提取所述声学特征。在一个实施例中,所述声学特征包括,梅尔频谱倒谱系数MFCC特征,或梅尔标度滤波器组FBank特征。在一个实施例中,所述声纹编码网络采用时延神经网络TDNN,或,压缩与激发残差网络SE-ResNet。在一个实施例中,确定第一训练损失,包括:计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;基于所述预测概率,确定所述第一训练损失。其中,基于第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量,包括:基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。在一个实施例中,所述第二训练损失还负相关于所述同类语音片段与异类语音片段各自所对应编码向量之间的第二异类间距离。在一个实施例中,所述第二训练损失还正相关于所述第一异类间距离和第二异类间距离之间的相对大小,其中第二异类间距离为所述同类语音片段与异类语音片段各自所对应编码向量之间的向量间距离。在一个实施例中,训练后的对应多个说话人标识的多个类别权重向量被作为分类网络中全连接层的多个参数向量;所述方法还包括:将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量;将所述目标编码向量输入所述分类网络,得到目标说话人识别结果。在一个实施例中,还包括:将用户录入的注册语音输入训练后的声纹编码网络,得到注册编码向量;将用户输入的验证语音,输入所述训练后的声纹编码网络,得到验证编码向量;基于所述注册编码向量和验证编码向量之间的相似度,判断输入所述验证语音的用户与录入所述注册语音的用户是否为同一用户。根据第二方面,提供了一种声纹编码网络的训练装置,包括:获取单元,配置为获取第一语音片段对应的声学特征和说话人标识;编码单元,配置为将所述声学特征输入声纹编码网络,得到第一编码向量;第一损失确定单元,配置为基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;第二损失确定单元,配置为基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;训练单元,配置为基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。在一个实施例中,所述第一损失确定单元具体配置为:计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;基于所述预测概率,确定所述第一训练损失;其中,所述训练单元具体配置为:基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。采用本说明书实施例提供的方法和装置,在训练过程中通过对损失函数的优化设置,可以有效增加类间距离,缩小类内距离,从而使得训练出的声纹编码网络能够更加精准地提取出说话人声纹特征,进而提高声纹识别结果的准确度和可用性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出根据一个实施例的训练声纹编码网络的实施架构图;图2示出根据本文档来自技高网...

【技术保护点】
1.一种声纹编码网络的训练方法,包括:/n获取第一语音片段对应的声学特征和说话人标识;/n将所述声学特征输入声纹编码网络,得到第一编码向量;/n基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;/n基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;/n基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。/n

【技术特征摘要】
1.一种声纹编码网络的训练方法,包括:
获取第一语音片段对应的声学特征和说话人标识;
将所述声学特征输入声纹编码网络,得到第一编码向量;
基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;
基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;
基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。


2.根据权利要求1所述的方法,其中,获取第一语音片段对应的声学特征和说话人标识,包括:
获取所述第一语音片段,并对该第一语音片段进行预处理,所述预处理包括语音增强处理,和/或,静音抑制处理;
基于预处理后的第一语音片段,提取所述声学特征。


3.根据权利要求1或2所述的方法,其中,所述声学特征包括,梅尔频谱倒谱系数MFCC特征,或梅尔标度滤波器组FBank特征。


4.根据权利要求1所述的方法,其中,所述声纹编码网络采用时延神经网络TDNN,或,压缩与激发残差网络SE-ResNet。


5.根据权利要求1所述的方法,其中,确定第一训练损失,包括:
计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;
利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;
利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;
基于所述预测概率,确定所述第一训练损失;
其中,基于第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量,包括:
基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。


6.根据权利要求1所述的方法,其中,所述第二训练损失还负相关于所述同类语音片段与异类语音片段各自所对应编码向量之间的第二异类间距离。


7.根据权利要求1所述的方法,其中,所述第二训练损失还正相关于所述第一异类间距离和第二异类间距离之间的相对大小,其中第二异类间距离为所述同类语音片段与异类语音片段各自所对应编码向量之间的向量间距离。


8.根据权利要求1所述的方法,其中,训练后的对应多个说话人标识的多个类别权重向量被作为分类网络中全连接层的多个参数向量;所述方法还包括:
将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量;
将所述目标编码向量输入所述分类网络,得到目标说话人识别结果。


9.根据权利要求1所述的方法,其中,还包括:
将用户录入的注册语音输入训练后的声纹编码网络,得到注册编码向量;
将用户输入的验证语音,输入所述训练后的声纹编码网络,得到验证编码向量;
基于所述注册编码向量和验证编码向量之间的相似度,判断输入所述验证语音的用户与录入所述注册语音的用户是否为同一用户。


10.一种声纹编码网络的训练装置,包括:
获取单元,配置为获取第一语音片段对应的声学特征和说话人标识;
编码单元,配置为将所述声学特征输入声纹编码网络,得到第一编码向量;
第一损失确定单...

【专利技术属性】
技术研发人员:王志铭熊涛
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1