一种声纹特征提取方法、装置、设备及存储介质制造方法及图纸

技术编号:38031193 阅读:10 留言:0更新日期:2023-06-30 10:57
本发明专利技术提供了一种声纹特征提取方法、装置、设备及存储介质,方法包括:获取目标语音数据的若干语谱片段;基于预先训练得到的声纹提取模型对若干语谱片段分别提取声纹特征,其中,声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本,以训练样本包含的各训练语谱片段分别对应的真实身份标签为样本标签,以使基于声纹提取模型对训练样本包含的每个训练语谱片段提取的声纹特征预测的身份标签与对应的真实身份标签趋于一致为目标训练得到;基于目标语音数据的若干语谱片段分别对应的声纹特征确定目标语音数据对应的声纹特征。本发明专利技术提供的声纹特征提取方法不易受语音时序的影响,可提取到较为精准鲁棒的声纹特征。较为精准鲁棒的声纹特征。较为精准鲁棒的声纹特征。

【技术实现步骤摘要】
一种声纹特征提取方法、装置、设备及存储介质


[0001]本专利技术涉及声纹识别
,尤其涉及一种声纹特征提取方法、装置、设备及存储介质。

技术介绍

[0002]声纹识别技术是生物认证领域中的关键技术之一。声纹识别技术又称说话人识别技术,其是利用说话人的语音对说话人进行身份认证。利用语音进行身份认证,不仅具有无需记忆、判决简单的特点,而且可以在用户不知情的情况下进行认证,具有较高的用户接受度,其广泛应用于金融、智能家居等领域。
[0003]声纹识别技术的关键在于声纹特征的提取,对于某些对认证准确度较高的领域,需要提取较为精准鲁棒的声纹特征。可以理解的是,若要获得较为精准鲁棒的声纹特征,则声纹提取方法不应受语音时序的干扰,即,对于一条语音数据,不管该语音数据的时序如何变化,针对该条语音数据提取的声纹特征应该基本保持一致。然而,目前尚不存在不受语音时序干扰的声纹提取方法。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种声纹特征提取方法、装置、设备及存储介质,该声纹特征提取方法不受语音时序的干扰,其技术方案如下:
[0005]一种声纹特征提取方法,包括:
[0006]获取目标语音数据的若干语谱片段;
[0007]基于预先训练得到的声纹提取模型对所述目标语音数据的若干语谱片段分别提取声纹特征,得到所述目标语音数据的若干语谱片段分别对应的声纹特征,其中,所述声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本,以所述训练样本包含的各训练语谱片段分别对应的真实身份标签为样本标签,以使基于声纹提取模型对所述训练样本包含的每个训练语谱片段提取的声纹特征预测的身份标签与对应的真实身份标签趋于一致为目标训练得到;
[0008]基于所述目标语音数据的若干语谱片段分别对应的声纹特征,确定所述目标语音数据对应的声纹特征,。
[0009]可选的,所述训练样本的获取过程包括:
[0010]从预先构建的语谱片段集中获取若干语谱片段,其中,所述语谱片段集中包括多个时序未打乱的语谱片段;
[0011]针对从所述语谱片段集中获取的每个语谱片段:
[0012]随机生成该语谱片段对应的时序打乱概率;
[0013]若该语谱片段对应的时序打乱概率大于设定概率阈值,则将该语谱片段的时序打乱,得到时序打乱后的语谱片段,作为训练语谱片段;若该语谱片段对应的时序打乱概率小于或等于设定概率阈值,则将该语谱片段作为训练语谱片段;
[0014]由得到的各训练语谱片段组成训练样本。
[0015]可选的,所述将该语谱片段的时序打乱,得到时序打乱后的语谱片段,包括:
[0016]将该语谱片段切分为多个语谱子片段,其中,每个语谱子片段为连续多帧语音的语谱子片段;
[0017]将所述多个语谱子片段随机打乱后组合成新的语谱片段,得到时序打乱后的语谱片段。
[0018]可选的,所述声纹提取模型的训练过程包括:
[0019]针对所述训练样本包含的每个训练语谱片段:
[0020]基于声纹提取模型对该训练语谱片段提取声纹特征,得到该训练语谱片段对应的声纹特征;
[0021]基于该训练语谱片段对应的声纹特征,预测该训练语谱片段对应的身份标签为各设定身份标签的概率;
[0022]基于该训练语谱片段对应的身份标签为各设定身份标签的概率以及该训练语谱片段对应的真实身份标签,确定该训练语谱片段对应的预测损失;
[0023]基于所述训练样本包含的各训练语谱片段分别对应的预测损失,对声纹提取模型进行参数更新。
[0024]可选的,所述基于所述训练样本包含的各训练语谱片段分别对应的预测损失,对声纹提取模型进行参数更新,包括:
[0025]将所述训练样本包含的各训练语谱片段分别对应的预测损失融合,得到融合后损失;
[0026]根据所述融合后损失,对声纹提取模型进行参数更新。
[0027]可选的,所述基于声纹提取模型对该训练语谱片段提取声纹特征,得到该训练语谱片段对应的声纹特征,包括:
[0028]基于声纹提取模型对该训练语谱片段提取浅层特征和深层特征;
[0029]基于声纹提取模型将所述浅层特征与所述深层特征融合,得到融合后特征;
[0030]基于声纹提取模型对所述融合后特征提取特征,作为该训练语谱片段的目标特征;
[0031]基于声纹提取模型将该训练语谱片段的目标特征中各帧的特征求均值,得到该语谱片段对应的声纹特征。
[0032]可选的,所述声纹提取模型包括:第一特征提取模块、第二特征提取模块、特征融合部分、第三特征提取部分和特征处理模块,其中,所述第二特征提取模块包括多个级联的特征提取子模块;
[0033]所述基于声纹提取模型对该训练语谱片段提取声纹特征,得到该训练语谱片段对应的声纹特征,包括:
[0034]将该训练语谱片段输入所述第一特征提取模块进行特征提取;
[0035]将所述第一特征提取模块输出的特征输入所述第二特征提取模块进行特征提取,其中,所述第二特征提取模块中的第一个特征提取子模块的输入为所述第一特征提取模块输出的特征,其它特征提取子模块的输入为前一特征提取子模块输出的特征;
[0036]将所述第二特征提取模块中各特征提取子模块输出的特征输入所述特征融合模
块进行特征融合;
[0037]将所述特征融合模块输出的融合后特征输入所述第三特征提取模块进行特征提取;
[0038]将所述第三特征提取模块输出的特征输入所述特征处理模块进行处理,得到所述特征处理模块输出的该训练语谱片段对应的声纹特征,其中,所述特征处理模块对输入的特征中各帧的特征求均值。
[0039]一种声纹特征提取装置,包括:语谱片段获取模块、声纹特征提取模块和声纹特征确定模块;
[0040]所述语谱片段获取模块,用于获取目标语音数据的若干语谱片段;
[0041]所述声纹特征提取模块,用于基于预先训练得到的声纹提取模型对所述目标语音数据的若干语谱片段分别提取声纹特征,得到所述目标语音数据的若干语谱片段分别对应的声纹特征,其中,所述声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本,以所述训练样本包含的各训练语谱片段分别对应的真实身份标签为样本标签,以使基于声纹提取模型对所述训练样本包含的每个训练语谱片段提取的声纹特征预测的身份标签与对应的真实身份标签趋于一致为目标训练得到;
[0042]所述声纹特征确定模块,用于基于所述目标语音数据的若干语谱片段分别对应的声纹特征,确定所述目标语音数据对应的声纹特征。
[0043]一种声纹特征提取设备,包括:存储器和处理器;
[0044]所述存储器,用于存储程序;
[0045]所述处理器,用于执行所述程序,实现上述任一项所述的声纹特征提取方法的各个步骤。
[0046]一种可读存储介质,其上存储有计算机程序,所述计算机程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹特征提取方法,其特征在于,包括:获取目标语音数据的若干语谱片段;基于预先训练得到的声纹提取模型对所述目标语音数据的若干语谱片段分别提取声纹特征,得到所述目标语音数据的若干语谱片段分别对应的声纹特征,其中,所述声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本,以所述训练样本包含的各训练语谱片段分别对应的真实身份标签为样本标签,以使基于声纹提取模型对所述训练样本包含的每个训练语谱片段提取的声纹特征预测的身份标签与对应的真实身份标签趋于一致为目标训练得到;基于所述目标语音数据的若干语谱片段分别对应的声纹特征,确定所述目标语音数据对应的声纹特征。2.根据权利要求1所述的声纹特征提取方法,其特征在于,所述训练样本的获取过程包括:从预先构建的语谱片段集中获取若干语谱片段,其中,所述语谱片段集中包括多个时序未打乱的语谱片段;针对从所述语谱片段集中获取的每个语谱片段:随机生成该语谱片段对应的时序打乱概率;若该语谱片段对应的时序打乱概率大于设定概率阈值,则将该语谱片段的时序打乱,得到时序打乱后的语谱片段,作为训练语谱片段;若该语谱片段对应的时序打乱概率小于或等于设定概率阈值,则将该语谱片段作为训练语谱片段;由得到的各训练语谱片段组成训练样本。3.根据权利要求2所述的声纹特征提取方法,其特征在于,所述将该语谱片段的时序打乱,得到时序打乱后的语谱片段,包括:将该语谱片段切分为多个语谱子片段,其中,每个语谱子片段为连续多帧语音的语谱子片段;将所述多个语谱子片段随机打乱后组合成新的语谱片段,得到时序打乱后的语谱片段。4.根据权利要求1~3中任一项所述的声纹特征提取方法,其特征在于,所述声纹提取模型的训练过程包括:针对所述训练样本包含的每个训练语谱片段:基于声纹提取模型对该训练语谱片段提取声纹特征,得到该训练语谱片段对应的声纹特征;基于该训练语谱片段对应的声纹特征,预测该训练语谱片段对应的身份标签为各设定身份标签的概率;基于该训练语谱片段对应的身份标签为各设定身份标签的概率以及该训练语谱片段对应的真实身份标签,确定该训练语谱片段对应的预测损失;基于所述训练样本包含的各训练语谱片段分别对应的预测损失,对声纹提取模型进行参数更新。5.根据权利要求4所述的声纹特征提取方法,其特征在于,所述基于所述训练样本包含的各训练语谱片段分别对应的预测损失,对声纹提取模型进行参数更新,包括:
将所述训练样本包含的各训练语谱片段分别对应的预测损失融合,得到融合后损失;根据所述融合后损失,对声纹提取模型进行参数更新。6.根据权利要求4所述的声纹特征提取方法,其特征在于,所述基于声纹提取模型对该训练语谱片段提取声纹特征,得到该训练语谱片段对...

【专利技术属性】
技术研发人员:李晋高天方昕刘聪徐文渊陈艳姣
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1