一种声纹特征提取方法、装置、设备及存储介质制造方法及图纸

技术编号：38031193 阅读：10 留言：0更新日期：2023-06-30 10:57

本发明专利技术提供了一种声纹特征提取方法、装置、设备及存储介质，方法包括：获取目标语音数据的若干语谱片段；基于预先训练得到的声纹提取模型对若干语谱片段分别提取声纹特征，其中，声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本，以训练样本包含的各训练语谱片段分别对应的真实身份标签为样本标签，以使基于声纹提取模型对训练样本包含的每个训练语谱片段提取的声纹特征预测的身份标签与对应的真实身份标签趋于一致为目标训练得到；基于目标语音数据的若干语谱片段分别对应的声纹特征确定目标语音数据对应的声纹特征。本发明专利技术提供的声纹特征提取方法不易受语音时序的影响，可提取到较为精准鲁棒的声纹特征。较为精准鲁棒的声纹特征。较为精准鲁棒的声纹特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种声纹特征提取方法、装置、设备及存储介质

[0001]本专利技术涉及声纹识别
，尤其涉及一种声纹特征提取方法、装置、设备及存储介质。

技术介绍

[0002]声纹识别技术是生物认证领域中的关键技术之一。声纹识别技术又称说话人识别技术，其是利用说话人的语音对说话人进行身份认证。利用语音进行身份认证，不仅具有无需记忆、判决简单的特点，而且可以在用户不知情的情况下进行认证，具有较高的用户接受度，其广泛应用于金融、智能家居等领域。
[0003]声纹识别技术的关键在于声纹特征的提取，对于某些对认证准确度较高的领域，需要提取较为精准鲁棒的声纹特征。可以理解的是，若要获得较为精准鲁棒的声纹特征，则声纹提取方法不应受语音时序的干扰，即，对于一条语音数据，不管该语音数据的时序如何变化，针对该条语音数据提取的声纹特征应该基本保持一致。然而，目前尚不存在不受语音时序干扰的声纹提取方法。

技术实现思路

[0004]有鉴于此，本专利技术提供了一种声纹特征提取方法、装置、设备及存储介质，该声纹特征提取方法不受语音时序的干扰，其技术方案如下：
[0005]一种声纹特征提取方法，包括：
[0006]获取目标语音数据的若干语谱片段；
[0007]基于预先训练得到的声纹提取模型对所述目标语音数据的若干语谱片段分别提取声纹特征，得到所述目标语音数据的若干语谱片段分别对应的声纹特征，其中，所述声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本，以所述训练样本包含的各训练语谱...

【技术保护点】

【技术特征摘要】
1.一种声纹特征提取方法，其特征在于，包括：获取目标语音数据的若干语谱片段；基于预先训练得到的声纹提取模型对所述目标语音数据的若干语谱片段分别提取声纹特征，得到所述目标语音数据的若干语谱片段分别对应的声纹特征，其中，所述声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本，以所述训练样本包含的各训练语谱片段分别对应的真实身份标签为样本标签，以使基于声纹提取模型对所述训练样本包含的每个训练语谱片段提取的声纹特征预测的身份标签与对应的真实身份标签趋于一致为目标训练得到；基于所述目标语音数据的若干语谱片段分别对应的声纹特征，确定所述目标语音数据对应的声纹特征。2.根据权利要求1所述的声纹特征提取方法，其特征在于，所述训练样本的获取过程包括：从预先构建的语谱片段集中获取若干语谱片段，其中，所述语谱片段集中包括多个时序未打乱的语谱片段；针对从所述语谱片段集中获取的每个语谱片段：随机生成该语谱片段对应的时序打乱概率；若该语谱片段对应的时序打乱概率大于设定概率阈值，则将该语谱片段的时序打乱，得到时序打乱后的语谱片段，作为训练语谱片段；若该语谱片段对应的时序打乱概率小于或等于设定概率阈值，则将该语谱片段作为训练语谱片段；由得到的各训练语谱片段组成训练样本。3.根据权利要求2所述的声纹特征提取方法，其特征在于，所述将该语谱片段的时序打乱，得到时序打乱后的语谱片段，包括：将该语谱片段切分为多个语谱子片段，其中，每个语谱子片段为连续多帧语音的语谱子片段；将所述多个语谱子片段随机打乱后组合成新的语谱片段，得到时序打乱后的语谱片段。4.根据权利要求1～3中任一项所述的声纹特征提取方法，其特征在于，所述声纹提取模型的训练过程包括：针对所述训练样本包含的每个训练语谱片段：基于声纹提取模型对该训练语谱片段提取声纹特征，得到该训练语谱片段对应的声纹特征；基于该训练语谱片段对应的声纹特征，预测该训练语谱片段对应的身份标签为各设定身份标签的概率；基于该训练语谱片段对应的身份标签为各设定身份标签的概率以及该训练语谱片段对应的真实身份标签，确定该训练语谱片段对应的预测损失；基于所述训练样本包含的各训练语谱片段分别对应的预测损失，对声纹提取模型进行参数更新。5.根据权利要求4所述的声纹特征提取方法，其特征在于，所述基于所述训练样本包含的各训练语谱片段分别对应的预测损失，对声纹提取模型进行参数更新，包括：
将所述训练样本包含的各训练语谱片段分别对应的预测损失融合，得到融合后损失；根据所述融合后损失，对声纹提取模型进行参数更新。6.根据权利要求4所述的声纹特征提取方法，其特征在于，所述基于声纹提取模型对该训练语谱片段提取声纹特征，得到该训练语谱片段对...

【专利技术属性】
技术研发人员：李晋，高天，方昕，刘聪，徐文渊，陈艳姣，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人