一种过滤声纹数据集中噪声标签的深度学习方法技术

技术编号：43844950 阅读：12 留言：0更新日期：2024-12-31 18:39

本发明专利技术涉及一种过滤声纹数据集中噪声标签的深度学习方法，旨在提高声纹识别模型对于噪声标签数据的鲁棒性和准确性。该方法采用两阶段训练方法，第一阶段为热身阶段，利用所有数据对声纹识别模型训练少数几个训练周期，使模型获得一定的辨识说话人的能力。在此过程中，通过将样本标签与模型top‑k预测进行匹配，标记出可靠的样本标签。第二阶段首先根据样本是否带有可靠的标签将数据集分为可靠的数据集合和不可靠的数据集合。对于可靠的数据集合，采用这些数据训练声纹模型；对于不可靠的数据集合，采用强数据增广和弱数据增广对每个样本生成两个视图，然后计算一致性正则化损失，并进行反向传播。同时，对于不可靠数据集中的每个样本，将其输入网络进行预测并判断样本标签和top‑k预测值是否匹配，若匹配则将该样本从不可靠数据集合移入到可靠的数据集合。通过反复迭代训练，最终得到一个训练好的声纹识别模型和经过可靠性筛选的数据集合。本发明专利技术的方法能够提高声纹识别模型对于噪声标签数据的鲁棒性和准确性，具有广泛的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于声纹识别领域，主要涉及了一种过滤声纹数据集中噪声标签的深度学习方法。

技术介绍

1、声纹识别是一种基于语音信号进行身份识别的技术。它利用说话者的声音特征来识别他们的身份，就像指纹识别和面部识别一样。声纹识别技术在安全领域、金融领域和司法领域等方面具有广泛的应用。

2、在声纹识别中，数据集的质量对于模型性能至关重要。然而，在现实应用中，声纹数据集中通常存在噪声和不良标签的问题，这些问题可能会影响声纹识别的准确性和可靠性。传统方法通常依赖于手动过滤或人工清洗数据集，以去除标签不良或噪声的样本。这种方法需要大量的时间和人力成本，并且可能会削弱数据集的多样性和代表性。因此，需要一种自动化的方法来解决这个问题。然而，传统的深度学习方法在处理带有噪声和不良标签的声纹数据集时通常会出现过拟合或欠拟合的问题，导致模型的准确性下降。

3、为了解决这个问题，本专利技术提出了一种新的深度学习方法，通过两阶段的学习方法过滤噪声标签，同时利用噪声标签数据进行一致性正则化进一步提升性能。我们的方法可以自动区分出噪声标签和非噪声标签，从而避免传统方法中过拟合噪声数据，提取出错误的声纹特征的问题。本专利技术的目的是为了当声纹数据集中存在噪声标签的情况下也能够通过我们的方法训练出性能优异的声纹识别模型。相对于传统方法，我们的方法不需要手动过滤或人工清洗数据集，大大降低了时间和人力成本，同时提高了声纹识别的准确性和可靠性。

技术实现思路

1、本专利技术提供了一种过滤声纹数据集中噪

2、在本专利技术中，我们提出了一个两阶段训练方法。在第一阶段的热身阶段中，利用完整声纹数据集合d对声纹识别模型进行训练，目的是为了让模型获得一定的辨识说话人的能力。在这个阶段的训练过程中，对于每个样本，我们将样本标签与模型预测进行匹配，如果样本标签包含在预测值的前k个结果中，则将该样本标注为可靠的标签。

3、在第二阶段半监督学习过程中，根据是否有可靠的标签将数据集分为可靠的数据集合d1和不可靠的数据集合d2。对于可靠的数据集合d1，我们利用这些数据进行声纹模型训练，提高模型的准确率。对于不可靠的数据集合d2，我们对其中的每个样本分别进行强数据增广和弱数据增广得到两个视图。然后将这两个视图输入网络得到两个预测值，对这两个预测值计算一致性正则化损失，然后进行反向传播。这样可以提高模型对于声纹识别模型的鲁棒性。此外，对于不可靠数据集d2中的每个样本，我们还要将其经过网络得到预测，然后判断样本标签和top-k预测值是否匹配，若匹配则将该样本从不可靠数据集合d2移入到可靠的数据集合d1中。通过这一筛选过程，可以进一步提高模型对于可靠标签的准确率和鲁棒性。然后重复第二阶段这一过程直至训练结束。

4、最终，通过本专利技术进行声纹模型训练将会得到一个声纹识别模型和经过筛选的可靠和不可靠数据集合。该方法可以有效地提高声纹识别模型对于噪声标签的鲁棒性，提高模型的准确率和可靠性，适用于各种说话人识别场景，具有广泛的应用前景。

本文档来自技高网...

【技术保护点】

1.一种过滤声纹数据集中噪声标签的深度学习方法，第一阶段为热身阶段，包括以下步骤：

2.第二阶段为半监督学习阶段，包括以下步骤：

3.根据权利要求1所述的对噪声标签鲁棒的说话人模型训练方法，其中第一阶段的训练过程中，样本标签与模型预测进行匹配的方法为：将样本标签与模型预测的top-k预测值进行匹配，如果样本标签在其中，则将该样本标注为可靠的标签。

4.根据权利要求1所述的对噪声标签鲁棒的说话人模型训练方法，其中第二阶段的强数据增广的方法为：对原始语音信号进行较大的变换，生成新的、与原始数据差异较大的数据，例如噪声注入、频谱扰动、混响模拟等方法。

5.根据权利要求1所述的对噪声标签鲁棒的说话人模型训练方法，其中第二阶段的弱数据增广的方法为：对每个语音信号进行轻微变换，生成新的、与原始数据差异小的数据，例如音量调整、随机截断等方法。

6.根据权利要求1所述的对噪声标签鲁棒的说话人模型训练方法，其中第二阶段的一致性正则化损失可以通过L1/L2范数、余弦相似度或KL散度得到，并进行反向传播。

7.根据权利要求1所述的

8.根据权利要求1所述的对噪声标签鲁棒的说话人模型训练方法，其中第二阶段的强数据增广和弱数据增广的方式和次数可以根据具体情况进行调整。

9.根据权利要求1所述的对噪声标签鲁棒的说话人模型训练方法，其中声纹识别模型采用深度学习模型，例如TDNN、ResNet、ECAPA-TDNN、Conformer等。

10.一种基于权利要求1所述的对噪声标签鲁棒的说话人模型训练方法的声纹识别系统，包括声纹识别模型和训练数据集合，其中训练数据集合经过筛选，包括可靠的数据集合和不可靠的数据集合。

...

【技术特征摘要】

1.一种过滤声纹数据集中噪声标签的深度学习方法，第一阶段为热身阶段，包括以下步骤：

2.第二阶段为半监督学习阶段，包括以下步骤：

6.根据权利要求1所述的对噪声标签鲁棒的说话人模型训练方法，其中第...

【专利技术属性】
技术研发人员：何亮，方志华，李琳，
申请(专利权)人：新疆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人