一种基于声纹模型的声纹数据的标注方法技术

技术编号:32822324 阅读:13 留言:0更新日期:2022-03-26 20:20
本申请公开了一种基于声纹模型的声纹数据的标注方法,该方法可以通过已标注有身份信息的多个第一声纹数据对初始模型进行训练得到声纹识别模型,基于声纹识别模型对多个未标注有身份信息的第二声纹数据进行声纹识别得到声纹特征,基于每个第二声纹数据对应的声纹特征,获取多个第二声纹数据中存在的多组声纹数据,以及多个第二声纹数据中除多组声纹数据以外的第二声纹数据作为其他声纹数据,将多组声纹数据中每组声纹数据对应的身份信息标注为不同的身份信息,以及将其他声纹数据中每个声纹数据标注为不同的身份信息。该方法通过半监督的方式既可以准确高效地对声纹数据标注身份信息,还可以提高声纹数据的标注的准确性。性。性。

【技术实现步骤摘要】
一种基于声纹模型的声纹数据的标注方法


[0001]本申请涉及音频识别领域,更具体地,涉及一种基于声纹模型的声纹数据的标注方法。

技术介绍

[0002]深度学习是当今人工智能领域的核心技术,基于深度学习的技术的应用和推广,其中,基于深度学习的声纹识别正是其中的应用之一。如今,基于深度学习的声纹识别得到了飞速的发展和广泛的应用,在基于深度学习的声纹识别中,对声纹识别模型的训练来说,海量的数据和正确的标签尤为重要。相关技术中,通常通过人工标注的方式对音频数据进行标注,但由于待标注的音频数据量十分庞大,但人工标注的方法效率低下。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种基于声纹模型的声纹数据的标注方法。
[0004]本申请实施例提供了一种基于声纹模型的声纹数据的标注方法,所述方法包括:获取多个声纹数据,所述多个声纹数据包括已标注有身份信息的多个第一声纹数据,以及未标注有身份信息的多个第二声纹数据;基于所述第一声纹数据,对初始模型进行训练,得到初始声纹识别模型;基于所述初始声纹识别模型对所述多个第二声纹数据进行声纹识别,得到每个第二声纹数据对应的声纹特征;基于所述每个第二声纹数据对应的声纹特征,获取所述多个第二声纹数据中存在的多组声纹数据,以及所述多个第二声纹数据中除所述多组声纹数据以外的第二声纹数据作为其他声纹数据,所述多组声纹数据的每组声纹数据中的第二声纹数据属于同一用户,所述每组声纹数据中包括至少两个第二声纹数据;将所述多组声纹数据中每组声纹数据对应的身份信息标注为不同的身份信息,以及将所述其他声纹数据中每个声纹数据标注为不同的身份信息,其中,所述多组声纹数据中同一组声纹数据中的第二声纹数据对应的身份信息相同,所述每组声纹数据对应的身份信息与所述其他声纹数据中每个声纹数据对应的身份信息互不相同。
[0005]本申请提供的方案,通过将已标注有身份信息的多个第一声纹数据对初始模型进行训练得到初始声纹识别模型,并通过该模型对未标注有身份信息的多个第二声纹数据进行声纹识别,获取相对应的声纹特征,并根据声纹特征对所有第二声纹数据进行分组,得到多组声纹数据以及其他声纹数据,进而将多组声纹数据以及其他声纹数据标注为不同的身份信息,不仅提高了数据标注的效率;而且,利用人工标注的声纹数据训练初始的声纹识别模型对未标注的声纹数据进行标注,还可以提高数据标注的准确率。
附图说明
[0006]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附
图。
[0007]图1示出了本申请一个实施例提供的声纹数据的标注方法的流程示意图。
[0008]图2示出了本申请另一个实施例提供的声纹数据的标注方法的流程示意图。
[0009]图3示出了本申请另一个实施例提供的声纹数据的标注方法中步骤S250的流程示意图。
[0010]图4示出了本申请又一个实施例提供的声纹数据的标注方法的再一个流程示意图。
[0011]图5示出了本申请再一个实施例提供的声纹数据的标注方法的流程示意图。
[0012]图6示出了本申请又另一个实施例提供的声纹数据的标注方法的流程示意图。
[0013]图7示出了本申请又再一个实施例提供的声纹数据的标注方法的流程示意图。
[0014]图8示出了本申请提供的声纹数据的标注装置的一种结构框图。
[0015]图9示出了本申请提供的计算机设备的一种结构框图。
[0016]图10示出了本申请提供的计算机可读存储介质的一种结构框图。
具体实施方式
[0017]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0018]当前,随着深度学习技术的应用和推广,人工智能领域也有了飞速的发展,如今深度学习的技术越来越受到重视,并被应用于各个领域。比如在声纹识别领域,就可以通过深度学习的方式训练神经网络模型,来对音频数据提取声纹特征,从而达到声纹识别的目的。
[0019]在基于深度学习的声纹识别技术中,要通过神经网络模型对声纹数据进行识别,首先需要提高神经网络模型的精度,这就需要通过大量的具有正确标签的音频数据通过深度学习对模型进行训练。想要通过这些音频数据训练神经网络模型,一种方式可以通过人工标注对音频数据进行正确的标注,这种方式准确率高但往往效率低下;另一种方式可以通过模型自动标注,这种方式速度快但准确率低。
[0020]针对上述问题,专利技术人提出了本申请实施例提供的声纹数据的标注方法、装置、计算机设备以及存储介质,通过半监督的方式训练模型并对声纹数据进行身份标注,能够兼顾数据标注的效率与准确性。其中,具体的音画同步方法在后续的实施例中进行详细的说明。
[0021]下面将结合附图具体描述本申请实施例提供的基于声纹模型的声纹数据的标注方法。
[0022]请参阅图1,图1示出了本申请一个实施例提供的基于声纹模型的声纹数据的标注方法的流程示意图,下面将针对图1所示流程进行详细阐述,所述基于声纹模型的声纹数据的标注方法具体可以包括以下步骤:
[0023]步骤S110:获取多个声纹数据,所述多个声纹数据包括已标注有身份信息的多个第一声纹数据,以及未标注有身份信息的多个第二声纹数据。
[0024]在本申请实施例中,在基于深度学习训练得到声纹识别模型时,可以先获取多个声纹数据,以对声纹数据标注对应的身份信息后,得到标注后的声纹数据,从而可以利用标注后的声纹数据进行模型训练。这些声纹数据既可以包括多个已标注有身份信息的声纹数
据,将其作为第一声纹数据,用以对声纹识别模型进行训练,还可以包括多个未标注有身份信息的声纹数据,将其作为第二声纹数据,用以通过声纹识别模型对其进行身份信息的标注。通过这种包含第一声纹数据以及第二声纹数据的多个声纹数据,可以实现半监督的声纹数据的标注。其中,已标注的有身份信息的多个第一声纹数据可以是在获取到原始的多个声纹数据后,由用户对其中部分声纹数据进行人工标注得到的。
[0025]在一些实施方式中,声纹数据的获取来源可以是音视频应用软件中获取的音频数据,也可以是用户通过移动终端自主上传的音频数据,还可以是通过音频采集设备主动获取的音频数据,还可以是从服务器获取的音频数据,在此不做限定。这些声纹数据可以包含有能够表征数据主体语音个性特点的参数,如频谱、音高以及声调等各个层次的信息。
[0026]在一些实施方式中,声纹数据的标注的身份信息可以是产生该声纹数据的用户(即讲话者)对应的身份标识号(Identity document,ID),也可以是用于代表某个人身份的标签代号等。
[0027]步骤S120:基于所述第一声纹数据,对初始模型进行训练,得到初始声纹识别模型。
[0028]在本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声纹模型的声纹数据的标注方法,其特征在于,所述方法包括:获取多个声纹数据,所述多个声纹数据包括已标注有身份信息的多个第一声纹数据,以及未标注有身份信息的多个第二声纹数据;基于所述第一声纹数据,对初始模型进行训练,得到初始声纹识别模型;基于所述初始声纹识别模型对所述多个第二声纹数据进行声纹识别,得到每个第二声纹数据对应的声纹特征;基于所述每个第二声纹数据对应的声纹特征,获取所述多个第二声纹数据中存在的多组声纹数据,以及所述多个第二声纹数据中除所述多组声纹数据以外的第二声纹数据作为其他声纹数据,所述多组声纹数据的每组声纹数据中的第二声纹数据属于同一用户,所述每组声纹数据中包括至少两个第二声纹数据;将所述多组声纹数据中每组声纹数据对应的身份信息标注为不同的身份信息,以及将所述其他声纹数据中每个声纹数据标注为不同的身份信息,其中,所述多组声纹数据中同一组声纹数据中的第二声纹数据对应的身份信息相同,所述每组声纹数据对应的身份信息与所述其他声纹数据中每个声纹数据对应的身份信息互不相同。2.根据权利要求1所述的方法,其特征在于,所述基于所述每个第二声纹数据对应的声纹特征,获取所述多个第二声纹数据中存在的多组声纹数据,包括:基于所述每个第二声纹数据对应的声纹特征,获取所述多个第二声纹数据中每两个第二声纹数据的相似度;基于所述多个第二声纹数据中每两个第二声纹数据的相似度,从所述多个第二声纹数据中获取属于同一用户的第二声纹数据,并将属于同一用户的第二声纹数据作为一组声纹数据,得到多组声纹数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述多个第二声纹数据中每两个第二声纹数据的相似度,从所述多个第二声纹数据中获取属于同一用户的第二声纹数据,包括:判断所述每两个第二声纹数据的相似度是否大于预设阈值;若任意两个目标声纹数据的相似度大于所述预设阈值,则将所述两个目标声纹数据确定为属于同一用户的第二声纹数据,所述目标声纹数据为所述多个第二声纹数据中的任一声纹数据。4.根据权利要求3所述的方法,其特征在于,在所述基于所述多个第二声纹数据中每两个第二声纹数据的相似度,从所述多个第二声纹数据中获取属于同一用户的第二声纹数据,并将属于同一用户的第二声纹数据作为一组声纹数据,得到多组声纹数据之后,所述方法还包括:从所述多组声纹数据中随机抽取预设组数的声纹数据;获取用户对所述预设组数的声纹数据进行检验的检验结果,所述检验结果用于表征每组声纹数据中的第二声纹数据是否属于同一用户以及不同组声纹数据中的第二声纹数据是否不属于同一用户;根据所述检验结果,调整所述预设阈值;基于调整后的所述预设阈值,对所述多组声纹数据以及所述其他声纹数据进行更新。5.根据权利要求...

【专利技术属性】
技术研发人员:吴广财赖蔚蔚郑颖龙叶杭周昉昉陈颖璇郑杰生林嘉鑫李凯曾朝霖许鑫禹刘铭传黄宏恩
申请(专利权)人:广东电力信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1