一种歌词时间戳生成方法、装置、设备及介质制造方法及图纸

技术编号:32278131 阅读:14 留言:0更新日期:2022-02-12 19:44
本申请公开了一种歌词时间戳生成方法、装置、设备及介质,包括:获取同一首歌曲对应的多个目标干声数据;获取每个所述目标干声数据对应的目标声学特征;基于所述目标声学特征确定每个目标干声数据中每一句歌词的开始时间和结束时间,得到第一开始时间和第一结束时间;利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间,得到第二开始时间和第二结束时间;基于多个目标干声数据对应的第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。这样,最终确定出的歌词时间戳融合了基于多个目标干声数据的声学特征确定的时间以及MFA模型确定确定的时间,能够提升歌词时间戳的准确度。时间戳的准确度。时间戳的准确度。

【技术实现步骤摘要】
一种歌词时间戳生成方法、装置、设备及介质


[0001]本申请涉及语音处理
,特别涉及一种歌词时间戳生成方法、装置、设备及介质。

技术介绍

[0002]当前,曲库中的歌词文件有两种生成方法,为人工精细标注和基于原唱分离干声自动生成。前者的制作需要消耗大量的人力成本和时间成本,后者的准确性并不高,主要因为原唱分离干声本身就存在很多频谱不完整以及吞字的情况,在质量不佳的分离干声上进行强制对齐,那么对齐结果的精确度也是难以保证的。综上,在实现本专利技术的过程中,专利技术人至少发现现有技术中存在生成的歌词时间戳准确度不高的问题。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供一种歌词时间戳生成方法、装置、设备及介质,能够提升歌词时间戳的准确度。其具体方案如下:
[0004]第一方面,本申请公开了一种歌词时间戳生成方法,包括:
[0005]获取同一首歌曲对应的多个目标干声数据;
[0006]获取每个所述目标干声数据对应的目标声学特征;
[0007]基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间,得到第一开始时间和第一结束时间;
[0008]利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间,得到第二开始时间和第二结束时间;
[0009]基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。
[0010]可选的,所述获取同一首歌曲对应的多个目标干声数据,包括:
[0011]获取同一首歌曲对应的多个干声数据;
[0012]判断每个所述干声数据是否满足预设音准标准和/或预设音质标准;
[0013]若满足,则将相应的干声数据确定为目标干声数据。
[0014]可选的,判断每个所述干声数据是否满足预设音准标准,包括:
[0015]确定每个所述干声数据的基频与所述歌曲的旋律之间的偏差;
[0016]根据所述偏差确定所述干声数据的音准得分;
[0017]判断所述音准得分是否大于第一预设阈值,若是,则判定相应的所述干声数据满足所述预设音准标准,否则,判定相应的所述干声数据不满足所述预设音准标准。
[0018]可选的,判断每个所述干声数据是否满足预设音质标准,包括:
[0019]确定每个所述干声数据的谐波能量和非谐波能量之间的比值;
[0020]判断所述比值是否大于第二预设阈值,若是,则判定相应的所述干声数据满足所述预设音质标准,否则,判定相应的所述干声数据不满足所述预设音质标准。
[0021]可选的,所述获取每个所述目标干声数据对应的目标声学特征,包括:
[0022]利用低通滤波器对每个所述目标干声数据进行过滤,得到每个所述目标干声数据在预设频率以下的信号;
[0023]确定每个所述信号的能量值;
[0024]相应的,所述基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间,得到第一开始时间和第一结束时间,包括:
[0025]基于所述能量值从所述目标干声数据中确定出包含语音的干声片段;
[0026]将所述干声片段的起始时间确定为相应的一句歌词的起始时间,将所述干声片段的结束时间确定为相应的一句歌词的结束时间,得到第一开始时间和第一结束时间。
[0027]可选的,所述利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间,得到第二开始时间和第二结束时间,包括:
[0028]将每个所述目标干声数据的全部所述干声片段输入至目标MFA模型;
[0029]获取所述目标MFA模型输出的每个所述干声片段中每个字的开始时间和结束时间,得到第二开始时间和第二结束时间。
[0030]可选的,还包括:
[0031]获取干声训练数据集;其中,所述干声训练数据集包括整首歌曲对应的干声训练数据;
[0032]从所述干声训练数据中切分出干声片段数据,得到干声片段数据集;
[0033]利用所述干声片段数据集对MFA模型进行训练,直至所述MFA模型收敛,则将当前的所述MFA模型确定为所述目标MFA模型。
[0034]可选的,所述基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳,包括:
[0035]对于任一句歌词,确定多个所述目标干声数据中该句歌词对应的所述第一开始时间的中位数,得到第一中位数,以及确定多个所述目标干声数据中该句歌词对应的所述第一结束时间的中位数,得到第二中位数;
[0036]将所述第一中位数确定为该句歌词中第一个字的时间戳,以及将所述第二中位数确定为该句歌词中最后一个字的时间戳;
[0037]确定多个所述目标干声数据中该句歌词中目标字对应的第二开始时间的中位数、第二结束时间的中位数,得到所述目标字的时间戳;
[0038]其中,所述目标字为该句歌词中的第一个字以及最后一个字之外的字。
[0039]第三方面,本申请公开了一种电子设备,包括:
[0040]存储器,用于保存计算机程序;
[0041]处理器,用于执行所述计算机程序,以实现前述的歌词时间戳生成方法。
[0042]第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的歌词时间戳生成方法。
[0043]可见,本申请先获取同一首歌曲对应的多个目标干声数据,之后获取每个所述目标干声数据对应的目标声学特征,然后基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间,得到第一开始时间和第一结束时间,并且利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间,得到第二开始时间
和第二结束时间,最后基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。也即,本申请分别基于同一首歌曲对应的多个目标干声数据的声学特征确定出目标干声数据中每一句歌词的开始时间和结束时间,以及利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间,最后利用两种方式确定出的时间信息确定最终的歌曲的歌词时间戳,这样,最终确定出的歌词时间戳融合了基于多个目标干声数据的声学特征确定的时间以及MFA模型确定确定的时间,能够提升歌词时间戳的准确度。
附图说明
[0044]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0045]图1为本申请提供的歌词时间戳生成方案所适用的系统框架示意图;
[0046]图2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌词时间戳生成方法,其特征在于,包括:获取同一首歌曲对应的多个目标干声数据;获取每个所述目标干声数据对应的目标声学特征;基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间,得到第一开始时间和第一结束时间;利用目标MFA模型确定每个所述目标干声数据中每个字的开始时间和结束时间,得到第二开始时间和第二结束时间;基于多个所述目标干声数据对应的所述第一开始时间、所述第一结束时间、所述第二开始时间、所述第二结束时间确定所述歌曲的歌词时间戳。2.根据权利要求1所述的歌词时间戳生成方法,其特征在于,所述获取同一首歌曲对应的多个目标干声数据,包括:获取同一首歌曲对应的多个干声数据;判断每个所述干声数据是否满足预设音准标准和/或预设音质标准;若满足,则将相应的干声数据确定为目标干声数据。3.根据权利要求2所述的歌词时间戳生成方法,其特征在于,判断每个所述干声数据是否满足预设音准标准,包括:确定每个所述干声数据的基频与所述歌曲的旋律之间的偏差;根据所述偏差确定所述干声数据的音准得分;判断所述音准得分是否大于第一预设阈值,若是,则判定相应的所述干声数据满足所述预设音准标准,否则,判定相应的所述干声数据不满足所述预设音准标准。4.根据权利要求2所述的歌词时间戳生成方法,其特征在于,判断每个所述干声数据是否满足预设音质标准,包括:确定每个所述干声数据的谐波能量和非谐波能量之间的比值;判断所述比值是否大于第二预设阈值,若是,则判定相应的所述干声数据满足所述预设音质标准,否则,判定相应的所述干声数据不满足所述预设音质标准。5.根据权利要求1所述的歌词时间戳生成方法,其特征在于,所述获取每个所述目标干声数据对应的目标声学特征,包括:利用低通滤波器对每个所述目标干声数据进行过滤,得到每个所述目标干声数据在预设频率以下的信号;确定每个所述信号的能量值;相应的,所述基于所述目标声学特征确定每个所述目标干声数据中每一句歌词的开始时间和结束时间,得到第一开始时间和第一结束时间,包括:基于所述能量值从所述目标干声数据中确定出包含语音的干声片段;将所述干声片段的起始时间确定为相应的一句歌词的起始时间,将所述干声片段的结束时间确定为相应的一句歌词的结束时间,得到...

【专利技术属性】
技术研发人员:庄晓滨
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1