歌曲生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38640846 阅读:12 留言:0更新日期:2023-08-31 18:34
本申请提出一种歌曲生成方法、装置、电子设备及存储介质,方法包括:对源歌曲的声学特征进行编码,得到源歌曲编码信息,源歌曲编码信息包括源歌曲的发音内容信息、源歌手的音色信息以及包括情感信息、韵律信息、语气信息中的至少一种的歌唱细节信息;基于源歌手的音色特征,从源歌曲编码信息中剔除源歌手的音色信息,得到第一歌曲编码信息;将第一歌曲编码信息与目标歌手的音色特征融合,得到第二歌曲编码信息;通过对源歌曲的基频信息以及第二歌曲编码信息解码,生成目标歌曲。本方案将真人演唱的源歌曲中的音色替换为目标歌手的音色,保留源歌曲中的情感、韵律或语气等细节,从而能够提高歌曲制作的拟人度,提高制作出的歌曲质量和效果。量和效果。量和效果。

【技术实现步骤摘要】
歌曲生成方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种歌曲生成方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,伴随着数字人工智能技术的升级演进以及元宇宙生态的兴起发展,虚拟人技术不断成熟,核心市场规模持续扩大,越来越多的虚拟人走入大众视野,在电商、传媒、金融、文旅、教育、泛娱乐等行业创造新的价值。虚拟偶像歌手作为其中的一个大类,相较于真人偶像歌手,虚拟歌手应用场景更加广泛,具有更加广阔的发展空间和潜在商业价值。对于虚拟偶像歌手的打造,虚拟偶像歌手的歌曲制作尤为重要。
[0003]现有技术中,通常采用歌唱合成技术,利用声优预先录制的歌声数据库中的声源,经过一定的算法设计,合成可听的歌曲,但是采用歌唱合成技术制作的合成歌曲存在比较明显的机械感、缺乏真人歌曲中的细腻情感表达及细致演绎,例如咬字、吐息等处理,导致制作出的歌曲质量和效果较低。

技术实现思路

[0004]基于上述现有技术的缺陷和不足,本申请提出一种歌曲生成方法、装置、电子设备及存储介质,能够提高制作出的歌曲质量和效果。
[0005]本申请提出的技术方案具体如下:
[0006]根据本申请实施例的第一方面,提供了一种歌曲生成方法,包括:
[0007]对源歌曲的声学特征进行编码,得到源歌曲编码信息,所述源歌曲编码信息包括源歌曲的发音内容信息、源歌手的音色信息以及歌唱细节信息,所述歌唱细节信息包括情感信息、韵律信息、语气信息中的至少一种;
[0008]基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手的音色信息,得到第一歌曲编码信息;
[0009]将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息;
[0010]通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲。
[0011]可选的,所述对源歌曲的声学特征进行编码,得到源歌曲编码信息;基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手音色信息,得到第一歌曲编码信息,将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息,以及,通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲,包括:
[0012]通过预先训练的歌曲转换模型,对源歌曲的声学特征进行编码,得到源歌曲编码信息,基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手音色信息,得
到第一歌曲编码信息,将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息,以及,通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲。
[0013]可选的,所述歌曲转换模型,包括:
[0014]编码网络,用于对源歌曲的声学特征进行编码,得到源歌曲编码信息;
[0015]可逆概率分布模型,用于基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手音色信息,得到第一歌曲编码信息,以及,将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息;
[0016]解码网络,用于通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲。
[0017]可选的,所述歌曲转换模型,还包括:
[0018]音色编码网络,用于通过对歌手语音的声学特征进行编码,得到歌手的音色特征。
[0019]可选的,所述歌曲转换模型的训练过程以最小化第一损失函数和第二损失函数的和为目标,所述第一损失函数基于所述歌曲转换模型利用第一编码信息恢复样本源歌曲的结果与样本源歌曲的差异而确定,所述第二损失函数基于第一编码信息与第二编码信息之间的差异而确定;
[0020]所述第一编码信息由所述歌曲转换模型对样本源歌曲的声学特征进行编码得到,所述第二编码信息由所述歌曲转换模型将第三编码信息与样本源歌曲对应的源歌手的音色信息融合而得到,所述第三编码信息由预设的先验编码网络对所述样本源歌曲对应的与说话人音色无关的特征进行编码得到。
[0021]可选的,所述歌曲转换模型包括编码网络、可逆概率分布模型、解码网络和音色编码网络;
[0022]对所述歌曲转换模型的训练过程,包括:
[0023]通过所述编码网络对样本源歌曲的声学特征进行编码处理,得到所述样本源歌曲对应的第一概率分布,以及,通过所述音色编码网络对样本源歌曲的声学特征进行编码处理,得到源歌手的音色特征;
[0024]将所述样本源歌曲对应的与说话人音色无关的特征,输入预设的先验编码网络,得到所述样本源歌曲对应的第三概率分布;
[0025]将所述第三概率分布以及所述源歌手的音色特征,输入可逆概率分布模型,以使所述可逆概率分布模型将所述第三概率分布融合所述源歌手的音色信息,得到所述样本源歌曲对应的第二概率分布,以及,将所述第一概率分布和所述样本源歌曲的基频,输入所述解码网络,得到解码歌曲;
[0026]通过对比所述解码歌曲和所述样本源歌曲,确定第一损失函数,以及,通过对比所述第一概率分布和所述第二概率分布,确定第二损失函数;
[0027]以最小化所述第一损失函数和所述第二损失函数的和为目标,对所述歌曲转换模型的模型参数进行调整。
[0028]可选的,所述源歌曲的基频信息,包括标准基频,以及与所述标准基频对应的转换基频,其中,所述标准基频是从所述源歌曲中提取的基频,所述转换基频通过对所述标准基频进行调域转换得到;
[0029]所述通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲,包括:
[0030]对应所述源歌曲的基频信息中的每一种基频,分别将该基频与所述第二歌曲编码信息进行解码,得到与所述源歌曲的基频信息中的每一种基频对应的解码歌曲;
[0031]从各个解码歌曲中,选出目标歌曲。
[0032]可选的,所述目标歌手的音色特征,包括虚拟歌手的音色特征,所述虚拟歌手的音色特征通过对不同音色特点的真人歌手的音色特征进行融合得到。
[0033]可选的,所述虚拟歌手的音色特征的获取过程,包括:
[0034]确定虚拟歌手的至少一种意向音色特点;
[0035]分别获取与每一种意向音色特点相匹配的真人歌手的音色特征;
[0036]按照预设权重,对与每一种意向音色特点相匹配的真人歌手的音色特征进行加权融合,得到虚拟歌手的音色特征。
[0037]可选的,所述预设权重包括多组不同的权重组合;
[0038]所述按照预设权重,对与每一种意向音色特点相匹配的真人歌手的音色特征进行加权融合,得到虚拟歌手的音色特征,包括:
[0039]分别按照每一组权重组合,对与每一种意向音色特点相匹配的真人歌手的音色特征进行加权融合,得到与每一组权重组合对应的候选融合音色特征;
[0040]基于每一种候选融合音色特征,对待转换歌曲进行音色转换,并基于歌曲转换结果,从所述候选融合音色特征中选出目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种歌曲生成方法,其特征在于,包括:对源歌曲的声学特征进行编码,得到源歌曲编码信息,所述源歌曲编码信息包括源歌曲的发音内容信息、源歌手的音色信息以及歌唱细节信息,所述歌唱细节信息包括情感信息、韵律信息、语气信息中的至少一种;基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手的音色信息,得到第一歌曲编码信息;将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息;通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲。2.根据权利要求1所述的方法,其特征在于,所述对源歌曲的声学特征进行编码,得到源歌曲编码信息;基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手音色信息,得到第一歌曲编码信息,将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息,以及,通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲,包括:通过预先训练的歌曲转换模型,对源歌曲的声学特征进行编码,得到源歌曲编码信息,基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手音色信息,得到第一歌曲编码信息,将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息,以及,通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲。3.根据权利要求2所述的方法,其特征在于,所述歌曲转换模型,包括:编码网络,用于对源歌曲的声学特征进行编码,得到源歌曲编码信息;可逆概率分布模型,用于基于所述源歌手的音色特征,从所述源歌曲编码信息中剔除所述源歌手音色信息,得到第一歌曲编码信息,以及,将所述第一歌曲编码信息与目标歌手的音色特征进行融合,得到第二歌曲编码信息;解码网络,用于通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲。4.根据权利要求3所述的方法,其特征在于,所述歌曲转换模型,还包括:音色编码网络,用于通过对歌手语音的声学特征进行编码,得到歌手的音色特征。5.根据权利要求2至4中任意一项所述的方法,其特征在于,所述歌曲转换模型的训练过程以最小化第一损失函数和第二损失函数的和为目标,所述第一损失函数基于所述歌曲转换模型利用第一编码信息恢复样本源歌曲的结果与样本源歌曲的差异而确定,所述第二损失函数基于第一编码信息与第二编码信息之间的差异而确定;所述第一编码信息由所述歌曲转换模型对样本源歌曲的声学特征进行编码得到,所述第二编码信息由所述歌曲转换模型将第三编码信息与样本源歌曲对应的源歌手的音色信息融合而得到,所述第三编码信息由预设的先验编码网络对所述样本源歌曲对应的与说话人音色无关的特征进行编码得到。6.根据权利要求5所述的方法,其特征在于,所述歌曲转换模型包括编码网络、可逆概率分布模型、解码网络和音色编码网络;对所述歌曲转换模型的训练过程,包括:通过所述编码网络对样本源歌曲的声学特征进行编码处理,得到所述样本源歌曲对应
的第一概率分布,以及,通过所述音色编码网络对样本源歌曲的声学特征进行编码处理,得到源歌手的音色特征;将所述样本源歌曲对应的与说话人音色无关的特征,输入预设的先验编码网络,得到所述样本源歌曲对应的第三概率分布;将所述第三概率分布以及所述源歌手的音色特征,输入可逆概率分布模型,以使所述可逆概率分布模型将所述第三概率分布融合所述源歌手的音色信息,得到所述样本源歌曲对应的第二概率分布,以及,将所述第一概率分布和所述样本源歌曲的基频,输入所述解码网络,得到解码歌曲;通过对比所述解码歌曲和所述样本源歌曲,确定第一损失函数,以及,通过对比所述第一概率分布和所述第二概率分布,确定第二损失函数;以最小化所述第一损失函数和所述第二损失函数的和为目标,对所述歌曲转换模型的模型参数进行调整。7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述源歌曲的基频信息,包括标准基频,以及与所述标准基频对应的转换基频,其中,所述标准基频是从所述源歌曲中提取的基频,所述转换基频通过对所述标准基频进行调域转换得到;所述通过对所述源歌曲的基频信息以及所述第二歌曲编码信息进行解码,生成目标歌曲,包括:对应所述源歌曲的基频信息中的每一种基频,分别将该基频与所述第二歌曲编码信息进行解码,得到与所述源歌曲的基频信息中的每一种基频对应的解码歌曲;从各个解...

【专利技术属性】
技术研发人员:刘利娟包顺江源潘嘉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1