System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音处理,特别是一种语音合成方法、装置、直播系统、电子设备及计算机可读存储介质。
技术介绍
1、目前,随着人工智能和机器学习技术的快速发展,tts(text to speech,语音合成技术)已逐渐成为人机交互领域的重要研究方向;tts能够将文本信息转换为自然流畅的语音输出,广泛应用于智能助手、导航系统、教育、娱乐等多个领域。
2、随着网络技术发展,网络直播已经得到大部分网络用户的使用,其中网络直播以其内容和形式的直观性、即时性和互动性,在促进灵活就业、促进经济社会发展、丰富人民群众精神文化生活等方面发挥了重要作用,主播可以在直播中更好地展现自己才艺才华,从而为更多主播实现了自我价值。在网络直播平台中,tts得到了越来越多的应用,常规的tts技术大多有机械感,近年基于llm(large language models,大语言模型)的tts技术因其高度的自然度而成为主流趋势,例如,有技术是利用音频编码器将连续的语音特征编码成音频token(即离散语义编码),利用大语言模型建立文本与音频token之间的关系,再利用声码器从音频token中恢复语音。
3、然而在网络直播
中,虽然现有基于llm的tts技术在语音合成方面取得较好效果,但在音色调制、韵律变化等方面仍存在诸多限制,实际应用往往很依赖录制声音的声音质量和特定模板文件,难以满足网络直播中的多样化应用需求。
技术实现思路
1、基于此,有必要提供一种语音合成方法、装置、直播系统、电子设备及计算机
2、一种语音合成方法,包括:
3、获取语言合成的目标文本和说话人的音色特征;
4、对目标引导音频进行编码得到去除音色的目标离散语义编码;其中,所述目标离散语义编码包含韵律特征;
5、基于大语言模型对所述目标离散语义编码和所述目标文本进行预测得到待合成音频编码;其中,所述待合成音频编码包括目标引导音频的韵律和目标文本的语义特征;
6、根据所述目标文本和音色特征对所述待合成音频编码进行解码得到语音合成音频。
7、在一个实施例中,对目标引导音频进行编码得到去除音色的目标离散语义编码,包括:
8、将目标引导音频输入基于说话人音色解耦的音频特征提取模型得到去除音色的且包含韵律信息的语义特征;
9、将目标引导音频的语义特征输入残差量化模型处理得到目标离散语义编码。
10、在一个实施例中,基于大语言模型对所述目标离散语义编码和所述目标文本进行预测得到待合成音频编码,包括:
11、调用预先训练的大语言模型;其中,所述大语言模型为基于通用语言模型并利用训练文本和训练音频进行训练得到;
12、将所述目标离散语义编码和所述目标文本输入所述大语言模型进行预测得到包含目标引导音频的韵律和目标文本的语义特征的待合成音频编码。
13、在一个实施例中,所述的语音合成方法,还包括:
14、构建大语言模型;
15、获取包括训练音频及其对应的文本内容的文本音频对数据集;
16、将训练音频输入编码器得到训练音频的离散语义编码;其中,所述离散语义编码为大语言模型优化的目标;
17、将训练音频的离散语义编码和文本内容一起输入大语言模型预测得到待合成音频离散语义编码;
18、基于待合成音频离散语义编码和训练音频的离散语义编码利用交叉熵作为目标函数优化大语言模型。
19、在一个实施例中,根据所述目标文本和音色特征对所述待合成音频编码进行解码得到语音合成音频,包括:
20、调用预先训练的解码器;其中,所述解码器基于训练文本和说话人的音色特征训练得到;
21、将所述待合成音频编码、目标文本以及音色特征输入所述解码器进行解码得到语音合成音频。
22、在一个实施例中,所述的语音合成方法,还包括:
23、构建解码器;其中,所述解码器包括:先验编码器、后验编码器、正规流、生成器和判别器;
24、设置损失函数;其中,所述损失函数包括:l1重建损失、kl散度、对抗损失和特征匹配损失;
25、将训练文本和训练音频输入所述解码器,并基于所述损失函数联合优化解码器。
26、在一个实施例中,所述kl散度用于衡量后验分布与先验分布之间的差异;
27、所述l1重建损失用于衡量生成器预测的频谱图与目标频谱图之间的差异;
28、所述对抗损失用于训练生成器和判别器;
29、所述特征匹配损失用于优化生成器。
30、在一个实施例中,将所述待合成音频编码、目标文本以及音色特征输入预先训练的解码器进行解码得到语音合成音频,包括:
31、将所述待合成音频编码、目标文本以及音色特征经过先验编码器得到先验分布,将先验分布经过正规流之后得到后验分布,以及将后验分布和音色特征输入生成器进行融合得到语音合成音频。
32、一种语音合成装置,包括:
33、输入模块,用于获取语言合成的目标文本和说话人的音色特征;
34、编码模块,用于对目标引导音频进行编码得到去除音色的目标离散语义编码;其中,所述目标离散语义编码包含韵律特征;
35、预测模块,用于基于大语言模型对所述目标离散语义编码和所述目标文本进行预测得到待合成音频编码;其中,所述待合成音频编码包括目标引导音频的韵律和目标文本的语义特征;
36、解码模块,用于根据所述目标文本和音色特征对所述待合成音频编码进行解码得到语音合成音频。
37、一种直播系统,包括:主播端、观众端以及直播服务器;其中,所述主播端和观众端分别通过通信网络连接至所述直播服务器;
38、所述主播端,用于接入直播间的主播以及采集主播直播视频流上传至直播服务器;
39、所述直播服务器,用于将主播的直播视频流转发至观众端,以及利用所述的语音合成方法来生成直播视频流中的音频流;
40、所述观众端,用于接入直播间的观众用户,接收所述主播直播视频流进行播放,以及展示所述推送信息。
41、一种电子设备,该电子设备,其包括:
42、一个或多个处理器;
43、存储器;
44、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行所述的语音合成方法的步骤。
45、一种计算机可读存储介质,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行所述的语音合成方法的步骤。
46、本申请的技术方案,通过编码得到引导音频的离散语义编码,通过大语言模型对离散语义编码和目标文本预测得到待合成音频编码,结合说话人的本文档来自技高网...
【技术保护点】
1.一种语音合成方法,其特征在于,包括:
2.根据权利要求1所述的语音合成方法,其特征在于,对目标引导音频进行编码得到去除音色的目标离散语义编码,包括:
3.根据权利要求1所述的语音合成方法,其特征在于,基于大语言模型对所述目标离散语义编码和所述目标文本进行预测得到待合成音频编码,包括:
4.根据权利要求3所述的语音合成方法,其特征在于,还包括:
5.根据权利要求1所述的语音合成方法,其特征在于,根据所述目标文本和音色特征对所述待合成音频编码进行解码得到语音合成音频,包括:
6.根据权利要求5所述的语音合成方法,其特征在于,还包括:
7.根据权利要求6所述的语音合成方法,其特征在于,所述KL散度用于衡量后验分布与先验分布之间的差异;
8.根据权利要求6所述的语音合成方法,其特征在于,将所述待合成音频编码、目标文本以及音色特征输入预先训练的解码器进行解码得到语音合成音频,包括:
9.一种语音合成装置,其特征在于,包括:
10.一种直播系统,其特征在于,包括:主播端、观众端以及
11.一种电子设备,其特征在于,该电子设备,其包括:
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行权利要求1-8任一项所述的语音合成方法的步骤。
...【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
2.根据权利要求1所述的语音合成方法,其特征在于,对目标引导音频进行编码得到去除音色的目标离散语义编码,包括:
3.根据权利要求1所述的语音合成方法,其特征在于,基于大语言模型对所述目标离散语义编码和所述目标文本进行预测得到待合成音频编码,包括:
4.根据权利要求3所述的语音合成方法,其特征在于,还包括:
5.根据权利要求1所述的语音合成方法,其特征在于,根据所述目标文本和音色特征对所述待合成音频编码进行解码得到语音合成音频,包括:
6.根据权利要求5所述的语音合成方法,其特征在于,还包括:
7.根据权利要求6所述的语音合成方法,其特征在于,所述kl散度用于衡量后验分...
【专利技术属性】
技术研发人员:苏正航,宫凯程,陈增海,贺灏,
申请(专利权)人:广州方硅信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。