一种语音音色转换方法、装置及计算机可读存储介质制造方法及图纸

技术编号：36294467 阅读：22 留言：0更新日期：2023-01-13 10:08

本申请涉及语音处理领域，尤其涉及一种语音音色转换方法、装置及计算机可读存储介质。该方法包括：获取第一音频对应的第一频谱。从音色库提取第一音色特征参量，其中，所述音色库中包括多个预置的音色特征参量。通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱。根据所述第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频。采用本申请提供的方法，可实现语音音色的实时转换，提高语音音色转换的效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音音色转换方法、装置及计算机可读存储介质

[0001]本专利技术涉及语音处理领域，尤其涉及一种语音音色转换方法、装置及计算机可读存储介质。

技术介绍

[0002]随着科学技术的迅速发展，语音音色转换技术也得到了飞速发展。语音音色转换是指在保持语言内容不变的情况下，将语音的原始说话人的音色转换为目标说话人的音色。语音音色转换在视频变声、视频配音、人机交互等领域发挥着重要作用。
[0003]然而，现有的语音音色转换方案中，需要用户录制的较长时间的语音语料并且保证朗读内容的准确性，才能通过训练神经网络语音合成系统中的语音合成模型，获得自己专属定制音色，这导致用户需要花费较多时间来提供语音语料，从而用户体验较差。因此，如何快速便捷的实现语音音色实时转换成已经为亟待解决的技术问题之一。

技术实现思路

[0004]本申请实施例所要解决的技术问题在于现有的语音音色转换方案中，需要用户提供大量的语音语料并且还要保证语音内容的准确性，这导致用户花费时间较多，体验较差。
[0005]第一方面，本申请实施例提供了一种语音音色转换方法。该方法包括：获取第一音频对应的第一频谱。从音色库提取第一音色特征参量，其中，所述音色库中包括多个预置的音色特征参量。通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱。根据所述第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频。
[0006]在本申请实施例中，从音色库中直接提取第一音色特征参量，并通过预设的音色转换模型实现将第一音...

【技术保护点】

【技术特征摘要】
1.一种语音音色转换方法，其特征在于，包括：获取第一音频对应的第一频谱；从音色库提取第一音色特征参量，其中，所述音色库中包括多个预置的音色特征参量；通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱；根据所述第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频。2.根据权利要求1所述的方法，其特征在于，所述第一频谱包括N个第一子频谱，所述第二频谱包括N
‑
1个第二子频谱，其中，N为大于或者等于2的正整数；所述通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱，包括：对所述N个第一子频谱中任意两个相邻的第一子频谱i和第一子频谱j进行以下频谱合成操作：根据所述第一子频谱i和所述第一子频谱j确定出第一中间频谱k；通过预设的音色转换模型来根据所述第一音色特征参量和所述第一中间频谱k确定出一个第二子频谱；根据对所述N个第一子频谱中各相邻的两个第一子频谱执行所述频谱合成操作的结果确定出所述N
‑
1个第二子频谱。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一子频谱i和所述第一子频谱j确定出第一中间频谱k，包括：根据预设的第一截取偏移量对所述第一子频谱i进行频谱截取以得到第一子中间频谱k1；根据所述预设的第二截取偏移量对所述第一子频谱j进行频谱截取以得到第一子中间频谱k2；对所述第一子中间频谱k1和所述第一子中间频谱k2进行频谱合并以得到第一中间频谱k。4.根据权利要求3所述的方法，其特征在于，所述根据预设的第一截取偏移量对所述第一子频谱i进行截取以得到第一子中间频谱k1，包括：获取所述第一子频谱i的终止时刻和第一中心时刻；根据所述第一中心时刻和所述预设的第一截取偏移量确定出第一中间时刻t1，其中，所述第一中间时刻t1在所述第一中心时刻之前且所述第一中心时刻与所述第一中间时刻t1的差值为所述第一截取偏移量；根据所述第一中间时刻t1和所述终止时刻从所述第一子频谱i中截取出所述第一子中间频谱k1。5.根据权利要求3或4所述的方法，其特征在于，所述根据所述预设的第二截取偏移量对所述第一子频谱j进行截取以得到第一子中间频谱k2，包括：获取所述第一子频谱j的起始时刻和第二中心时刻；根据...

【专利技术属性】
技术研发人员：詹维典，林昊，徐伟，王启腾，梁万山，纳颖泉，
申请(专利权)人：招联消费金融有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人