System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 声音转换方法、装置、电子设备及计算机可读存储介质制造方法及图纸_技高网

声音转换方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:43002211 阅读:15 留言:0更新日期:2024-10-15 13:29
本申请提供了一种声音转换方法、装置、电子设备及计算机可读存储介质,该方法包括:预处理原始音频;提取预处理后的原始音频中的关键特征;通过自回归模型根据关键特征和参考音频,将关键特征转换为参考特征,参考特征为带有参考音频音色和韵律的声学特征;基于参考特征输出目标声音。本申请通过采用自回归模型将原始音频转换为目标声音,可以实现高质量声音转换,显著提升转换声音的音质和音色相似性。

【技术实现步骤摘要】

本申请涉及音频处理领域,具体而言,涉及一种声音转换方法、装置、电子设备及计算机可读存储介质


技术介绍

1、声音转换是指将源声音转换成目标声音,同时需要保留原词、旋律、节奏、情感等信息。

2、现有的声音转换技术在转换效果、音质和自然性方面仍存在较大的提升空间,当前的声音转换技术,使用的音频特征很难剥离原声音者信息,存在音色泄露问题,导致最终生成音色与目标音色相似度低。


技术实现思路

1、有鉴于此,本申请实施例的目的在于提供一种声音转换方法、装置、电子设备及计算机可读存储介质,能够显著提升转换声音的音质和音色相似性。

2、第一方面,本申请实施例提供了一种声音转换方法,包括:预处理原始音频;提取预处理后的原始音频中的关键特征;通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征;其中,所述参考特征为带有参考音频音色和韵律的声学特征;基于所述参考特征输出目标声音。

3、在上述实现过程中,由于自回归生成算法能够极大程度增加原始音频与参考音频音色相似度,并且减少声音失真情况,通过采用自回归模型将原始音频转换为目标声音,可以实现高质量声音转换,显著提升转换声音的音质和音色相似性。

4、在一个实施例中,所述通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征,包括:将所述关键特征和所述参考音频经离散后的特征作为所述自回归模型的输入;在每个时间步,通过自注意力机制和多头注意力机制,生成下一时刻的输出;将所述输出转换为设定表示格式;在转换为设定表示格式的输出达到预设条件的情况下,停止生成所述输出。

5、在上述实现过程中,通过采用自回归模型将原始音频转换为目标声音,可以实现高质量声音转换,显著提升转换声音的音质和音色相似性。

6、在一个实施例中,其中,所述自回归模型包括:三个残差连接及归一化层、前馈神经网络层、多头注意力层、多头自注意力层以及位置编码;所述多头自注意力层的输入端设置有所述位置编码;所述位置编码配置为提供输入序列中每个位置的位置信息;所述多头自注意力层配置为寻找所述关键特征和所述参考音频的依赖关系,以及在每个时间步上对输入序列的不同位置进行并行计算;所述多头自注意力层、所述多头注意力层和所述前馈神经网络层的输出端分别设置一个所述残差连接及归一化层;所述多头注意力层配置为并行计算多个注意力头,以学习不同特征空间中的关系;所述前馈神经网络层配置为在每个时间步将注意力输出映射到输出的概率分布;所述多头注意力层和所述前馈神经网络层均设置在两个所述残差连接及归一化层之间,且所述多头注意力层设置在所述前馈神经网络层前端;所述残差连接及归一化层配置为转化每一层神经元的输入。

7、在上述实现过程中,通过设置自回归模型包括三个残差连接及归一化层、前馈神经网络层、多头注意力层、多头自注意力层以及位置编码,以分别通过各个网络层对关键特征和参考音频进行处理,以实现将原始音频转换为目标声音,增加了转换后的目标声音与参考音频音色的相似度,提高转换质量。

8、在一个实施例中,其中,在每个时间步,通过自注意力机制和多头注意力机制,生成下一时刻的输出的计算公式为:;其中,为自回归模型的参数,是离散化音频特征序列在时刻的观测声学特征值,是音频的关键特征,为输出,为音频的序列长度。

9、在一个实施例中,所述通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征之前,所述方法还包括:提取预处理后的原始音频的信号特征;分离出所述信号特征中的人声信号;重构分离出的人声信号,得到人声波形信息;所述提取预处理后的原始音频中的关键特征,包括:提取所述人声波形信息中的关键特征。

10、在上述实现过程中,通过先对预处理后的原始音频进行降噪处理,减少提取到的人声信息中的其他噪声,可以使得声音转换具有噪声鲁棒性,支持带噪声音转换,可以提高该声音转换方法的应用范围。

11、在一个实施例中,所述关键特征包括:梅尔频谱特征、自编码特征、向量化特征以及音高特征。

12、在上述实现过程中,通过提取原始音频的梅尔频谱特征、自编码特征、向量化特征以及音高特征等关键特征,可以通过关键特征准确的反应出原始音频的特征,提高声音转换的准确性。

13、在一个实施例中,所述预处理原始音频,包括:使用音频工具去除所述原始音频中的背景音;对去除背景音后的原始音频进行幅值归一化处理。

14、在上述实现过程中,在提取原始音频中的关键特征之前,先对原始音频特征进行预处理,可以减少进行关键特征提取的原始音频中的背景音,同时使得进行关键特征提取的原始音频具有统一的尺度范围,降低关键特征提取难度。

15、第二方面,本申请实施例还提供一种声音转换装置,包括:预处理模块,用于预处理原始音频;特征提取模块,用于提取预处理后的原始音频中的关键特征;转换模块,用于通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征;其中,所述参考特征为带有参考音频音色和韵律的声学特征;输出模块,用于基于所述参考特征输出目标声音。

16、第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式中的方法的步骤。

17、第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式中声音转换方法的步骤。

18、为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种声音转换方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征,包括:

3.根据权利要求2所述的方法,其特征在于,其中,所述自回归模型包括:三个残差连接及归一化层、前馈神经网络层、多头注意力层、多头自注意力层以及位置编码;

4.根据权利要求1所述的方法,其特征在于,其中,在每个时间步,通过自注意力机制和多头注意力机制,生成下一时刻的输出的计算公式为:

5.根据权利要求1-4任意一项所述的方法,其特征在于,所述通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征之前,所述方法还包括:

6.根据权利要求1-4任意一项所述的方法,其特征在于,其中,所述关键特征包括:梅尔频谱特征、自编码特征、向量化特征以及音高特征。

7.根据权利要求1-4任意一项所述的方法,其特征在于,所述预处理原始音频,包括:

8.一种声音转换装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法的步骤。

10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法的步骤。

...

【技术特征摘要】

1.一种声音转换方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征,包括:

3.根据权利要求2所述的方法,其特征在于,其中,所述自回归模型包括:三个残差连接及归一化层、前馈神经网络层、多头注意力层、多头自注意力层以及位置编码;

4.根据权利要求1所述的方法,其特征在于,其中,在每个时间步,通过自注意力机制和多头注意力机制,生成下一时刻的输出的计算公式为:

5.根据权利要求1-4任意一项所述的方法,其特征在于,所述通过自回归模型根据所述关键特征和参考音频,将所述关键特征转换为参考特征之前,所述方法还包括:

...

【专利技术属性】
技术研发人员:苟志云
申请(专利权)人:成都开心音符科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1