语音合成方法及装置、电子设备、计算机可读存储介质制造方法及图纸

技术编号:34356614 阅读:26 留言:0更新日期:2022-07-31 06:42
本公开关于一种语音合成方法及装置、电子设备、计算机可读存储介质。该方法包括:将目标对象的语音和待合成文本输入到编码器中,得到第一特征和第二特征,其中,第一特征包含从目标对象的语音提取的特征,第二特征包含从待合成文本提取的特征;将待合成文本输入到时长预测网络中,得到待合成文本中每个文本单元的第一时长,其中,第一时长是待合成文本按所述目标对象的声音呈现的语音中相应文本单元的时长;基于目标语音风格,将每个文本单元的第一时长调整为相应的第二时长;将第一特征、第二特征和第二时长输入到扩帧网络中,得到按第二时长进行扩帧后的第三特征;将第三特征输入到解码器中,得到符合目标语音风格的目标合成语音。音。音。

【技术实现步骤摘要】
语音合成方法及装置、电子设备、计算机可读存储介质


[0001]本公开涉及音视频处理领域,尤其涉及一种语音合成方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]随着人工智能的快速发展,如何使用合成技术自动合成语音日益成为学术界和工业界的关注焦点。传统的语音合成(如,从文本到语音(Text To Speech,缩写为TTS))技术生成的语音一般为朗读形式的风格,比较贴近人自然状态下的说话风格,因为语音合成训练数据一般为自然说话风格,带有一定节奏感的训练数据比较缺乏,例如,想要为一个不会说唱的目标人合成即兴说唱音乐的节奏感的语音时,需要大量的针对目标人的具有即兴说唱音乐的节奏感的训练数据,但目标人并不具备说唱能力,所以无法获取到目标人的训练数据,此时无法为目标人合成带有即兴说唱音乐的节奏感的语音。

技术实现思路

[0003]本公开提供一种语音合成方法及装置、电子设备、计算机可读存储介质,以至少解决相关技术中的语音合成方法无法合成带有一定节奏感的语音的问题。
[0004]根据本公开实施例的第一方面,提供一种语音合成方法,语音合成方法基于语音合成模型实现,语音合成模型包括编码器、时长预测网络、扩帧网络和解码器,语音合成方法包括:将目标对象的语音和待合成文本输入到编码器中,得到第一特征和第二特征,其中,第一特征包含从目标对象的语音提取的特征,第二特征包含从待合成文本提取的特征;将待合成文本输入到时长预测网络中,得到待合成文本中每个文本单元的第一时长,其中,第一时长是待合成文本按目标对象的声音呈现的语音中相应文本单元的时长;基于目标语音风格,将每个文本单元的第一时长调整为相应的第二时长;将第一特征、第二特征和第二时长输入到扩帧网络中,得到按第二时长进行扩帧后的第三特征;将第三特征输入到解码器中,得到符合目标语音风格的目标合成语音。
[0005]可选地,基于目标语音风格,将每个文本单元的第一时长调整为相应的第二时长,包括:基于预设单元配置信息,确定待合成文本中待调整时长的文本单元,其中,预设单元配置信息包含待调整时长的文本单元的确定规则;将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。
[0006]可选地,基于目标语音风格,将每个文本单元的第一时长调整为相应的第二时长,还包括:将待合成文本中预定文本单元的第一时长调整为预定长度的时长,其中,预定文本单元是除所述待调整时长的文本单元之外的文本单元。
[0007]可选地,基于预设单元配置信息,确定待合成文本中待调整时长的文本单元,包括:获取待合成文本对应的语义信息;基于语义信息和预设单元配置信息,确定待合成文本中待调整时长的文本单元。
[0008]可选地,语音合成模型通过如下方式进行训练:获取训练数据,其中,训练数据包
括训练对象的语音、训练对象的语音对应的文本以及文本中每个文本单元在训练对象的语音中的实际时长;将训练对象的语音和训练对象的语音对应的文本输入到编码器中,得到第一预估特征和第二预估特征,其中,第一预估特征包含从训练对象的语音提取的特征,第二预估特征包含从文本提取的特征;将文本输入到时长预测网络中,得到文本中每个文本单元在训练对象的语音中的第一预估时长;将第一预估特征、第二预估特征和文本中每个文本单元在训练对象的语音中的实际时长输入到扩帧网络中,得到按实际时长进行扩帧后的第三预估特征;将第三预估特征输入到解码器中,得到预估合成语音,其中,预估合成语音的风格与训练对象的语音的风格相同;基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值,调整语音合成模型的参数,对语音合成模型进行训练。
[0009]可选地,基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值,调整语音合成模型的参数,对语音合成模型进行训练,包括:基于第一预估时长和实际时长,确定第一损失值;基于训练对象的语音和预估合成语音,确定第二损失值;基于第一损失值和第二损失值,确定目标损失值;基于目标损失值,调整语音合成模型的参数,对语音合成模型进行训练。
[0010]根据本公开实施例的第二方面,提供一种语音合成装置,语音合成装置基于语音合成模型实现,语音合成模型包括编码器、时长预测网络、扩帧网络和解码器,语音合成装置包括:特征获取单元,被配置为将目标对象的语音和待合成文本输入到编码器中,得到第一特征和第二特征,其中,第一特征包含从目标对象的语音提取的特征,第二特征包含从待合成文本提取的特征;时长获取单元,被配置为将待合成文本输入到时长预测网络中,得到待合成文本中每个文本单元的第一时长,其中,第一时长是待合成文本按目标对象的声音呈现的语音中相应文本单元的时长;时长调整单元,被配置为按基于目标语音风格,将每个文本单元的第一时长调整为相应的第二时长;扩帧单元,被配置为将第一特征、第二特征和第二时长输入到扩帧网络中,得到按第二时长进行扩帧后的第三特征;合成语音获取单元,被配置为将第三特征输入到解码器中,得到符合目标语音风格的目标合成语音。
[0011]可选地,时长调整单元,还被配置为基于预设单元配置信息,确定待合成文本中待调整时长的文本单元,其中,预设单元配置信息包含待调整时长的文本单元的确定规则;将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。
[0012]可选地,时长调整单元,还被配置为将待合成文本中预定文本单元的第一时长调整为预定长度的时长,其中,预定文本单元是除所述待调整时长的文本单元之外的文本单元。
[0013]可选地,时长调整单元,还被配置为获取待合成文本对应的语义信息;基于语义信息和预设单元配置信息,确定待合成文本中待调整时长的文本单元。
[0014]可选地,还包括训练单元,被配置为获取训练数据,其中,训练数据包括训练对象的语音、训练对象的语音对应的文本以及文本中每个文本单元在训练对象的语音中的实际时长;将训练对象的语音和训练对象的语音对应的文本输入到编码器中,得到第一预估特征和第二预估特征,其中,第一预估特征包含从训练对象的语音提取的特征,第二预估特征包含从文本提取的特征;将文本输入到时长预测网络中,得到文本中每个文本单元在训练对象的语音中的第一预估时长;将第一预估特征、第二预估特征和文本中每个文本单元在训练对象的语音中的实际时长输入到扩帧网络中,得到按实际时长进行扩帧后的第三预估
特征;将第三预估特征输入到解码器中,得到预估合成语音,其中,预估合成语音的风格与训练对象的语音的风格相同;基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值,调整语音合成模型的参数,对语音合成模型进行训练。
[0015]可选地,训练单元,还被配置为基于第一预估时长和实际时长,确定第一损失值;基于训练对象的语音和预估合成语音,确定第二损失值;基于第一损失值和第二损失值,确定目标损失值;基于目标损失值,调整语音合成模型的参数,对语音合成模型进行训练。
[0016]根据本公开实施例的第三方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述语音合成方法基于语音合成模型实现,所述语音合成模型包括编码器、时长预测网络、扩帧网络和解码器,所述语音合成方法包括:将目标对象的语音和待合成文本输入到所述编码器中,得到第一特征和第二特征,其中,所述第一特征包含从所述目标对象的语音提取的特征,所述第二特征包含从所述待合成文本提取的特征;将所述待合成文本输入到所述时长预测网络中,得到所述待合成文本中每个文本单元的第一时长,其中,所述第一时长是所述待合成文本按所述目标对象的声音呈现的语音中相应文本单元的时长;基于目标语音风格,将所述每个文本单元的第一时长调整为相应的第二时长;将所述第一特征、所述第二特征和所述第二时长输入到所述扩帧网络中,得到按所述第二时长进行扩帧后的第三特征;将所述第三特征输入到所述解码器中,得到符合目标语音风格的目标合成语音。2.如权利要求1所述的语音合成方法,其特征在于,所述基于目标语音风格,将所述每个文本单元的第一时长调整为相应的第二时长,包括:基于预设单元配置信息,确定所述待合成文本中待调整时长的文本单元,其中,所述预设单元配置信息包含待调整时长的文本单元的确定规则;将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。3.如权利要求2所述的语音合成方法,其特征在于,所述基于目标语音风格,将所述每个文本单元的第一时长调整为相应的第二时长,还包括:将所述待合成文本中预定文本单元的第一时长调整为预定长度的时长,其中,所述预定文本单元是除所述待调整时长的文本单元之外的文本单元。4.如权利要求2所述的语音合成方法,其特征在于,所述基于预设单元配置信息,确定所述待合成文本中待调整时长的文本单元,包括:获取所述待合成文本对应的语义信息;基于所述语义信息和所述预设单元配置信息,确定所述待合成文本中待调整时长的文本单元。5.如权利要求1所述的语音合成方法,其特征在于,所述语音合成模型通过如下方式进行训练:获取训练数据,其中,所述训练数据包括训练对象的语音、所述训练对象的语音对应的文本以及所述文本中每个文本单元在所述训练对象的语音中的实际时长;将训练对象的语音和所述训练对象的语音对应的文本输入到所述编码器中,得到第一预估特征和第二预估特征,其中,所述第一预估特征包含从所述训练对象的语音提取的特征,所述第二预估特征包含从所述文本提取的特征;将所述文本输入到所述时长预测网络中,得到所述文本中每个文本单元在所述训练对象的语音中的第一预估时长;将所述第一预估特征、所述第二预估特征和所述文本中每个文本单元在所述训练对象的语音中的实际时长输入到所述扩帧网络中,得到按所述实际时长进行扩帧后的第三预估特征;将所述第三预估特征输入到所述解码器中,得到预估合成语音,其中,所述预估合成语
音的风格与所述训练对象的语音的风格相同;基于所述第一预估时长、所述实际时长、所述训练对象的语音和所述预估合成语音的损失值,调整所述语音合成模型的参数,对所述语音合成模型进行训练。6.如权利要求5所述的语音合成方法,其特征在于,所述基于所述第一预估时长、所述实际时长、所述训练对象的语音和所述预估合成语音的损失值,调整所述语音合成模型的参数,对所述语音合成模型进行训练,包括:基于所述第一预估时长和所述实际时长,确定第一损失值;基于所述训练对象的语音和所述预估合成语音,确定第二损失值;基于所述第一损失值和所述第二损失值,确定目标损失值;基于目标损失值,调整所述语音合成模型的参数,对所述语音合成模型进行训练。7.一种语音合成装置,其特征在于,所述语音合成装置基于语音合成模型实现,所述语音合成模型包括编码器、时长预测网络、扩帧网络和解码器,所述语音合成装置包括:特征...

【专利技术属性】
技术研发人员:刘龙飞
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1