跨语言语音转换方法、训练方法及相关装置制造方法及图纸

技术编号:38826568 阅读:12 留言:0更新日期:2023-09-15 20:06
本申请公开了一种跨语言语音转换方法、训练方法及相关装置,该方法包括:将第一媒体文件输入跨语言语音转换模型,其中该第一媒体文件包括背景特征和由第一角色使用第一语言发出的第一源语音,基于该跨语言语音转换模型输出第二媒体文件。本申请基于跨语言语音转换模型针对媒体文件的背景特征和目标受众根据源语音的语音内容生成与源语音对应的目标语音内容及目标语音,使得用户更易理解媒体文件的内容,从而提高跨语言语音转换的质量,有效地提高用户体验。提高用户体验。提高用户体验。

【技术实现步骤摘要】
跨语言语音转换方法、训练方法及相关装置


[0001]本申请涉及自然语言处理
,更具体地,涉及一种跨语言语音转换方法、训练方法及相关装置。

技术介绍

[0002]随着人工智能(AI)技术的迅速发展,作为人机交互的一种方式,自然语言处理技术(可应用于如教育、通信、娱乐等领域)也随之受到了广泛的关注。其中,跨语言语音转换具有重要的应用潜力。例如,可以将媒体文件中第一人声发出的源语音(使用第一语言,如英语)转换为语义相同的第二人声发出的目标语音(使用第二语言,如中文),使人们能够跨语言或跨文化交流。
[0003]现有技术的跨语言语音转换系统通常包括特征提取器和语音合成器。例如,基于特征提取器对第一人声发出的源语音进行特征提取获得包括背景和第一语音内容的特征数据;将第一语言对应的第一语音内容翻译为第二语言对应的第二语音内容;再基于语音合成器将源语音的背景和第二语音内容与第二人声的声纹信息进行合成,从而生成具有第二人声音色的目标语音。
[0004]但是,现有技术中跨语言语音转换系统的转换速度比较慢,并且如不同的文化差异和/或不同音色的差异会导致跨语言语音转换的质量仍然较低。例如,在媒体产品如电影中,跨语言的语音不够自然和流畅,容易让人出戏,甚至无法让用户充分理解语音中语境信息,从而降低用户体验。又例如,在音频中,不同人声的音色差异和音域差异甚至会导致音不自然且模糊不清的问题。

技术实现思路

[0005]本申请实施例提供一种跨语言语音转换和装置,能够基于媒体文件的背景特征、目标受众、源语音的语音内容和声纹特征来实现跨语言语音转换,有效地提高跨语言语音的转换质量。
[0006]第一方面,提供了一种跨语言语音转换方法,该方法包括:将第一媒体文件输入跨语言语音转换模型,其中该第一媒体文件包括背景特征和由第一角色使用第一语言发出的第一源语音,该跨语言语音转换模型是基于神经网络对历史媒体文件进行训练得到的;基于该跨语言语音转换模型输出第二媒体文件;其中,该第二媒体文件是通过该第一媒体为文件的背景特征和使用第二语言的第一目标语音合成的;该第一目标语音是基于该背景特征、该第一媒体文件的目标受众和该第一源语音的语音内容生成的;以及该第一目标语音的声纹特征取决于该媒体文件的目标受众和/或该第一源语音的声纹特征。
[0007]可选地,该第一目标语音的持续时长t2与该第一源语音的持续时长t1的关系满足:|t1

t2|≤第一时长预设值。
[0008]结合第一方面,在一种可能的实现方式中,该第一源语音与该第一目标语音的声纹相似度小于相似度预设值。
[0009]可选地,该目标声纹与该第一角色的声纹相同。
[0010]结合第一方面,在一种可能的实现方式中,该第一目标语音的声纹取决于该媒体文件的目标受众和该第一角色的人物特征。
[0011]结合第一方面,在第一方面的一种可能的实现方式中,该第一目标语音是基于该媒体文件包括的影视文件的场景特征、目标受众的认知水平和文化特征,以及该第一源语音的语音内容生成的。或者,该第一目标语音是基于该媒体文件包括的音频文件的背景音、目标受众的认知水平和文化特征、以及该第一源语音的语音内容生成使用第二语言的第一目标语音。具体地,该第一目标语音是基于第二语言的第一目标语音内容以及该第一目标语音的声纹特征生成的,其中该第一目标语音内容是根据该场景特征、该目标受众的认知水平和文化特征采用增译法、减译法和/或转译法将该第一源语音的语音内容翻译得到的,以使得该第一目标语音的持续时长t2与该第一源语音的持续时长t1的关系满足:|t1

t2|≤第一时长预设值。
[0012]结合第一方面,在第一方面的一种可能的实现方式中,该第一媒体文件还包括由第二角色发出的第一语言的第二源语音,该第二源语音的持续时长t3和与该第二源语音对应的第二目标语音的持续时长t4的关系满足:|t3

t4|≤第二时长预设值,且该第一目标语音和该第二目标语音在音高上的关系取决于该第一源语音和该第二源语音在音高上的关系。
[0013]可选地,在该第一源语音和该第二源语音的音高之差为协和音程的情况下,该第一目标语音和该第二目标语音的音高之差为协和音程。
[0014]结合第一方面,在第一方面的一种可能的实现方式中,该跨语言语音转换模型包括生成式预训练变换器GPT神经网络,该GPT神经网络包括嵌入层、N个解码模块和输出层,其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于或等于1的整数。该基于该跨语言语音转换模型输出第二媒体文件的方法步骤可以包括:将该第一媒体文件进行位置编码得到位置向量,并将该第一媒体文件和该第一目标语音的声纹特征输入该嵌入层得到嵌入向量;将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层;以及经过该N个解码模块后在该输出层输出该第二媒体文件。
[0015]可选地,N大于或等于5。
[0016]结合第一方面,在第一方面的一种可能的实现方式中,该跨语言语音转换模型包括分类器和生成式预训练变换器GPT神经网络,该GPT神经网络包括嵌入层、N个解码模块和输出层,其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于或等于1的整数(如N大于或等于5)。该基于该跨语言语音转换模型输出第二媒体文件的方法步骤包括:采用该分类器(例如,将所述第一媒体文件输入该分类器)获取该第一媒体文件的分类信息,其中该第一媒体文件的分类信息包括该第一媒体文件的媒体类型、受众群体、该目标受众的认知水平、文化特征、和/或该第一角色的人物特征;将该第一媒体文件进行位置编码得到位置向量且将该第一媒体文件输入该嵌入层得到嵌入向量;将该位置向量和该嵌入向量输入该N个解码模块中第一个解码模块的掩码注意力层;以及,经过该N个解码模块后基于该第一媒体文件的分类信息在该输出层输出该第二媒体文件,其中该第一媒体文件的分类信息用于生成该第二媒体文件的该
第一目标语音。
[0017]可选地,该分类器与该嵌入层连接,其中该分类器的输出作为该嵌入层输入的一部分;或者该分类器与该输出层连接,其中该分类器的输出作为该输出层输入的一部分;或者该分类器与该第一个解码模块的掩码注意力层连接,其中该分类器的输出作为该第一个解码模块的掩码注意力层输入的一部分。
[0018]可选地,该受众群体是基于年龄、性别和/或职业进行分类的;该认知水平是基于文化程度和/或社会生活环境进行的分类的;该文化特征是基于国家、民族和/或语言进行分类的;该媒体类型是基于媒体文件的格式进行分类的;或者该第一角色的人物特征是基于外表、行为、性格和品质进行分类的。
[0019]可选地,该每个解码模块采用残差结构,该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。
...

【技术保护点】

【技术特征摘要】
1.一种跨语言语音转换方法,其特征在于,包括:将第一媒体文件输入跨语言语音转换模型,其中所述第一媒体文件包括背景特征和由第一角色使用第一语言发出的第一源语音,所述跨语言语音转换模型是基于神经网络对历史媒体文件集进行训练得到的;和基于所述跨语言语音转换模型输出第二媒体文件;其中,所述第二媒体文件是通过所述第一媒体文件的背景特征和使用第二语言的第一目标语音合成的;所述第一目标语音是基于所述背景特征、所述第一媒体文件的目标受众和所述第一源语音的语音内容生成的;以及所述第一目标语音的声纹特征取决于所述媒体文件的目标受众和/或所述第一源语音的声纹特征。2.根据权利要求1所述的方法,其中,所述第一源语音与所述第一目标语音的声纹相似度小于相似度预设值;或者所述第一目标声纹与所述第一角色的声纹相同;或者所述第一目标语音的声纹取决于所述媒体文件的目标受众和所述第一角色的人物特征。3.根据权利要求2所述的方法,其中,所述第一目标语音是基于所述背景特征、所述第一媒体文件的目标受众和所述第一源语音的语音内容生成的,包括:所述第一目标语音是基于所述媒体文件包括的影视文件的场景特征、目标受众的认知水平和文化特征,以及所述第一源语音的语音内容生成的;或者所述第一目标语音是基于所述媒体文件包括的音频文件的背景音、目标受众的认知水平和文化特征、以及所述第一源语音的语音内容生成的。4.根据权利要求3所述的方法,其中,所述第一目标语音是基于所述媒体文件包括的影视文件的场景特征、目标受众的认知水平和文化特征,以及所述第一源语音的语音内容生成的,包括:所述第一目标语音是基于第二语言的第一目标语音内容以及所述第一目标语音的声纹特征生成的,其中所述第一目标语音内容是根据所述场景特征、所述目标受众的认知水平和文化特征采用增译法、减译法和/或转译法将所述第一源语音的语音内容翻译得到的,以使得所述第一目标语音的持续时长t2与所述第一源语音的持续时长t1的关系满足:|t1

t2|≤第一时长预设值;或者,所述第一媒体文件还包括由第二角色发出的第一语言的第二源语音;所述第二源语音的持续时长t3和与所述第二源语音对应的第二目标语音的持续时长t4的关系满足:|t3

t4|≤第二时长预设值;以及所述第一目标语音和所述第二目标语音在音高上的关系取决于所述第一源语音和所述第二源语音在音高上的关系,或者在所述第一源语音和所述第二源语音的音高之差为协和音程的情况下,所述第一目标语音和所述第二目标语音的音高之差为协和音程。5.根据权利要求1

4任一项所述的方法,其中,所述跨语言语音转换模型包括分类器和生成式预训练变换器GPT神经网络,所述GPT神经网络包括嵌入层、N个解码模块和输出层,其中所述N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,所述N为大于1的整数;所述基于所述跨语言语音转换模型输出第二媒体文件,包括:
将所述第一媒体文件输入所述分类器获取所述第一媒体文件的分类信息,其中所述第一媒体文件的分类信息包括所述第一媒体文件的受众群体、以及所述目标受众的认知水平、媒体类型、文化特征和/或所述第一角色的人物特征;将所述第一媒体文件进行位置编码得到位置向量且将所述第一媒体文件输入所述嵌入层得到嵌入向量;将所述位置向量和所述嵌入向量输入所述N个解码模块中第一个解码模块的掩码注意力层;以及,经过所述N个解码模块后在所述输出层输出所述第二媒体文件,其中所述第一媒体文件的分类信息用于生成所述第二媒体文件的所述第一目标语音;其中,所述分类器与所述嵌入层连接,所述分类器的输出作为所述嵌入层输入的一部分;或者所述分类器与所述输出层连接,所述分类器的输出作为所述输出层输入的一部分;或者所述分类器与所述第一个解码模块的掩码注意力层连接,所述分类器的输出作为所述第一个解码模块的掩码注意力层输入的一部分。6.根据权利要求5所述的方法,其中,所述每个解码模块采用残差结构,所述残差结构包括将所述每个解码模块的掩码注意力层的输入和输出作为所述第一归一化层的输入、以及将所述前向反馈层的输入和输出作为所述第二归一化层的输入;和/或,在将所述第一媒体文件输入所述跨语言语音转换模型之前将所述第一媒体文件分成多个片段;其中所述多个片段中每个片段的大小小于第一数据阈值,所述第一数据阈值的数量级小于或等于10的7次方,以及针对每个片段经过所述输出层所输出的数据大小大致等于在所述嵌入层输入的数据大小。7.一种跨语言语音转换模型的训练方法,其特征在于,包括:将历史媒体文件样本集中的至少一个历史媒体文件输入所述跨语言语音转换模型,其中所述历史媒体文件包括背景特征和使用第一语言发出的源语音;基于所述跨语言语音转换模型输出目标媒体文件,其中,所述目标媒体文件是通过所述历史媒体文件的背景特征和使用第二语言的目标语音合成的,所述目标语音是基于所述背景特征、所述历史媒体文件的目标受众和所述源语音的语音内容生成的...

【专利技术属性】
技术研发人员:彭瑞达
申请(专利权)人:北京家瑞科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1