【技术实现步骤摘要】
跨语言语音转换方法、训练方法及相关装置
[0001]本申请涉及自然语言处理
,更具体地,涉及一种跨语言语音转换方法、训练方法及相关装置。
技术介绍
[0002]随着人工智能(AI)技术的迅速发展,作为人机交互的一种方式,自然语言处理技术(可应用于如教育、通信、娱乐等领域)也随之受到了广泛的关注。其中,跨语言语音转换具有重要的应用潜力。例如,可以将媒体文件中第一人声发出的源语音(使用第一语言,如英语)转换为语义相同的第二人声发出的目标语音(使用第二语言,如中文),使人们能够跨语言或跨文化交流。
[0003]现有技术的跨语言语音转换系统通常包括特征提取器和语音合成器。例如,基于特征提取器对第一人声发出的源语音进行特征提取获得包括背景和第一语音内容的特征数据;将第一语言对应的第一语音内容翻译为第二语言对应的第二语音内容;再基于语音合成器将源语音的背景和第二语音内容与第二人声的声纹信息进行合成,从而生成具有第二人声音色的目标语音。
[0004]但是,现有技术中跨语言语音转换系统的转换速度比较慢,并且如不同的文化差异和/或不同音色的差异会导致跨语言语音转换的质量仍然较低。例如,在媒体产品如电影中,跨语言的语音不够自然和流畅,容易让人出戏,甚至无法让用户充分理解语音中语境信息,从而降低用户体验。又例如,在音频中,不同人声的音色差异和音域差异甚至会导致音不自然且模糊不清的问题。
技术实现思路
[0005]本申请实施例提供一种跨语言语音转换和装置,能够基于媒体文件的背景特征、目标受众、源语音的语
【技术保护点】
【技术特征摘要】
1.一种跨语言语音转换方法,其特征在于,包括:将第一媒体文件输入跨语言语音转换模型,其中所述第一媒体文件包括背景特征和由第一角色使用第一语言发出的第一源语音,所述跨语言语音转换模型是基于神经网络对历史媒体文件集进行训练得到的;和基于所述跨语言语音转换模型输出第二媒体文件;其中,所述第二媒体文件是通过所述第一媒体文件的背景特征和使用第二语言的第一目标语音合成的;所述第一目标语音是基于所述背景特征、所述第一媒体文件的目标受众和所述第一源语音的语音内容生成的;以及所述第一目标语音的声纹特征取决于所述媒体文件的目标受众和/或所述第一源语音的声纹特征。2.根据权利要求1所述的方法,其中,所述第一源语音与所述第一目标语音的声纹相似度小于相似度预设值;或者所述第一目标声纹与所述第一角色的声纹相同;或者所述第一目标语音的声纹取决于所述媒体文件的目标受众和所述第一角色的人物特征。3.根据权利要求2所述的方法,其中,所述第一目标语音是基于所述背景特征、所述第一媒体文件的目标受众和所述第一源语音的语音内容生成的,包括:所述第一目标语音是基于所述媒体文件包括的影视文件的场景特征、目标受众的认知水平和文化特征,以及所述第一源语音的语音内容生成的;或者所述第一目标语音是基于所述媒体文件包括的音频文件的背景音、目标受众的认知水平和文化特征、以及所述第一源语音的语音内容生成的。4.根据权利要求3所述的方法,其中,所述第一目标语音是基于所述媒体文件包括的影视文件的场景特征、目标受众的认知水平和文化特征,以及所述第一源语音的语音内容生成的,包括:所述第一目标语音是基于第二语言的第一目标语音内容以及所述第一目标语音的声纹特征生成的,其中所述第一目标语音内容是根据所述场景特征、所述目标受众的认知水平和文化特征采用增译法、减译法和/或转译法将所述第一源语音的语音内容翻译得到的,以使得所述第一目标语音的持续时长t2与所述第一源语音的持续时长t1的关系满足:|t1
‑
t2|≤第一时长预设值;或者,所述第一媒体文件还包括由第二角色发出的第一语言的第二源语音;所述第二源语音的持续时长t3和与所述第二源语音对应的第二目标语音的持续时长t4的关系满足:|t3
‑
t4|≤第二时长预设值;以及所述第一目标语音和所述第二目标语音在音高上的关系取决于所述第一源语音和所述第二源语音在音高上的关系,或者在所述第一源语音和所述第二源语音的音高之差为协和音程的情况下,所述第一目标语音和所述第二目标语音的音高之差为协和音程。5.根据权利要求1
‑
4任一项所述的方法,其中,所述跨语言语音转换模型包括分类器和生成式预训练变换器GPT神经网络,所述GPT神经网络包括嵌入层、N个解码模块和输出层,其中所述N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,所述N为大于1的整数;所述基于所述跨语言语音转换模型输出第二媒体文件,包括:
将所述第一媒体文件输入所述分类器获取所述第一媒体文件的分类信息,其中所述第一媒体文件的分类信息包括所述第一媒体文件的受众群体、以及所述目标受众的认知水平、媒体类型、文化特征和/或所述第一角色的人物特征;将所述第一媒体文件进行位置编码得到位置向量且将所述第一媒体文件输入所述嵌入层得到嵌入向量;将所述位置向量和所述嵌入向量输入所述N个解码模块中第一个解码模块的掩码注意力层;以及,经过所述N个解码模块后在所述输出层输出所述第二媒体文件,其中所述第一媒体文件的分类信息用于生成所述第二媒体文件的所述第一目标语音;其中,所述分类器与所述嵌入层连接,所述分类器的输出作为所述嵌入层输入的一部分;或者所述分类器与所述输出层连接,所述分类器的输出作为所述输出层输入的一部分;或者所述分类器与所述第一个解码模块的掩码注意力层连接,所述分类器的输出作为所述第一个解码模块的掩码注意力层输入的一部分。6.根据权利要求5所述的方法,其中,所述每个解码模块采用残差结构,所述残差结构包括将所述每个解码模块的掩码注意力层的输入和输出作为所述第一归一化层的输入、以及将所述前向反馈层的输入和输出作为所述第二归一化层的输入;和/或,在将所述第一媒体文件输入所述跨语言语音转换模型之前将所述第一媒体文件分成多个片段;其中所述多个片段中每个片段的大小小于第一数据阈值,所述第一数据阈值的数量级小于或等于10的7次方,以及针对每个片段经过所述输出层所输出的数据大小大致等于在所述嵌入层输入的数据大小。7.一种跨语言语音转换模型的训练方法,其特征在于,包括:将历史媒体文件样本集中的至少一个历史媒体文件输入所述跨语言语音转换模型,其中所述历史媒体文件包括背景特征和使用第一语言发出的源语音;基于所述跨语言语音转换模型输出目标媒体文件,其中,所述目标媒体文件是通过所述历史媒体文件的背景特征和使用第二语言的目标语音合成的,所述目标语音是基于所述背景特征、所述历史媒体文件的目标受众和所述源语音的语音内容生成的...
【专利技术属性】
技术研发人员:彭瑞达,
申请(专利权)人:北京家瑞科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。