语音处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37182372 阅读:22 留言:0更新日期:2023-04-20 22:47
本公开提供了一种语音处理方法、装置、电子设备及存储介质,涉及语音合成技术领域。该方法包括获取第一语音的声音特征;根据第一语音的声音特征,将第一语音的转写文本转换为第二语音,第二语音的声音特征与第一语音的声音特征相同,且第二语音的语种与第一语音的语种不同。本公开实施例能够使不同语种的语音在转换过程中,保留原始说话人的声音特征,以便听众能够根据不同的声音特征区分不同的说话人。众能够根据不同的声音特征区分不同的说话人。众能够根据不同的声音特征区分不同的说话人。

【技术实现步骤摘要】
语音处理方法、装置、电子设备及存储介质


[0001]本公开涉及语音合成
,尤其涉及一种语音处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音合成技术的快速发展,语音合成技术在人们的生活和工作中扮演着越来越重要的角色。在跨语种实时交流的场景中,相关技术虽然能够实时通过机器翻译,并根据翻译结果合成语音,但是由机器实时合成的声音无法体现出不同说话人的音色特点,从而使听众容易产生听觉疲劳,甚至由于无法区分说话人而对语音传达的内容产生误解。

技术实现思路

[0003]有鉴于此,本公开提供一种语音处理方法、装置、电子设备及存储介质,可以在跨语种实时交流的场景下,对说话人的语音进行转换时,保留说话人的声音特征。
[0004]第一方面,提供一种语音处理方法,包括:获取第一语音的声音特征;根据第一语音的声音特征,将第一语音的转写文本转换为第二语音,第二语音的声音特征与第一语音的声音特征相同,且第二语音的语种与第一语音的语种不同。
[0005]在一些实施例中,获取第一语音的声音特征,包括:对第一语音进行语音端点检测,得到第一语音中的语音端点;根据第一语音中的语音端点,将第一语音划分为多个语音片段;根据多个语音片段的转写文本,在多个语音片段中筛选满足预设语音条件的语音片段;对满足预设语音条件的语音片段进行声音特征提取,得到第一语音的声音特征。
[0006]在一些实施例中,语音处理方法还包括:获取第一语音的情绪特征;在第一语音的情绪特征发生变化的情况下,将发生变化后的第一语音的情绪特征标注至第一语音的转写文本中。
[0007]在一些实施例中,获取第一语音的情绪特征,包括:分别计算多个预设情绪标签与第一语音与之间的相似度;将多个预设情绪标签中,与第一语音之间相似度最高的预设情绪标签,作为第一语音的情绪特征。
[0008]在一些实施例中,在获取第一语音的声音特征之后,还包括:在第一语音的情绪特征发生变化的情况下,再次获取第一语音的声音特征。
[0009]在一些实施例中,第一语音的情绪特征还包括:多个预设情绪标签与第一语音之间的最高相似度。
[0010]在一些实施例中,根据第一语音的声音特征,将第一语音的转写文本转换为第二语音,包括:将第一语音的转写文本输入预训练的语音合成模型,得到第二语音,语音合成模型根据第一语音的声音特征和多个预设情绪标签训练得到,语音合成模型用于合成具有第一语音的声音特征和第一语音的情绪特征的第二语音。
[0011]第二方面,提供一种语音处理装置,包括:获取模块,用于获取第一语音的声音特征;转换模块,用于根据第一语音的声音特征,将第一语音的转写文本转换为第二语音,第
二语音的声音特征与第一语音的声音特征相同,且第二语音的语种与第一语音的语种不同。
[0012]第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述第一方面的方法。
[0013]第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的方法。
[0014]本公开实施例提供的语音处理方法,在获取到第一语音的声音特征后,可以根据第一语音的声音特征,将第一语音的转写文本转换为第二语音。其中,第二语音的声音特征与第一语音的声音特征相同,且第二语音的语种与第一语音的语种不同。由此,本公开实施例提供的语音处理方法,能够使不同语种的语音在转换过程中,保留原始说话人的声音特征,以便听众能够根据不同的声音特征区分不同的说话人,从而准确的理解每个说话人在语音中表达的内容,同时能够提升听众的代入感。
附图说明
[0015]图1示出本公开实施例中一种语音处理方法的系统架构示意图。
[0016]图2示出本公开实施例中一种语音处理方法的流程示意图。
[0017]图3示出本公开实施例中一种语音处理装置的结构示意图。
[0018]图4示出本公开实施例中一种电子设备的结构示意图。
具体实施方式
[0019]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
[0020]此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0021]在跨语言交流分享的各种应用场景下(如:翻译机面对面沟通、企业中跨国远程会议、多语种的大会演讲等),往往需要实时语音翻译+语音合成播报的系统,帮助语言不通的双方实现跨语种无障碍交流。
[0022]在上述场景下,如果是机器的声音合成播报出来,性别差异、音色不像等,导致交流中会感受到亲切感不够;如果是需要提前录制较长时间的音频训练,使用门槛高、资源消耗高、场景比较受限,只适用于一些重要演讲嘉宾提前拿到语音训练的场景,实际场景下更多是不固定人员的随时交流。而基于翻译结果文本来合成语音播报,未参考说话人的声音特征,在一些实际应用场景中体验感较差。
[0023]有鉴于此,本公开提供的方案,在获取第一语音的声音特征后,可以根据第一语音的声音特征,将第一语音的转写文本转换为第二语音。其中,第二语音的声音特征与第一语
音的声音特征相同,且第二语音的语种与第一语音的语种不同。由于本公开在将第一语音转换为第二语音的过程中,预先获取了第一语音的声音特征,因此在第二语音的合成过程中可以融入第一语音的声学特征,以便听众能够根据不同声学特征的第二语音区分不同的说话人。
[0024]本公开实施例提供了一种语音处理方法、装置、电子设备及存储介质。该语音处理装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。
[0025]可以理解的是,本实施例的语音处理方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本公开的限制。
[0026]示例性地,图1示出了可以应用于本公开实施例的语音处理方法或语音处理装置的示例性系统架构示意图。
[0027]如图1所示,该系统架构100包括终端101、终端102和服务器103。终端101和终端102均与服务器103之间通过网络连接,比如,通过有线或无线网络连接等,其中,语音处理装置可以集成在服务器中。
[0028]服务器103,可以用于:获取第一语音的声音特征;根据第一语音的声音特征,将第一语音的转写文本转换为第二语音,第二语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取第一语音的声音特征;根据第一语音的声音特征,将所述第一语音的转写文本转换为第二语音,所述第二语音的声音特征与所述第一语音的声音特征相同,且所述第二语音的语种与所述第一语音的语种不同。2.根据权利要求1所述的方法,其特征在于,所述获取第一语音的声音特征,包括:对所述第一语音进行语音端点检测,得到所述第一语音中的语音端点;根据所述第一语音中的语音端点,将所述第一语音划分为多个语音片段;根据所述多个语音片段的转写文本,在所述多个语音片段中筛选满足预设语音条件的语音片段;对所述满足预设语音条件的语音片段进行声音特征提取,得到所述第一语音的声音特征。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第一语音的情绪特征;在所述第一语音的情绪特征发生变化的情况下,将发生变化后的所述第一语音的情绪特征标注至所述第一语音的转写文本中。4.根据权利要求3所述的方法,其特征在于,所述获取所述第一语音的情绪特征,包括:分别计算多个预设情绪标签与所述第一语音与之间的相似度;将所述多个预设情绪标签中,与所述第一语音之间相似度最高的预设情绪标签,作为所述第一语音的情绪特征。5.根据权利要求3所述的方法,其特征在于,在所述获取第一语音的声音特征之后,还包括:在所述第一语音的情绪...

【专利技术属性】
技术研发人员:黄爽潘青华张为泰黄明登
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1