机器同声传译输出音频动态合成方法、装置以及设备制造方法及图纸

技术编号:27064116 阅读:20 留言:0更新日期:2021-01-15 14:45
本发明专利技术公开了一种机器同声传译输出音频动态合成方法、装置以及设备。具体是从当前同声传译场景出发,基于既定规则先明确是否要调节合成音频语速,在有必要进行语速干预时,实时获取当前原声语句的时长及相应译文文本可能的时长,并求取二者之差以及同传至现阶段的累积时差,接着考察当前时差和/或累积时差与各自对应的预设容忍度的关系,由此动态地调整翻译策略和/或确定出语速调节增益参数,这里即包含直接干预译文文本,或不干预译文文本而为译文文本附带语速变化系数此两种调节因子,最后利用此不同的调节因子完成同传音频的语音合成。本发明专利技术实现了对当前输出音频进行动态语速调节,解决了机器同传延时问题,有效提升机器同传的输出效果。

【技术实现步骤摘要】
机器同声传译输出音频动态合成方法、装置以及设备
本专利技术涉及同声传译领域,尤其涉及一种机器同声传译输出音频动态合成方法、装置以及设备。
技术介绍
在经济全球化大背景下,国际性、多语种交流日趋频繁,在国际性会议交流中,同声传译成为当今世界普遍流行的翻译方式。当前,在国际性会议、大型正式会议以及非正式会议中,同传翻译需求量巨大,并且对同传行业内的从业人员的专业性和学术性要求较高,且产出效率相对较低,同时工作量较大,导致人工同传成本昂贵,与市场供求关系不匹配;另外,由于同传的高门槛,高阶同传译员需具备扎实的语言功底、成熟的会议经验等,短期内难以迅速复制。随着智能语音技术的不断发展,语音识别和机器翻译取得长足的技术进步,因而目前本领域也在尝试采用语音转写、机器翻译以及语音合成技术搭建机器同传系统以解决当前会展市场高水平人工同传极其缺乏的问题。但是,通过语音识别、机器翻译和语音合成实现的同步传译应用,对于众多会议场景的特定受众而言,还存在诸多亟待解决的问题,例如语音识别易受环境影响导致识别准确率低,进一步使得机器翻译结果不尽如人意。另外,将机器翻译译文进行语音合成进行音频输出时并不流畅,时断时续。尤其地,本专利技术关注到同传合成语音与会议现场的原声会出现较大的延时,且这种延时会随着发言长度形成累积效应,当延迟较为明显时,同传听众难以与发言人形成及时的呼应,发言内容、演讲人员的情绪会与听众的反应和互动发生脱节,导致会议发言效果大大降低,参会人员也难以获得较佳的同传收听体验。
技术实现思路
于上述,本专利技术旨在提供一种机器同声传译输出音频动态合成方法、装置以及设备,并相应地提出一种计算机可读存储介质以及计算机程序产品,用以针对特定的同声传译场景下的特定问题,实现对输出的译文音频进行动态调整及合成,从而提升机器同传的输出效果。本专利技术采用的技术方案如下:第一方面,本专利技术提供了一种机器同声传译输出音频动态合成方法,包括:根据采集到的当前同声传译场景信息以及既定规则,判定是否需要调节合成音频语速;若需要,则实时获取当前原声语句的第一时长,并预估相应于当前原声语句的译文文本合成音频后的第二时长;求取所述第一时长与所述第二时长之间的时差,并统计本次同传阶段的累积时差;根据所述时差和/或所述累积时差与对应的预设容忍度的关系,实时调整翻译策略和/或确定语速调节增益参数;根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。在其中至少一种可能的实现方式中,所述当前同声传译场景信息包括以下一种或多种:当前原始语种类型以及翻译方向;发言人的个性化信息;以及当前原声语句的发音层面特征。在其中至少一种可能的实现方式中,所述调整翻译策略包括:对当前原声语句进行二次翻译:采用与在先译文文本不同的用词和/或语法,改变二次翻译后的译文文本的长度。在其中至少一种可能的实现方式中,所述确定语速调节增益参数包括:根据同声传译场景预先搜集相应的语料;利用所述语料进行延时分析,并确定预设增益参数;基于所述时差和/或所述累积时差与预设容忍度的比例关系,选择所述预设增益参数或所述比例关系作为所述语速调节增益参数。在其中至少一种可能的实现方式中,所述方法还包括:根据所述语速调节增益参数,或者所述语速调节增益参数和所述当前同声传译场景信息,确定当前输出音频的发音调节参数;结合所述发音调节参数对当前译文文本进行合成处理。在其中至少一种可能的实现方式中,根据所述当前同声传译场景信息,确定当前输出音频的发音调节参数包括:根据当前原声语句的响度,获得当前输出音频的响度调节参数;和/或结合当前原声语句,对当前译文文本进行情感分析;根据情感分析结果,获得当前输出音频的语气调节参数。在其中至少一种可能的实现方式中,所述根据当前原声语句的响度,获得当前输出音频的响度调节参数包括:持续获得当前原声语句的每一音频帧的原始音量值;基于所述原始音量值,计算各所述音频帧的音量差值;结合当前输出音频的预设默认响度以及所述音量差值,确定当前输出音频的音量调节参数。第二方面,本专利技术提供了一种机器同声传译输出音频动态合成装置,包括:语速调节决策模块,用于根据采集到的当前同声传译场景信息以及既定规则,判定是否需要调节合成音频语速;音频时长计算模块,用于当所述语速调节决策模块输出为是时,实时获取当前原声语句的第一时长,并预估相应于当前原声语句的译文文本合成音频后的第二时长;延时计算模块,用于求取所述第一时长与所述第二时长之间的时差,并统计本次同传阶段的累积时差;语速调节参数确定模块,用于根据所述时差和/或所述累积时差与对应的预设容忍度的关系,实时调整翻译策略和/或确定语速调节增益参数;语音合成模块,用于根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。在其中至少一种可能的实现方式中,所述当前同声传译场景信息包括以下一种或多种:当前原始语种类型以及翻译方向;发言人的个性化信息;以及当前原声语句的发音层面特征。在其中至少一种可能的实现方式中,所述语速调节参数确定模块包括:调整翻译策略单元,所述调整翻译策略单元具体包括:二次翻译组件,用于对当前原声语句进行二次翻译:采用与在先译文文本不同的用词和/或语法,改变二次翻译后的译文文本的长度。在其中至少一种可能的实现方式中,所述语速调节参数确定模块具体包括:语料获取单元,用于根据同声传译场景预先搜集相应的语料;增益参数单元,用于利用所述语料进行延时分析,并确定预设增益参数;语速调节参数选择单元,用于基于所述时差和/或所述累积时差与预设容忍度的比例关系,选择所述预设增益参数或所述比例关系作为所述语速调节增益参数。在其中至少一种可能的实现方式中,所述装置还包括:发音调节参数确定模块,用于根据所述语速调节增益参数,或者所述语速调节增益参数和所述当前同声传译场景信息,确定当前输出音频的发音调节参数;所述语音合成模块还用于,结合所述发音调节参数对当前译文文本进行合成处理。在其中至少一种可能的实现方式中,所述发音调节参数确定模块包括:响度调节单元,用于根据当前原声语句的响度,获得当前输出音频的响度调节参数;和/或语气调节单元,所述语气调节单元具体包括:情感分析组件,用于结合当前原声语句,对当前译文文本进行情感分析;语气调节参数获取组件,用于根据情感分析结果,获得当前输出音频的语气调节参数。在其中至少一种可能的实现方式中,所述响度调节单元包括:原声音量获取组件,用于持续获得当前原声语句的每一音频帧的原始音量值;原声音量差计算组件,用于基于所述原始音量值,计算各所述音频帧的音量差值;音量调节参数确定组件,用于结合当前输出本文档来自技高网...

【技术保护点】
1.一种机器同声传译输出音频动态合成方法,其特征在于,包括:/n根据采集到的当前同声传译场景信息以及既定规则,判定是否需要调节合成音频语速;/n若需要,则实时获取当前原声语句的第一时长,并预估相应于当前原声语句的译文文本合成音频后的第二时长;/n求取所述第一时长与所述第二时长之间的时差,并统计本次同传阶段的累积时差;/n根据所述时差和/或所述累积时差与对应的预设容忍度的关系,实时调整翻译策略和/或确定语速调节增益参数;/n根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。/n

【技术特征摘要】
1.一种机器同声传译输出音频动态合成方法,其特征在于,包括:
根据采集到的当前同声传译场景信息以及既定规则,判定是否需要调节合成音频语速;
若需要,则实时获取当前原声语句的第一时长,并预估相应于当前原声语句的译文文本合成音频后的第二时长;
求取所述第一时长与所述第二时长之间的时差,并统计本次同传阶段的累积时差;
根据所述时差和/或所述累积时差与对应的预设容忍度的关系,实时调整翻译策略和/或确定语速调节增益参数;
根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。


2.根据权利要求1所述的机器同声传译输出音频动态合成方法,其特征在于,所述当前同声传译场景信息包括以下一种或多种:
当前原始语种类型以及翻译方向;
发言人的个性化信息;以及
当前原声语句的发音层面特征。


3.根据权利要求1所述的机器同声传译输出音频动态合成方法,其特征在于,所述调整翻译策略包括:
对当前原声语句进行二次翻译:采用与在先译文文本不同的用词和/或语法,改变二次翻译后的译文文本的长度。


4.根据权利要求1所述的机器同声传译输出音频动态合成方法,其特征在于,所述确定语速调节增益参数包括:
根据同声传译场景预先搜集相应的语料;
利用所述语料进行延时分析,并确定预设增益参数;
基于所述时差和/或所述累积时差与预设容忍度的比例关系,选择所述预设增益参数或所述比例关系作为所述语速调节增益参数。


5.根据权利要求1~4任一项所述的机器同声传译输出音频动态合成方法,其特征在于,所述方法还包括:
根据所述语速调节增益参数,或者所述语速调节增益参数和所述当前同声传译场景信息,确定当前输出音频的发音调节参数;
结合所述发音调节参数对当前译文文本进行合成处理。


6.根据权利要求5所述的机器同声传译输出音频动态合成方法,其特征在于,根据所述当前同声传译场景信息,确定当前输出音频的发音调节参数包括:
根据当前原声语句的响度,获得当前输出音...

【专利技术属性】
技术研发人员:王兆育苏文畅国丽
申请(专利权)人:安徽听见科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1