语音机器翻译模型的构建方法及语音机器翻译装置制造方法及图纸

技术编号:32224653 阅读:10 留言:0更新日期:2022-02-09 17:29
本公开提供了一种语音机器翻译模型的构建方法,包括:获取语音机器翻译模型的预测概率分布;将源语言语音

【技术实现步骤摘要】
语音机器翻译模型的构建方法及语音机器翻译装置


[0001]本公开涉及机器翻译
,本公开尤其涉及一种语音机器翻译模型的构建方法及语音机器翻译装置、电子设备及存储介质。

技术介绍

[0002]语音翻译是将一种语言的语音翻译成另一种语言的语音或者文本,是打破语言障碍的关键技术。
[0003]现有技术中的语音翻译系统一般由语音识别模块、机器翻译模块等构成。首先,语音识别模块将源语言的语音转换为源语言的文本,然后通过机器翻译模块再将源语言的文本翻译为目标语言的文本,这种语音翻译系统已经被广泛使用,但是这种语音翻译系统存在着错误累积、翻译时延、计算和存储资源占用较大等缺点,且这种语音翻译系统将源语言的语音识别为源语言的文本再进行翻译的做法,丢失了源语言的语音中的语气、声调等信息,难以避免的会导致语音翻译的不够准确。

技术实现思路

[0004]为了解决上述技术问题中的至少一个,本公开提供了一种语音机器翻译模型的构建方法及语音机器翻译装置、电子设备及存储介质。
[0005]根据本公开的一个方面,提供一种语音机器翻译模型的构建方法,包括:
[0006]构建语音机器翻译模型的预目标函数,所述预目标函数表征预测概率分布与真实数据分布之间的交叉熵,基于源语言语音

目标语言文本的数据集以及所述预目标函数对语音机器翻译模型进行训练,获取所述语音机器翻译模型的预测概率分布;
[0007]将所述源语言语音

目标语言文本组成的数据集中的源语言语音转录文本作为源语言文本构建源语言文本

目标语言文本的数据集;
[0008]构建文本机器翻译模型的目标函数,所述目标函数表征预测概率分布与真实数据分布之间的交叉熵,基于所述源语言文本

目标语言文本的数据集以及所述目标函数对文本机器翻译模型进行训练,获取所述文本机器翻译模型的预测概率分布;
[0009]将所述语音机器翻译模型的预测概率分布与所述文本机器翻译模型的预测概率分布之间的交叉熵作为所述语音机器翻译模型的最终目标函数;以及,
[0010]基于所述最终目标函数对所述语音翻译模型进行训练,最小化所述语音机器翻译模型的预测概率分布与所述文本机器翻译模型的预测概率分布之间的交叉熵,获得构建后的语音机器翻译模型。
[0011]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,基于源语言语音

目标语言文本的数据集以及所述预目标函数对语音机器翻译模型进行训练,获取所述语音机器翻译模型的预测概率分布,包括:
[0012]最小化所述语音机器翻译模型的预测概率分布与真实数据分布之间的交叉熵,以获得所述语音机器翻译模型的预测概率分布。
[0013]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,基于所述源语言文本

目标语言文本的数据集以及所述目标函数对文本机器翻译模型进行训练,获取所述文本机器翻译模型的预测概率分布,包括:
[0014]最小化所述文本机器翻译模型的预测概率分布与真实数据分布之间的交叉熵,以获得所述文本机器翻译模型的预测概率分布。
[0015]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,所述文本机器翻译模型的预测概率分布为对于所述源语言文本

目标语言文本的数据集中的源语言文本的各个时刻预测出的词语的概率分布。
[0016]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,将源语言文本

目标语言文本的数据集中的源语言文本的各个时刻预测出的词语的概率分布作为基于所述最终目标函数对所述语音翻译模型进行训练的训练目标。
[0017]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,所述文本机器翻译模型包括第一Transformer模型,所述语音机器翻译模型包括第二Transformer模型;所述第一Transformer模型与所述第二Transformer模型均包括多层堆叠的编码器以及多层堆叠的解码器。
[0018]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,基于所述源语言文本

目标语言文本的数据集以及所述目标函数对文本机器翻译模型进行训练,包括:
[0019]将源语言文本词向量序列通过词嵌入被映射至连续的空间表示并作为所述第一Transformer模型的编码器的输入,编码器将所述源语言文本词向量序列编码至连续表示,所述第一Transformer模型的解码器基于所述连续表示输出目标语言文本词向量序列;以及,
[0020]以最小化所述文本机器翻译模型的最大似然损失为训练目标。
[0021]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,基于源语言语音

目标语言文本的数据集以及所述预目标函数对语音机器翻译模型进行训练,包括:
[0022]基于源语言语音

目标语言文本的数据集获取所述源语言的语音特征序列;
[0023]将获取的所述源语言的语音特征序列映射至与第二Transformer模型相同的维度;
[0024]使用位置编码以表示各个所述语音特征序列之间的顺序关系,将位置编码与语音特征序列相加作为所述语音机器翻译模型的编码器的输入;以及,
[0025]以最小化所述语音机器翻译模型的最大似然损失为训练目标。
[0026]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,所述源语言的语音特征序列基于源语言的时域语音信号获取。
[0027]根据本公开的至少一个实施方式的语音机器翻译模型的构建方法,所述语音特征序列基于语音特征信号抽取模块获取,所述语音特征序列抽取模块优选地包括梅尔滤波器组。
[0028]根据本公开的另一个方面,提供一种语音翻译装置,包括:语音机器翻译模型,所述语音机器翻译模型为上述任一项所述的语音机器翻译模型的构建方法构建的语音机器翻译模型;以及,文本机器翻译模型,所述文本机器翻译模型用于所述语音机器翻译模型的构建。
[0029]根据本公开的又一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及,处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
[0030]根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
[0031]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0032]图1是本公开的一个实施方式的语音机器翻译模型的构建方法的流程示意图。
[0033]图2是本公开的一个实施方式的文本机器翻译模型的训练过程示意图。...

【技术保护点】

【技术特征摘要】
1.一种语音机器翻译模型的构建方法,其特征在于,包括:构建语音机器翻译模型的预目标函数,所述预目标函数表征预测概率分布与真实数据分布之间的交叉熵,基于源语言语音

目标语言文本的数据集以及所述预目标函数对语音机器翻译模型进行训练,获取所述语音机器翻译模型的预测概率分布;将所述源语言语音

目标语言文本组成的数据集中的源语言语音转录文本作为源语言文本构建源语言文本

目标语言文本的数据集;构建文本机器翻译模型的目标函数,所述目标函数表征预测概率分布与真实数据分布之间的交叉熵,基于所述源语言文本

目标语言文本的数据集以及所述目标函数对文本机器翻译模型进行训练,获取所述文本机器翻译模型的预测概率分布;将所述语音机器翻译模型的预测概率分布与所述文本机器翻译模型的预测概率分布之间的交叉熵作为所述语音机器翻译模型的最终目标函数;以及基于所述最终目标函数对所述语音翻译模型进行训练,最小化所述语音机器翻译模型的预测概率分布与所述文本机器翻译模型的预测概率分布之间的交叉熵,获得构建后的语音机器翻译模型。2.根据权利要求1所述的语音机器翻译模型的构建方法,其特征在于,基于源语言语音

目标语言文本的数据集以及所述预目标函数对语音机器翻译模型进行训练,获取所述语音机器翻译模型的预测概率分布,包括:最小化所述语音机器翻译模型的预测概率分布与真实数据分布之间的交叉熵,以获得所述语音机器翻译模型的预测概率分布。3.根据权利要求1或2所述的语音机器翻译模型的构建方法,其特征在于,基于所述源语言文本

目标语言文本的数据集以及所述目标函数对文本机器翻译模型进行训练,获取所述文本机器翻译模型的预测概率分布,包括:最小化所述文本机器翻译模型的预测概率分布与真实数据分布之间的交叉熵,以获得所述文本机器翻译模型的预测概率分布。4.根据权利要求3所述的语音机器翻译模型的构建方法,其特征在...

【专利技术属性】
技术研发人员:刘宇宸周玉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1