篇章翻译方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27194948 阅读:20 留言:0更新日期:2021-01-31 11:46
本申请公开了篇章翻译方法、装置、电子设备和存储介质,涉及语音、自然语言处理、深度学习技术领域。具体实现方案为:获取待翻译篇章;将待翻译篇章输入至篇章翻译模型中,篇章翻译模型将待翻译篇章划分为多个语义单元,将当前语义单元之前的N个语义单元确定为局部上下文语义单元,将局部上下文语义单元之前的M个语义单元确定为全局上下文语义单元,根据局部上下文语义单元和全局上下文语义单元生成当前语义单元的翻译结果,N为整数,M为整数。该方法可根据局部上下文语义单元和全局上下文语义单元生成当前语义单元的翻译结果,能够解决相关技术中翻译不连贯、上下文翻译不一致的问题,提高了翻译结果的准确性,适用于篇章翻译场景。场景。场景。

【技术实现步骤摘要】
篇章翻译方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
中的语音、自然语言处理、深度学习
,尤其涉及一种篇章翻译方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]目前,随着人工智能、自然语言处理等技术的发展,语音翻译技术在同传、外语教学等场景中得到了广泛的应用。例如,同传场景下,语音翻译技术可将说话者的语言类型同步转换为不同语言类型,方便了人们交流。然而,相关技术中的语音翻译方法,翻译结果容易出现翻译不连贯、上下文翻译不一致等问题。

技术实现思路

[0003]提供了一种篇章翻译方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据第一方面,提供了一种篇章翻译方法,包括:获取待翻译篇章;将所述待翻译篇章输入至训练好的篇章翻译模型中,所述篇章翻译模型将所述待翻译篇章划分为多个语义单元,将当前语义单元之前的N个语义单元确定为局部上下文语义单元,将所述局部上下文语义单元之前的M个语义单元确定为全局上下文语义单元,根据所述局部上下文语义单元和所述全局上下文语义单元生成所述当前语义单元的翻译结果,所述N为整数,所述M为整数。
[0005]根据第二方面,提供了一种篇章翻译装置,包括:获取模块,用于获取待翻译篇章;输入模块,用于将所述待翻译篇章输入至训练好的篇章翻译模型中,所述篇章翻译模型将所述待翻译篇章划分为多个语义单元,将当前语义单元之前的N个语义单元确定为局部上下文语义单元,将所述局部上下文语义单元之前的M个语义单元确定为全局上下文语义单元,根据所述局部上下文语义单元和所述全局上下文语义单元生成所述当前语义单元的翻译结果,所述N为整数,所述M为整数。
[0006]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面所述的篇章翻译方法。
[0007]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面所述的篇章翻译方法。
[0008]根据第五方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本公开第一方面所述的篇章翻译方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的篇章翻译方法的流程示意图;图2是根据本申请第二实施例的篇章翻译方法中生成当前语义单元的翻译结果的流程示意图;图3是根据本申请第三实施例的篇章翻译方法中生成当前语义单元的向量表示的流程示意图;图4是根据本申请第四实施例的篇章翻译方法中生成分词的全局融合向量表示的示意图;图5是根据本申请第一实施例的篇章翻译装置的框图;图6是根据本申请第二实施例的篇章翻译装置的框图;图7是用来实现本申请实施例的篇章翻译方法的电子设备的框图。
具体实施方式
[0011]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0012]语音可包括语音识别、语音交互等
,是人工智能领域中的一个重要方向。
[0013]语音识别(Voice Recognition)是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
[0014]语音交互(Voice Interaction)是一种机器与用户以语音为信息载体进行互动、沟通、信息交换等交互行为的技术,相较于传统的人机交互,具有方便快捷、用户舒适性高的优点。
[0015]自然语言处理(Natural Language Processing,NLU)是研究能有效地实现自然语言通信的计算机系统,特别是其中的软件系统的一门科学,是计算机科学领域与人工智能领域中的一个重要方向。
[0016]深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个新的研究方向,是学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据的一门科学,广泛应用于语音和图像识别。
[0017]图1是根据本申请第一实施例的篇章翻译方法的流程示意图。
[0018]如图1所示,本申请第一实施例的篇章翻译方法包括:S101,获取待翻译篇章。
[0019]需要说明的是,本申请实施例的篇章翻译方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选的,执行主体可包括工作站、服务器,计算机、用户终端及其他设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
[0020]本申请的实施例中,可获取待翻译篇章。可以理解的是,待翻译篇章可由多个语句
组成。
[0021]可选的,待翻译篇章可通过录制、网络传输等方式获取。
[0022]例如,当采用录制的方式获取待翻译篇章时,设备上具有语音采集装置,语音采集装置可为麦克风(Microphone)、麦克风阵列(Microphone Array)等。或者,当采用网络传输的方式获取待翻译篇章时,设备上具有联网装置,可通过联网装置与其他设备或者服务器进行网络传输。
[0023]可以理解的是,待翻译篇章可为音频、文本等形式,这里不做过多限定。
[0024]需要说明的是,本申请实施例中,对待翻译篇章的语言类型和翻译结果的语言类型均不做限定。
[0025]S102,将待翻译篇章输入至训练好的篇章翻译模型中,篇章翻译模型将待翻译篇章划分为多个语义单元,将当前语义单元之前的N个语义单元确定为局部上下文语义单元,将局部上下文语义单元之前的M个语义单元确定为全局上下文语义单元,根据局部上下文语义单元和全局上下文语义单元生成当前语义单元的翻译结果,N为整数,M为整数。
[0026]相关技术中,大多根据句子级别的双语句对训练翻译模型,翻译模型的翻译结果不够灵活。比如针对篇章翻译场景下,待翻译文本为由多个语句组成的篇章,此时翻译模型的翻译结果会出现翻译不连贯、上下文翻译不一致的问题。例如,若篇章翻译场景为一个动画渲染的主题演讲,则若待翻译文本为“It starts with modeling”,此时翻译模型的翻译结果为“从造型开始”,然而此时待翻译文本中的“modeling”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种篇章翻译方法,包括:获取待翻译篇章;将所述待翻译篇章输入至训练好的篇章翻译模型中,所述篇章翻译模型将所述待翻译篇章划分为多个语义单元,将当前语义单元之前的N个语义单元确定为局部上下文语义单元,将所述局部上下文语义单元之前的M个语义单元确定为全局上下文语义单元,根据所述局部上下文语义单元和所述全局上下文语义单元生成所述当前语义单元的翻译结果,所述N为整数,所述M为整数。2.根据权利要求1所述的篇章翻译方法,所述根据所述局部上下文语义单元和所述全局上下文语义单元生成所述当前语义单元的翻译结果,包括:根据所述全局上下文语义单元的向量表示生成所述当前语义单元的向量表示;根据所述当前语义单元的向量表示和所述局部上下文语义单元的向量表示,生成所述当前语义单元和所述局部上下文语义单元对应的局部翻译结果;根据所述局部翻译结果和所述局部上下文语义单元的翻译结果,生成所述当前语义单元的翻译结果。3.根据权利要求2所述的篇章翻译方法,所述根据所述全局上下文语义单元的向量表示生成所述当前语义单元的向量表示,包括:将所述当前语义单元划分为至少一个分词;根据所述分词的向量表示和所述全局上下文语义单元的向量表示生成所述分词的全局融合向量表示;根据所述分词的全局融合向量表示生成所述当前语义单元的向量表示。4.根据权利要求3所述的篇章翻译方法,所述根据所述分词的向量表示和所述全局上下文语义单元的向量表示生成所述分词的全局融合向量表示,包括:对所述分词的向量表示进行线性变换,生成语义单元级别的所述分词的语义单元向量表示;根据所述分词的语义单元向量表示对所述全局上下文语义单元的向量表示进行特征抽取,生成全局特征向量;将所述全局特征向量和所述分词的向量表示进行融合,生成所述分词的全局融合向量表示。5.根据权利要求3所述的篇章翻译方法,所述根据所述分词的全局融合向量表示生成所述当前语义单元的向量表示,包括:确定所述分词的全局融合向量表示对应的权重;根据所述分词的全局融合向量表示和对应的权重计算得到所述当前语义单元的向量表示。6.根据权利要求1所述的篇章翻译方法,还包括:获取样本篇章和所述样本篇章对应的样本翻译结果;根据所述样本篇章和所述样本翻译结果对待训练的篇章翻译模型进行训练,得到所述训练好的篇章翻译模型。7.一种篇章翻译装置,包括:获取模块,用于获取待翻译篇章;
输入模块,用于将所述待翻译篇章输入至训练好的篇章翻译模型中,所述篇章翻译模型将所述待翻译篇章划分为多个语义单元,将当前语义单元之前的N个语义单元确定为局部上下文语义单元,将所述局部上下...

【专利技术属性】
技术研发人员:张传强张睿卿李芝何中军吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1