基于机器翻译和译后编辑的自学习翻译方法及装置制造方法及图纸

技术编号:31381810 阅读:17 留言:0更新日期:2021-12-15 11:30
本公开提供了一种基于机器翻译和译后编辑的自学习翻译方法及装置,涉及大数据、深度学习与自然语言处理等人工智能技术领域。具体实现方案为:获取原文、原文对应的格式信息以及翻译信息;基于所述翻译信息,对所述原文进行翻译,得到译文;基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。根据本公开的技术,能够有效地提高翻译的准确性。效地提高翻译的准确性。效地提高翻译的准确性。

【技术实现步骤摘要】
基于机器翻译和译后编辑的自学习翻译方法及装置


[0001]本公开涉及计算机
,具体涉及大数据、深度学习与自然语言处理等人工智能
,尤其涉及一种基于机器学习和译后编辑的自学习翻译方法及装置。

技术介绍

[0002]翻译是一项技术性和专业性非常强的工作,传统技术中依靠专业的翻译人员来完成翻译。为了提高翻译效率,诞生了计算机辅助翻译(Computer Aided Translation;CAT)工具来辅助翻译员完成高质量的翻译。
[0003]现有的CAT是一种将人工翻译流程化自动化的软件。近年来越来越多的厂商增加了机翻功能,演变成人在机翻基础上进行修改校正的工具。这种产品可以在保证翻译质量的前提下,较纯人工翻译提高数倍的效率。

技术实现思路

[0004]本公开提供了一种基于机器学习和译后编辑的自学习翻译方法及装置。
[0005]根据本公开的一方面,提供了一种翻译方法,包括:获取原文、原文对应的格式信息以及翻译信息;基于所述翻译信息,对所述原文进行翻译,得到译文;基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。
[0006]根据本公开的另一方面,提供了一种翻译装置,包括:获取模块,用于获取原文、原文对应的格式信息以及翻译信息;翻译模块,用于基于所述翻译信息,对所述原文进行翻译,得到译文;处理模块,用于基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。
[0007]根据本公开的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
[0008]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
[0009]根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
[0010]根据本公开的技术,能够有效地提高翻译的准确性。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开第一实施例的示意图;图2是根据本公开第二实施例的示意图;图3是根据本公开第三实施例的示意图;图4是本公开实施例提供的一种补全界面示意图;图5是本公开实施例提供的另一种补全界面示意图;图6是本公开实施提供的一种基于机器翻译和译后编辑的自学习翻译装置的功能示意图;图7是根据本公开第四实施例的示意图;图8是根据本公开第五实施例的示意图;图9是用来实现本公开实施例的翻译方法的电子设备的框图。
具体实施方式
[0013]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0014]显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0015]需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
[0016]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0017]图1是根据本公开第一实施例的示意图;如图1所示,本实施例提供一种翻译方法,应用于智能翻译平台之类的翻译装置中,具体可以包括如下步骤:S101、获取原文、原文对应的格式信息以及翻译信息;S102、基于翻译信息,对原文进行翻译,得到译文;S103、基于格式信息对译文进行格式处理,使得译文具有与对应的原文相同的格式。
[0018]本实施例中的原文即为待翻译文档的原文。在实际应用中,原文中不仅包括文字,还可以包括一些对原文中的文字进行限定的格式信息。
[0019]本实施例中的翻译信息可以用于限定翻译内容的信息。
[0020]在本公开的实施例中,还可以基于获取到的格式信息,对翻译得到的译文进行格式处理,将原文的格式信息回完美地填至译文中,使得译文具有与对应的原文相同的格式,最终得到的译文能够最大限度地还原原文的信息,是一种高保真的文档。
[0021]本实施例的翻译方法,通过采用上述方案,可以提供一种高保真的翻译方案,能够基于原文的格式信息对翻译得到的译文进行格式处理,实现将原文的格式信息完美地回填至译文中,使得译文具有与对应的原文相同的格式,能够得到一种准确性更高、更保真的译文。
[0022]图2是根据本公开第二实施例的示意图;如图2所示,本实施例在上述图1所示实施例的基础上,进一步更加详细地介绍本申请的技术方案,如图2所示,本实施例的翻译方法,具体可以包括如下步骤:S201、获取原文、原文对应的显示格式、排版格式和链接信息、以及翻译信息;本实施例中,以同时获取原文对应的显示格式、排版格式和链接信息为例,当然若原文中未包括其中一种格式信息,对应的格式信息为空即可。实际应用中,也可以根据限定仅获取其中一种格式信息。当然也可以获取更多的其他格式信息,在此不做限定。
[0023]其中,显示格式用于限定对原文中的文字显示的信息,例如可以包括字体、颜色、大小以及是否增加上、下划线、以及是否带有高亮标记等等用于限定显示格式的信息。排版格式用于限定原文的文字的排版样式,例如,首行缩进、标题居中、表格居中、图标居中等等排版格式,再例如,在合同类文件中,末尾的签名以及日期为了美观,也可以在展示上设置有特殊的格式。链接信息指的是原文中的一些文字还可以携带有一些链接信息,点击该链接信息,可以打开链接的另一个内容信息。该链接信息也可以看作是原文的格式信息。
[0024]本实施例的翻译信息,必须包括翻译的目标语言。另外,可选地还可以包括源语言和/或领域信息。
[0025]若翻译信息中不包括源语言时,此时可以采用预先训练的语言识别模型对原文进行语言识别,获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种翻译方法,包括:获取原文、原文对应的格式信息以及翻译信息;基于所述翻译信息,对所述原文进行翻译,得到译文;基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。2.根据权利要求1所述的方法,其中,获取原文对应的格式信息,包括:获取所述原文对应的显示格式、排版格式和/或链接信息;基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式,包括:基于所述显示格式、所述排版格式和/或所述链接信息,对所述译文进行排版处理和/或链接处理,使得所述译文具有与对应的所述原文相同的显示格式、排版格式和/或链接。3.根据权利要求1所述的方法,其中,获取原文、原文对应的格式信息,包括:以句子为粒度,获取所述原文以及所述原文对应的所述格式信息。4.根据权利要求1所述的方法,其中,基于所述翻译信息,对所述原文进行翻译,得到译文,包括:基于所述翻译信息,采用翻译模型对所述原文进行翻译,得到所述译文。5.根据权利要求4所述的方法,其中,所述方法还包括:获取用户的译后编辑信息;基于所述原文和所述用户的译后编辑信息,对所述翻译模型进行训练。6.根据权利要求1所述的方法,其中,所述方法还包括:提取所述原文中的术语以及对应所述译文中的术语翻译;基于所述术语和所述术语翻译,沉淀本地术语库。7.根据权利要求6所述的方法,其中,提取所述原文中的术语以及对应所述译文中的术语翻译,包括:采用预先训练的术语提取模型从所述原文中提取所述术语;并获取所述术语对应的术语翻译。8.根据权利要求6所述的方法,其中,基于所述术语和所述术语翻译,沉淀本地术语库之后,包括:弹出本地术语库沉淀提示界面,以告知沉淀的所述术语的数量、以及沉淀的所述术语以及对应的所述术语翻译。9.根据权利要求6所述的方法,其中,基于所述术语和所述术语翻译,沉淀本地术语库,包括:获取所述原文中、未包括在所述本地术语库中的术语;弹出术语更新提示界面,所述术语更新提示界面中包括所述原文中、未包括在所述本地术语库中的所述术语以及对应的所述术语翻译,以提示用户是否需要更新至所述本地术语库中;若检测到所述用户确定更新,将所述原文中、未包括在所述本地术语库中的所述术语以及对应的所述术语翻译,更新至所述本地术语库中。10.根据权利要求1所述的方法,其中,所述方法还包括:
识别所述原文中的技术性语句;从所述译文中提取所述技术性语句的翻译;基于所述技术性语句和所述技术性语句的翻译,沉淀本地记忆库。11.根据权利要求10所述的方法,其中,识别所述原文中的技术性语句,包括:采用预先训练的技术语句识别模型从所述原文中提取所述技术性语句。12.根据权利要求10所述的方法,其中,基于所述技术性语句和所述技术性语句的翻译,沉淀本地记忆库之后,包括:弹出本地记忆库沉淀提示界面,以告知沉淀的所述技术性语句的数量、以及沉淀的所述技术性语句以及对应的翻译。13.根据权利要求10所述的方法,其中,基于所述技术性语句和所述技术性语句的翻译,沉淀本地记忆库,包括:获取所述原文中、未包括在所述本地记忆库中的技术性语句;弹出语句更新提示界面,所述语句更新提示界面中包括所述原文中、未包括在所述本地记忆库中的所述技术性语句以及对应的翻译,以提示用户是否需要更新至所述本地记忆库中;若检测到所述用户确定更新,将所述原文中、未包括在所述本地记忆库中的所述技术性语句以及对应的翻译,更新至所述本地记忆库中。14.根据权利要求1

13任一所述的方法,其中,所述方法还包括:对所述译文进行纠错处理。15.根据权利要求14所述的方法,其中,对所述译文进行纠错处理,包括:采用预先训练的纠错处理模型,对所述译文进行拼写、语法和/或格式进行纠错处理。16.根据权利要求1

13任一所述的方法,其中,所述方法还包括:对所述译文进行补全处理。17.根据权利要求16所述的方法,其中,对所述译文进行补全处理,包括:采用预先训练的补全处理模型,对所述译文进行补全处理。18.一种翻译装置,包括:获取模块,用于获取原文、原文对应的格式信息以及翻译信息;翻译模块,用于基于所述翻译信息,对所述原文进行翻译,得到译文;处理模块,用于基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。19.根据权利要求18所述...

【专利技术属性】
技术研发人员:万星赵静璇王梦雪何中军吴华李芝徐梓翔刘继强姚伟任云李朝锡李壮壮张涛魏文斌宋寒冰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1