【技术实现步骤摘要】
基于机器翻译和译后编辑的自学习翻译方法及装置
[0001]本公开涉及计算机
,具体涉及大数据、深度学习与自然语言处理等人工智能
,尤其涉及一种基于机器学习和译后编辑的自学习翻译方法及装置。
技术介绍
[0002]翻译是一项技术性和专业性非常强的工作,传统技术中依靠专业的翻译人员来完成翻译。为了提高翻译效率,诞生了计算机辅助翻译(Computer Aided Translation;CAT)工具来辅助翻译员完成高质量的翻译。
[0003]现有的CAT是一种将人工翻译流程化自动化的软件。近年来越来越多的厂商增加了机翻功能,演变成人在机翻基础上进行修改校正的工具。这种产品可以在保证翻译质量的前提下,较纯人工翻译提高数倍的效率。
技术实现思路
[0004]本公开提供了一种基于机器学习和译后编辑的自学习翻译方法及装置。
[0005]根据本公开的一方面,提供了一种翻译方法,包括:获取原文、原文对应的格式信息以及翻译信息;基于所述翻译信息,对所述原文进行翻译,得到译文;基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。
[0006]根据本公开的另一方面,提供了一种翻译装置,包括:获取模块,用于获取原文、原文对应的格式信息以及翻译信息;翻译模块,用于基于所述翻译信息,对所述原文进行翻译,得到译文;处理模块,用于基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。
[0007]根据本公开的再一方面,提供了一种电 ...
【技术保护点】
【技术特征摘要】
1.一种翻译方法,包括:获取原文、原文对应的格式信息以及翻译信息;基于所述翻译信息,对所述原文进行翻译,得到译文;基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。2.根据权利要求1所述的方法,其中,获取原文对应的格式信息,包括:获取所述原文对应的显示格式、排版格式和/或链接信息;基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式,包括:基于所述显示格式、所述排版格式和/或所述链接信息,对所述译文进行排版处理和/或链接处理,使得所述译文具有与对应的所述原文相同的显示格式、排版格式和/或链接。3.根据权利要求1所述的方法,其中,获取原文、原文对应的格式信息,包括:以句子为粒度,获取所述原文以及所述原文对应的所述格式信息。4.根据权利要求1所述的方法,其中,基于所述翻译信息,对所述原文进行翻译,得到译文,包括:基于所述翻译信息,采用翻译模型对所述原文进行翻译,得到所述译文。5.根据权利要求4所述的方法,其中,所述方法还包括:获取用户的译后编辑信息;基于所述原文和所述用户的译后编辑信息,对所述翻译模型进行训练。6.根据权利要求1所述的方法,其中,所述方法还包括:提取所述原文中的术语以及对应所述译文中的术语翻译;基于所述术语和所述术语翻译,沉淀本地术语库。7.根据权利要求6所述的方法,其中,提取所述原文中的术语以及对应所述译文中的术语翻译,包括:采用预先训练的术语提取模型从所述原文中提取所述术语;并获取所述术语对应的术语翻译。8.根据权利要求6所述的方法,其中,基于所述术语和所述术语翻译,沉淀本地术语库之后,包括:弹出本地术语库沉淀提示界面,以告知沉淀的所述术语的数量、以及沉淀的所述术语以及对应的所述术语翻译。9.根据权利要求6所述的方法,其中,基于所述术语和所述术语翻译,沉淀本地术语库,包括:获取所述原文中、未包括在所述本地术语库中的术语;弹出术语更新提示界面,所述术语更新提示界面中包括所述原文中、未包括在所述本地术语库中的所述术语以及对应的所述术语翻译,以提示用户是否需要更新至所述本地术语库中;若检测到所述用户确定更新,将所述原文中、未包括在所述本地术语库中的所述术语以及对应的所述术语翻译,更新至所述本地术语库中。10.根据权利要求1所述的方法,其中,所述方法还包括:
识别所述原文中的技术性语句;从所述译文中提取所述技术性语句的翻译;基于所述技术性语句和所述技术性语句的翻译,沉淀本地记忆库。11.根据权利要求10所述的方法,其中,识别所述原文中的技术性语句,包括:采用预先训练的技术语句识别模型从所述原文中提取所述技术性语句。12.根据权利要求10所述的方法,其中,基于所述技术性语句和所述技术性语句的翻译,沉淀本地记忆库之后,包括:弹出本地记忆库沉淀提示界面,以告知沉淀的所述技术性语句的数量、以及沉淀的所述技术性语句以及对应的翻译。13.根据权利要求10所述的方法,其中,基于所述技术性语句和所述技术性语句的翻译,沉淀本地记忆库,包括:获取所述原文中、未包括在所述本地记忆库中的技术性语句;弹出语句更新提示界面,所述语句更新提示界面中包括所述原文中、未包括在所述本地记忆库中的所述技术性语句以及对应的翻译,以提示用户是否需要更新至所述本地记忆库中;若检测到所述用户确定更新,将所述原文中、未包括在所述本地记忆库中的所述技术性语句以及对应的翻译,更新至所述本地记忆库中。14.根据权利要求1
‑
13任一所述的方法,其中,所述方法还包括:对所述译文进行纠错处理。15.根据权利要求14所述的方法,其中,对所述译文进行纠错处理,包括:采用预先训练的纠错处理模型,对所述译文进行拼写、语法和/或格式进行纠错处理。16.根据权利要求1
‑
13任一所述的方法,其中,所述方法还包括:对所述译文进行补全处理。17.根据权利要求16所述的方法,其中,对所述译文进行补全处理,包括:采用预先训练的补全处理模型,对所述译文进行补全处理。18.一种翻译装置,包括:获取模块,用于获取原文、原文对应的格式信息以及翻译信息;翻译模块,用于基于所述翻译信息,对所述原文进行翻译,得到译文;处理模块,用于基于所述格式信息对所述译文进行格式处理,使得所述译文具有与对应的所述原文相同的格式。19.根据权利要求18所述...
【专利技术属性】
技术研发人员:万星,赵静璇,王梦雪,何中军,吴华,李芝,徐梓翔,刘继强,姚伟,任云,李朝锡,李壮壮,张涛,魏文斌,宋寒冰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。