应用路径信息改进结构化文档的翻译的方法和系统技术方案

技术编号:4243751 阅读:218 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于翻译结构化文档的方法及系统。所述方法包括如下步骤:获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。

【技术实现步骤摘要】

本专利技术涉及计算机系统,特别涉及包含结构化信息和可翻译元件的文 档的翻译。
技术介绍
包含结构化信息和可翻译元件的文档已知有XML(可扩展标记语言) 文档。本领域的技术人员已经知道XML是文档的一种元语言。XML提 供了 一种定义包含例如文本和图片等内容的结构信息的方式,以及如何使 用这种内容的指示。XML具有灵活性因此可用于描述各种数据类型的结 构,因此已成为例如互联网上各种数据类型进行交换的通用格式。XML文档在结构化信息中通常包括可翻译元件(例如元素或属性), 尤其在源文件中。随着互联网的普及,经常希望本地化XML文档,将其 中的可翻译元件从源文件翻译成另 一种选定的语言。附图7示意性地示出了常规的XML翻译过程。如附图标记701所示 从原始XML文档获得提纲文件和XLIFF文件,具体地对原始XML文 档进行文^l:取,使用过滤程序从布局数据中分离出可以翻译的文本,分 别产生提纲和XLIFF文件。过滤程序将不可翻译的部分保存在提纲文件 中,所有可翻译的句子在提纲文件中被替换为特殊的记号(例如 %%%1%%%, %%%2%%%)。而41_取出的可翻译元件(即文本片段) 保存在XLIFF文件中的各个翻译单元元素中(<trans-unit> )。提纲文件 中4吏用的标记(例如%%%1%%%, %%%2%%% )作为对应的翻译单 元的ID属性,以简化提纲文件和XLIFF文件之间的映射。在准备好 XLIFF文件之后,将该文件发送给专业翻译人员进行翻译(见附图标记 702 )。如附图标记703所示,利用提纲文件中的标记与翻译后的XLIFF文 件中翻译单元ID属性之间的映射,合并翻译后的XLIFF文件与提纲文 件,形成目标输出格式的翻译文档。常规的XML翻译过程由于需要在XML提纲文件标记可翻译元件, 因此开销很大。同时在合并翻译后的XLIFF与提纲文件时也需要首先遍5历XML提纲文件寻找可翻译元件再遍历XLIFF寻找具有相同ID的翻译 后文本,同样开销^f艮大。
技术实现思路
本专利技术的目的是提供一种新颖的用于翻译包含结构化信息的文档的方法和系统o才艮据本专利技术的一个方面, 一种用于翻译结构化文档的方法,包括如下步骤获取包括至少一个路径信息的配置文件,所i^径信息用于指定在所 述结构化文档中至少一个可翻译元件的路径;使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻 译元件,并使用所述路径信息作为所述可翻译元件的ID ^的至少一部 分,以将提取出的所述可翻译元件及其ID^It组成翻译单元;以及在将所述翻译单元中的可翻译元件翻译成选定的另 一语种以产生翻 译后的元件之后,使用所述翻译单元中的ID M中的#信息来定位所 述结构化文档中的可翻译元件,并用所述翻i^后的元件替换所述结构化文 档中对应的可翻译元件。相应地, 一种用于翻译结构化文档的系统,包括获取装置,被配置成获取包括至少一个路径信息的配置文件,所述路 径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;翻译单元产生器,被配置成^吏用所述配置文件中的路径信息从所述结 构化文档中提取所述可翻译元件,并使用所i^径信息作为所述可翻译元 件的ID M的至少一部分,以将提取出的所述可翻译元件及其ID参数 组成翻译单元;以及转换装置,被配置成在将所述翻译单元中的可翻译元件翻译成选定的 另 一语种以产生翻译后的元件之后,使用所述翻译单元中的ID ^!t中的 路径信息来定位所述结构化文档中的可翻译元件,并用所述翻^后的元件 替换所述结构化文档中对应的可翻译元件。相比现有技术,本专利技术可以获得如下至少一种有益效果本专利技术的方法和系统由于单独地采用了用于指定各个可翻译元件在6结构化文档中的路径信息的配置文件,则可从结构化文档H取可翻译元件 直接形成待翻译的中间格式文件,免除了产生提纲文件以及在结构化文档 中标记可翻译元件的开销。另外,由于中间格式文件采用指定各个可翻译元件在结构化文档中的路径信息作为翻译单元的ID M,翻译后的中间格式文件可以直接与原 结构化文档合并,因此免除了现有技术中在合并时需要遍历提纲文件和中 间格式文件的需要,减少了文档翻译的开销。同时由于本专利技术并未产生标记了可翻译元件的提纲文件,因此不会影 响结构化文档的可读性。进而由于现有技术中的提纲文件使用标记代替可翻译元件, I18N/L10N数据会与可翻译元件的数据相混合。本专利技术由于无需再单独地 生成提纲文件则避免这种情况。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术 的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或 部件将采用相同或对应的附图标记来表示。图l是示出可实现本专利技术的分布式数据处理系统的框图。图2是示出根据本专利技术第一实施例的方法的it^呈图。图3是示出根据本专利技术第一实施例的方法的示意图。图4是示出根据本专利技术第二实施例的方法的示意图。图5是示出根据本专利技术第三实施例的方法的示意图。图6是示出根据本专利技术的系统的框图。图7示出了常规的XML翻译过程。具体实施例方式下面参照附图来说明本专利技术的实施例。应当注意,为了清楚的目的, 附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和 处理的表示和描述。7系统体系现在参考附图,特别是图l,描述了可实现本专利技术的分布式数据处理系统的框图。分布式数据处理系统100是可实现本专利技术的计算机网络。分 布式数据处理系统IOO包含网络102,网络102是用于在不同的设备和分 布式数据处理系统100内连接到一起的计算机之间提供通信链接的媒介。在所描述的例子中,服务器104与存储器106 —起连接到网络102。 此外,例如工作站、个人计算机、手机、PDA等的客户端108、 110和112 也被连接到网络102。在所描述的例子中,服务器104向客户端108、 110 和112提供如引导文件的数据、操作系统以及应用程序。分布式数据处理 系统100可包括另外的服务器、客户端以及其它未显示的该:备。在所描述 的例子中,分布式数据处理系统100是因特网,网络102表示对使用 TCP/IP协议^f来彼此通信的网络以及网关的集合。当然,分布式数据 处理系统100还可被实现为不同类型的网络。企图将图l作为例子,而不是作为本专利技术所述过程的结构限制。在不 偏离本专利技术精神和范围的条件下,可对图l所示系统作出许多更改。本专利技术可实现为如图1所示的服务器104的数据处理系统。该数据处 理系统可以是包括连接到系统总线的多个处理器的对称多处理器(SMP) 系统。亦可使用单处理器系统。本专利技术还可实现为图1中客户端计算机的 数据处理系统。第一实施例本专利技术提供了一种用于不同语种结构化文档的转换技术。更具体地, 本专利技术公开了一种用于翻译结构化文档的方法。附图2示出了该方法200 的流程图。参考附图2,在步骤S201开始后,首先获取包括至少一个3M圣信息 的配置文件(步骤S202 ),所述路径信息用于指定在所述结构化文档中至 少一个可翻^^元件的路径。使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻 译元件(步骤S203),并使用所i^^径信息作为所述可翻译元件的ID参 数的至少一部分(步骤S204),以将提取出的所述可翻译元件及本文档来自技高网
...

【技术保护点】
一种用于翻译结构化文档的方法,包括如下步骤:    获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;    使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及    在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。

【技术特征摘要】

【专利技术属性】
技术研发人员:申震杰王芳杨晓斌
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1