基于单一轴心语言的互联网多语种同步翻译方法技术

技术编号:4088808 阅读:202 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种互联网多语种同步翻译方法。该方法包括步骤:选择网站文本的一种语言作为轴心语言,对网站文本非轴心语言的翻译均由轴心语言翻译得到;对网站新增文本,如是轴心语言,则直接译为非轴心语言,如不是轴心语言,则先译为轴心语言,再将轴心语言译为非轴心语言。采用本发明专利技术提供的翻译法,避免了长语句翻译时由于不同语种语序不同导致的译文意思失真,同时框架部分只译一次,省略了部分处理译文时间,提高了效率。重要的是对多语种,以一个轴心语言为基准,避免了传递翻译时在误差的基础上产生新的误差。

【技术实现步骤摘要】

本专利技术涉及一种互联网网页翻译方法,应用于互联网物联网信息科技领域。
技术介绍
现有的互联网网页翻译技术,比如谷歌公司的多语种翻译系统,该系统可对世界 上绝大多数语言两两间互译。谷歌的网页翻译系统在当今互联网界得到了广泛的应用,主 要用于粘贴文字翻译与网页整篇翻译。其各部分的连接关系较直观,基本部分有三部分。第 一部分为空白框,供用户粘贴写入需翻译内容,或网页地址;第二部分为后台处理,对用户 粘贴内容或网址网页全文翻译;第三部分为显示部分,显示由第二部分转来的翻译结果。谷 歌翻译系统简单实用,其不足之处是对内容不加区分整块翻译返回,对较长文字段的翻译, 由于各语种语序习惯不同,意思经常会杂乱叠加或意思失真。特别是对于有规范化内容结 构的网页,如电子商务网站对产品的介绍,许多网页都是一种框架结构,通常框架(Frame) 的内容是不变的,而具体的内容(Content)在变,这时会产生重复翻译。而且经测试谷歌网 页翻译系统经过由A语言译向B语言,再译回A语言,已发生改变,甚至有歧义。
技术实现思路
本专利技术的目的是克服现有技术中存在的不足,解决互联网网页多语种翻译过程中 自洽一致性的问题,提供一种,在多语种 间即便经过数种语言的传递翻译,也能保证与原意一致性。按照本专利技术提供的技术方案,所述基于单一轴心语言的互联网多语种同步翻译方 法为选择网站文本的一种语言作为轴心语言,对网站文本非轴心语言的翻译均由轴心语 言翻译得到;对网站新增文本,如是轴心语言,则直接译为非轴心语言,如不是轴心语言,则 先译为轴心语言,再将轴心语言译为非轴心语言。具体步骤为对网站的网页页面进行分析,将页面文本分离为框架文本与内容文 本,轴心语言的框架文本存储于第一文本,轴心语言的内容文本存储于数据库第一表中;同 样,对每种非轴心语言分别将该种非轴心语言的框架文本存储于非轴心语言文本中,该种 非轴心语言的内容文本存储于数据库中一个非轴心语言表中;所述非轴心语言文本由第一 文本一次性翻译而成,所述非轴心语言表中的记录均独立的由第一表中的轴心语言翻译而 成;第一文本通过数据库连接从第一表中取一个记录,与网页格式框架结合,形成轴心语言 的网页;同样,非轴心语言文本通过数据库连接从非轴心语言表中取一个记录,与网页格式 框架结合,形成该非轴心语言的网页。对网站新增内容文本,如是轴心语言,则将新增内容文本存入第一表中,如不是轴 心语言,则将新增内容文本翻译为轴心语言后存入第一表中;再将第一表中新增内容分别 翻译为非轴心语言,存入对应非轴心语言表中。第一表和每个非轴心语言表的对应记录有相同序列号,供第一文本和非轴心语言 文本通过数据库连接对应获取记录。3所述第一文本和非轴心语言文本结构上一一对应。所述第一文本和非轴心语言文本都有数据库连接机制,能够从所述第一表与非轴 心语言表中取有同样序列号的记录。所述第一表与非轴心语言表是数据库里预先设计好的表,具有相同结构,对每一 记录有独特序列号。所述序列号在第一表中为自动递加产生,非轴心语言表中是在根据第 一表中内容做对应翻译时复制所得。由具有相同序列号的表生成的网页中有链接转至其他语言对应页。分离框架文本与内容文本时,将页面文本中内容单元的属性名称作为框架文本, 内容单元的具体内容作为内容文本。本专利技术的优点是由于是规范文本中截断的标准化形式内容,比全文翻译短,也较 易保持原意,再结合预翻译框架,所得整个网页结果比整页翻译意思失真小,同样重要是本 专利技术提出的以一种语言(如中文)为轴心的方案,避免了多语言链式翻译后较大的失真。附图说明图1是本专利技术原理示意图。 具体实施例方式下面结合附图和实施例对本专利技术作进一步说明。本专利技术用于互联网信息的翻译, 尤其是规范文本类型信息单元的多语种同步翻译。为了解决互联网网页多语种翻译过程中 意义不致变化过大,本专利技术提出了一个以一种语言为核心,同时把规范化文本结构分离为 框架与内容分别翻译的系统。框架与内容分离分别翻译法在另一相关专利技术详述,本专利技术主 要针对超过两个语种时的翻译系统,主要方案是以一种语言为核心,比如中文。其它语言的 译文都以中文为轴心。在系统架构上,对每一种语言分以下两部分a)框架部分,可存于文 本,b)内容部分,存于数据库。比如电子商务系统中对产品的介绍,将属性名称与内容分开 处理,比如,“商品对象”、“购货方式”等等关键词属于属性名称,是框架,而其属性内容,如 “全球”、“厂家直销”等是可变内容,一旦内容有变,被置换,即会产生新的一个产品介绍。其他语言的框架部分以中文框架部分为准翻译,内容部分是动态的,一是中文系 统对应的数据库中表格的内容有增减变动,对其余每一种语言有一对应的翻译子系统,调 出中文内容表中信息,一一对应翻译,再置于数据库中该语言对应的内容表中。如图1所示本专利技术的方案是以一种语言,如中文,为轴心,其他语言以其为基准, 呈辐射状架构。本专利技术是一种基于单一轴心的互联网多语种同步翻译方法,对互联网网页 从一种语言到多种语言的翻译,尤其对于有结构规范化内容结构的网页,如电子信息网站 对产品与会员的介绍,具体步骤如下1、选择信息主要来源的语言为轴心语言。比如网站中主要信息的来源地(一般为厂 家、经销商等)语言,或者网站主要浏览人群所使用的语言。2、对信息源结构规范化内容进行分析,分离为框架部分与内容部分,框架部分如 网页内容单元的属性名称,框架内容部分如网页内容单元的内容;例如一组规范结构的网页的文本其中一页包括以下内容 商品名 针织内衣圆领情侣套装商品对象 大陆港澳台地区北美全球 购货方式 厂家直销 供货商家 某某公司 商品规格地区山东,淄博地点山东淄博某某路某某号发布时间 2009-11-9则框架文本包括“商品名”、“商品对象”、“购货方式”、“供货商家”、“商品规格”、“地 区”、“地点”、“发布时间”。内容文本包括“针织内衣圆领情侣套装”、“大陆港澳台地区北 美全球”、“厂家直销”、“某某公司”、“山东,淄博”、“山东淄博某某路某某号”、“2009-11-9”。3、对轴心语言,框架部分存储于文本Al,内容部分存储于数据库中表Bl ;则Al保 存以下内容“商品名 商品对象 购货方式 供货商家 商品规格 地区 地点发布时间”表Bl包括用于填写以下框架的内容文本的项商品名、商品对象、购货方式、供货商 家、商品规格、地区、地点、发布时间。文本Al的形式可自行定义,能够用软件写入和读取其 中特定内容。4、对其他语言,建立同样结构的文本和表,如第二种语言框架文本存储于文本 A2,内容文本存储于数据库中表B2,余者类推,建立A3,B3等。Bi、B2、B3的对应记录有相 同序列号,供Al、A2、A3通过数据库连接对应获取记录。5、A2、A3等由Al —次性翻译而成。6、对网站新增信息记录(即内容文本),将该内容文本先存于轴心语言对应的表 Bi,然后,将表Bl中的内容经对应自动翻译系统或人工专家借助可连接表Bl并可将对应翻 译结果写入表B2、B3等的用户界面工具,完成数据库表格内各对应列的翻译。表B2、B3的内容,是根据Bl中的记录及时对应产生,可以是机器翻译,比如通常所 用的查字典法,预先将翻译词典置于数据库中或其他可连接的电子记录中,或有连接表Bl 和B2、本文档来自技高网...

【技术保护点】
基于单一轴心语言的互联网多语种同步翻译方法,其特征是:选择网站文本的一种语言作为轴心语言,对网站文本非轴心语言的翻译均由轴心语言翻译得到;对网站新增文本,如是轴心语言,则直接译为非轴心语言,如不是轴心语言,则先译为轴心语言,再将轴心语言译为非轴心语言。

【技术特征摘要】

【专利技术属性】
技术研发人员:俞晓华
申请(专利权)人:无锡诺宝科技发展有限公司
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1