本发明专利技术公开了一种互联网网页翻译方法,该方法包括步骤:对结构规范化内容的分析,分离为框架部分与内容部分,框架部分如网页内容单元的属性名称,框架内容部分如网页内容单元的内容;对框架部分只译一次,原文存储于文本A,译文存储于文本B;对内容部分,在数据库中建立两个表,对应于原文语言的表C与待译语言的表D;有了具体的网页内容单元记录,先将内容存储于原文语言表里的对应项;对于原文语言表里的填进的内容,一一对应翻译,填入对应于待译语言表里的对应项。采用本发明专利技术提供的翻译法,避免了长语句翻译时由于不同语种语序不同导致的译文意思失真,同时框架部分只译一次,省略了部分处理译文时间,提高了效率。
【技术实现步骤摘要】
本专利技术涉及,应用于互联网物联网信息科技领域。
技术介绍
现有的互联网网页翻译技术,比如谷歌翻译,谷歌的网页翻译系统在当今互联网 界得到了广泛的应用,主要用于粘贴文字翻译与网页整篇翻译。其各部分的连接关系较直 观,基本部分有三部分。第一部分为空白框,供用户粘贴写入需翻译内容,或网页地址;第二 部分为后台处理,对用户粘贴内容或网址网页全文翻译;第三部分为显示部分,显示由第二 部分转来的翻译结果。谷歌翻译系统简单实用,其不足之处是对内容不加区分整块翻译返 回,对较长文字段的翻译,由于各语种语序习惯不同,意思经常会杂乱叠加或意思失真。特 别是对于有规范化内容结构的网页,如电子商务网站对产品的介绍,许多网页都是一种框 架结构,通常框架(Frame)的内容是不变的,而具体的内容(Content)在变,这时会产生重 复翻译。
技术实现思路
本专利技术针对目前自动翻译存在的问题,提供,设计了一 个框架与内容分离的翻译系统以提高自动翻译系统的准确率与效率。本专利技术对网页从一种语言到另一种语言的翻译,尤其对于有规范化内容结构的网 页,如电子商务网站对产品的介绍提供技术方案,步骤如下A、对网页页面进行分析,将页面文本分离为框架文本与内容文本;B、对框架文本只译一次,原文存储于第一文本,译文存储于第二文本;C、对内容文本,在数据库中建立两个表,分别为原文语言表与待译语言表;D、读取具体的网页内容文本,将内容文本的每个单元存储于原文语言表里的对应项;E、对于原文语言表里填进的内容一一翻译,将翻译结果填入待译语言表里的对应项;F、第一文本通过数据库连接从原文语言表中取一个记录,与网页格式框架结合,形 成原文网页;第二文本通过数据库连接从待译语言表中取一个记录,与网页格式框架结合, 形成译文网页。所述第一文本和第二文本结构上一一对应。所述第一文本和第二文本都有数据库连接机制,能够从所述原文语言表与待译语 言表中取有同样序列号的记录。所述原文语言表与待译语言表是数据库里预先设计好的两个表,具有相同结构, 对每一记录有独特序列号。所述原文语言表与待译语言表的序列号在原文语言表中为自动 递加产生,待译语言表中是在根据原文语言表中内容做对应翻译时复制所得。分离框架文本与内容文本时,将页面文本中内容单元的属性名称作为框架文本,3内容单元的具体内容作为内容文本。本专利技术的优点是1、因为各语种语序、用词多义等特点,语言自动翻译是很难准确的,对有规范格式与内 容的信息分框架与内容分别处理,将对一般全文翻译法从意义的传达上将更准确,以减少 自动翻译系统的张冠李戴,尤其对有规范格式的文本信息。2、如前所述,分框架与内容后,框架仅需翻译一次,提高了效率。附图说明 图1是本专利技术原理示意图。具体实施例方式下面结合附图和实施例对本专利技术作进一步说明。本专利技术应用了现代信息领域的软 件技术、数据库技术与互联网技术。应用于不同语言间翻译时更快、更准确、更有效地完成 信息的转译,尤其适用于有规范各式与内容的信息个体。本专利技术可用于互联网系统,也可用于其它自动翻译系统,尤其适用于有规范格式 与内容的信息,比如电子商务系统中对产品的介绍,将属性名称与内容分开处理,比如,“商 品对象”、“购货方式”等等关键词属于属性名称,是框架,而其属性内容,如“全球”、“厂家直 销”等是可变内容,一旦内容有变,被置换,即会产生新的一个产品介绍。根据此特点,采用 本专利技术所述方法的翻译系统对框架内容分别处理,框架只需翻译一次,存于框架翻译结果 存贮器,内容根据不用产品,每个都需要根据原语种再译,然后由结果合成器把框架结果与 内容结果结合起来展示给用户。如图1所示结构,本专利技术所述方法已成功应用于一新型电子商务系统的语言翻 译,总体方案是是将属性内容置于预先设计好的数据库表格内。有一网页用户界面与此表 格相连,供翻译者填入或修改内容部分翻译结果。框架属性被预译则置于翻译结果合成器 中,合成器另可从数据库中调用内容部分翻译结果的一个记录,经对应合成,产生结果传于 最终用户界面。框架与内容分别翻译流程,图1中标号对应于以下步骤。例如一组规范结构的网页的文本其中一页包括以下内容 商品名 针织内衣圆领情侣套装大陆港澳台地区北美全球 厂家直销 某某公司商品对象 购货方式 供货商家 商品规格 地区 地点山东,淄博山东淄博某某路某某号 发布时间 2009-11-9 则具体处理步骤为1、 对网页页面进行分析,将页面文本分离为框架文本与内容文本,框架文本包括 “商品名”、“商品对象”、“购货方式”、“供货商家”、“商品规格”、“地区”、“地点”、“发布时间”t 内容文本包括“针织内衣圆领情侣套装”、“大陆港澳台地区北美全球”、“厂家直销”、“某某公司”、“山东,淄博”、“山东淄博某某路某某号”、“2009-11-9”。2、 对框架文本只译一次,原文存储于第一文本A,译文存储于第二文本B ;如第 一文本A保存“商品名 商品对象 购货方式 供货商家 商品规格 地区 地点发布时间”第二文本保存以上文本对应译文。文本A,B的形式可自行定义,能够用软件写入和读 取其中特定内容。3、 对页面的内容文本,在数据库中建立两个表,分别为原文语言表C与待译语 言表D ;表C、D包括用于填写以下框架的内容文本的项商品名、商品对象、购货方式、供货 商家、商品规格、地区、地点、发布时间。4、 读取具体的网页内容文本,将内容文本的每个单元存储于原文语言表C里的 对应项,一页的内容文本为一个单元,即将步骤1所述的内容文本填入步骤3的对应项,作 为表的一条记录。5、 对于原文语言表C里填进的内容一一翻译,将翻译结果填入待译语言表D里 的对应项。6、 第一文本A通过数据库连接从原文语言表C中取一个记录,与网页框架部分 结合,形成原文网页;第二文本B通过数据库连接从待译语言表D中取一个记录,与网页框 架部分结合,形成译文网页。待译语言表D的内容,是根据原文语言表C中的记录及时对应产生,可以是机器翻 译,比如通常所用的查字典法,预先将翻译词典置于数据库中或其他可连接的电子记录中, 或有连接原文语言表C、待译语言表D表的用户界面,从原文语言表C中取值,由人工翻译, 再存于待译语言表D中。采用本专利技术提供的翻译法,避免了长语句翻译时由于不同语种语序不同导致的译 文意思失真,同时框架部分只译一次,省略了部分处理译文时间,提高了效率。权利要求,其特征是该方法包括以下步骤A、 对网页页面进行分析,将页面文本分离为框架文本与内容文本;B、 对框架文本只译一次,原文存储于第一文本,译文存储于第二文本;C、 对内容文本,在数据库中建立两个表,分别为原文语言表与待译语言表;D、 读取具体的网页内容文本,将内容文本的每个单元存储于原文语言表里的对应项;E、 对于原文语言表里填进的内容一一翻译,将翻译结果填入待译语言表里的对应项;F、 第一文本通过数据库连接从原文语言表中取一个记录,与网页格式框架结合,形成原文网页;第二文本通过数据库连接从待译语言表中取一个记录,与网页格式框架结合,形成译文网页。2.如权利要求1所述互联网网页翻译方法,其特征是所述第一文本和第二文本结构上--对应。3.如权利要求1所述互联网网页翻译方法,其特征是所述第一文本和第二文本都有 数据库连接机制本文档来自技高网...
【技术保护点】
一种互联网网页翻译方法,其特征是:该方法包括以下步骤:A、对网页页面进行分析,将页面文本分离为框架文本与内容文本;B、对框架文本只译一次,原文存储于第一文本,译文存储于第二文本;C、对内容文本,在数据库中建立两个表,分别为原文语言表与待译语言表;D、读取具体的网页内容文本,将内容文本的每个单元存储于原文语言表里的对应项;E、对于原文语言表里填进的内容一一翻译,将翻译结果填入待译语言表里的对应项;F、第一文本通过数据库连接从原文语言表中取一个记录,与网页格式框架结合,形成原文网页;第二文本通过数据库连接从待译语言表中取一个记录,与网页格式框架结合,形成译文网页。
【技术特征摘要】
【专利技术属性】
技术研发人员:俞晓华,
申请(专利权)人:无锡诺宝科技发展有限公司,
类型:发明
国别省市:32[中国|江苏]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。