当前位置: 首页 > 专利查询>杨宏惠专利>正文

多语种对应目录式语言数据库及同步电脑互译、交流方法技术

技术编号:2867585 阅读:248 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种多语种对应目录式语言数据库及同步电脑互译、交流方法,以一种主要语言为中心语,组织专家分别就该语种与其他语种在“意”的层面上对日常生活用语、专业用语等进行科学分析,按内容、句型不同进行分类,经“标准化”处理后建立目录式编号。不同语种间同样语意的语句编同样的编号,前面冠以语种代号;任何一个语种都仅与中心语种作这样的语意比对分析,并按同样的原则进行编号;把所有涉及语种“标准化语句”及其语种代号、语句编号依次输入电脑,便可以形成多语种对应目录式语言数据库,包括单一语种或双语目录式语言数据库。本发明专利技术方便高效、准确规范、多语同步、有助于人类语言的标准化、规范化、应用范围十分广泛。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种多语种对应目录式语言数据库及语言互译、交流方法,尤其涉及一种目录式标准语库多语同步对应电脑互译、交流方法和纯个性化的电脑非键盘录入方法。
技术介绍
不同语种间的电脑翻译,虽然经历了一个长期的技术探索历程,但由于实际语言的随机性,加之机器翻译理论和技术上的局限,翻译效果无法令人满意,有时甚至让人啼笑皆非。这还是就现成文本而论,即时交流语言互译更是无法解决。因而,不同语种间的人际无障碍语言交流就只能是一种美好愿望。
技术实现思路
本专利技术的目的在于从语言的本质(“意”)出发,组织相关语言专家对各种语言的语句进行“标准化”处理,建立开放式多语种互相对应的“标准化”语库(语以“意”为先,“意”是语言的本质,是语句的核心。尽管语种多样,表达方式丰富,但在“意”的层面上,都有着不可否定的一致性。而语言的功用在于沟通,在于达意,语言的基本单元是单句。把丰富多彩的语句实意化、标准化、目录化,用于异语交流,既符合通常翻译的“意译”原则,又可搭建“公共平台”,满足异语交流的“会意”要求。更何况翻译本身已经是语言形式上的改变。)。电脑只承担数据存储,语句搜寻、匹配和语种转换功能。这样,以多语对应数据库作基础,通过电脑语种转换,实现人际间无语言障碍交流和多语种准确高效互译。作为一种有效补充,可安排专业人员提供网上在线翻译协助,对少量标准化语库无法匹配的语句进行处理。协助处理内容进行如实记录,转交专家组加工整理,“标准化”处理后补充进入标准语库。在线翻译协助十分重要,既可帮助解决使用者可能遇到的实际问题,又能及时充实、丰富标准语库,并跟上语言发展变化的步伐。本专利技术方案的多语种对应目录式标准语库按以下方式建立以一种主要语言为中心语(如中文),组织专家分别就该语种与其他语种在“意”的层面上对日常生活用语、专业用语等进行科学分析,按内容、句型不同进行分类,经“标准化”处理后建立目录式编号。不同语种间同样语意的语句编同样的编号,前面冠以语种代号;任何一个语种都仅与中心语种作这样的语意比对分析,并按同样的原则进行编号;把所有涉及语种“标准化语句”及其语种代号、语句编号依次输入电脑,便可以形成多语种对应目录式语言数据库,包括单一语种或双语目录式语言数据库。该数据库采用开放式设计,可根据具体情况进行修改和补充。本专利技术所述的多语种对应目录式标准语库,可分三种不同级别含人际交流、人机交流、人机人交流、网际交流的日常交流级、专业互译级、全能互译级。本专利技术所述的多语种对应目录式标准语库,采用UBS硬盘等储存个人的语音样本数据库和字迹样本数据库及基于这两个数据库设计的与之匹配的识别处理系统,形成他自己的非键盘录入“钥匙”。本专利技术所述的多语同步对应电脑互译方法为进入多语互译系统,打开标准语库,选择交流或翻译状态;如进入交流状态,则选择己方、一种以上目标方语种,然后,把自己要表达的内容输入电脑;电脑根据句意在标准语库中进行模糊匹配,提供多种备选语句,使用者选定自己满意的“标准语句”,启动发送程序,电脑在选定的语种代号下依相同编号直接转换输出对方语种的“标准”表述;对方按同样方式回应,双方或多方实现正常异语交流;事实上,由于标准语库已考虑日常交流的实际需要,当然准备了足够多标准、规范的日常用语供使用者选择。所以,使用者还有一个更简单的输入办法,那就是在标准语库中用关键词或目录编号直选。如进入翻译状态,则选择被译语种和目标语种,调入原文,启动翻译转换程序,电脑将原文语句在标准语库中进行模糊匹配,并在选定的语种代号下依相同编号转换成目标语种的翻译文本;若有未译部分可求助在线服务或借助机译辅助系统,然后,启动逻辑处理程序对译文进行逻辑加工。考虑到应用领域、应用范围的不同,标准化语库可分三种不同级别日常交流级、专业互译级、全能互译级。日常交流级以日常生活用语、习惯用语为主;专业互译级,分专业进行,专业术语多,技术性强;全能互译级可以日常交流级和专业互译级为基础,充实必需的内容。日常交流级实现容易,应用极为广泛,如网上不同语种聊天,无语言限制的手机短讯,日常生活无语种障碍人际、人机交流等;专业互译级主要使用对象是专业技术人员,可实现无语种限制的专业学习查询与交流等;全能互译级功能强大,适用于各个方面、各个领域的无障碍语言交流。本专利技术还提供一种纯个性化的电脑非键盘录入方式,完全采用使用者原声、字迹制作他自己的语音识别、字迹识别比对样本数据库,并分别基于这两个数据库设计与之匹配的识别处理系统。一、语音录入。完全采用使用者原声制作他自己的语音识别数据库。它在理论上的依据是每个人就他自己而言,他的发音就是“标准”的。具体做法是事先由电脑提供一套精心设计的文字组合(对任何一种文字而言,都应具有全面的代表性,并带有符号、外文字母及简单编辑命令。但可以考虑以常用字、词为主序列,非常用字、词为辅助序列)供使用者顺序朗读,电脑进行同步录音,并逐字分解使用者语音信号,自动生成各字的信号数据,并通过这些字的信号数据组合生成词组(合成语、术语、外来词汇)、专用名词(含人名、地名等)的信号数据。汇总字、词组、专用名词的信号数据,建立该文字的纯个性化语音识别比对样本数据库。语音比对样本数据库实行开放式设计。开放式设计的目的有两个,一是可以随时录入新词汇,实现比对样本的及时更新;二是可以通过记忆功能,把每次校对中发现的“错误”以及句子处理过程中发现的纯个性化的词汇、语句储存到比对样本中,自动丰富或修正比对样本数据库。基于这个样本数据库,设计一套与之匹配的语音识别系统。该语音识别系统以句子为最小处理单位,以独立词汇为最小音征比对单元,并实行字数多者优先原则。即在实际识别过程中,对录入的每一句话(以标点符号为依据)先进行词汇拆分,按各词汇字数的多少进行有序比对,字数多者优先;然后,对整句进行逻辑处理。这样,可有效排除同音字对准确识别的影响。对人名用字等个别难以准确选定的字,系统允许用词组限定法,也可用多字待选方式。所谓词组限定法,就象人际交流中用词组限定的方式,告诉对方某个字是哪个词组限定的那个一样。二、手写录入。完全采用使用者手写字迹制作他自己的字迹识别比对样本数据库。它在理论上的依据是每个人的字迹有它相对的稳定性,这不但给字迹的准确识别带来了简捷的处理方式,而且特别有效地解决了连笔、草书等识别问题。具体作法是事先由电脑提供一套文字组合(要求与语音录入基本相同),供使用者逐字书写(可以考虑重复数次,尽量完成各种习惯写法),电脑进行同步记录(记录各字的字迹和该字的笔迹流线形式及次序),并自动生成该使用者纯个性化的字迹识别比对样本数据库。该数据库是开放式的,一是可以随时录入新的字迹,实现字迹比对样本的及时更新;二是可以通过记忆功能,把每次校对中发现的“错误”储存到比对样本中,自动丰富或修正字迹样本数据库。基于这个样本数据库,设计一套与之匹配的字迹识别系统,便可简便地实现快速准确的手写识别,并显然地对使用者没有书写工整等要求。在语音样本数据库和字迹样本数据库完成之后,采用UBS硬盘储存该使用者个人的语音样本数据库和字迹样本数据库及基于这两个数据库并与之匹配的识别处理系统,做成他自己的非键盘录入“钥匙”。只要随身携带这把“钥匙”,便可以在任何一台具备配套功能的电脑或相关设备、设施本文档来自技高网...

【技术保护点】
一种多语种对应目录式标准语库,其特征在于:以一种主要语言为中心语,组织专家分别就该语种与另外语种在“意”的层面上对日常生活用语、专业用语等进行科学分析,按内容、句型不同进行分类,经“标准化”处理后建立目录式编号;不同语种间同样语意的语句编同样的编号,前面冠以语种代号;任何一个语种都仅与中心语种作这样的语意比对分析,并按同样的原则进行编号;把所有涉及语种“标准化语句”及其语种代号、语句编号依次输入电脑,便可以形成多语种对应目录式语言数据库,包括单一语种或双语目录式语言数据库。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:杨宏惠
申请(专利权)人:杨宏惠
类型:发明
国别省市:36[中国|江西]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1