当前位置: 首页 > 专利查询>GOOGLE公司专利>正文

用于将汉语拼音翻译成汉字的系统和方法技术方案

技术编号:2843167 阅读:528 留言:0更新日期:2012-04-11 18:40
本发明专利技术披露了一种用于将拼音处理并翻译成汉字和词的系统和方法。通过以下处理训练汉语语言模型:从诸如文件和/或用户输入/查询的汉语输入中提取未知字符串;从未知字符串中确定有效词;以及基于汉语输入生成用于预测给定语境的词串的转换矩阵。用于翻译拼音输入的方法通常包括:使用包括从汉语输入得到的词的汉语字典和基于汉语输入训练的语言模型从拼音输入生成一组汉字符串,每个字符串均具有表示字符串对应于拼音输入的可能性的权重。可以通过识别用户输入中的不确定的拼音/非拼音ASC  Ⅱ词以及分析语境以分类用户输入,来将不确定的用户输入分类成非拼音或拼音。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术广泛地涉及将汉语拼音翻译成汉字。更具体地,本专利技术披露了使用计算机将拼音汉语文本或拼音处理并翻译成汉字和词的系统和方法。
技术介绍
在计算机上输入和处理汉语语言文本是非常困难的。这部分地是由于汉字的绝对数,还由于产生不确定的具有文本标准化、多个同音异义字、和隐形(或隐藏)词界的汉语语言中的固有问题,这使得汉语文本处理困难。目前可用的用于将汉语语言文本输入到计算机系统中的一种常用方法是使用语音输入(例如,拼音)的方法。拼音使用罗马字符,并具有以多音节词形式列出的词汇表。然而,拼音输入法导致汉语语言处理过程中同音异义字的问题。具体地,因为仅用大约1300个不同的具有音调的语音音节(可由拼音表示)和大约410个不具有音调的语音音节来表示好几万个汉字(Hanzi),所以一个语音音节(具有或不具有音调)可对应许多不同的Hanzi。例如,普通话中“yi”的发音可对应于超过100个的Hanzi。当将语音音节翻译成Hanzi时,这就会产生不确定。许多语音输入系统使用多项选择法来解决这个同音异义字的问题。一旦用户输入语音音节,就显示出一列具有相同发音的可能的Hanzi字符。然而,输入并选择对应于每个音节的Hanzi的处理可能是缓慢、冗长、以及耗时的。其它语音输入系统以基于相邻Hanzi字符来确定每个可能Hanzi字符的可能性为基础。概率方法可以进一步与语法约束相结合。然而,当应用于文学作品(例如,具有许多的描写句和成语)和/或口语或非正式语言(如在用户查询和/或电子公告牌系统(BBS)站中的网页上所使用的)时,这种将语音转换为Hanzi的方法的准确性通常会受到限制。另外,较低的字典适用范围通常会导致较差的口语转换质量。除了同音异义字的问题,当处理汉语语言文本时,还存在词界问题。具体地,虽然在现代汉语中有超过80%的词具有多个音节并因而包括两个或多个Hanzi,但是在汉字书写系统中不存在任何字分离。语音汉语的输入通常是一个音节接一个音节地执行,而并不考虑词界。具体地,在输入语音汉语(拼音)词界的过程中,用户间不存在一致性。例如,有些人认为“Beijing daxue”(语音表示是北京大学的含义)是两个词,而其他人可能认为这个拼音是一个词,并且没有任何边界地输入拼音(即,“Beijingdaxue”)。同音异义字的问题和缺乏词界是造成很难提供一种用于汉语语言文本输入和处理的简单、有效和准确机制的起主要作用的两个因素。以拼音输入的给定汉语文本可能产生许多传统方法不能适当解决的不确定。因而,需要一种计算机系统,其能够有效、高效并准确地将语音汉语文本(例如,拼音)处理并翻译成汉字和/或词。
技术实现思路
披露了使用计算机来将语音汉语文本或拼音处理并翻译成汉字和词的系统和方法。术语“计算机”通常指的是任何具有计算能力的装置,诸如个人数字助理(PDA)、移动电话、网络转接器。该系统和方法具体可应用于基于网络的搜索引擎,但是也可应用于各种其它应用。应当了解,本专利技术可以以许多方式来实施,包括例如处理、设备、系统、装置、方法、或诸如计算机可读存储介质的计算机可读介质、或计算机网络,其中,通过光或电通信线路来发送程序指令。下面描述本专利技术的几个专利技术实施例。训练(training)汉语语言模型的方法通常包括从一组汉语输入(例如,汉语文件和/或用户汉语输入和/或查询)中提取未知的字符串;通过比较未知字符串的出现频率与未知字符串中单个字的出现频率,从未知字符串确定出有效词;以及例如基于包括如从汉语输入产生的n元组(n-tuple)相邻和非相邻词的计数的n元模型计数(n-gram count)(n≥1),产生用于预测给定语境的词串的条件概率的转换矩阵。n元模型计数可以包括每n个字序列(n-wordsequence)的出现次数。未知字符串的提取可利用先前存在的汉语字典。如果与未知字符串的单个字的出现频率相比,未知字符串的出现频率大于预定阈值,那么就可将未知字符串确定为有效的新字符串。根据另一个实施例,用于训练汉语语言模型的系统通常包括分词器(segmenter),用于从一组汉语输入中分出未知字符串;新词分析器,用于通过比较未知字符串的出现频率与未知字符串中单个字符的出现频率,从未知字符串确定有效词;以及汉语语言模型训练模块,用于生成用于预测给定语境的词串的条件概率的转换矩阵。根据又一实施例,提供了一种用于与计算机系统结合的计算机程序产品,该计算机程序产品具有在其上存储有可在计算机处理器上运行的指令的计算机可读存储介质,指令通常包括从一组汉语输入中提取未知字符串;通过比较未知字符串的出现频率与未知字符串中单个字符的出现频率,从未知字符串确定有效词;以及生成用于预测给定语境的词串的条件概率的转换矩阵。用于将拼音输入翻译成至少一个汉语字符串的方法通常包括从拼音输入生成一组字符串,每组字符串均具有与之相关的表示字符串对应于拼音输入的可能性的权重,该生成包括使用包括从一组汉语输入中所提取的词和基于该组汉语输入而训练的语言模型的汉语字典。该生成可包括使用包括从该组汉语输入中所提取的词和基于该组汉语输入所训练的语言模型的汉语字典来执行Viterbi算法。该方法还可包括从拼音输入生成多个拼音候选,使得每个拼音候选对应于一组字符串。该方法可进一步包括根据拼音输入对应于字符串的可能性来分类并排列该组字符串。可将该方法用于执行搜索(例如,通过搜索引擎的网络搜索)以及对数据库的查询,该数据库包括由用户从字符串组中选择的字符串的有组织的数据(organized data)。根据另一实施例,用于将拼音输入翻译成至少一个汉语字符串的系统通常包括拼音词解码器,用于从拼音输入生成一组字符串,每组字符串均具有与其相关联的表示词串对应于拼音输入的可能性的权重,该拼音词解码器还用于使用包括从一组汉语输入中提取的词以及基于该组汉语输入所训练的语言模型的汉语字典。根据又一实施例,提供了用于与计算机系统结合的计算机程序产品,该计算机程序产品具有其上存储有可在计算机处理器上执行的指令的计算机可读存储介质,该指令包括从拼音输入生成一组字符串,每组字符串均具有与其相关联的表示字符串对应于拼音输入的可能性的权重,该生成包括使用包括从一组汉语输入提取的词以及基于该组汉语输入训练的语言模型的汉语字典。用于对用户输入进行拼音分类的方法通常可包括识别在用户输入中的不确定的词,不确定的词是从在非拼音和拼音中均有效的词的数据库中选择的;以及,分析用户输入的语境词,以选择性地将用户输入分类为非拼音或拼音。该方法还可包括计算可从不确定的查询生成的可能汉语查询的可能性;以及如果所计算的至少一个可能性超过预定阈值(例如,在分析之后仍未决定用户输入),则将用户输入分类为拼音输入。有效非拼音/拼音n元模型数据库可从非拼音用户查询中通常会出现的词中提取。根据另一实施例,用于将用户输入分类为非拼音或拼音的拼音分类器通常包括词数据库,在非拼音和拼音中均有效;以及分类引擎,用于从词数据库选择的用户输入中识别不确定的词以及用于分析用户输入的语境词,以将用户输入选择性地分类为非拼音或拼音。将在以下通过本专利技术的实例原理阐述的详细描述和附图中详细给出本专利技术的这些和其它特征和优点。附图说明通过以下结合附图的详细描述将很容易理解本本文档来自技高网
...

【技术保护点】
一种用于从汉语输入训练汉语语言模型的方法,包括:从一组汉语输入中提取未知字符串; 通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率,从所述未知字符串确定有效词;以及生成用于预测给定语境的词的条件概率的转换矩阵。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:吴军朱会灿朱鸿隽
申请(专利权)人:GOOGLE公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1