用于将汉语拼音翻译成汉字的系统和方法技术方案

技术编号：2843167 阅读：540 留言：0更新日期：2012-04-11 18:40

本发明专利技术披露了一种用于将拼音处理并翻译成汉字和词的系统和方法。通过以下处理训练汉语语言模型：从诸如文件和／或用户输入／查询的汉语输入中提取未知字符串；从未知字符串中确定有效词；以及基于汉语输入生成用于预测给定语境的词串的转换矩阵。用于翻译拼音输入的方法通常包括：使用包括从汉语输入得到的词的汉语字典和基于汉语输入训练的语言模型从拼音输入生成一组汉字符串，每个字符串均具有表示字符串对应于拼音输入的可能性的权重。可以通过识别用户输入中的不确定的拼音／非拼音ＡＳＣ　　Ⅱ词以及分析语境以分类用户输入，来将不确定的用户输入分类成非拼音或拼音。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术广泛地涉及将汉语拼音翻译成汉字。更具体地，本专利技术披露了使用计算机将拼音汉语文本或拼音处理并翻译成汉字和词的系统和方法。
技术介绍
在计算机上输入和处理汉语语言文本是非常困难的。这部分地是由于汉字的绝对数，还由于产生不确定的具有文本标准化、多个同音异义字、和隐形(或隐藏)词界的汉语语言中的固有问题，这使得汉语文本处理困难。目前可用的用于将汉语语言文本输入到计算机系统中的一种常用方法是使用语音输入(例如，拼音)的方法。拼音使用罗马字符，并具有以多音节词形式列出的词汇表。然而，拼音输入法导致汉语语言处理过程中同音异义字的问题。具体地，因为仅用大约1300个不同的具有音调的语音音节(可由拼音表示)和大约410个不具有音调的语音音节来表示好几万个汉字(Hanzi)，所以一个语音音节(具有或不具有音调)可对应许多不同的Hanzi。例如，普通话中“yi”的发音可对应于超过100个的Hanzi。当将语音音节翻译成Hanzi时，这就会产生不确定。许多语音输入系统使用多项选择法来解决这个同音异义字的问题。一旦用户输入语音音节，就显示出一列具有相同发音的可能的Hanzi字符。然而，输入并选择对应于每个音节的Hanzi的处理可能是缓慢、冗长、以及耗时的。其它语音输入系统以基于相邻Hanzi字符来确定每个可能Hanzi字符的可能性为基础。概率方法可以进一步与语法约束相结合。然而，当应用于文学作品(例如，具有许多的描写句和成语)和/或口语或非正式语言(如在用户查询和/或电子公告牌系统(BBS)站中的网页上所使用的)时，这种将语音转换为Hanzi的方法的准确性通常会受...

【技术保护点】
一种用于从汉语输入训练汉语语言模型的方法，包括：从一组汉语输入中提取未知字符串；　通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率，从所述未知字符串确定有效词；以及生成用于预测给定语境的词的条件概率的转换矩阵。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：吴军，朱会灿，朱鸿隽，
申请(专利权)人：GOOGLE公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人