本发明专利技术揭示消除语言转换中的多个读法的歧义的方法,所述方法包含:接收待转换成一组字符的输入数据,所述组字符包括所述输入数据在目标符号系统中的符号表示;以及使用区别所述目标符号系统的字符的第一读法与第二读法的语言模型,以确定所述同形异音异义字符应用以表示所述输入数据的对应部分的概率。
【技术实现步骤摘要】
本专利技术涉及语言转换,尤其涉及消除语言转换中的多个读法的歧义。
技术介绍
例如N元语法模型的统计语言模型通常用以通过使用概率分布将概率Pr (W)指配给一序列字W来将一种语言转换或翻译成另一种语言。这些语言模型通常是从一大堆文本 (称作语料库)训练且,一般地,俘获每一个字的出现频率和/或语料库内的两个或两个以上字的每一序列。按照惯例,通过训练语言模型而不管语言模型在每一特定上下文中的用法和/或读法来考虑语料库中的特定字的出现。虽然语料库中的大多数字且一般地各自与一种意义相关联且可能地与一个以上正确发音相关联,但是某些字是以完全相同方式书写而具有不同意义和发音/读法(即,同形异音异义词)。举例来说,英文语言中的同形异音异义词的实例为“desert”,其在一种上下文和用法/发音中意味“抛弃”且在另一种上下文和用法/发音中意味“干燥的荒芜陆地区域”。因此,通过考虑字“desert”的频率而不管字 “desert”在语料库中的用法的上下文,常规语言模型最可能看漏第一种含义(“抛弃”)和第二种含义(“干燥的荒芜陆地区域”)的字的使用频率的任何差别。拼音是使用罗马字母表抄录中国国语的标准方法。在拼音音译中,将中文字符的语音发音/读法映射到由罗马字母组成的音节。拼音通常用以经由转换系统将中文字符输入到计算机中。这种系统常常并有统计语言模型以改进转换准确度。某些中文字符具有多个发音/读法(即,同形异音异义中文字符)。然而,并不区别同形异音异义词的不同发音 /读法的常规语言模型有时可产生用于与同形异音异义中文字符相关联的拼音的不合需要的中文转换候选者。
技术实现思路
本专利技术的一个实施例涉及一种方法。所述方法包括在包括存储器和一个或一个以上处理器的装置处接收待转换成一组字符的输入数据,所述组字符包括所述输入数据在目标符号系统中的符号表示;以及使用区别所述目标符号系统的同形异音异义字符的第一读法与第二读法的语言模型,以确定所述同形异音异义字符表示所述输入数据的对应部分的相应概率。本专利技术的另一实施例涉及一种电子装置。所述电子装置包括输入接收单元,其经配置以接收待转换成一组字符的输入数据,所述组字符包括所述输入数据在目标符号系统中的符号表示;以及耦合到所述输入接收单元的转换单元,所述转换单元经配置以使用区别所述目标符号系统的同形异音异义字符的第一读法与第二读法的语言模型,以确定所述同形异音异义字符表示所述输入数据的对应部分的相应概率。附图说明在以下详细描述和附随图式中揭示本专利技术的各种实施例。图I为用于语言转换的系统的实施例的图。图2为展示经配置以将输入数据转换成目标符号表示的输出的装置的实施例的图。图3为展示执行语言转换的程序的实施例的流程图。图4A展示在语料库中发现的一序列文本的实例。图4B展示存储于从语料库训练的语言模型处的一些数据的实例,图4A的文本是从所述语料库发现。图5为展示用于建立已加以注释的语料库的系统的实施例的图,所述已加以注释的语料库待用以训练待用于语言转换的语言模型。图6为展示用于对语言模型加以注释并使用语言模型的程序的实施例的流程图。图7A为展示句子702和句子704的实例,句子702呈现于不包含关于同形异音异义字符的注释的语料库中,句子704呈现于确实包含关于同形异音异义字符的注释的语料库中。图7B为展示句子710和句子712的实例,句子710呈现于不包含关于同形异音异义字符的注释的语料库中,句子712呈现于确实包含关于同形异音异义字符的注释的语料库中。图8A展示使用未加以注释以用于同形异音异义字符的中文字符语料库(“不具有注释的语料库”)的实例。图SB展示使用已加以注释以用于同形异音异义字符的中文字符语料库(“具有注释的语料库”)的实例。图9为展示语言转换的程序的实施例的流程图。图10为展示用于将拼音转换成中文字符的程序的实施例的流程图。具体实施方式本专利技术可以众多方式来实施,众多方式包含呈现以下各者的形式程序;设备;系统;物质组成;体现于计算机可读存储媒体上的计算机程序产品;和/或处理器,例如,经配置以执行存储于耦合到处理器的存储器上的和/或由耦合到处理器的存储器提供的指令的处理器。在此说明书中,这些实施方案或本专利技术可采用的任何其它形式可被称作技术。一般地说,可在本专利技术的范围内变更所揭示程序的步骤的次序。除非另外陈述,否则,例如描述为经配置以执行任务的处理器或存储器的组件可实施为经暂时配置以在给定时间执行任务的一般组件或经制造以执行任务的特定组件。如本文中所使用,术语“处理器”指代经配置以处理数据(例如,计算机程序指令)的一个或一个以上装置、电路和/或处理芯。下文连同说明本专利技术的原理的随附图一起提供本专利技术的一个或一个以上实施例的详细描述。结合这些实施例描述本专利技术,但本专利技术不限于任何实施例。本专利技术的范围仅通过权利要求书来限制且本专利技术包括众多替代例、修改和等效物。在以下描述中阐述众多特定细节以便提供对本专利技术的透彻理解。提供这些细节以用于实例的目的且可在无这些特定细节中的一些特定细节或全部的情况下根据权利要求书实践本专利技术。为了清晰的目的, 未详细描述与本专利技术有关的
中已知的技术材料,以使得不会不必要地使本专利技术难理解。揭示使用语言模型的方法,所述语言模型是针对已加以注释以区别与某些字符相关联的不同读法的语料库训练。在一些实施例中,呈现于与一个以上读法/发音/用法/ 含义相关联的语料库中的字符的例子是用适合于字符的彼例子的读法/发音/用法/含义加以注释。在一些实施例中,使用针对此已加以注释的语料库训练的语言模型将拼音转换成中文字符。图I为用于语言转换的系统的实施例的图。在实例中,系统100包含装置102、网络104,和转换服务器106。网络104可包含各种高速数据和/或电信网络。装置102经配置以接收输入数据。在一些实施例中,输入数据可包含输入文本(例如,罗马字母表)。举例来说,输入数据可包含拼音。虽然将装置102展示为iPhone ,但装置102的其它实例可为桌上型计算机、膝上型计算机(例如,MacBook )、智能电话、移动装置、平板装置(例如,iPad 或iPad 2 ),以及任何其它类型的计算装置。装置102经配置以包含输入区域,在输入区域中,可由装置102来俘获/接收键打和/或手写的字符。 这种输入区域的实例包含触摸屏键盘(例如,平板和/或移动电话装置的触摸屏键盘)、实体键盘、轨迹垫(例如,Apple的Magic Trackpad,或MacBook Pro的内置式轨迹垫)、电子书写表面,以及触控板。在各种实施例中,用户可通过与装置102的输入区域互动(例如, 通过键打到实体和/或触摸屏键盘中)在装置102处选择输入。在一些实施例中,装置102 包含显示区域,在显示区域中,可显示从转换服务器106接收的输出。在一些实施例中,装置102经配置以经由网络104将所接收输入发送到转换服务器106以供转换服务器106将所接收输入转换成目标符号表不的输出(例如,一组字符)。 在一些实施例中,装置102包含与执行类似转换相关联的逻辑、代码和/或所存储数据,且因此可执行输入数据到目标符号表示的输出的转换,而无需经由网络104将数据传输到远程转换服务器106。转换服务器106经配置以接收数据并将数据转本文档来自技高网...
【技术保护点】
一种方法,其包括:在包括存储器和一个或一个以上处理器的装置处:接收待转换成一组字符的输入数据,所述组字符包括所述输入数据在目标符号系统中的符号表示;以及使用区别所述目标符号系统的同形异音异义字符的第一读法与第二读法的语言模型,以确定所述同形异音异义字符表示所述输入数据的对应部分的相应概率。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:布伦特·D·拉梅尔斯,戴王·K·奈克,道格拉斯·R·戴维森,亚内斯·G·A·多尔芬,朴佳,
申请(专利权)人:苹果公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。